簡單易用的 API

Amazon Polly 提供 API,讓您可迅速將語音合成與您的應用程式整合。您只要將想要轉換為語音的文字傳送至 Amazon Polly API,Amazon Polly 就會立即將音訊串流傳回您的應用程式,應用程式便可開始直接串流,或是以標準音訊檔案格式存放,例如 MP3。

抽樣頻率 範本程式碼
"Hi.My name is Joanna." from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="Hi.My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

眾多語音與語言選擇

Amazon Polly 包含了數十種逼真的語音且支援多種語言,因此您可以選取適當的語音,然後在多個國家/地區分發啟用語音功能的應用程式。除了標準和神經網路文本轉換語音 (NTTS) 語音之外,Amazon Polly 現在還提供長語音和生成式語音,可改善語音品質以提供更自然且類似人類的聲音。

Danielle、Gregory、Ruth、Patryk、Alba 和 Raúl 長語音變體。

Ruth、Matthew、Amy、Joanna、Danielle、Stephen、Olivia、Ayanda、Lucia、Lupe、Léa、Mía、Vicki、Bianca、Kajal、Pedro、Andrés、Sergio、Daniel 和 Rémi 提供生成式變體。

語言或語言變體

女性

男性

     

Arabic-MSA

Zeina

 

阿拉伯文 - 灣區

Hala (神經)

Zayd (神經網路)

粵語

Hiujin (神經網路)

 

卡達隆尼亞文

Arlet (神經網路)

 

丹麥文

Sofie (神經網路)

Mads

 

Naja

 

荷蘭文

Laura (神經網路)

Ruben

 

Lotte

 

荷蘭語 (弗拉曼語) - 比利時

Lisa (神經網路)

 

英文 - 印度

Kajal (神經網路)

 
 

Raveena

 
 

Aditi

 
 

Kajal (生成式)

 

英文 – 愛爾蘭

Niamh (神經網路)

 

英語 - 新西蘭

Aria (神經網路)

 

英語 – 南非

Ayanda (生成式)

 
 

Ayanda

 

英語 – 英國

Amy (生成式)

Brian (神經)

 

Amy (神經網路)

Brian (標準)

 

Amy (標準)

Arthur (神經網路)

 

Emma (神經網路)

 
 

Emma (標準)

 

英語 – 美國

Ruth (生成式)

Patrick (長語音)

 

Ruth (長語音)

Gregory (長語音)

 

Ruth (神經網路)

Gregory (神經網路)

 

Danielle (生成式)

Stephen (生成式)

 

Danielle (長語音)

Stephen (神經網路)

 

Joanna (生成式)

Matthew (生成式)

 

Joanna (神經網路)

Matthew (神經網路)

 

Joanna (標準)

Matthew (標準)

 

Salli (神經網路)

Justin (神經網路)

 

Salli (標準)

Justin (標準)

 

Kendra (神經網路)

Joey (神經網路)

 

Kendra (標準)

Joey (標準)

 

Kimberly (神經網路)

 
 

Kimberly (標準)

 
 

Ivy (神經網路)

 
 

Ivy (標準)

 

英文 - 威爾士

 

Geraint

英文 – 澳洲

Olivia (生成式)

Russell

 
 

Olivia (神經網路)

 
 

Nicole

 

芬蘭語

Suvi (神經網路)

 

法語 - 比利時

Isabelle (神經網路)

 

法文 - 加拿大

Gabrielle (神經網路)

Liam (神經網路)

 

Chantal

 

法語 – 法國

Léa (生成式)

Mathieu

 

Léa (神經網路)

Rémi (生成式)

 

Léa (標準)

Rémi

 

Céline

 

德語 - 奧地利

Hannah (神經網路)

 

德語 - 德國

Vicki (生成式)

Daniel (生成式)

 

Vicki (神經網路)

Daniel (神經網路)

 

Vicki (標準)

Hans

 

Marlene

 

印地語 - 印度

Kajal (神經網路)

 
 

Aditi

 

冰島文

Dóra

Karl

義大利語

Bianca (神經網路)

Adriano

 

Bianca (標準)

Giorgio

 

Bianca (生成式)

 
 

Carla

 

日語

Kazuha (神經網路)

Takumi (神經網路)

 

Tomoko (神經網路)

Takumi (標準)

 

Mizuki

 

韓語

Seoyeon (神經網路)

 
 

Seoyeon (標準)

 

普通話

Zhiyu (神經網路)

 
 

Zhiyu (標準)

 

挪威文

Ida (神經網路)

 
 

Liv

 

波蘭語

Ola (神經網路)

Jacek

 

Ewa

Jan

 

Maja

 

葡萄牙語 - 巴西

Vitória (神經網路)

Ricardo

 

Vitória (標準)

Thiago

 

Camila (神經網路)

 

 

Camila (標準)

 

葡萄牙語 - 葡萄牙

Inês (神經網路)

Cristiano

 

Inês (標準)

 

羅馬尼亞語

Carmen

 

俄文

Tatyana

Maxim

西班牙文 – 墨西哥

Mia (生成式)

 
 

Mia (神經網路)

Andrés

 

Mia (標準)

Andrés (生成式)

西班牙語 – 西班牙

Alba (長語音)

Raúl (長語音)

 

Lucia (生成式)

Sergio

 

Lucia (神經網路)

Enrique

 

Lucia (標準)

Sergio (生成式)

西班牙文 – 美國

Conchita

Pedro (生成式)

 

Lupe (生成式)

Pedro (神經網路)

 

Lupe (神經網路)

Miguel

 

Lupe (標準)

 

瑞典語

Penélope

 
 

Astrid

 

土耳其文

Elin (神經)

 
 

Filiz

 

威爾斯語

Burcu (神經)

 
 

Gwyneth

 
     

 

 [MOU1] 需要將其連結至語音範例

同步語音以增強視覺體驗

使用 Amazon Polly 可輕鬆請求額外的中繼資料串流,其中包含何時唸出特定句子、字詞和聲音的資訊。使用此中繼資料串流搭配合成語音音訊串流,您現在可以建立擁有增強視覺體驗的應用程式,例如語音同步臉部動畫或卡拉 OK 式字詞反白顯示。

請瀏覽文件以進一步了解如何使用語音標記。 

優化您的串流音訊

使用 Amazon Polly,您可以透過應用程式以近乎即時的速度將各種資訊串流給使用者。您有多種抽樣頻率可選擇,讓您針對應用程式優化頻寬與音訊品質。Amazon Polly 支援 MP3、Vorbis 和原始 PCM 音訊串流格式。

抽樣頻率 MP3 大小 OGG 大小
PCM 大小
24.00 kHz 聆聽 19.31 kB 18.11 kB
22.05 kHz 聆聽
19.33 kB 17.62 kB
16.05 kHz 聆聽 16.22 kB 15.48 kB

100.68 kB

8.00 kHz 聆聽 13.26 kB 9.72 kB 50.34 kB

調整說話風格、語音速率、音調和音量

Amazon Polly 支援語音合成標記語言 (SSML),這是一種適用於語音合成應用程式的 XML 型標記語言,採用 W3C 標準,且支援語調、重音與音調的常見 SSML 標籤。自訂 Amazon SSML 標籤以提供獨特的選項,例如讓某些聲音以新聞播報員播報風格說話的能力。這些調整彈性可讓您製作逼真的語音,持續引起聽眾的注意力。

要進一步了解,請瀏覽有關 SSML 標籤的 Amazon Polly 文件。

範例 SSML
This is how I speak normally. (無)
I can also speak in a Newscaster style, as if I were reading a news article or delivering a flash briefing. <speak><amazon:domain name="news">I can also speak in a Newscaster style, as if I were reading a news article or delivering a flash briefing.</amazon:domain></speak>
I can speak in a higher pitched voice, or I can speak in a lower pitched voice. <speak>I can speak in a <prosody pitch="high">higher pitched voice</prosody>, or I can speak <prosody pitch="low">in a lower pitched voice</prosody></speak>
I can speak really slowly, or I can speak really fast. <speak>I can speak <prosody rate="x-slow">really slowly</prosody>, or  I can speak <prosody rate="x-fast">really fast</prosody></speak>
I can also speak very loudly, or I can speak very quietly. <speak>I can also speak <prosody volume="x-loud">very loudly</prosody>, or I can speak <prosody volume="x-soft">very quietly</prosody>. </speak>
I can whisper. <speak>I have a secret to tell you, I will whisper it to you.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">I am not human.</prosody></prosody></amazon:effect>Can you believe it?</speak>

新聞播報員播報風格

Amazon Polly 可以用來合成語音,讓說話風格類似電視或電台新聞播報員。這會是朗讀新聞文章或進行新聞簡報的絕佳方式。新聞播報員風格使用神經文字轉換語音方式,目前提供美國英文 (en-US) Matthew 和 Joanna 的聲音、英國英文 (en-GB) Amy 的聲音和美國西班牙文 (es-US) Lupe 的聲音。聆聽美國英文英國英文美國西班牙文的音訊範本。

調整語音的最長持續時間

Amazon Polly 可以讓您根據「時間驅動韻律」功能所定義的最大分配時間來自動調整語音速度。這對許多使用案例都有好處,特別是在本地化方面。

例如,假設您在訓練影片中嵌入美式英文發音,然後希望將這段影片本地化為德文。假設您使用 Amazon Translate 翻譯文字,並用 Polly 進行配音。串流時讓本地化德文配音對應到影片的每個畫面非常重要,因此德文配音不能比美式英文配音還長。您可以使用這個功能,更輕鬆地完成配音過程。

平台與程式語言支援

Amazon Polly 支援 AWS 開發套件 (Java、Node.js、.NET、PHP、Python、Ruby、Go 和 C++) 與 AWS Mobile SDK (iOS/Android) 中的所有程式設計語言。此外,Polly 也支援 HTTP API,方便您自行實作存取層。

透過 API、主控台或命令列存取的語音合成

Amazon Polly 可以透過 Polly API (和各種語言特定的開發套件)、AWS 管理主控台及 AWS 命令列界面 (CLI) 來存取。無論透過主控台、API 或 CLI 使用服務,您都可以完整控制 Amazon Polly 的所有功能。

自訂語彙

透過 Amazon Polly 的自訂語彙或字彙,您可以修改特定字詞的發音,例如公司名稱、縮寫、外文字詞與新詞 (例如,以法文以外的語音說出 "ROTFL"、"C'est la vie")。若要自訂這些發音,您可以上傳含有語彙項目的 XML 檔案。舉例來說,使用以下 XML 檔案提供音素即可自訂 Nguyen 的發音:

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

Brand Voice

Brand Voice 是一種自訂參與,您將與 Amazon Polly 團隊共同建立您組織專用的神經文字轉換語音 (NTTS)。Brand Voice 可讓您在廣泛的使用案例中,透過獨特的語音識別區分您的產品和應用程式,包括 Amazon Connect 和 Alexa Skills 整合。我們將在整個過程中,與您共同識別角色,識別男演員或女演員,記錄其語音,最終建立和培訓模型來產生語音。然後,語音可共您的 AWS 帳戶 ID 使用。

聆聽澳洲國民銀行品牌語音 »

聆聽紐西蘭銀行品牌語音 »

如果您對使用 Polly 建置 Brand Voice 感興趣,請洽詢您的 AWS 客戶經理或聯絡我們了解更多資訊。

聯絡中心整合

Amazon Connect

Amazon Polly 與 AWS 以雲端為基礎的聯絡中心解決方案 Amazon Connect 原生整合,您可以用於設定和管理客戶聯絡中心,並以任何規模提供可靠的客戶參與。若要進一步了解向對話互動式語音回應系統新增 文字轉換語音提示的相關資訊,請參閱如何在 Amazon Connect 中使用 Polly 語音

Genesys Cloud CX

Genesys Cloud CX 是一種雲端聯絡中心解決方案,可透過電話、簡訊和聊天等多種管道統一客戶和客服人員體驗。您可以使用任何現有的 Polly 語音來部署語音機器人。如需詳細資訊,請參閱Genesys Cloud 文件

Amazon Chime SDK

Amazon Chime SDK 是一套即時通訊元件,開發人員可利用它快速將音訊通話、視訊通話以及螢幕畫面共用功能新增至他們的 Web、行動或電話語音應用程式。 Amazon Chime SDK 支援與 Amazon Polly 的原生整合,讓建置者可以輕鬆打造將文字和數字資料轉換為逼真語音,並自動將輸出播放給電話呼叫者的應用程式。

AWS Contact Center Intelligence (CCI)

多個 AWS CCI 合作夥伴都在使用 Amazon Polly,因此您可以無縫地建立自助客戶服務虛擬代理、資訊機器人或應用程式機器人。Amazon Polly 合作夥伴包括 Genesys、Vonage 和 Accenture。若要進一步了解合作夥伴,請瀏覽 AWS CCIAWS CCI 合作夥伴頁面