Amazon Polly - AI 音声ジェネレーター

数十の言語で高品質で自然な人間の声を展開

Amazon Polly とは何ですか?

Amazon Polly は、オンデマンドで音声を生成し、あらゆるテキストを音声ストリームに変換する、フルマネージドサービスです。深層学習テクノロジーを使用して、記事、ウェブページ、PDF ドキュメント、他のテキスト読み上げ (TTS) の変換を行います。Polly は、エンゲージメントとコンバージョンを実現する音声起動アプリケーションを構築できるように、幅広い言語で数十種類のリアルな音声を提供します。さまざまな地域や市場のユーザーの多様な言語、アクセシビリティ、学習ニーズに対応します。強力なニューラルネットワークと生成音声エンジンがバックグラウンドで機能し、音声を合成します。Amazon Polly API を既存のアプリケーションに統合して、すぐに音声対応にします。

ユースケース

数十の言語で音声を生成する

RSS フィード、ウェブサイト、動画など、世界中のオーディエンスが利用するアプリケーションに音声を追加します。

音声生成の詳細

自然な声で顧客を惹き付ける

Amazon Polly の音声出力を保存および再生し、インタラクティブまたは自動化された音声応答システムを通じて発信者にプロンプトを表示します。

ニューラルテキスト読み上げ (TTS) の詳細

発話スタイル、音声の速さ、高さ、大きさを調整する

音声合成アプリケーション用の W3C 標準の XML ベースのマークアップ言語である SSML を使用して、言い回し、強調、イントネーション用の一般的な SSML タグをサポートします。

SSML の詳細

特徴

Amazon Polly は、以下に挙げる機能を含むさまざまな機能を備えています

リアルな音声

一貫して高速な応答時間で会話型のユーザーエクスペリエンスを提供

Amazon Polly の出力をリクエストする際、数十のリアルな音声とさまざまな言語から選択できます。各音声はネイティブスピーカーを使用して作成され、同じ言語内でも音声ごとにバリエーションがあります。ほとんどの言語には 1 つ以上の男性と女性の声が含まれているため、ユースケースに最適なものを選択できます。

カスタマイズ可能な出力

必要に応じて音声出力をカスタマイズおよび制御する

Amazon Polly を使用すると、オーディエンスの注目を集めて維持するカスタムテキスト読み上げ出力を作成できます。頭字語、会社名、社内用語、または選択した他の単語の発音を変更するには、カスタム辞書を使用します。また、Amazon Polly の Speech Synthesis Markup Languages (SSML) タグを使用すると、強調、イントネーション、言い回し、スタイルを調整することもできます。ビジネスに最適な音声 AI 出力を生成します。

生成 AI の力

わずかなコストで組み込みの生成 AI 機能にアクセス

Amazon Polly は、テキスト読み上げ変換のために選択できる複数の音声エンジンをサポートしています。エンジンは、10 億のパラメータトランスフォーマーをデプロイして、増分的かつストリーミング可能な態様で音声を生成します。この AI 音声ジェネレーターは、実際の人間の声に似ている、はっきりとした、感情に訴える、非常に口語的な合成音声を作成します。

コントロールとセキュリティ

標準的なフォーマットで音声を安全に保存および再配信する

追加料金なしで、再配布、分析、アーカイブ、他のユースケースのために、テキスト読み上げ出力を MP3 や OGG などの標準的な音声ファイルに保存できます。必要に応じてファイルをキャッシュして、より高速に取得できます。コンテンツのセキュリティ、信頼性、プライバシーは、AWS の最優先事項です。Amazon Polly は、テキスト送信のコンテンツを保持しません。

よくある質問

Amazon Polly のテキスト読み上げは無料ですか?

はい。Amazon Polly は、サインアップ後 1 年間、最小使用しきい値まで、テキスト読み上げ AI サービスを無料で提供しています。しきい値は、選択した音声エンジンに応じて 10 万～500 万文字です。詳細については、 Amazon Polly の料金をご覧ください。

Amazon Polly はいくつの音声を備えていますか?

Amazon Polly は、40 以上の言語と言語バリアントで 100 以上の男性と女性の音声を提供します。AWS は、音声機能を継続的に更新および追加しています。

Amazon Polly のサンプルレートはどの程度ですか?

Amazon Polly は、8,000 Hz、16,000 Hz、22,050 Hz でサンプリングされた MP3、ogg、および他の標準的な音声ファイル形式を生成します。

Alexa は Amazon Polly を使用しますか?

答えは「はい」です。現在、Alexa は Polly テクノロジーを使用してテキスト読み上げ生成ソリューションを強化しています。ただし、Alexa の音声は Alexa 専用に作成されており、外部では入手できません。

Amazon Polly はオープンソースですか?

いいえ。Amazon Polly は、フルマネージドクラウド AI サービスです。コード内の API を使用して通信します。Amazon Polly のソースコードを環境にダウンロードまたはデプロイすることはできません。ただし、開始から 12 か月間は Amazon Polly を無料で使用できます (事前に決められた使用しきい値の制限まで)。詳細については、 Amazon Polly の料金をご覧ください。