投稿日:2022年2月14日

遅ればせながら、2021年12月6日、Amazon Pollyの日本語がニューラル対応になったのを先日知りました。
詳しくはこちら 
 

Amazon Polly
Amazon Pollyの画面。ニューラルが選択できます。
対応しているのは男性のTakumiのみです。女性のMizukiの対応も待ち遠しいですね。
 

さっそく聴き比べてみましょう。
使用するテキスト(SSML)は下記です。

ソーラーテクスチャーのサイトから、テクスチャーをダウンロードしましょう。<break time=”2s”/>
スクロールしてゆきます。<break time=”1s”/>
水星や金星、火星などのテクスチャーもあります。<break time=”2s”/>
地球のテクスチャーです。<break time=”1s”/>
マッピングデータや、イルミネーション、雲のマップ、バンプデータなどがあります。<break time=”1s”/>
太陽や、星空の背景、月のテクスチャーがあります。<break time=”2s”/>
月のテクスチャーをダウンロードしましょう。<break time=”2s”/>
2Kと8Kがあるので、今回は2Kをダウンロードします。<break time=”2s”/>

<break time="2s"/>などの記述は空白を開けるタグです。2sで2秒という意味です。
 

▲Takumiのニューラルボイス。
SSMLタグ を挿入しなくても、かなり自然に聞こえます。
「2K」「8K」の発音がイマイチかな。。。
 

▲スタンダード。
 

Google Cloud Text-to-Speechも掲載しておきます。
「サイト」の発音はAmazon Pollyの方がより自然です。
「2K」「8K」の発音はこちらが自然に聞こえます。
 

ひとつ気になるのがAWS for WordPress というPlug-In
ブログの記事を読み上げてくれる素晴らしいPlug-Inなのですが、こちらのTakumiはまだニューラルに対応してないようです。
Amazon Polly
AWS for WordPress
Neural Text-To-Speechの項目でこの声には対応していませんと表示されてます。
 

Amazon Polly
WordPress.org を見ると最終更新日が9か月前(2022年2月14日現在)となっています。
対応が楽しみですね。
 

まとめ

上記のSSMLのテキストAmazon PollyとGoogle Cloud Text-to-Speechとで共通に使えました。
それぞれの音声や発音に合わせ使い分けたいと思いますが、mp3などの音源作成の手軽さはAmazon Pollyに軍配が上がります。
Google Cloud Text-to-Speechはコマンド入力を要するので、黒い画面が苦手な人は苦労するかも知れません。
音源の作成方法は今回は省略しましたので、より詳しくは下記の関連記事から訪れてみてください。
 

最後まで読んでいただきありがとうございました。
 

Text-To-Speech関連記事



 

AWS関連記事





 

Pocket