投稿日:2022年2月14日
遅ればせながら、2021年12月6日、Amazon Pollyの日本語がニューラル対応になったのを先日知りました。
詳しくはこちら
▲Amazon Pollyの画面。ニューラルが選択できます。
対応しているのは男性のTakumiのみです。女性のMizukiの対応も待ち遠しいですね。
さっそく聴き比べてみましょう。
使用するテキスト(SSML)は下記です。
スクロールしてゆきます。<break time=”1s”/>
水星や金星、火星などのテクスチャーもあります。<break time=”2s”/>
地球のテクスチャーです。<break time=”1s”/>
マッピングデータや、イルミネーション、雲のマップ、バンプデータなどがあります。<break time=”1s”/>
太陽や、星空の背景、月のテクスチャーがあります。<break time=”2s”/>
月のテクスチャーをダウンロードしましょう。<break time=”2s”/>
2Kと8Kがあるので、今回は2Kをダウンロードします。<break time=”2s”/>
▲<break time="2s"/>
などの記述は空白を開けるタグです。2s
で2秒という意味です。
▲Takumiのニューラルボイス。
SSMLタグ を挿入しなくても、かなり自然に聞こえます。
「2K」「8K」の発音がイマイチかな。。。
▲スタンダード。
▲Google Cloud Text-to-Speechも掲載しておきます。
「サイト」の発音はAmazon Pollyの方がより自然です。
「2K」「8K」の発音はこちらが自然に聞こえます。
ひとつ気になるのがAWS for WordPress というPlug-In。
ブログの記事を読み上げてくれる素晴らしいPlug-Inなのですが、こちらのTakumiはまだニューラルに対応してないようです。
▲AWS for WordPress
Neural Text-To-Speechの項目でこの声には対応していませんと表示されてます。
▲WordPress.org を見ると最終更新日が9か月前(2022年2月14日現在)となっています。
対応が楽しみですね。
上記のSSMLのテキストAmazon PollyとGoogle Cloud Text-to-Speechとで共通に使えました。
それぞれの音声や発音に合わせ使い分けたいと思いますが、mp3などの音源作成の手軽さはAmazon Pollyに軍配が上がります。
Google Cloud Text-to-Speechはコマンド入力を要するので、黒い画面が苦手な人は苦労するかも知れません。
音源の作成方法は今回は省略しましたので、より詳しくは下記の関連記事から訪れてみてください。
最後まで読んでいただきありがとうございました。