Amazon Polly 日本語がニューラル対応になりました。

投稿日：2022年2月14日

遅ればせながら、2021年12月6日、Amazon Pollyの日本語がニューラル対応になったのを先日知りました。
詳しくはこちら

▲Amazon Pollyの画面。ニューラルが選択できます。
対応しているのは男性のTakumiのみです。女性のMizukiの対応も待ち遠しいですね。

さっそく聴き比べてみましょう。
使用するテキスト（SSML）は下記です。

ソーラーテクスチャーのサイトから、テクスチャーをダウンロードしましょう。<break time=”2s”/>
スクロールしてゆきます。<break time=”1s”/>
水星や金星、火星などのテクスチャーもあります。<break time=”2s”/>
地球のテクスチャーです。<break time=”1s”/>
マッピングデータや、イルミネーション、雲のマップ、バンプデータなどがあります。<break time=”1s”/>
太陽や、星空の背景、月のテクスチャーがあります。<break time=”2s”/>
月のテクスチャーをダウンロードしましょう。<break time=”2s”/>
2Kと8Kがあるので、今回は2Kをダウンロードします。<break time=”2s”/>

▲<break time="2s"/>などの記述は空白を開けるタグです。2sで2秒という意味です。

▲Takumiのニューラルボイス。
SSMLタグを挿入しなくても、かなり自然に聞こえます。
「2K」「8K」の発音がイマイチかな。。。

▲スタンダード。

▲Google Cloud Text-to-Speechも掲載しておきます。
「サイト」の発音はAmazon Pollyの方がより自然です。
「2K」「8K」の発音はこちらが自然に聞こえます。

ひとつ気になるのがAWS for WordPress というPlug-In。
ブログの記事を読み上げてくれる素晴らしいPlug-Inなのですが、こちらのTakumiはまだニューラルに対応してないようです。

▲AWS for WordPress
Neural Text-To-Speechの項目でこの声には対応していませんと表示されてます。

▲WordPress.org を見ると最終更新日が9か月前（2022年2月14日現在）となっています。
対応が楽しみですね。

まとめ

上記のSSMLのテキストAmazon PollyとGoogle Cloud Text-to-Speechとで共通に使えました。
それぞれの音声や発音に合わせ使い分けたいと思いますが、mp3などの音源作成の手軽さはAmazon Pollyに軍配が上がります。
Google Cloud Text-to-Speechはコマンド入力を要するので、黒い画面が苦手な人は苦労するかも知れません。
音源の作成方法は今回は省略しましたので、より詳しくは下記の関連記事から訪れてみてください。

最後まで読んでいただきありがとうございました。

Text-To-Speech関連記事