投稿日:2023年2月15日

タイトル通りですが、先日2月8日にAmazon Pollyのニューラルエンジン(機械学習)に対応した新しい音声が追加されました。
英語版ですが Document History for Amazon Polly に記載があります。

▲ニューラルにチェックをし音声をプルダウンします。
Kazuha(和葉)さんとTomoko(智子)さんが追加されています。

さっそく試してみました。
台詞は下記です。

吾輩は猫である。
名前はまだ無い。
どこで生れたか、とんと見当がつかぬ。
何でも、薄暗い、じめじめした所でニャーニャー泣いていた事だけは記憶している。

Tomokoさんです。

Kazuhaさんです。

▲以前からありますが、Takumiくんも掲載しておきます。

下記は今回使用したSSML の記述です。

<speak>
  <prosody rate="105%">
    吾輩は猫である。<break time=".5s"/>
    名前はまだ無い。<break time=".5s"/>
    どこで生れたか、とんと見当がつかぬ。<break time=".5s"/>
    何でも、薄暗い、じめじめした所でニャーニャー泣いていた事だけは記憶している。
  </prosody>
</speak>

SSML を使用すると音声のアクセント、抑揚、速度などを調整することができます。
豊富なタグが用意されているので、楽しめながら検証できます。

そこで気になったのが過去にインストールしたプラグインAWS for WordPressが、このニューラルボイスが使用できるようになっていないかです。

▲音声の種類にTomokoKazuhaが追加されています。
しかし、Neural Text-To-SpeechOption not supported for this voice と記載されているように、表示はされるけれどスピーチはされませんでした。
投稿ページの設定も含め、ニューラル設定をしたとしても未対応のTakumiの音声が再生されます。

▲投稿ページの設定。TomokoKazuhaの音声は再生されません。

注意として、AWS for WordPressは現在ダウンロードできなくなっています。
WordPress.org 英語サイト 
上記のサイトによると、2022年9月30日に閉鎖されています。
長らくアップデートを配布しておらず開発がストップしていたのが原因かと思われます。

まとめ

同様のサービス、Google Speech と比較してしまいます。

Google Speechは早くからニューラルに対応しており、男性2人、女性1人の音声が準備されていました。
しかし、Google Speechの商用利用はグレーなところがあり、過去にGoogleに電話で問い合わせたところ「弁護士などに相談して自己判断でご使用ください。」と言われたことがあります。

便利な反面、シビアな一面もあるので、特に仕事で使う場合には慎重に検証したいものです。

最後まで読んでいただきありがとうございました。

Pocket