日常生活で出会うあのボイス
ChatGPTなどの生成AIの発展に皆が気をとられているため、大きな話題になることはありませんが、ここ5年くらいで合成音声キャラクターが社会に広く浸透しつつあることは、もっと真面目に語られてもよいレベルの大変革といえるのではないでしょうか。
もともと新型コロナウイルス感染症流行の時期に端を発して、テレビ番組や企業公式のYouTubeにも採用され始めていたのですが、ここ数年になって、映像配信の中だけでなく、日々の暮らしの至るところでもキャラクターの声を聞くようになりました。
LAWSONのレジでは毎度、さとうささらに声をかけられます。騒がしい店内でもよく響く元気な声です。公共交通機関の案内放送や広告で、VOICEVOX四国めたん や VOICEPEAK商用可能6ナレーターセット の活躍しているシーンはすっかり日常となりました。さすがに商業施設でずんだもんが喋っているのを見ると笑ってしまいますが、それでも立派な案内役として機能しているのがすごい。
キャラクターはネット芸人の枠を超えた
現在はそれが普通の光景になりましたが、これを2017年くらいの価値観の私が見たらかなり奇異な光景に映ると思います。当時の認識では合成音声キャラクターは、ゆっくり実況の系譜、つまりネット上のオタクな動画でのみ見かけるものだったからです。
現象としておもしろいのが、多少調声(イントネーション)が荒っぽくても概ね受容されているという点です。駅や街中で多少イントネーションのおかしい四国めたんが当たり前に喋っていて、でも別に誰もクレームを言ったりせずそれなりに受け入れている。
なぜ読み上げボイスは社会に溶け込めた?
読み上げボイスが社会空間にしれっと導入され、受け入れられた理由はどこにあるのでしょうか。
1つの理由として、YouTubeやTiktokのショート動画を通じて、大衆の側が読み上げによるコミュニケーションにうまいこと適応してしまったというのが考えられます。経緯は何であれ、ずんだもんの認知度は想像以上です。
さらに合成音声キャラクターの著作権周りの寛容さも、商業分野への普及に大きな役割を果たしています。企業が使うとなると、やれ費用がどうだとか、やれ権利がどうだとか揉めやすいですから、その点においてVOICEVOXの 「コピーライト表記すればOK」 という設計は偉大です。
おわりに
まぁ企業がケチってるとか、調声ちゃんとやればいいのにとか思わないこともないですが、私はどちらかといえばこの現象を好意的に受け止めています。なんだかインターネットという仮想現実の中だけにあった独特のトンチキな雰囲気がリアルの世界に降りてきた感覚がして、これはこれで悪くないではありませんか。
※ ilust by 坂本アヒル