出してえよなあKAWAII声
madao先生
本日はふたつめの選択授業として madao流ボイチェン導入のススメ
に参加しました。
VRChatは自分とはかけ離れたアバターを使う人の方が圧倒的に多いこともあり、ボイスチェンジャーの需要があります。よくある話としては、自分とは異なる性別に見えるアバターを使用し、そのアバターに合った声としてVRC内で発声させたいというものです。
madao先生は「ずんだもん」のような見た目のアバターを使用していて、声も「ずんだもん」に近いものが再現されていました。異性だけではなく、そのキャラクターや生物のイメージにぴったりのものが出せれば楽しいだろうなと思います。
私自身はややクールな感じのアニメ調女子アバターを使っていますが中身はただの無職おっさんです。声も当然おっさんです。なので、VRCはじめたての頃は 「女子からおっさんの声を出している事実」がなんだか周囲に申し訳ない ような恥ずかしいような気持ちでいて、あまり積極的に声を出したくないという感覚がありました。
ですが、実際のところはボイスチェンジャーはまだそこまで手軽に使えなかったりもするので「女性アバターで男性声」のプレイヤーはかなりたくさんいますし、話していれば違和感がなくなるというかむしろ自然になってしまったり……
コミュニティ内で頻繁に会話をする間柄ということであれば、気の置けないという感じで素の声で話している方が私自身は壁のない感じがすると思うようになっていたりします(あくまで私自身に対してだけの話で、相手がそうだとまでは考えません)。
しかしながら例えば、普段使っているアバターで何か動画を作って配信したりといった「公の感じ」を必要とする場合は、見た目のイメージに合わせた声にしてみたいなと考えたりもします。
そんな感じで普段からは使おうと考えていた訳でもなかったことから、ボイスチェンジャーの知識はそこまで集めていませんでした。
madao先生の授業では、ボイスチェンジャーの具体的な実装方法を解説するのではなく、ボイスチェンジャーの概要と現在主流となっている複数の手法を紹介していただきました。
大まかに分類すれば、技術的な手間とマシンスペックを不要とする手法であるほど「すぐに使えるが理想の声からは外れる」という結果になります。
「技術的な手間とマシンスペックが不要な順」に並べると……
- 両声類(自分の声帯のみを使って訓練することで男女どちらの声も出せるようにする身体的な手間のみでどうにかするマッスル手法)
- 入力した音のピッチとフォルマントを一定量変化させる手法
- 入力した音をテキスト変換した後にテキストをベースにして発声させる手法
- 機械学習により自分の声に対して無理なく理想に近い発声をさせる手法
といった感じになります。madao先生の授業では、これらの導入難易度とメリデメが紹介されることとなりました。具体的な導入手順を取り扱った訳ではありませんが、これまで使ったことがない人にとっては「自分はどれほど手間をかけられるか(かけたいか」を見極めるための指標として良い授業だったと思います。
板書するときはちゃんとその場所まで行くこの感じはVR授業ならでは
グループディスカッションでは「ボイスチェンジャーの目的」を話し合いました。目的としては様々なものが挙げられましたが、madao先生はこの結果を受けて 何らかの理由により地声を出したくない(出せない)人もいる 点を主張していました。そういえば考えたことはありませんでしたが、知り合った人に対して地声を聞かせてほしいとお願いするようなことは避けた方がいいのかもしれません。
また、VRChat内でボイスチェンジャーを利用する場合の最低限の要求事項などを教えていただきました。
ちゃんと語尾を「~のだ」と喋るんです(そこはAIじゃない)
授業の後は個別の質問として、AI系ボイスチェンジャーを実運用する為のスペックについて伺いました。私自身が使っている自宅のデスクトップPCはゲームで遊ぶ分にはそれなりに強めのものだと思っていましたが、madao先生の環境は想像以上でした。ちょっと趣味として気軽に人へは勧められないレベルですらあります。
尤も、これはAI系のボイスチェンジャーを実際に使い始めるまでの学習期間も含めた要求スペックでもあります。VRChatではリアルタイム性も求められることから、結局かなりのスペックが必要となることは避けられない訳ですが……
具体的な例としてはグラフィックボードの2枚使いです。かつては同じグラフィックボードを同じマザーボードに入れてブリッジ接続することでグラフィック性能を底上げしようとする技術があったのですが(nVidia SLIだったかな?)、それとはそもそも理由も構造も異なります。
現在はあくまでマザーボードに2枚のグラフィックボードが単独で1枚ずつ付けられるようになっているものがあり、1枚をゲーム用(VRChatなど)にし、1枚を機械学習関係(AIボイチェンリアルタイム処理など)として機能を専用に割り振るという使い方です。
リアルタイムボイチェンは結局のところグラフィックボードの能力のひとつであるVRAMを使ったりしますので、1枚のグラフィックボードでどうにかしようとすると、ゲームとボイチェンで食い合うことになってしまいます。
SLIは2枚のグラフィックボードを強力な1枚のように合算して見せかけるという技術でしたので、結局2倍の効率は得られませんでしたし、今回のような使い方にもマッチしません。
ピッチとフォルマントを機械的に変換させる手法はアプリを入れて数値を設定するだけで行えるボイチェンですので、導入も手軽でスペックもそこまで必要ありません。
そのかわり、リアル男性が女性のような声を出そうと思えば、地声もそれなりの出し方を求められます。私自身がかつてやってみた感じでは、クールな女性の声(いわゆる営業的ではない素の低めの声)を狙おうとすると、私は会社で電話を取っているときのような高さの声を少なくとも必要とするようです。
変換の差が大きいほど、変換後の声は割れてしまい、昔のロボットのような質感になってしまいます。私が営業電話のような声を出して、低い女性の声の設定にしても、そこはなかなか除去しきれないといったところでした。しかも、変換後であっても私自身の話し方の癖はそのままですので、やはりどこか男性っぽさはぬぐえません。
ですが、madao先生が紹介していただいたAI系のボイスチェンジャーであれば、(調整の手間はかなり必要であるものの)男性の地声でも十分実用に耐える女性声への変換が可能なようです。
そればかりか、ずんだもんのような「狙ったキャラクターに近づける」ことも可能であり、しかも用意すれば様々なキャラクターへの切り替えまでその場で行えるようになります。これは自分自身の声を大量に学習データとして用意するからこそ可能となるようです。
キャラクターっぽさは声色だけではなく、ちょっとした抑揚の癖や息遣いなんかも再現されたりするのでものすごい技術のように見えます。中身は気の抜けた地声で話していたとしても、出力される声は「きちんとしたキャラクターらしさ」を持っているということになります。ずんだもんの ~のだ
はさすがに発声してると思いますが。
授業の後は真夜中まで起きていてそのままV睡(VRヘッドセット等を装着起動したまま朝まで眠る)するクラスメイトが増えてきました。私は首を痛めそうでV睡をほとんどやらないのですが、こういうのも文化だなあなんて思ったりします。