【VCClient】誰でも可愛い声になれるAIボイスチェンジャーの説明書

どうも、最近はAI技術が進化を続けていて凄いですね、えぞっちです。

今回はVR界隈や配信界隈で広く認知されるようになったAIボイスチェンジャーの
「VCClient」の導入から、細かい設定や、基本的な設定の解説をしていきます。

ソフトの開発者ではないので完全な説明はできませんが、持てる限りの情報を書いていきますっ!

少しおせっかいですが先に注意書きを。
※本記事は本人の許可無く作成された音声データの使用を助長する事を目的としていません。
 導入・操作の説明を説明する目的で執筆しております。

少し長くなるので、「もう導入済みだよ」「設定だけ知りたいよ」って方は
目次から必要な情報の部分まで飛んで頂けるとスムーズに閲覧いただけます。

【前提環境】

今回はWindows・NVIDIA製GPUを使った環境の解説となります。
MAC・Radeon製GPUで使用したことはないので、今回は説明を省かせて頂きます。
一応動作報告はあるけどやったこと無いのでごめんね

【導入するのに必要なソフト】

1・VCClient本体:声をリアルタイムで変換させるソフト。
2・仮想オーディオデバイス:配信ソフトやVRchatなどで使用する際に使います。

はい、この2個だけでソフト自体の準備は整います。

別途機材としてはマイクが必要になりますが、ご興味がある方はもうマイクもあるし、VRのHMDあるよ!
って方が多いと思うので、持っている前提でお話を進めさせていただきます。

【仮想オーディオデバイスの導入】

先に仮想オーディオデバイスの導入を済ませておきます。

今回使用するソフトは「VB-CABLE Virtual Audio Device」と言う無料のソフトで、設定などは特段必要なく
導入するだけで使えますので便利です。

ダウンロードは下のボタンからサイトへ飛べます。

ダウンロード先ホームページVB-CABLE Virtual Audio Device.

サイトに飛んだら、Windowsの場合はWindowsマークのダウンロードリンクからソフトをダウンロードしてください。

ダウンロードしたZIPファイルを解凍したら、フォルダーの中にある
「VBCABLE_Setup_x64.exe」を右クリックして

必ず「管理者権限として実行」を選択してください。
じゃないとインストールしようとしたときにエラーが出ちゃいます。

管理者として実行をしたあとはインストーラーが起動します、
特に設定は必要ないので右下の「Install Driver」をクリックして

インストールが完了したら「!」マークのポップアップが出ますが、
導入自体は出来ているので問題ありません。

一応正常にドライバーが認識されているかどうか確認をしておきましょう。
タスクバーのWindowsマークを押して
設定>システム>サウンド>の欄の出力と入力に画像と同じ様に「Input」と「Output」があれば
正常にインストール出来ています、仮想オーディオデバイスの導入は終了です。

【VCClientの導入】

お待ちかねの本体の導入です。
ちなみに蛇足ですが、VCClientはコレ自体が音声データを作るソフトでは無く、
RVCと言うソフトで作成された音声データをリアルタイムで変換にかけれるソフトです。

ダウンロードは下のボタンからダウンロードサイトへ飛べます。

海外のサイトだけど大丈夫だよ!VCClient.Hugging Face

サイトを開いたらいくつか種類がありますが、赤線を引いてる部分に注意して、バージョンを間違えないようにお願いします!

カーソルをMMVCServerSIO_win_on…」に合わせるとブラウザの下にちょこっとバージョンが見えるので、
今回は「MMVCServerSIO_win_onnxgpu-cuda_v.1.5.3.17b.zip」をダウンロードしてください。
※2023/12/07日現在の最新版はv.1.5.3.17bです。

右の赤線のいつ更新されたがという表示が若いのが新しいVerの目安です。

ダウンロードが出来たら、分かりやすい場所に解凍してください。
データが大きいので少し解凍に時間がかかるかもしれないです。

解凍できたら、フォルダーの結構下のほうに、
「start_http.bat」
というbatファイルがあるので起動してください。

すると、黒い画面に白文字のコマンドプロンプトが起動して、
自動で起動に必要なファイルをダウンロードし始めますので少し待ちましょう。

ダウンロードが完了すると下のような画面が起動します、ここまで出来たら導入成功です。

【VCClientの基本的な使い方】

起動したあとはスタートのボタンを押しましょう。
コーヒーをご馳走するボタンはいわゆる開発者様にコーヒー(投げ銭)をプレゼントできるサイトに飛びます。
もしソフトが良かったり応援したい方は奢ってあげてください!

デフォルトで「つくよみちゃん」などが入っていますので、まずはお試しで使ってみましょう。
えぞっちが個人的に導入しているものもありますが、お気になさらず!

設定項目が多いので下記にまとめて書いておきます、
ざっくり何に影響するとか、何が変わるのかも書いておきますね!

重要な部分はテキストの色を変えているので、開いているソフト画面と見比べながら確認してみてください。
あと手探りで把握した部分もあるので、間違っていたらすみません!

【メイン設定項目】

上のキャラクターの絵:クリックすると使用する音声データが変わります。
キャラ絵の左上の数値:音声の入力の大きさ・変換にかかる時間・変換開始までの時間が
           表記されます遅延の考え方は、bufの数値+resの数値=合計のmsが遅延の合計の大きさです。
Start Stop:変換開始と終了のボタンです。
GAIN:入力の時の音と出力の時のゲイン値を変えられます、値が大きいほど音が大きくなります。
TUNE:声のピッチが変わります、男性→女性の場合は+12~+14くらい、女性→男性の場合は逆になります。(喋る声と、音声データによって結構変換後の音声が違うので微調整が必要な設定です)
INDEX:音声データの喋り方の癖などをどれくらい反映させるかの値です、値を上げると強く反映されますが滑舌が悪くなる場合があります。
Voice:設定は特段必要ありません、そのままで大丈夫です。
設定を保存:GAIN値やTUNE、INDEXなどの値を保存できます。
    「前に値どれにしたっけ…」とならないよう、調整が終わったら押しておきましょう。

【詳細設定項目】

NOISE:ノイズを除去する機能です。
「Echo」は反響音をカット、「Sup1.Sup2」は余計なノイズを軽減してくれます
1と2で若干でかかり具合が違うので両方試して、お好みの音質になる方を選択してください。
F0 Det:声を変換するときの質が変わります、結構変わるので色々試してみて、好みの設定にしてください。個人的に「harvest」「rmvpe_onnx」が音質良い気がします。
S.Thresh:ノイズゲートです、設定した数値より低い値は無音になるように設定できます。
     お使いのマイクに相当ノイズが乗ってない限りデフォルトで問題ないです。
CHUNK:変換を開始する速さの設定です
   値が低いほど低遅延で変換が始まりますが、精度が悪くなりやすいです。
   逆に値を高くすると変換開始が遅いですが、精度が良くなりやすいです。
   結構シビアな所で、リアルタイムで会話したいときなどは精度を犠牲にして値を低くした方が話しやすいです。
   逆に動画などのリアルタイムで話さないときは値を大きくして精度を高めたほうがいいですね。
  リアルタイムの場合のオススメの値は256以下がおすすめ。
  動画などリアルタイムじゃない場合は256以上がおすすめです。

EXTRA:変換の精度に直結する数値です
 値が高いほどしっかりと変換されるので綺麗な声で喋れます、しかし遅延が大きく増えます。
 逆に値が低いとすぐ出力されるので遅延は大きく減りますが、声の精度が犠牲になります。
 (CHUNKEXTRAがかなり変換に直結する設定です)
 トレードオフですが求める変換精度に応じて値を変えてみてください。
GPU:グラボが2枚刺さっている場合、2枚目に変換処理をさせたりできます。
AUDIO:自分のPCかサーバーで処理させることができます、負荷でPCが重くなってしまう場合はサーバーで変換してもらいましょう、気持ち変換に時間がかかる気がします。
(サーバーに処理を任せたことがないので、今回はサーバーでの項目の説明は省きます)
input:音声入力の設定です、普段使っているマイクを選択しましょう。
output:音声出力の設定です、先程導入した「VB-CABLE Virtual Audio Device」を選択してください。
monitor:音声の確認をするデバイスを選択できます
普段は設定せず、音声を確認したい時に使っているヘッドホン・イヤホンなどを選択してください。
gain:先程のGAINとは違い、出力する段階でのゲイン値を調整できます。
REC:変換している音声を録音できます、OBSを使わずに録音できるので手軽に使えます。
SIO rec:その場で簡易的に録音して音声を確認できます
     変換処理を開始するボタンを押してから、startしないと録音できません。
output:SIO recで録音している最中の出力先の設定です
    活用方法が浮かばなかったのですが、なにかに使えるのかも?
in:SIO recで録音した入力音声の再生ができます、自分の変換前の声が聞こえるので、配信などでは注意。
out:SIO recで録音した出力音声の再生ができます、変換後なので確認などに使えるのかも?

と、かなり長くなりましたが
最低限オレンジ色の部分の設定ができればソフト自体の使用には困らないと思います。

【モデルを追加する方法】

もし使いたいモデルがある場合は自分で追加することも可能です!
上のキャラクターが一覧で表示されてるエリアの「編集」を押すことで追加する画面が開きます。

新しいモデルを追加する場合は「blank」と書いている使われていないスロットを使います。
「アップロード」はご自身で用意したモデルを使えるようにします。
「サンプル」は公式からOKが出ている物がデフォルトで使えるように色々入ってます。

※しつこいかもしれませんが、使用する音声データの利用規約はよく確認しましょう。

アップロードを押すとこの画面が開くので、お持ちの音声データが何で作られたかによって変更してください。
今回はRVC想定で進めていきます。

モデルは音声データを選択してください、ファイルの拡張子が「pth」のものが該当します。
インデックスはある場合は一緒に入れてあげてください、無くても問題ありません。

選択ができたらアップロードを押してください
選択していたスロットに名前とモデルが入っていれば成功です。
(モデルの画像も変更したい場合ばblankと書いている所をクリックすると画像を入れれます)

これで導入、使用できる状態になっていると思いますので実際に使ってみましょう。
音声データと喋る人の声質でTUNEの設定が変わってくるので、
monitorで確認しながら好みのピッチに変えてください。

【OBSやVRchatなどで使用する場合】

少しややこしいのですが、
VCClient側はinputはマイクoutputはVB-CABLEを選択してください。

OBSやVRchat側は入力機器VB-CABLE outoutを選択してください。

こうしないと
マイク→VCClient→仮想オーディオ(output)→OBSやVRchatの流れで音声を持ち込めません。

上記の設定ができたらStartボタンを押して変換を開始してください、あとは楽しむだけです。

かなり長くなってしまいましたが、お疲れ様でした。
以上の設定ができればあとはAIボイスチェンジャーを楽しむだけです!

少しでも皆様の参考になれれば幸いです。

【不具合を見つけた場合・動作が重い場合・動かない場合】

不具合:私は開発者では無いため対応はできません。

動作が重い場合:決して軽いソフトではないので、根本的なPCスペックを見直すか
        AUDIOの設定でサーバーに処理をさせてみてください。
動かない場合:今回はNVIDIA製のGPUを想定して解説しています。
       Radeonの場合動かない可能性があります
       もしくは設定項目を一度確認して、
       入出力・変換開始のStartは押してあるか、など1ずつ確認してみてください。