【簡単】ボイスチェンジャーRVCとは?インストール方法と使い方を分かりやすく解説

当ページのリンクには広告が含まれています。

TBS NEWS DIG Powered by JNN がYouTubeでボイスチェンジャーについて解説していたので、気になって調べてみました。

通常のPCでもここまでリアルタイムに音声変換が出来るとは・・・。まさに生成AI全盛期といった感じです。

オレオレ詐欺で悪用されそうなので、騙されないための注意喚起という意味と、技術的な好奇心から今回はボイスチェンジャーRVCについて取り上げたいと思います。

目次

RVCとは

RVCとは、Retrieval-based-Voice-Conversion の略称で、深層学習(ディープラーニング)を用いて、話者の声を別の声に変換する技術です。テキスト読み上げシステムである VITS(Variational Inference based Text-to-Speech synthesis)をベースに開発されており、次の特徴を持っています。

  1. トップ1の検索結果からトレーニングセットの特徴をソース特徴として代用することで、トーン漏れを最小限に抑えます。
  2. 低性能のグラフィックスカード(4GB以上のVRAM)でも簡単かつ迅速にトレーニングすることができます。
  3. 少量のデータでも十分な結果を得ることができます(10分以上の低ノイズ音声を推奨)。
  4. モデルの融合をサポートしており、音色を変更することができます。
  5. 使いやすいWebユーザーインターフェース。
  6. UVR5モデルを使用して、ボーカルと楽器を高速で分離します。

1の内容について補足すると、仮に十分な学習に必要な特徴量が100だとします。しかし、手元にある少ない学習データでは、特徴量が10しか抽出できません。この時点で不足している90の特徴量を補うために、学習済みのトレーニングセットと突き合わせ、もっとも近い(トップ1)トレーニングセットの特徴量を使って補完するという意味だと解釈して下さい。

RVCについての実力はTBSがYouTubeに公開して切る下記の動画が参考になります。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

目次