以前、「【簡単】ボイスチェンジャーRVCとは?インストール方法と使い方を分かりやすく解説」という記事で、他人の声に成り済ませるボイスチェンジャー「RVC」について紹介しました。
マイクロソフトはこれより優れた技術「VALL-E」を 2023年1月に発表していますが、日本語には未対応でした。
2023年8月に日本語に対応した VALL-E X が公開され、自分のPCで動作できるようになったので、今回はインストール方法と使い方について紹介したいと思います。
VALL-E Xとは
VALL-E Xは、マイクロソフトが2023年1月に発表した多言語テキスト音声変換(TTS)モデルのオープンソース版です。
- 英語、中国語、日本語の3つの言語に対応した高品質な音声合成を行うことができます。
- 未知の話者の声をクローニングすることができます。3〜10秒程度の音声プロンプトとそのテキストを入力すると、その話者の声に近い音声を生成します。
- 音声プロンプトの感情やアクセントを反映した音声合成を行うことができます。例えば、笑っている音声プロンプトを入力すると、笑顔で話すような音声が生成されます。
- 異なる言語で話すこともできます。例えば、日本語話者の音声プロンプトを入力して中国語や英語のテキストを入力すると、日本語話者が中国語や英語で話すような音声が生成されます。
この中で特筆すべき点は学習データの長さです。
RVCの場合は15分程度の音声データが必要だったのに対し、VALL-Eならわずか3秒程~10秒程度の音声データで学習できてしまいます。
Python環境構築
本記事は、「【お手軽】WinPython+Portable Gitでお手軽Python環境を構築しようよ」で紹介しているPyhton環境(「WinPython+PortablGit」環境)を使って説明しています。ご自身の環境で動作させる場合は、適宜読み替えをお願いします。
公式サイトから自己解凍形式の圧縮ファイルをダウンロードし、任意のフォルダに展開するだけのお手軽環境なので、是非ご活用下さい。
インストール方法
インストールの手順は次の通りです。
- VALL-E-X本体をダウンロード
- モデルファイル(vallex-checkpoint.pt、medium.pt) をダウンロード
- モデルファイルを所定フォルダにコピー
- 各種ライブラリのインストール(pip install -r requirements.txt)
VALL-E-X本体をダウンロード
github から VALL-E-X 本体をダウンロードします。
「WinPython+PortablGit」環境をお使いの場合は、@CommandPrompt.exe を実行後、次のコマンドを入力することで、「WinPython+PortablGit」環境内にインストールできます。
1 2 |
cd .. git clone https://github.com/Plachtaa/VALL-E-X.git |
別の場所にインストールしたい場合は、インストールしたいフォルダにカレントディレクトリを移動し、次のコマンドを実行して下さい
1 |
git clone https://github.com/Plachtaa/VALL-E-X.git |
以下は、git を使わず直接VALL-E-X 本体をダウンロードする方法です。
https://github.com/Plachtaa/VALL-E-X
Download.ZIPをクリックすると、VALL-E-X-master.zip というファイルがダウンロードされるので、任意のフォルダに解凍して下さい。
下記が VALL-E-X のフォルダ構成となります。
モデルファイルのダウンロード
次にモデルファイルを2つダウンロードします。画面をそのまま下にスクロールすると、下記の画面になります。ここにリンクが張られていますので、クリックして頂ければモデルファイルがダウンロードできます。
モデルファイルを所定フォルダにコピー
まず、展開先フォルダ(今回は VALL-E-X-master) に checkpoints と whisper という2つのフォルダを作成し、その中に先ほどダウンロードしたモデルファイルをコピーします。
各種ライブラリのインストール
「WinPython+PortablGit」環境の直下にある @Command Prompt.exe を実行します。
次に、開いたコマンドプロンプト上でカレントディレクトリを VALL-E-Xの展開先フォルダ(今回はVALL-E-X-master)に移動し、pip install を実行します。
1 2 |
cd ..\VALL-E-X-master pip install -r requirements.txt |
以上でPythonポータブル環境に必要なライブラリがインストールされます。
VALL-E Xの起動方法
「WinPython+PortablGit」環境の直下にある @CommandPrompt.exe を実行し、そこでカレントディレクトリを VALL-E-Xの展開先フォルダ(今回はVALL-E-X-master)に移動、launch-ui.pyを実行します。
具体的には次のコマンドを実行して下さい。
1 2 |
cd ..\VALL-E-X-master python launch-ui.py |
実行するとコマンドプロンプトが下記の状態になります。
http://127.0.0.1:7860 と表示されたら、これをお使いのブラウザのアドレス欄に入力し、エンターキーを押してください。
1 |
http://127.0.0.1:7860 |
成功するとブラウザに下記の画面が表示されます。
VALL-E Xの使い方
最初に、画面上部に表示されている文言の意味を確認しておきましょう。英語表記なのでブラウザの機能で日本語に変換した結果を載せておきます。
画面にはいくつかの入力項目がありますが、おおよそ下記の4個所を理解していれば、任意の音声ファイルの声を真似て音声合成することが可能です。
画面の説明
画面の主要部分について、簡単に説明しておきます。
① | 読み上げたい内容をテキストで指示するための入力欄です。 language は auto-detect (自動検出)が初期値なので通常は変更する必要はありませんが、 必要なら「english」「中文」「日本語」から選択して下さい。 |
---|---|
② | 学習させたい音声ファイルの入力欄です。 声真似させたい3秒~10秒の音声ファイルをドラッグ&ドロップします。 これより長い音声データをドラッグ&ドロップするとエラーになります。 Transcriptには、音声ファイルの内容をテキストで入力して下さい。 |
③ | 音声合成の実行と、出来上がった音声合成データの再生が行なえる操作欄です。 |
④ | デモ用の音声とテキストを選ぶための選択欄です。 いずれかの行をクリックすると、それまで入力されていた音声ファイルや読み上げたいテキストが、デモの内容で置き換わります。 |
デモの再生
画面の下部にデモ用の音声データが呼び出せるようになっています。まず最初にこれを試してみましょう。
デモ用音声データをクリックすると、声真似に必要な項目(uploaded audio prompt、Text、language、TranScript)が自動的にセットされます。
この状態でGenerateボタンをクリックすると、十数秒後に OutputAudio欄に再生ボタンが現れます。
あとは、再生ボタンをクリックすると、音声合成された結果を聞くことが出来ます。
この状態で、Text欄に任意のテキストを入力し、Generateボタンをクリックすると、そのテキストの内容を声真似で読み上げてくれます。
任意の音声ファイルで音声合成
①声真似(学習)させたい音声ファイル(3~10秒)をドラッグ&ドロップし、②音声ファイルの内容をテキストで TranScript欄に入力します。
③Text欄に読み上げさせたいテキストを入力し、④Genarateボタンをクリックします。
十数秒すると下記の通り再生ボタンが表示されるので、再生ボタンをクリックして再生して下さい。
まとめ
今回は2023年8月に公開された VALL-E X のインストール方法と使い方について紹介しました。
わずか3~10秒の音声データで学習できる点は素晴らしいですが、かなり質の良い音声データを用意しないと、期待通りの結果は得られません。
また、音声合成に数秒~十数秒掛かるため、他の音声合成アプリのような瞬時のテキスト⇒音声変換や、RVCのようなリアルタイム声真似ボイスチェンジャーとして使う事も出来ません。
音質についてもオリジナルの音声に近い音声を合成してはくれますが、長文の音声合成が苦手で、且つイントネーションの指定もできないなど、まだまだ改善の余地はあるように感じます。
とはいえ、現在の課題は急速に改善されていくと思われるので、今後に期待です。
コメント