【簡単】たった3秒で声真似音声合成!VALL-E X のインストールと使い方

AI入門
この記事は約7分で読めます。

以前、「【簡単】ボイスチェンジャーRVCとは?インストール方法と使い方を分かりやすく解説」という記事で、他人の声に成り済ませるボイスチェンジャー「RVC」について紹介しました。

マイクロソフトはこれより優れた技術「VALL-E」を 2023年1月に発表していますが、日本語には未対応でした。

2023年8月に日本語に対応した VALL-E X が公開され、自分のPCで動作できるようになったので、今回はインストール方法と使い方について紹介したいと思います。

VALL-E Xとは

引用元:VALL-E-X公式ページ

VALL-E Xは、マイクロソフトが2023年1月に発表した多言語テキスト音声変換(TTS)モデルのオープンソース版です。

  • 英語、中国語、日本語の3つの言語に対応した高品質な音声合成を行うことができます。
  • 未知の話者の声をクローニングすることができます。3〜10秒程度の音声プロンプトとそのテキストを入力すると、その話者の声に近い音声を生成します。
  • 音声プロンプトの感情やアクセントを反映した音声合成を行うことができます。例えば、笑っている音声プロンプトを入力すると、笑顔で話すような音声が生成されます。
  • 異なる言語で話すこともできます。例えば、日本語話者の音声プロンプトを入力して中国語や英語のテキストを入力すると、日本語話者が中国語や英語で話すような音声が生成されます。

この中で特筆すべき点は学習データの長さです。

RVCの場合は15分程度の音声データが必要だったのに対し、VALL-Eならわずか3秒程~10秒程度の音声データで学習できてしまいます。

Python環境構築

本記事は、WinPython公式サイトで公開されているポータブル環境(Winpython64-3.10.9.0.exe)を使って説明しています。ご自身の環境で動作させる場合は、適宜読み替えをお願いします。

最初に、下記のWinPython公式サイトから Winpython64-3.10.9.0.exe(自己解凍形式の実行ファイル)をダウンロードして下さい。

https://sourceforge.net/projects/winpython/files/WinPython_3.10/3.10.9.0/

ダウンロードした Winpython64-3.10.9.0.exe を起動すると、解凍先のフォルダを聞かれますので、任意のフォルダを指定します。

下図は解凍先のフォルダ構成です。ここから WinPython Command Prompt.exe を探して実行して下さい。

この操作で Python ポータブル環境専用のコマンドプロンプトが起動します。本記事を読み進めていく上で登場するコマンドは、ここで実行して下さい。

より詳しい説明が必要な場合は、「【こりゃ便利】WinPythonでPython環境をUSB化しよう!」で解説していますので、併せてご確認下さい。

インストール方法

インストールの手順は次の通りです。

  1. VALL-E-X本体をダウンロード
  2. モデルファイル(vallex-checkpoint.pt、medium.pt) をダウンロード
  3. モデルファイルを所定フォルダにコピー
  4. 各種ライブラリのインストール(pip install -r requirements.txt)

VALL-E-X本体をダウンロード

github から VALL-E-X 本体をダウンロードします。git がインストールされている場合、git clone コマンドでダウンロードして下さい。

git をインストールされていない場合は、下記URLから直接ダウンロードして下さい。

https://github.com/Plachtaa/VALL-E-X

Download.ZIPをクリックすると、VALL-E-X-master.zip というファイルがダウンロードされるので、任意のフォルダに解凍して下さい。

下記が VALL-E-X のフォルダ構成となります。

モデルファイルのダウンロード

次にモデルファイルを2つダウンロードします。画面をそのまま下にスクロールすると、下記の画面になります。ここにリンクが張られていますので、クリックして頂ければモデルファイルがダウンロードできます。

モデルファイルを所定フォルダにコピー

まず、展開先フォルダ(今回は VALL-E-X-master) に checkpoints と whisper という2つのフォルダを作成し、その中に先ほどダウンロードしたモデルファイルをコピーします。

各種ライブラリのインストール

コマンドプロンプト(WinPython Command Prompt.exe)を開き、カレントディレクトリを VALL-E-Xの展開先フォルダ(今回はVALL-E-X-master)に移動し、pip install を実行します。

以上でPythonポータブル環境に必要なライブラリがインストールされます。

VALL-E Xの起動方法

コマンドプロンプト(WinPython Command Prompt.exe)を開き、カレントディレクトリを VALL-E-Xの展開先フォルダ(今回はVALL-E-X-master)に移動し、launch-ui.pyを実行します。具体的には次のコマンドを実行して下さい。

実行するとコマンドプロンプトが下記の状態になります。ここで http://127.0.0.1:7860 と表示されますので、これをお使いのブラウザのアドレス欄に入力し、エンターキーを押してください。

成功するとブラウザに下記の画面が表示されます。

VALL-E Xの使い方

最初に、画面上部に表示されている文言の意味を確認しておきましょう。英語表記なのでブラウザの機能で日本語に変換した結果を載せておきます。

画面にはいくつかの入力項目がありますが、おおよそ下記の4個所を理解していれば、任意の音声ファイルの声を真似て音声合成することが可能です。

画面の説明

画面の主要部分について、簡単に説明しておきます。

読み上げたい内容をテキストで指示するための入力欄です。
language は auto-detect (自動検出)が初期値なので通常は変更する必要はありませんが、
必要なら「english」「中文」「日本語」から選択して下さい。
学習させたい音声ファイルの入力欄です。
声真似させたい3秒~10秒の音声ファイルをドラッグ&ドロップします。
これより長い音声データをドラッグ&ドロップするとエラーになります。
Transcriptには、音声ファイルの内容をテキストで入力して下さい。
音声合成の実行と、出来上がった音声合成データの再生が行なえる操作欄です。
デモ用の音声とテキストを選ぶための選択欄です。
いずれかの行をクリックすると、それまで入力されていた音声ファイルや読み上げたいテキストが、デモの内容で置き換わります。

デモの再生

画面の下部にデモ用の音声データが呼び出せるようになっています。まず最初にこれを試してみましょう。

デモ用音声データをクリックすると、声真似に必要な項目(uploaded audio prompt、Text、language、TranScript)が自動的にセットされます。

この状態でGenerateボタンをクリックすると、十数秒後に OutputAudio欄に再生ボタンが現れます。

あとは、再生ボタンをクリックすると、音声合成された結果を聞くことが出来ます。

この状態で、Text欄に任意のテキストを入力し、Generateボタンをクリックすると、そのテキストの内容を声真似で読み上げてくれます。

任意の音声ファイルで音声合成

①声真似(学習)させたい音声ファイル(3~10秒)をドラッグ&ドロップし、②音声ファイルの内容をテキストで TranScript欄に入力します。

③Text欄に読み上げさせたいテキストを入力し、④Genarateボタンをクリックします。

十数秒すると下記の通り再生ボタンが表示されるので、再生ボタンをクリックして再生して下さい。

まとめ

今回は2023年8月に公開された VALL-E X のインストール方法と使い方について紹介しました。

わずか3~10秒の音声データで学習できる点は素晴らしいですが、かなり質の良い音声データを用意しないと、期待通りの結果は得られません。

また、音声合成に数秒~十数秒掛かるため、他の音声合成アプリのような瞬時のテキスト⇒音声変換や、RVCのようなリアルタイム声真似ボイスチェンジャーとして使う事も出来ません。

音質についてもオリジナルの音声に近い音声を合成してはくれますが、長文の音声合成が苦手で、且つイントネーションの指定もできないなど、まだまだ改善の余地はあるように感じます。

とはいえ、現在の課題は急速に改善されていくと思われるので、今後に期待です。

タイトルとURLをコピーしました