ailia_voice
1.3.0.0
|
本ページでは、CとC#で共通に使用できる機能を解説します。
ailia AI Voiceでは、音声合成のアルゴリズムにTacotron2とGPT-SoVITSを使用することができます。
日本語を音声合成するには、日本語のテキストを音素に変換する必要があり、音素への変換にはOpenJtalkを使用しています。OpenJtalkはailia AI Voiceのライブラリに内蔵しています。
GPT-SoVITSを使用した場合、10秒程度の音声ファイルを与えることで、任意の声色で音声合成を行うことが可能です。
ユーザ辞書を定義することで日本語の発音を補正することが可能です。
WindowsとLinux環境ではcuDNNを使用したGPU推論が可能です。 cuDNNを使用するには、NVIDIAのサイトから、CUDA ToolkitとcuDNNをインストールする必要があります。
CUDA Toolkitはインストーラに沿ってインストールしてください。cuDNNはダウンロード後に、環境変数のPATHに通してください。cuDNNのダウンロードにはNVIDIAのデベロッパー登録が必要です。
ユーザ辞書を作成するには、下記のようなuserdic.csvを準備します。後半の0/5は、音数が5で、アクセントが0番目にあることを示しています。
ユーザ辞書は、pyopenjtalkを使用してcsvからdicファイルに変換します。
変換したdicファイルはailiaVoiceSetUserDictionary APIを実行することで読み込み可能です。