ailia AI Voiceの機能

本ページでは、CとC#で共通に使用できる機能を解説します。

音声合成

ailia AI Voiceでは、音声合成のアルゴリズムにTacotron2とGPT-SoVITSを使用することができます。

日本語を音声合成するには、日本語のテキストを音素に変換する必要があり、音素への変換にはOpenJtalkを使用しています。OpenJtalkはailia AI Voiceのライブラリに内蔵しています。

GPT-SoVITSを使用した場合、10秒程度の音声ファイルを与えることで、任意の声色で音声合成を行うことが可能です。

ユーザ辞書を定義することで日本語の発音を補正することが可能です。

WindowsとLinux環境ではcuDNNを使用したGPU推論が可能です。 cuDNNを使用するには、NVIDIAのサイトから、CUDA ToolkitとcuDNNをインストールする必要があります。

CUDA Toolkitはインストーラに沿ってインストールしてください。cuDNNはダウンロード後に、環境変数のPATHに通してください。cuDNNのダウンロードにはNVIDIAのデベロッパー登録が必要です。

ユーザ辞書を作成するには、下記のようなuserdic.csvを準備します。後半の0/5は、音数が5で、アクセントが0番目にあることを示しています。

超電磁砲,,,1,名詞,固有名詞,一般,*,*,*,超電磁砲,レールガン,レールガン,0/5,*

ユーザ辞書は、pyopenjtalkを使用してcsvからdicファイルに変換します。

import pyopenjtalk

pyopenjtalk.mecab_dict_index("userdic.csv", "userdic.dic")

変換したdicファイルはailiaVoiceSetUserDictionary APIを実行することで読み込み可能です。