コンパイラのセットアップ
Windows
VisualStudio 2019以降が必要です。
macOS
Xcode 14.2以降が必要です。
Linux
clangが必要です。
ライセンスファイルの配置
評価版の利用にはライセンスファイルが必要です。 下記のフォルダにライセンスファイルを配置してください。
Windows
ailia.dllと同じフォルダ(サンプルの場合はcppフォルダ)にailia.licを配置します。
macOS
~/Library/SHALO/にailia.licを配置します。
Linux
~/.shalo/にailia.licを配置します。
サンプルのビルド
cppフォルダに移動して、プラットフォーム別のビルドコマンドを実行します。
Windows
cl ailia_speech_sample.cpp wave_reader.cpp ailia.lib ailia_audio.lib ailia_tokenizer.lib ailia_speech.lib
macOS
clang++ -o ailia_speech_sample ailia_speech_sample.cpp wave_reader.cpp libailia.dylib libailia_audio.dylib libailia_speech.dylib libailia_tokenizer.dylib -Wl,-rpath,./ -std=c++17
Linux
export LD_LIBRARY_PATH=./
g++ -o ailia_speech_sample ailia_speech_sample.cpp wave_reader.cpp libailia.so libailia_audio.so libailia_tokenizer.so libailia_speech.so
サンプルの実行
下記のコマンドでサンプルを実行します。
出力例です。
Usage ./ailia_speech_sample input.wav [base/tiny/small/medium] [auto/ja] [transcribe/translate/live] [vad_enable/vad_disable] [none/silent_threshold/prompt/constraint_char/constraint_word/dictionary] [auto/cpu/blas/gpu]
Input path:./demo.wav
Model type:small
Language type:auto
Task:transcribe
Vad:vad_enable
Option:none
Env:auto
Environment ID:0 TYPE:0 NAME:CPU
Environment ID:1 TYPE:1 NAME:CPU-AppleAccelerate
Environment ID:2 TYPE:2 NAME:MPSDNN-Apple M2
Selected Environment:auto
Input wave sec 10.512000
[00:00.000 --> 00:05.640] [0.9310] He hoped there would be stew for dinner, turnips and carrots and bruised potatoes and fat
[00:05.640 --> 00:20.840] [0.7744] mutton pieces to be ladled out in thick peppered flour fat and sauce.
サンプルで指定可能なオプション
サンプルでは下記の引数を順に指定可能です。
./ailia_speech_sample input.wav [base/tiny/small/medium] [auto/ja] [transcribe/translate/live] [vad_enable/vad_disable] [none/silent_threshold/prompt/constraint_char/constraint_word] [auto/cpu/blas/gpu]
各引数の詳細は下記となります。
内容 | 詳細 |
入力ファイル名 | 入力する音声ファイルを指定します。wavファイルのみ指定可能です。 |
モデル | 使用するモデルサイズを指定します。base、tiny、small、mediumの順で、後者ほど高精度になります。 |
言語 | 使用する言語を指定します。autoだと自動判定、jaだと日本語になります。 |
モード | 実行するモードを指定します。transcribeは文字起こし、translateは翻訳、liveはリアルタイム文字起こしになります。 |
VAD | VADを使用するかどうかを指定します。 |
オプション | オプションを指定します。silent_thresholdでは無音検知を有効にします。promptではコンテキストを与えます。constraint_charでは数値のみを認識します。constraint_wordでは指定した単語のみを認識します。 |
実行環境 | 実行環境を指定します。autoではcpuかblasを自動選択します。gpuを指定すると、GPUを使用した推論を行います。 |
高精度モデルのダウンロード
SDKにはSmallモデルが付属しています。Smallモデルよりも高精度なMediumモデルとLargeモデルは下記のURLからダウンロード可能です。
Medium
Large
Large V3
Large V3 Turbo
ポストプロセスモデル
SDKにはポストプロセスモデルは付属していません。ポストプロセスを使用する場合、下記のURLからダウンロード可能です。
T5
FuguMT EN JA
FuguMT JA EN
プラットフォーム別の注意点
macOSにおけるダウンロード属性の解除
macOSにおいてブラウザからダウンロードしたバイナリには、ダウンロード属性が付与され、実行できない場合があります。 その場合、dylibを右クリックから実行して開くことで、ダウンロード属性を解除することが可能です。 また、コマンドラインから下記のコマンドを実行することでも、ダウンロード属性を解除することが可能です。
xattr -d com.apple.quarantine libailia_speech.dylib