ailia_speech  1.3.0.0
セットアップ

コンパイラのセットアップ

Windows

VisualStudio 2019以降が必要です。

macOS

Xcode 14.2以降が必要です。

Linux

clangが必要です。

ライセンスファイルの配置

評価版の利用にはライセンスファイルが必要です。 下記のフォルダにライセンスファイルを配置してください。

Windows

ailia.dllと同じフォルダ(サンプルの場合はcppフォルダ)にailia.licを配置します。

macOS

~/Library/SHALO/にailia.licを配置します。

Linux

~/.shalo/にailia.licを配置します。

サンプルのビルド

cppフォルダに移動して、プラットフォーム別のビルドコマンドを実行します。

Windows

cl ailia_speech_sample.cpp wave_reader.cpp ailia.lib ailia_audio.lib ailia_tokenizer.lib ailia_speech.lib

macOS

clang++ -o ailia_speech_sample ailia_speech_sample.cpp wave_reader.cpp libailia.dylib libailia_audio.dylib libailia_speech.dylib libailia_tokenizer.dylib -Wl,-rpath,./ -std=c++17

Linux

export LD_LIBRARY_PATH=./
g++ -o ailia_speech_sample ailia_speech_sample.cpp wave_reader.cpp libailia.so libailia_audio.so libailia_tokenizer.so libailia_speech.so

サンプルの実行

下記のコマンドでサンプルを実行します。

./ailia_speech_sample

出力例です。

Usage ./ailia_speech_sample input.wav [base/tiny/small/medium] [auto/ja] [transcribe/translate/live] [vad_enable/vad_disable] [none/silent_threshold/prompt/constraint_char/constraint_word/dictionary] [auto/cpu/blas/gpu]
Input path:./demo.wav
Model type:small
Language type:auto
Task:transcribe
Vad:vad_enable
Option:none
Env:auto
Environment ID:0 TYPE:0 NAME:CPU
Environment ID:1 TYPE:1 NAME:CPU-AppleAccelerate
Environment ID:2 TYPE:2 NAME:MPSDNN-Apple M2
Selected Environment:auto
Input wave sec 10.512000
[00:00.000 --> 00:05.640] [0.9310] He hoped there would be stew for dinner, turnips and carrots and bruised potatoes and fat
[00:05.640 --> 00:20.840] [0.7744] mutton pieces to be ladled out in thick peppered flour fat and sauce.

サンプルで指定可能なオプション

サンプルでは下記の引数を順に指定可能です。

./ailia_speech_sample input.wav [base/tiny/small/medium] [auto/ja] [transcribe/translate/live] [vad_enable/vad_disable] [none/silent_threshold/prompt/constraint_char/constraint_word] [auto/cpu/blas/gpu]

各引数の詳細は下記となります。

内容 詳細
入力ファイル名 入力する音声ファイルを指定します。wavファイルのみ指定可能です。
モデル 使用するモデルサイズを指定します。base、tiny、small、mediumの順で、後者ほど高精度になります。
言語 使用する言語を指定します。autoだと自動判定、jaだと日本語になります。
モード 実行するモードを指定します。transcribeは文字起こし、translateは翻訳、liveはリアルタイム文字起こしになります。
VAD VADを使用するかどうかを指定します。
オプション オプションを指定します。silent_thresholdでは無音検知を有効にします。promptではコンテキストを与えます。constraint_charでは数値のみを認識します。constraint_wordでは指定した単語のみを認識します。
実行環境 実行環境を指定します。autoではcpuかblasを自動選択します。gpuを指定すると、GPUを使用した推論を行います。

高精度モデルのダウンロード

SDKにはSmallモデルが付属しています。Smallモデルよりも高精度なMediumモデルとLargeモデルは下記のURLからダウンロード可能です。

Medium

Large

Large V3

ポストプロセスモデル

SDKにはポストプロセスモデルは付属していません。ポストプロセスを使用する場合、下記のURLからダウンロード可能です。

T5

FuguMT EN JA

FuguMT JA EN

プラットフォーム別の注意点

macOSにおけるダウンロード属性の解除

macOSにおいてブラウザからダウンロードしたバイナリには、ダウンロード属性が付与され、実行できない場合があります。 その場合、dylibを右クリックから実行して開くことで、ダウンロード属性を解除することが可能です。 また、コマンドラインから下記のコマンドを実行することでも、ダウンロード属性を解除することが可能です。

xattr -d com.apple.quarantine libailia_speech.dylib