ailia_tokenizer  1.3.0.0
APIの使用方法

ailia TokenizerのAPIの概要

基本的な使用方法

ailia Tokenizerの使用例です。インスタンスを作成し、引数にUTF8の文字列を与えることで、トークンを取得可能です。

#include <stdio.h>
#include <vector>
#include <stdint.h>
#include <stdlib.h>
int main(int argc, char *argv[]){
printf("Tokenizer type %d\n", type);
AILIATokenizer *net;
const char * text = u8"ハードウェア ソフトウェア";
printf("Input Text : %s\n", text);
unsigned int count;
std::vector<int> tokens(count);
ailiaTokenizerGetTokens(net, &tokens[0], count);
ailiaTokenizerDecode(net, &tokens[0], count);
printf("Tokens : ");
for (int i = 0; i < count; i++){
printf("%d ", tokens[i]);
}
printf("\n");
unsigned int len;
std::vector<char> out_text(len);
char * p_text = &out_text[0];
ailiaTokenizerGetText(net, p_text, len);
printf("Output Text : %s\n", p_text);
return 0;
}
ailiaTokenizerGetTextLength
int AILIA_API ailiaTokenizerGetTextLength(struct AILIATokenizer *net, unsigned int *len)
テキストの長さを取得します。(NULL文字含む)
ailiaTokenizerCreate
int AILIA_API ailiaTokenizerCreate(struct AILIATokenizer **net, int type, int flags)
トークナイズオブジェクトを作成します。
ailiaTokenizerGetText
int AILIA_API ailiaTokenizerGetText(struct AILIATokenizer *net, char *text, unsigned int len)
テキストを取得します。
ailiaTokenizerDecode
int AILIA_API ailiaTokenizerDecode(struct AILIATokenizer *net, const int *tokens, unsigned int token_count)
デコードを行います。
ailiaTokenizerEncode
int AILIA_API ailiaTokenizerEncode(struct AILIATokenizer *net, const char *utf8)
エンコードを行います。
ailiaTokenizerGetTokens
int AILIA_API ailiaTokenizerGetTokens(struct AILIATokenizer *net, int *tokens, unsigned int count)
トークンを取得します。
AILIA_TOKENIZER_FLAG_NONE
#define AILIA_TOKENIZER_FLAG_NONE
フラグを設定しません
Definition: ailia_tokenizer.h:181
ailia_tokenizer.h
ailia Tokenizer NLP TOKENIZER ライブラリ
ailiaTokenizerGetTokenCount
int AILIA_API ailiaTokenizerGetTokenCount(struct AILIATokenizer *net, unsigned int *count)
トークンの数を取得します。
AILIA_TOKENIZER_TYPE_WHISPER
#define AILIA_TOKENIZER_TYPE_WHISPER
Whisper向けのトークナイザ
Definition: ailia_tokenizer.h:42