Up
トークン ID
作成: 2025-05-16
更新: 2025-06-02
語彙固定型
使用するトークン (語彙 vocabulary) は,事前に確定される。
この仕様は,「語彙固定型トークナイザー」と謂われる。
註 :
大規模な事前学習では,語彙を事前固定するのが常道。
登録のトークンは,ID (1〜 登録トークン数) で管理される。
記号法:
トークン数 (固定) を,
NV (Number of Vocabularies)
で表す。
ID が n のトークンを
T(n)
で表す。