Up トークン ID 作成: 2025-05-16
更新: 2025-06-02


  • 語彙固定型
    使用するトークン (語彙 vocabulary) は,事前に確定される。
    この仕様は,「語彙固定型トークナイザー」と謂われる。
      註 : 大規模な事前学習では,語彙を事前固定するのが常道。


  • 登録のトークンは,ID (1〜 登録トークン数) で管理される。


  • 記号法:
    • トークン数 (固定) を,
         NV (Number of Vocabularies)
       で表す。
    • ID が n のトークンを
         T(n)
       で表す。