Up 位置エンコーディング (事前計算) 作成: 2025-05-16
更新: 2025-05-26


    記号法
    ・入力テクストS のトークン数を
        LEN(S)
     で表す。

    入力テクスト S に対し,S のトークンベクトルの「位置エンコーディング」として,つぎの LEN(S) × D 行列が用いられる:
         POS(LEN(S)) = ( pos_ij )
       j が偶数のとき:pos_ij = sin( i / 10000^(j/D) )
       j が奇数のとき:pos_ij = cos( i / 10000^((j-1)/D) )

    「POS(L)」は,つぎのように読める:
      「NT×D 行列 POS の 1からn行まで」

    pos_ij は定数なので,POS は事前計算される。


    入力層では,入力テクスト S の I 番目のトークンに対応するトークンベクトルに,pos_i が加算される。
    <これには,「トークンベクトルに文脈の順序情報を注入」の意味が見込まれている。