Up | 重み行列 W_O | 作成: 2025-06-02 更新: 2025-06-02 |
LEN(S) × D 行列 O = ( oij ) 行ベクトル o_i は,トークン T(ID_i) に対応 である。 順伝播プロセスに続く逆伝播プロセスは,O と正解表の照合から始まる。 ところで,正解表は NV × NV 行列である。 そこで,D次元ベクトルの o_i を NV次元ベクトルに変換して,正解表の ID_i 行と照合するようにたい。 これを NV×D 行列 W_O = ( w_m,j ) を導入して, ( W_O o_i^T )^T ( ^T は転置行列をつくる作用素) で実現する。 W_O はどんなものにしたらよいかわからないので,トークンベクトルや重み行列 W_Q, W_K, W_V と同様に,ランダムに初期設定して「成長」させることにする。 |