Transformer : 重み行列 W_Q, W_K, W

重み行列 W_Q, W_K, W_V

作成: 2025-05-20
更新: 2025-05-26

Multi-Head Attention の場合
本テクストは，Single-Head で論を進めているので，重み行列はすべて D × D 行列。
「格納」の実際
PyTorch や TensorFlow では nn.ModuleList のような形で管理される。
たとえば PyTorch の nn.Linear で定義する場合：
(d_＊は，Multi-Head 並列処理のために D を区切った長さ)
これを各レイヤーに持たせて，レイヤーごとに別のインスタンスとして保持。
重さ行列の初期設定
重み行列の初期値は，ランダムに設定される (ランダム初期化)。

Transformer の「学習によるトークンベクトルの成長」の中身は，トークンベクトルと重み行列の更新である。