Transformer : Self-Attention

Self-Attention

作成: 2025-05-17
更新: 2025-05-24

レイヤーの表記「^(ℓ)」は煩瑣になるので，ここでは省略する。

1. Query, Key, Value の生成

重み行列

2. Multi-Head Attention

3. Attention スコアの計算

3.1 Attention スコア A（未正規化）

3.2 A の正規化 (softmax)

α_ij = softmax_j( A_ij / √D )　　

Σ_k α_ik = 1　( Σ_k は，1から LEN(S) まで)

4. Self-Attention 層の出力

Σ_k α_ik = 1　( Σ_k は，1から LEN(S) まで)

Z_i = ( Σ_k α_ik v_k1, ‥‥ Σ_k α_ik v_kD )

「語彙の syntactical & semantical distribution」を定めるという形で，「言語＝シンタクス・セマンティクスを構造とする空間」を実現。