本文最后更新于：几秒前

1、Attention exploration (20 points)

（a）

（i）

key向量可以对应于n个离散的类别，而$\alpha_i=\frac{\exp(k_i^\top q)}{\sum_{j=1}^n\exp(k_j^\top q)},0\le \alpha_i \le 1$，且$\sum_{i=1}^n \alpha_i = 1$，所以注意力分布$a_i$可以视作一个对应于n个类别的分类概率分布。

（ii）

当$k_j^\top q \ll k_i^\top q, i\in \lbrace 1,…,n \rbrace \and i\ne j$时，注意力权重会集中到$\alpha_j$。

（iii）

在（ii）条件下，$c \approx v_j$

（iv）

如果查询q与单个key向量非常相似，并且几乎与其余的key向量正交，那么注意力输出c可能几乎与该键向量的相应值向量相同，就像直接“复制”了一样。

（b）

（i）

不妨设$v_a=c_1a_1+…+c_ma_m,v_b=d_1b_1+…+d_pb_p$，$\forall a_j^\top$，有：

$a_j^\top v_a = c_1a_j^\top a_1 + … +c_j a_j^\top a_j + …+ c_m a_j^\top a_m=c_j$
$a_j^\top v_b = d_1a_j^\top b_1+…+d_ja_j^\top b_j+ … + d_pa_j^\top b_p = 0$

$∴$令$M = \begin{bmatrix}
a_1^\top \\
…\\
a_m^\top
\end{bmatrix}$，则$M(v_a+v_b) = Mv_a = v_a$

（ii）

若令$c\approx \frac{1}{2}(v_a+v_b)$，则需要a和b有大致同等的权重，而其他部分没有权重，$∴k_a^\top q \approx k_b^\top q$，又$∵$要加大a和b与其他部分的差距，$∴q = \beta(k_a+k_b)$，其中$\beta \gg 0$，此时$k_a^\top q = k^\top_b q = \beta$

（c）

（i）

CS224N作业A5：Attention和Transformers

1、Attention exploration (20 points)

（a）

（i）

（ii）

（iii）

（iv）

（b）

（i）

（ii）

（c）

（i）

（ii）

（d）

（i）

（ii）