CS224N作业A5:Attention和Transformers

本文最后更新于:几秒前

1、Attention exploration (20 points)

(a)

(i)

key向量可以对应于n个离散的类别,而$\alpha_i=\frac{\exp(k_i^\top q)}{\sum_{j=1}^n\exp(k_j^\top q)},0\le \alpha_i \le 1$,且$\sum_{i=1}^n \alpha_i = 1$,所以注意力分布$a_i$可以视作一个对应于n个类别的分类概率分布。

(ii)

当$k_j^\top q \ll k_i^\top q, i\in \lbrace 1,…,n \rbrace \and i\ne j$时,注意力权重会集中到$\alpha_j$。

(iii)

在(ii)条件下,$c \approx v_j$

(iv)

如果查询q与单个key向量非常相似,并且几乎与其余的key向量正交,那么注意力输出c可能几乎与该键向量的相应值向量相同,就像直接“复制”了一样。

(b)

(i)

不妨设$v_a=c_1a_1+…+c_ma_m,v_b=d_1b_1+…+d_pb_p$,$\forall a_j^\top$,有:

  • $a_j^\top v_a = c_1a_j^\top a_1 + … +c_j a_j^\top a_j + …+ c_m a_j^\top a_m=c_j$
  • $a_j^\top v_b = d_1a_j^\top b_1+…+d_ja_j^\top b_j+ … + d_pa_j^\top b_p = 0$

$∴$令$M = \begin{bmatrix}
a_1^\top \\
…\\
a_m^\top
\end{bmatrix}$,则$M(v_a+v_b) = Mv_a = v_a$

(ii)

若令$c\approx \frac{1}{2}(v_a+v_b)$,则需要a和b有大致同等的权重,而其他部分没有权重,$∴k_a^\top q \approx k_b^\top q$,又$∵$要加大a和b与其他部分的差距,$∴q = \beta(k_a+k_b)$,其中$\beta \gg 0$,此时$k_a^\top q = k^\top_b q = \beta$

(c)

(i)

$∵\Sigma_i = \alpha I$且$\alpha$可忽略,$∴$在正态分布中,$k\approx \mu$,$∴$同1(b).ii,$q = \beta(\mu_a+\mu_b),\beta\gg 0$。

(ii)

$∵\Sigma_a = \alpha I+\frac{1}{2}(\mu_a\mu_a^\top)$且$\alpha$可忽略,所以$k_a=\gamma\mu_a,\gamma \sim\mathcal N(1,\frac{1}{2})$,$∴$有
$$
c = v_a\alpha_a+v_b\alpha_b = \frac{\exp(\gamma\beta)}{\exp(\gamma\beta)+\exp(\beta)}v_a+\frac{\exp(\beta)}{\exp(\gamma\beta)+\exp(\beta)}v_b = \frac{1}{exp((1-\gamma)\beta)+1}v_a + \frac{1}{\exp((\gamma-1)\beta)+1}v_b
$$
即随着$k$的不同取样,$c$在$v_a$和$v_b$之间震荡。

(d)

(i)

$c = \frac{1}{2}(c_1+c_2) = \frac{1}{2}(v_a+v_b)$,因此分别使$q_1$和$q_2$对应于$\frac{1}{2}v_a$和${1\over 2}v_b$,$∴q_1 = \beta \mu_a,q_2 = \beta\mu_b,\beta\gg 0$

(ii)

$c\approx \frac{1}{2}(v_a+v_b)$,$∵k$变化会导致$\alpha_a$和$\alpha_b$独立发生变化,但当$\beta$足够大时,其查询$q$的结果依然会分别偏向$v_a$和$v_b$


CS224N作业A5:Attention和Transformers
http://paopao0226.site/post/686c4b32.html
作者
Ywj226
发布于
2023年4月3日
更新于
2023年9月23日
许可协议