CS224N作业A5:Attention和Transformers

本文最后更新于:几秒前

1、Attention exploration (20 points)

(a)

(i)

key向量可以对应于n个离散的类别,而αi=exp(kiq)j=1nexp(kjq),0αi1,且i=1nαi=1,所以注意力分布ai可以视作一个对应于n个类别的分类概率分布。

(ii)

kjqkiq,i{1,,n}\andij时,注意力权重会集中到αj

(iii)

在(ii)条件下,cvj

(iv)

如果查询q与单个key向量非常相似,并且几乎与其余的key向量正交,那么注意力输出c可能几乎与该键向量的相应值向量相同,就像直接“复制”了一样。

(b)

(i)

不妨设va=c1a1++cmam,vb=d1b1++dpbpaj,有:

  • ajva=c1aja1++cjajaj++cmajam=cj
  • ajvb=d1ajb1++djajbj++dpajbp=0

M=[a1am],则M(va+vb)=Mva=va

(ii)

若令c12(va+vb),则需要a和b有大致同等的权重,而其他部分没有权重,kaqkbq,又要加大a和b与其他部分的差距,q=β(ka+kb),其中β0,此时kaq=kbq=β

(c)

(i)

Σi=αIα可忽略,在正态分布中,kμ同1(b).ii,q=β(μa+μb),β0

(ii)

Σa=αI+12(μaμa)α可忽略,所以ka=γμa,γN(1,12)
c=vaαa+vbαb=exp(γβ)exp(γβ)+exp(β)va+exp(β)exp(γβ)+exp(β)vb=1exp((1γ)β)+1va+1exp((γ1)β)+1vb
即随着k的不同取样,cvavb之间震荡。

(d)

(i)

c=12(c1+c2)=12(va+vb),因此分别使q1q2对应于12va12vbq1=βμa,q2=βμb,β0

(ii)

c12(va+vb)k变化会导致αaαb独立发生变化,但当β足够大时,其查询q的结果依然会分别偏向vavb


CS224N作业A5:Attention和Transformers
http://paopao0226.site/post/686c4b32.html
作者
Ywj226
发布于
2023年4月3日
更新于
2023年9月23日
许可协议