CS224N作业A5:Attention和Transformers
本文最后更新于:几秒前
1、Attention exploration (20 points)
(a)
(i)
key向量可以对应于n个离散的类别,而
(ii)
当
(iii)
在(ii)条件下,
(iv)
如果查询q与单个key向量非常相似,并且几乎与其余的key向量正交,那么注意力输出c可能几乎与该键向量的相应值向量相同,就像直接“复制”了一样。
(b)
(i)
不妨设
(ii)
若令
(c)
(i)
(ii)
即随着
(d)
(i)
(ii)
CS224N作业A5:Attention和Transformers
http://paopao0226.site/post/686c4b32.html