不理解绝对位置编码器的公式
我无法理解 NLP 中的这个简单公式,因为我专门研究 CV。我知道 XiWq(Xj*Wk)T 的剂量是什么意思。但为什么公式中 E 和 W 交换,为什么是 Exi 和 Wq 转置而不是 Exj 和 Wk 呢?
I can't understand this simple formula in NLP because I specialize in CV. I know what dose XiWq(Xj*Wk)T mean. But why do E and W exchange and why do Exi and Wq transpose rather than Exj and Wk in the formula.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论