当前位置：文江博客话题详情

注意机制中的矩阵操作

发布于 2025-02-10 02:36:27 字数 1212 浏览 2 评论 0 原文

我正在阅读一篇有关用于金融的变压器机器学习模型的文章。我试图理解体系结构背后的数学，但是我未能理解这部分：

尤其是，我不明白为什么操作之间的尺寸不匹配。根据我的理解：

步骤（8）： u 应为 m（d_model，1）
步骤（9）：这是不可能的，因为矩阵乘法维度与执行操作不匹配： m（d_model，k）。 m（1，d_model）

这是研究的完整部分：

我想，我想，我对此表示符号 “非线性将矩阵M向u投射到u” 句子。

有人可以启发我吗？

基于变压器的股票运动预测的注意力网络，2022年， Qiuyue Zhang，Chao Qin，Yunfeng Zhang，Fangxun Bao，Caimingzhang，Peide Liu

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

倾城花音 2025-02-17 02:36:27

如果您没有代码或与作者联系，则使用此文本，我们必须猜测错误在哪里。

我的猜测

$ w_m^m $在等式中，是$ w_m^m $
softmax输出实际上是计算$ u^t $，而不是$ u $
eq。 9应该是$ m^t u^t $，而不是$ m u^t $

另一个假设是它们具有如所述的方程式，它们有一个工作代码，并且在编写论文时，他们计算出矩阵的维度错误。

我不知道我是否会相信将来发行日期的论文，而引用为零。

！

回复收藏 0 原文

~没有更多了~

关于作者

方圜几里

暂无简介

文章

26 人气

关注发私信

yuanzihao09

文章 0 评论 0

关注

1337793151

文章 0 评论 0

关注

横笛休吹塞上声

文章 0 评论 0

关注

你在我安

文章 0 评论 0

关注

qq_QhAHT0kB

文章 0 评论 0

关注

aaaa123451

文章 0 评论 0

友情链接

文江博客

注意机制中的矩阵操作

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签