伯特损失功能如何工作？

发布于 2025-02-07 19:35:23 字数 82 浏览 2 评论 0原文

我对Bert LM的跨凝性工作方式感到困惑。要计算损失函数，我们需要面具的真实标签。但是我们没有真实标签的向量表示，预测是向量表示。那么如何计算损失？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

如若梦似彩虹 2025-02-14 19:35:23

我们已经知道在传递给伯特之前掩盖的单词，因此实际单词的一个热编码是实际的真相标签。蒙版单词的预测令牌传递给软磁层层，该层将蒙版Word的向量转换为另一个嵌入式（大小将类似于输入Word vector的大小）。然后，我们可以计算输入向量与软磁性层后获得的交叉熵损失。
希望这能澄清。为了更好地澄清一下
https://www.youtube.com/watch？

回复收藏 0 原文

~没有更多了~