让 Actor 和 Critic 使用明显不同的模型有什么好处吗？

发布于 2025-01-13 03:01:57 字数 243 浏览 3 评论 0原文

在 Actor-Critic 方法中，Actor 和 Critic 被分配两个互补但不同的目标。我试图了解这些目标（更新策略和更新价值函数）之间的差异是否足够大，足以保证 Actor 和 Critic 具有不同的模型，或者它们是否具有足够相似的复杂性，以至于应该重用相同的模型为了简单起见。我意识到这可能是非常具体的情况，但不是以什么方式。例如，随着模型复杂性的增加，平衡是否会发生变化？

如果有任何经验法则，或者您是否知道解决该问题的特定出版物，请告诉我。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

巴黎夜雨 2025-01-20 03:01:57

实证结果表明完全相反 - 重要的是让相同网络同时执行这两项操作（直到最后一层/头）。其主要原因是学习价值网络（批评）为塑造政策（参与者）的表示提供了信号，否则几乎不可能获得这种信号。

事实上，如果你考虑一下这些，就会发现这些目标极其相似，因为对于最优确定性政策

pi(s) = arg max_a Q(s, a) = arg max_a V(T(s, a))

，T 是过渡动态。

The empirical results suggest the exact opposite - that it is important to have the same network doing both (up to some final layer/head). The main reason for this is that learning value network (critis) provides signal for shaping represntation of the policy (actor) that otherwise would be nearly impossible to get.

In fact if you think about these, these are extremely similar goals, since for optimal deterministic policy

pi(s) = arg max_a Q(s, a) = arg max_a V(T(s, a))

where T is the transition dynamics.

回复收藏 0 原文

~没有更多了~

关于作者

天邊彩虹

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

让 Actor 和 Critic 使用明显不同的模型有什么好处吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

浪子阿飞

JK.Yang

人间不值得

静待花开

只涨不跌

污浊的双黑

友情链接

让 Actor 和 Critic 使用明显不同的模型有什么好处吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

浪子阿飞

JK.Yang

人间不值得

静待花开

只涨不跌

污浊的双黑

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。