当前位置：文江博客话题详情

machine-learning reinforcement-learning q-learning

如何学习马尔可夫决策过程中的奖励函数

发布于 2024-11-25 03:17:40 字数 460 浏览 9 评论 0原文

在 Q-learning 期间更新 R(s) 函数的正确方法是什么？例如，假设代理访问状态 s1 五次，并收到奖励 [0,0,1,1,0]。我应该计算平均奖励，例如 R(s1) = sum([0,0,1,1,0])/5？或者我应该使用移动平均线，为该状态收到的最新奖励值赋予更大的权重？我读过的大多数 Q 学习描述都将 R(s) 视为某种常数，并且似乎从未涵盖随着经验的积累，您如何随着时间的推移学习这个值。

编辑：我可能会将 Q-Learning 中的 R(s) 与中的 R(s,s') 混淆马尔可夫决策过程。问题仍然相似。学习 MDP 时，更新 R(s,s') 的最佳方法是什么？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

如果没有你 2024-12-02 03:17:40

Q-Learning 在贪婪策略下保持每个状态的动作平均值。它根据每对步骤的奖励来计算这些值。贪婪策略下的状态值等于最佳动作的值。 Q-Learning 的规范描述在强化学习：简介< /a>.

没有“最佳”更新方式，但 SARSA 是一个很好的默认方式。 SARSA 与 Q-Learning 类似，只不过它学习的是它遵循的策略，而不是贪婪策略。

回复收藏 0 原文

手心的海 2024-12-02 03:17:40

在标准的无模型强化学习（如 Q 学习）中，您不需要学习奖励函数。您学到的是价值函数或 q 值函数。奖励是通过与环境交互获得的，并且您可以估计状态-动作对随时间累积奖励的预期值（折扣）。

如果您使用基于模型的方法，情况会有所不同，您会尝试学习环境模型，即：转换和奖励函数。但 Q-learning 的情况并非如此。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

28 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

浪子阿飞

文章 0 评论 0

JK.Yang

文章 0 评论 0

人间不值得

文章 0 评论 0

静待花开

文章 0 评论 0

只涨不跌

文章 0 评论 0

污浊的双黑

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文