Q学习算法-循环(吸收)状态上的收敛

发布于 2024-10-19 03:57:27 字数 502 浏览 0 评论 0原文

这个问题与Q-learning有关。

请考虑以下情况:

  1. 循环(吸收)状态 J-从 J 到 J 的奖励为 100(J 是最终状态 - 从 I 到 J 的奖励也是 100)
  2. gamma 值为 1
  3. alpha 值 0.5

说J 到 J 的转换已经得到了 100 的 Q 值。新的 Q 值由下式给出: 100+0.5(100+1(100)-100) 其中 Q(最大下一个可能状态) 是 100 就好像您处于状态 J 一样,要获得最大可能的下一个 Q 值,您将循环(因此最大下一个可能的 Q 值)值是当前值 - 100)。这给你一个新的 Q 值 150。由此得出一个逻辑结论,每次你在 J 上循环时,Q 值都会增加 50,并且该特定的 Q 值永远不会收敛,这对我来说似乎是错误的(这是错误的吗? )。(其他值涵盖)。我已经做过很多次这个实验了,但我仍然不确定。如果可以的话,请澄清上述观点。我们在大学里接受的 Q 学习教育非常糟糕,而且我有一周半的课程作业要交。

谢谢!

This question is to do with Q-learning.

Please consider the following:

  1. A loop(absorbing) state J- with reward 100 to go from J to J(J is the final state-the reward from going from I to J is also 100)
  2. gamma value of 1
  3. alpha value 0.5

say the transition J to J has already got a Q value of 100. The new Q value is given by:
100+0.5(100+1(100)-100) where Q(max next possible states) is 100 as if you are in state J, to get the max possible next Q value, you would loop(so the max next poss Q value is what it currently is-100). This gives you a new Q value of 150. Taking this to a logical conclusion,every time you loop on J, the Q value goes up by 50 and that particular Q value will never converge and this seems wrong to me(is this wrong?).(the others values coverge). I've done this experiment so many times already and am still unsure about this. Please clarify the above point if you can. We have been taught Q learning very badly at my university, and I have a coursework to hand in in a week and a half.

Thanks!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

此刻的回忆 2024-10-26 03:57:27

根据 维基百科,gamma 必须严格小于 1。

According to Wikipedia, gamma has to be strictly less than one.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文