Q学习算法-循环（吸收）状态上的收敛

发布于 2024-10-19 03:57:27 字数 502 浏览 8 评论 0原文

这个问题与Q-learning有关。

请考虑以下情况：

循环（吸收）状态 J-从 J 到 J 的奖励为 100（J 是最终状态 - 从 I 到 J 的奖励也是 100）
gamma 值为 1
alpha 值 0.5

说J 到 J 的转换已经得到了 100 的 Q 值。新的 Q 值由下式给出： 100+0.5(100+1(100)-100) 其中 Q(最大下一个可能状态) 是 100 就好像您处于状态 J 一样，要获得最大可能的下一个 Q 值，您将循环（因此最大下一个可能的 Q 值）值是当前值 - 100）。这给你一个新的 Q 值 150。由此得出一个逻辑结论，每次你在 J 上循环时，Q 值都会增加 50，并且该特定的 Q 值永远不会收敛，这对我来说似乎是错误的（这是错误的吗？）。（其他值涵盖）。我已经做过很多次这个实验了，但我仍然不确定。如果可以的话，请澄清上述观点。我们在大学里接受的 Q 学习教育非常糟糕，而且我有一周半的课程作业要交。

谢谢！

原文

分享到QQ

分享到微博