Q-learning 和 SARSA 有什么区别?
虽然我知道 SARSA 是政策性的,而 Q-learning 是离策略,当查看他们的公式时,(对我来说)很难看出这两种算法之间的任何区别。 根据强化学习:简介(…
如何学习马尔可夫决策过程中的奖励函数
在 Q-learning 期间更新 R(s) 函数的正确方法是什么?例如,假设代理访问状态 s1 五次,并收到奖励 [0,0,1,1,0]。我应该计算平均奖励,例如 R(s1) = s…
我什么时候应该使用支持向量机而不是人工神经网络?
我知道 SVM 被认为是“ANN 杀手”,因为它们会自动选择表示复杂性并找到全局最优值(请参阅此处了解一些信息) SVM 赞美名言)。 但我不清楚的是——…
如何训练人工神经网络使用视觉输入玩《暗黑破坏神 2》?
Closed. This question is not about programming or software development. It is not currently accepting answers. 这个问题似乎不是关于特定的编…
Q学习算法-循环(吸收)状态上的收敛
这个问题与Q-learning有关。 请考虑以下情况: 循环(吸收)状态 J-从 J 到 J 的奖励为 100(J 是最终状态 - 从 I 到 J 的奖励也是 100) gamma 值为 …
寻找想法/参考/关键词:搜索算法的自适应参数控制(在线学习)
我正在寻找有关搜索算法参数(在线学习)的自适应参数控制的想法/经验/参考/关键字组合优化。 更详细一点: 我有一个框架,负责优化硬组合优化问题。…
实施 HexQ 算法
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …