ValueError:检查输入时的错误:预期Input_Input具有4个维度,但具有形状的数组(1,1,2)
I am trying to create a Flappy Bird AI with Convolutional Layers and Dense Layers, but at the "Train" step (Function fit()) I get the follow…
IS_Slippery参数如何影响Frozenlake环境中的奖励?
IS_Slippery参数如何影响Frozenlake环境中的奖励? Frozenlake环境具有一个名为IS_Slippery的参数,如果设置为true,则将以1/3的概率向预期方向移动,…
嵌套列表作为状态、元组作为动作的 Q 表表示
当我的状态是列表而操作是元组时,如何创建 Q 表? N = 3 的状态示例 [[1], [2], [3]] [[1], [2, 3]] [[1], [3, 2]] [[2], [3, 1]] [[1, 2, 3]] 这些…
让 Actor 和 Critic 使用明显不同的模型有什么好处吗?
在 Actor-Critic 方法中,Actor 和 Critic 被分配两个互补但不同的目标。我试图了解这些目标(更新策略和更新价值函数)之间的差异是否足够大,足以保…
我的神经网络无法使用tensorflow.net和qlearning解决迷宫
我正在使用 TensorFlow 和 QLearning 练习神经网络。对于我的项目,我使用 C# 进行工作,以便稍后能够将我的程序迁移到 Unity 游戏引擎上。 我使用 Te…
Q-learning 和 SARSA 有什么区别?
虽然我知道 SARSA 是政策性的,而 Q-learning 是离策略,当查看他们的公式时,(对我来说)很难看出这两种算法之间的任何区别。 根据强化学习:简介(…
如何学习马尔可夫决策过程中的奖励函数
在 Q-learning 期间更新 R(s) 函数的正确方法是什么?例如,假设代理访问状态 s1 五次,并收到奖励 [0,0,1,1,0]。我应该计算平均奖励,例如 R(s1) = s…
- 共 1 页
- 1