q-learning

q-learning

文章 0 浏览 3

ValueError:检查输入时的错误:预期Input_Input具有4个维度,但具有形状的数组(1,1,2)

I am trying to create a Flappy Bird AI with Convolutional Layers and Dense Layers, but at the "Train" step (Function fit()) I get the follow…

黑寡妇 2025-02-05 06:39:13 5 0

如何将功能施加到C中的结构中?

这是我在Stackoverflow上的第一篇文章,所以我希望格式会没事的。 我想将函数作为参数传递给另一个函数。为此,我声明了一个结构来描述功能。 但是,…

一场信仰旅途 2025-01-28 05:32:42 3 0

IS_Slippery参数如何影响Frozenlake环境中的奖励?

IS_Slippery参数如何影响Frozenlake环境中的奖励? Frozenlake环境具有一个名为IS_Slippery的参数,如果设置为true,则将以1/3的概率向预期方向移动,…

垂暮老矣 2025-01-20 06:33:10 5 0

嵌套列表作为状态、元组作为动作的 Q 表表示

当我的状态是列表而操作是元组时,如何创建 Q 表? N = 3 的状态示例 [[1], [2], [3]] [[1], [2, 3]] [[1], [3, 2]] [[2], [3, 1]] [[1, 2, 3]] 这些…

墨小沫ゞ 2025-01-19 00:28:05 3 0

将健身房转换为健身房。

我正在尝试通过Gym Openai的一些测试床实现Q学习算法,并试图转换一些空间,因为不同的环境具有不同的动作和观察空间。我知道包装纸的存在,但找不到…

人事已非 2025-01-18 17:11:34 4 0

让 Actor 和 Critic 使用明显不同的模型有什么好处吗?

在 Actor-Critic 方法中,Actor 和 Critic 被分配两个互补但不同的目标。我试图了解这些目标(更新策略和更新价值函数)之间的差异是否足够大,足以保…

天邊彩虹 2025-01-13 03:01:57 3 0

我的神经网络无法使用tensorflow.net和qlearning解决迷宫

我正在使用 TensorFlow 和 QLearning 练习神经网络。对于我的项目,我使用 C# 进行工作,以便稍后能够将我的程序迁移到 Unity 游戏引擎上。 我使用 Te…

小嗷兮 2025-01-10 13:29:55 6 0

强化学习示例

环境: 总共有 25 圈。 有两种类型的操作:构建 CS 和构建 CI。 目标: 找到使用专门的机器学习/强化学习给出的总圈数中可以构建的 CI(建筑物)的最…

小…楫夜泊 2025-01-10 10:43:23 4 0

Q-learning 和 SARSA 有什么区别?

虽然我知道 SARSA 是政策性的,而 Q-learning 是离策略,当查看他们的公式时,(对我来说)很难看出这两种算法之间的任何区别。 根据强化学习:简介(…

晌融 2024-11-27 00:47:38 9 0

如何学习马尔可夫决策过程中的奖励函数

在 Q-learning 期间更新 R(s) 函数的正确方法是什么?例如,假设代理访问状态 s1 五次,并收到奖励 [0,0,1,1,0]。我应该计算平均奖励,例如 R(s1) = s…

养猫人 2024-11-25 03:17:40 9 0
更多

推荐作者

882123719

文章 0 评论 0

朦胧时间

文章 0 评论 0

alipaysp_DQOPIT9H5Y

文章 0 评论 0

眼藏柔

文章 0 评论 0

微信用户

文章 0 评论 0

寻梦旅人

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文