第 7 页 - reinforcement-learning

投稿关注

reinforcement-learning

文章 0 浏览 7

神经网络真的是废弃软件吗？

我计划使用神经网络来近似强化学习算法中的值函数。我想这样做是为了在我如何表示状态和行动方面引入一些概括性和灵活性。现在，在我看来，神经网络…

梦里南柯 2024-11-27 14:30:02 7 0

Q-learning 和 SARSA 有什么区别？

虽然我知道 SARSA 是政策性的，而 Q-learning 是离策略，当查看他们的公式时，（对我来说）很难看出这两种算法之间的任何区别。根据强化学习：简介（…

晌融 2024-11-27 00:47:38 10 0

如何学习马尔可夫决策过程中的奖励函数

在 Q-learning 期间更新 R(s) 函数的正确方法是什么？例如，假设代理访问状态 s1 五次，并收到奖励 [0,0,1,1,0]。我应该计算平均奖励，例如 R(s1) = s…

养猫人 2024-11-25 03:17:40 10 0

我什么时候应该使用支持向量机而不是人工神经网络？

我知道 SVM 被认为是“ANN 杀手”，因为它们会自动选择表示复杂性并找到全局最优值（请参阅此处了解一些信息） SVM 赞美名言）。但我不清楚的是——…

泪是无色的血 2024-11-19 21:17:54 8 0

如何训练人工神经网络使用视觉输入玩《暗黑破坏神 2》？

Closed. This question is not about programming or software development. It is not currently accepting answers. 这个问题似乎不是关于特定的编…

皓月长歌 2024-11-17 21:22:01 11 0

强化学习 - 优化给定分数的权重

我正在开发一个项目，该项目有一个模拟机器人，通过移动到预定义的“传感位置”来探索未知但有图案的环境（例如办公楼）。换句话说，在每个点，机器人…

丧 2024-10-25 23:41:58 10 0

Q学习算法-循环（吸收）状态上的收敛

这个问题与Q-learning有关。请考虑以下情况：循环（吸收）状态 J-从 J 到 J 的奖励为 100（J 是最终状态 - 从 I 到 J 的奖励也是 100） gamma 值为 …

对你再特殊 2024-10-19 03:57:27 8 0

减少强化学习中的马尔可夫状态数量

我开始尝试强化学习（使用萨顿的书）。我无法完全理解一方面必须减少马尔可夫状态空间，另一方面又不对什么重要和什么不做出假设之间的悖论。背景 …

记忆で 2024-10-17 11:22:38 16 0

寻找想法/参考/关键词：搜索算法的自适应参数控制（在线学习）

我正在寻找有关搜索算法参数（在线学习）的自适应参数控制的想法/经验/参考/关键字组合优化。更详细一点：我有一个框架，负责优化硬组合优化问题。…

鸠书 2024-10-04 03:41:10 14 0

有没有主动的强化学习竞赛？

我喜欢做强化学习方面的兼职研究。近年来（截至 2009 年）在 rl-competition.org 举办了一场强化学习竞赛一些非常有趣的问题，但这似乎已经停止了。我…

生生漫 2024-09-28 01:44:44 14 0

实施 HexQ 算法

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …

梦在深巷 2024-09-26 01:45:51 12 0

学习分层强化任务的结构

我一直在研究分层强化学习问题，虽然很多论文提出了学习策略的有趣方法，但它们似乎都假设他们事先知道描述域中动作的图结构。例如，MAXQ 方法Dietter…

窗影残 2024-09-24 17:12:56 17 0

强化学习玩具项目

我的学习和玩具项目应用强化学习是： - 代理尝试“安全”地达到目标状态“快点”...... - 但是有射弹和火箭会在途中向特工发射。 - 代理可以确定火箭…

空心空情空意 2024-09-01 13:47:18 12 0

强化学习和POMDP

我正在尝试使用多层神经网络在部分可观察马尔可夫过程中实现概率函数。我认为神经网络的输入将是：当前状态、选择的动作、结果状态；输出是 [0,1] …

感受沵的脚步 2024-08-31 04:04:24 18 0

QLearning 和永不停歇的剧集

假设我们有一个 (x,y) 平面，机器人可以在其中移动。现在我们将世界的中间定义为目标状态，这意味着一旦机器人达到该状态，我们将给予 100 的奖励。 …

不即不离 2024-08-13 17:09:35 15 0

共 8 页
上一页
4
5
6
7
8
下一页

狼性发作

文章 0 评论 0

关注

美煞众生

文章 0 评论 0

关注

黑凤梨

文章 0 评论 0

关注

慕巷

文章 0 评论 0

关注

virou

文章 0 评论 0

关注

两仪

文章 0 评论 0

友情链接

文江博客

reinforcement-learning

神经网络真的是废弃软件吗？

Q-learning 和 SARSA 有什么区别？

如何学习马尔可夫决策过程中的奖励函数

我什么时候应该使用支持向量机而不是人工神经网络？

如何训练人工神经网络使用视觉输入玩《暗黑破坏神 2》？

强化学习 - 优化给定分数的权重

Q学习算法-循环（吸收）状态上的收敛

减少强化学习中的马尔可夫状态数量

寻找想法/参考/关键词：搜索算法的自适应参数控制（在线学习）

有没有主动的强化学习竞赛？

实施 HexQ 算法

学习分层强化任务的结构

强化学习玩具项目

强化学习和POMDP

QLearning 和永不停歇的剧集

热门标签

推荐作者

狼性发作

美煞众生

黑凤梨

慕巷

virou

两仪

友情链接