reinforcement-learning

reinforcement-learning

文章 0 浏览 2

寻找想法/参考/关键词:搜索算法的自适应参数控制(在线学习)

我正在寻找有关搜索算法参数(在线学习)的自适应参数控制的想法/经验/参考/关键字组合优化。 更详细一点: 我有一个框架,负责优化硬组合优化问题。…

鸠书 2024-10-04 03:41:10 1 0

有没有主动的强化学习竞赛?

我喜欢做强化学习方面的兼职研究。近年来(截至 2009 年)在 rl-competition.org 举办了一场强化学习竞赛一些非常有趣的问题,但这似乎已经停止了。我…

生生漫 2024-09-28 01:44:44 1 0

实施 HexQ 算法

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …

梦在深巷 2024-09-26 01:45:51 1 0

学习分层强化任务的结构

我一直在研究分层强化学习问题,虽然很多论文提出了学习策略的有趣方法,但它们似乎都假设他们事先知道描述域中动作的图结构。例如,MAXQ 方法Dietter…

窗影残 2024-09-24 17:12:56 0 0

强化学习玩具项目

我的学习和玩具项目应用强化学习是: - 代理尝试“安全”地达到目标状态“快点”...... - 但是有射弹和火箭会在途中向特工发射。 - 代理可以确定火箭…

空心空情空意 2024-09-01 13:47:18 3 0

强化学习和POMDP

我正在尝试使用多层神经网络在部分可观察马尔可夫过程中实现概率函数。 我认为神经网络的输入将是:当前状态、选择的动作、结果状态; 输出是 [0,1] …

感受沵的脚步 2024-08-31 04:04:24 4 0

QLearning 和永不停歇的剧集

假设我们有一个 (x,y) 平面,机器人可以在其中移动。现在我们将世界的中间定义为目标状态,这意味着一旦机器人达到该状态,我们将给予 100 的奖励。 …

不即不离 2024-08-13 17:09:35 2 0

循环神经网络与强化学习一起使用时有什么用途?

我确实知道具有反向传播的前馈多层神经网络与强化学习一起使用,以帮助它概括我们的代理所做的动作。也就是说,如果我们有一个很大的状态空间,我们可…

季末如歌 2024-08-12 07:33:48 5 0

改善 Q-Learning

我目前正在使用 Q-Learning 尝试教机器人如何在充满墙壁/障碍物的房间中移动。它必须从房间中的任何位置开始并到达目标状态(例如,可能是到达有门的…

天涯离梦残月幽梦 2024-08-11 23:11:47 3 0

如何利用神经网络解决“软”问题解决方案?

我正在考虑在我正在构建的太空射击游戏中使用神经网络为我的敌人提供动力,我想知道;当网络没有一组明确的良好输出时,如何训练神经网络?…

萌︼了一个春 2024-08-08 09:32:59 7 0

Q-Learning 的泛化函数

我必须使用 Q Learning 做一些工作,关于一个必须在房子周围移动家具的人(基本上就是这样)。如果房子足够小,我可以有一个代表行动/奖励的矩阵,但…

梦过后 2024-08-07 03:17:20 2 0

强化学习的良好实施?

对于一个人工智能类项目,我需要实现一个强化学习算法,该算法可以击败简单的俄罗斯方块游戏。 该游戏是用 Java 编写的,我们有源代码。 我了解强化学…

草莓味的萝莉 2024-07-17 02:25:41 4 0

我如何运行萨顿和巴顿的“强化学习”? Lisp 代码?

我最近读了很多关于强化学习的内容,我发现“强化学习:简介” 是一本出色的指南。 作者为许多工作示例提供了源代码,很有帮助。 在开始提问之前,我…

滴情不沾 2024-07-13 01:31:52 5 0
更多

推荐作者

qq_FjTq5B

文章 0 评论 0

18273202778

文章 0 评论 0

WordPress小学生

文章 0 评论 0

〃温暖了心ぐ

文章 0 评论 0

迷乱花海

文章 0 评论 0

niuniu

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文