reinforcement-learning

reinforcement-learning

文章 0 浏览 7

如何将矩阵中的元素重新定位到另一行中的随机空位置?

假设我有一个5*5矩阵。 [[1. 2. 3. 4. 5.] [0. 0. 0. 0. 0.] [0. 0. 0. 0. 0.] [0. 0. 0. 0. 0.] [0. 0. 0. 0. 0]] 例如: 我想获得“ 4”,但“ 5”…

一城柳絮吹成雪 2025-01-25 12:06:33 2 0

RL+优化:如何做得更好?

我正在学习如何使用强化学习来优化。我选择了最大匹配在bipartite中。 回想一下,图中的匹配是边缘的子集,其中没有两个边缘在同一节点/顶点上。目标…

清欢 2025-01-25 05:22:27 5 0

如何真正在Ray(RLLIB)中制作动作掩盖?

1)目前尚不清楚如何使RLLIB中的动作掩盖比我们在示例中发现的要复杂。 This mask works good from example action_mask_model.py带有类TorchactionM…

画骨成沙 2025-01-25 04:25:59 4 0

为什么在稳定的基线3中进行多处理较慢?

我以稳定基线3的多处理示例,一切都很好。 但是,当我尝试使用PPO而不是A3C,而BipedalWalker-V3而不是Cartpole-V1时,我会看到多处理模式下的性能较…

饮惑 2025-01-25 03:43:11 5 0

在深度RL方法中,如果将学习率设置为1,那会发生什么?

如果我们将学习率设置为RL模型中的1, 则更新过程将非常慢, 代理商将始终获得较低的奖励, 新的Q值将始终是相同的 代理人不会考虑以前的经验来计算Q-…

拥醉 2025-01-24 15:30:41 2 0

是否有使用强化学习进行多标签文本分类的示例?

我有一个标记的数据集,我将开发一个用于多标签分类问题的分类器(例如:5标签)。我已经开发了Bert和CNN,但是我想知道是否也可以将RL用于文本分类。…

旧人哭 2025-01-24 10:40:14 4 0

Importerror:无法导入渲染' from' gym.envs.classic_control'

我正在与RL代理合作,并试图复制此 Paper ,在其中,他们根据健身房开设了自定义的跑酷环境,但是当试图渲染我遇到的环境时。 import numpy as np imp…

爱,才寂寞 2025-01-23 19:06:35 5 0

DQN型号(游戏:Atari Pongnoframeskip)不学习

我正在尝试实施乒乓球的DQN模型。但是,即使在大约1000集之后,它仍然像随机活动一样执行。 CNN培训似乎并不能改善代理。 这是我的主要代码: 我创建…

小伙你站住 2025-01-22 20:27:55 8 0

增强学习中的多维动作空间

我的目标是培训目前采取两项行动的代理商(船)。 1。选择它的标题角度(接下来要去哪里)和2。选择它是加速度(如果它会改变速度)。 但是,似乎我无…

南风几经秋 2025-01-21 18:44:20 3 0

DQN模型无法正确显示预期的分数

我正在研究游戏“ Cartpole-V1”的DQN培训模型。在此模型中,系统没有提醒终端中的任何错误信息。但是,结果评估变得更糟。这是输出数据: episode: 8…

指尖凝香 2025-01-21 18:39:20 5 0

keras:attributeError:' adam'对象没有属性' name'

我想编译我的DQN代理,但我会发现错误: attributeError:'adam'对象没有属性'_name', DQN = buildAgent(model, actions) DQN.compile(Adam(lr=1e-3)…

看春风乍起 2025-01-21 17:46:15 4 0

体育馆报告我导入“ MSPACMAN-V4”时错误游戏(关于ROMS?)

我试图将“ MSPACMAN-V4”用作代理环境,但我的Python向我报告了以下消息。 gym.error.Error: We're Unable to find the game "MsPacman". Note: Gym …

溺ぐ爱和你が 2025-01-21 17:19:09 5 0

具有N运动的最佳路径图算法

我有一个图表,每个路径都有唯一的奖励。例如,考虑以下图。 A: x => x*1 B: x => x-5 C: x => x*2 D: x => x/5 A / \ B --- C \ / D 考虑两条路径,…

回首观望 2025-01-21 15:03:42 3 0

是否有可能在A2C稳定的基线3中暴露重播缓冲液以包括人类的判断?

我正在使用 stable-baselines3 中的 A2C (Advantage Actor Critic) 框架 (包链接在这里)用于解决奖励为+1或0的强化问题的包。我有一个自动机制来将奖…

帝王念 2025-01-20 23:20:08 4 0

在apache Spark上实现RL算法

我想在 Apache Spark 上运行 RL 算法。然而,Spark 的 MLib 中不存在 RL。 可以实施吗?任何链接都可能有帮助。 先感谢您…

别低头,皇冠会掉 2025-01-20 14:36:23 3 0
更多

推荐作者

浪子阿飞

文章 0 评论 0

JK.Yang

文章 0 评论 0

人间不值得

文章 0 评论 0

静待花开

文章 0 评论 0

只涨不跌

文章 0 评论 0

污浊的双黑

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文