reinforcement-learning

reinforcement-learning

文章 0 浏览 6

在深度RL方法中,如果将学习率设置为1,那会发生什么?

如果我们将学习率设置为RL模型中的1, 则更新过程将非常慢, 代理商将始终获得较低的奖励, 新的Q值将始终是相同的 代理人不会考虑以前的经验来计算Q-…

拥醉 2025-01-24 15:30:41 0 0

是否有使用强化学习进行多标签文本分类的示例?

我有一个标记的数据集,我将开发一个用于多标签分类问题的分类器(例如:5标签)。我已经开发了Bert和CNN,但是我想知道是否也可以将RL用于文本分类。…

旧人哭 2025-01-24 10:40:14 0 0

Importerror:无法导入渲染' from' gym.envs.classic_control'

我正在与RL代理合作,并试图复制此 Paper ,在其中,他们根据健身房开设了自定义的跑酷环境,但是当试图渲染我遇到的环境时。 import numpy as np imp…

爱,才寂寞 2025-01-23 19:06:35 0 0

DQN型号(游戏:Atari Pongnoframeskip)不学习

我正在尝试实施乒乓球的DQN模型。但是,即使在大约1000集之后,它仍然像随机活动一样执行。 CNN培训似乎并不能改善代理。 这是我的主要代码: 我创建…

小伙你站住 2025-01-22 20:27:55 0 0

增强学习中的多维动作空间

我的目标是培训目前采取两项行动的代理商(船)。 1。选择它的标题角度(接下来要去哪里)和2。选择它是加速度(如果它会改变速度)。 但是,似乎我无…

南风几经秋 2025-01-21 18:44:20 1 0

DQN模型无法正确显示预期的分数

我正在研究游戏“ Cartpole-V1”的DQN培训模型。在此模型中,系统没有提醒终端中的任何错误信息。但是,结果评估变得更糟。这是输出数据: episode: 8…

指尖凝香 2025-01-21 18:39:20 0 0

keras:attributeError:' adam'对象没有属性' name'

我想编译我的DQN代理,但我会发现错误: attributeError:'adam'对象没有属性'_name', DQN = buildAgent(model, actions) DQN.compile(Adam(lr=1e-3)…

看春风乍起 2025-01-21 17:46:15 0 0

体育馆报告我导入“ MSPACMAN-V4”时错误游戏(关于ROMS?)

我试图将“ MSPACMAN-V4”用作代理环境,但我的Python向我报告了以下消息。 gym.error.Error: We're Unable to find the game "MsPacman". Note: Gym …

溺ぐ爱和你が 2025-01-21 17:19:09 0 0

具有N运动的最佳路径图算法

我有一个图表,每个路径都有唯一的奖励。例如,考虑以下图。 A: x => x*1 B: x => x-5 C: x => x*2 D: x => x/5 A / \ B --- C \ / D 考虑两条路径,…

回首观望 2025-01-21 15:03:42 0 0

是否有可能在A2C稳定的基线3中暴露重播缓冲液以包括人类的判断?

我正在使用 stable-baselines3 中的 A2C (Advantage Actor Critic) 框架 (包链接在这里)用于解决奖励为+1或0的强化问题的包。我有一个自动机制来将奖…

帝王念 2025-01-20 23:20:08 0 0

在apache Spark上实现RL算法

我想在 Apache Spark 上运行 RL 算法。然而,Spark 的 MLib 中不存在 RL。 可以实施吗?任何链接都可能有帮助。 先感谢您…

别低头,皇冠会掉 2025-01-20 14:36:23 0 0

在出现异常值时,如何将数据标准化以进行增强学习?

Closed. This question is opinion-based. It is not currently accepting answers. 想要改进这个问题?更新问题,以便可以通过编辑这篇文章用事实和…

万劫不复 2025-01-20 14:22:33 1 0

如何使用基于规则的“专家”?用于模仿学习?

我目前正在训练 PPO 模型进行模拟。 PPO 模型无法理解某些条件将导致没有奖励。 这些导致没有奖励的条件是非常简单的规则。 我试图使用这些规则来创建…

烙印 2025-01-20 03:59:26 0 0

为什么 Stable-Baselines3valuate_policy() 函数永远无法完成?

我已经使用OpenAI健身房和稳定的Baselines创建了自己的自定义环境3。一旦训练了代理,我将尝试使用stable_baselines3.common.evaluation的estaiute_po…

爱殇璃 2025-01-20 01:05:52 0 0

演员评论家模型返回NAN的行动概率

我是 RL 新手,正在逐步了解 Actor Critic 的 Keras 实现。 作为它的一个变体,我正在尝试学习 WORDLE 的策略。然而,经过几次运行后,我的动作空间全…

墨离汐 2025-01-19 16:45:25 0 0
更多

推荐作者

尘曦

文章 0 评论 0

善良天后

文章 0 评论 0

韬韬不绝

文章 0 评论 0

qq_CgiN62

文章 0 评论 0

不美如何

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文