在深度RL方法中,如果将学习率设置为1,那会发生什么?
如果我们将学习率设置为RL模型中的1, 则更新过程将非常慢, 代理商将始终获得较低的奖励, 新的Q值将始终是相同的 代理人不会考虑以前的经验来计算Q-…
Importerror:无法导入渲染' from' gym.envs.classic_control'
我正在与RL代理合作,并试图复制此 Paper ,在其中,他们根据健身房开设了自定义的跑酷环境,但是当试图渲染我遇到的环境时。 import numpy as np imp…
DQN型号(游戏:Atari Pongnoframeskip)不学习
我正在尝试实施乒乓球的DQN模型。但是,即使在大约1000集之后,它仍然像随机活动一样执行。 CNN培训似乎并不能改善代理。 这是我的主要代码: 我创建…
DQN模型无法正确显示预期的分数
我正在研究游戏“ Cartpole-V1”的DQN培训模型。在此模型中,系统没有提醒终端中的任何错误信息。但是,结果评估变得更糟。这是输出数据: episode: 8…
keras:attributeError:' adam'对象没有属性' name'
我想编译我的DQN代理,但我会发现错误: attributeError:'adam'对象没有属性'_name', DQN = buildAgent(model, actions) DQN.compile(Adam(lr=1e-3)…
体育馆报告我导入“ MSPACMAN-V4”时错误游戏(关于ROMS?)
我试图将“ MSPACMAN-V4”用作代理环境,但我的Python向我报告了以下消息。 gym.error.Error: We're Unable to find the game "MsPacman". Note: Gym …
具有N运动的最佳路径图算法
我有一个图表,每个路径都有唯一的奖励。例如,考虑以下图。 A: x => x*1 B: x => x-5 C: x => x*2 D: x => x/5 A / \ B --- C \ / D 考虑两条路径,…
是否有可能在A2C稳定的基线3中暴露重播缓冲液以包括人类的判断?
我正在使用 stable-baselines3 中的 A2C (Advantage Actor Critic) 框架 (包链接在这里)用于解决奖励为+1或0的强化问题的包。我有一个自动机制来将奖…
在出现异常值时,如何将数据标准化以进行增强学习?
Closed. This question is opinion-based. It is not currently accepting answers. 想要改进这个问题?更新问题,以便可以通过编辑这篇文章用事实和…
为什么 Stable-Baselines3valuate_policy() 函数永远无法完成?
我已经使用OpenAI健身房和稳定的Baselines创建了自己的自定义环境3。一旦训练了代理,我将尝试使用stable_baselines3.common.evaluation的estaiute_po…
演员评论家模型返回NAN的行动概率
我是 RL 新手,正在逐步了解 Actor Critic 的 Keras 实现。 作为它的一个变体,我正在尝试学习 WORDLE 的策略。然而,经过几次运行后,我的动作空间全…