如何将矩阵中的元素重新定位到另一行中的随机空位置?
假设我有一个5*5矩阵。 [[1. 2. 3. 4. 5.] [0. 0. 0. 0. 0.] [0. 0. 0. 0. 0.] [0. 0. 0. 0. 0.] [0. 0. 0. 0. 0]] 例如: 我想获得“ 4”,但“ 5”…
如何真正在Ray(RLLIB)中制作动作掩盖?
1)目前尚不清楚如何使RLLIB中的动作掩盖比我们在示例中发现的要复杂。 This mask works good from example action_mask_model.py带有类TorchactionM…
为什么在稳定的基线3中进行多处理较慢?
我以稳定基线3的多处理示例,一切都很好。 但是,当我尝试使用PPO而不是A3C,而BipedalWalker-V3而不是Cartpole-V1时,我会看到多处理模式下的性能较…
在深度RL方法中,如果将学习率设置为1,那会发生什么?
如果我们将学习率设置为RL模型中的1, 则更新过程将非常慢, 代理商将始终获得较低的奖励, 新的Q值将始终是相同的 代理人不会考虑以前的经验来计算Q-…
Importerror:无法导入渲染' from' gym.envs.classic_control'
我正在与RL代理合作,并试图复制此 Paper ,在其中,他们根据健身房开设了自定义的跑酷环境,但是当试图渲染我遇到的环境时。 import numpy as np imp…
DQN型号(游戏:Atari Pongnoframeskip)不学习
我正在尝试实施乒乓球的DQN模型。但是,即使在大约1000集之后,它仍然像随机活动一样执行。 CNN培训似乎并不能改善代理。 这是我的主要代码: 我创建…
DQN模型无法正确显示预期的分数
我正在研究游戏“ Cartpole-V1”的DQN培训模型。在此模型中,系统没有提醒终端中的任何错误信息。但是,结果评估变得更糟。这是输出数据: episode: 8…
keras:attributeError:' adam'对象没有属性' name'
我想编译我的DQN代理,但我会发现错误: attributeError:'adam'对象没有属性'_name', DQN = buildAgent(model, actions) DQN.compile(Adam(lr=1e-3)…
体育馆报告我导入“ MSPACMAN-V4”时错误游戏(关于ROMS?)
我试图将“ MSPACMAN-V4”用作代理环境,但我的Python向我报告了以下消息。 gym.error.Error: We're Unable to find the game "MsPacman". Note: Gym …
具有N运动的最佳路径图算法
我有一个图表,每个路径都有唯一的奖励。例如,考虑以下图。 A: x => x*1 B: x => x-5 C: x => x*2 D: x => x/5 A / \ B --- C \ / D 考虑两条路径,…
是否有可能在A2C稳定的基线3中暴露重播缓冲液以包括人类的判断?
我正在使用 stable-baselines3 中的 A2C (Advantage Actor Critic) 框架 (包链接在这里)用于解决奖励为+1或0的强化问题的包。我有一个自动机制来将奖…