是否有可能在A2C稳定的基线3中暴露重播缓冲液以包括人类的判断?
我正在使用 stable-baselines3 中的 A2C (Advantage Actor Critic) 框架 (包链接在这里)用于解决奖励为+1或0的强化问题的包。我有一个自动机制来将奖…
属性错误:“框”对象没有属性“形状”;在科拉布
我厌倦了在 colab 中使用 stable-baselines3 加载模型,使用以下代码: !pip install stable-baselines3[extra] from stable_baselines3 import DQN f…
为什么 Stable-Baselines3valuate_policy() 函数永远无法完成?
我已经使用OpenAI健身房和稳定的Baselines创建了自己的自定义环境3。一旦训练了代理,我将尝试使用stable_baselines3.common.evaluation的estaiute_po…
错误运行模型在本地机器上训练
我使用Lambda Labs Cloud Service的GPU实例培训了增强学习模型。我用于培训的库是Stable_baselines3。 当我尝试在本地计算机上运行模型时,我会收到以…
StableBaselines-3 DDPG + HER 多重处理
我正在阅读有关 HER 的文档以及 stable-baselines3 网站中有关多重处理的文档 但是,当我尝试训练时,它会抛出错误! 有没有使用 replay_buffer 进行…
无法以数组形状分配内存来创建强化学习模型
我正在尝试为 mario 环境创建 DQN 模型。但是当我尝试创建模型时,它给了我这个错误: 内存错误:无法为形状为 (1000000, 1, 4, 240, 256) 和数据类型…
stable_baselines模块错误-> “gym.logger”没有属性“MIN_LEVEL”
我正在尝试使用 stable_baselines,但我尝试使用的任何模型都会给我带来相同的错误: 模块“gym.logger”没有属性“MIN_LEVEL” 我已从他们的网站附加…
重新训练 PPO1 模型以及将 Ternsorflow 与 SB2 一起使用时出现问题
我是稳定基线和 RL 的新手。我想做的是: 从计算机加载之前训练过的模型,然后从上次训练结束的位置开始重新训练它。为此,我在policy_fn()中加载之前…
如何让强化学习同时从多个状态-动作对中学习?
我用的是稳定基线3。SB3中的model.learn函数是根据状态生成一个动作,然后获得奖励,然后训练模型。但是,如果我有多个由(旧)模型生成的状态-动作-…