在出现异常值时,如何将数据标准化以进行增强学习?
Closed. This question is opinion-based. It is not currently accepting answers. 想要改进这个问题?更新问题,以便可以通过编辑这篇文章用事实和…
为什么 Stable-Baselines3valuate_policy() 函数永远无法完成?
我已经使用OpenAI健身房和稳定的Baselines创建了自己的自定义环境3。一旦训练了代理,我将尝试使用stable_baselines3.common.evaluation的estaiute_po…
演员评论家模型返回NAN的行动概率
我是 RL 新手,正在逐步了解 Actor Critic 的 Keras 实现。 作为它的一个变体,我正在尝试学习 WORDLE 的策略。然而,经过几次运行后,我的动作空间全…
如何在 Python 中离散连续观察和动作空间?
我的教授要求我在 OpenAI 的 Pendulum-V1 健身房环境中应用策略迭代方法。 Pendulum-V1 有以下环境: 观测 类型:Box(3) Num Observation Min Max 0 c…
是否可以在不同的观察和行动空间进行演员评论的转移学习?
我一直在连续控制任务上尝试使用 SAC 和 TD3 等演员批评家网络,并尝试使用经过训练的网络进行迁移学习到另一个具有较小观察和动作空间的任务。 如果…
嵌套列表作为状态、元组作为动作的 Q 表表示
当我的状态是列表而操作是元组时,如何创建 Q 表? N = 3 的状态示例 [[1], [2], [3]] [[1], [2, 3]] [[1], [3, 2]] [[2], [3, 1]] [[1, 2, 3]] 这些…
尽管采取了随机操作,但乒乓球的平行环境仍处于同一状态
嗨,我正在尝试使用SubproveCenv运行8个平行的乒乓环境实例。我尝试使用随机操作测试状态过渡,但是在15个步骤(随机左或右操作)之后,所有环境的状…
具有连续动作空间的python策略梯度强化学习不起作用
我正在尝试学习一个代理来导航到我的自定义环境中的目标。 该代理正在使用神经网络(2 个隐藏的 Dense 层、1 个 dropout 层和 1 个维度为 4 的输出层…
Gym 中的 CarRacing-v0:运行环境时屏幕全黑
我正在尝试使用( https:/https:/https:/https:/ 。 它在每时每刻都采取的动作。 但是,显示并不是应该的(请参见 https://wwww.youtube.com/观…
无法进口ACME的Gym_wrapper,有什么解决方案吗?
导入acme成功,但找不到gym包装类 import acme from acme.wrappers import gym_wrapper 运行时出现错误消息 ModuleNotFoundError Traceback (most rec…
渲染 open-AIgym 时如何避免此错误(错误:显示 Surface quit)?
我正在尝试解决 AI 健身房中的山车问题,但是当我使用 env. render() 它第一次工作,但是当我在 2000 运行后尝试再次渲染模拟时,它给出了以下错误(…