reinforcement-learning

reinforcement-learning

文章 0 浏览 7

在出现异常值时,如何将数据标准化以进行增强学习?

Closed. This question is opinion-based. It is not currently accepting answers. 想要改进这个问题?更新问题,以便可以通过编辑这篇文章用事实和…

万劫不复 2025-01-20 14:22:33 5 0

如何使用基于规则的“专家”?用于模仿学习?

我目前正在训练 PPO 模型进行模拟。 PPO 模型无法理解某些条件将导致没有奖励。 这些导致没有奖励的条件是非常简单的规则。 我试图使用这些规则来创建…

烙印 2025-01-20 03:59:26 3 0

为什么 Stable-Baselines3valuate_policy() 函数永远无法完成?

我已经使用OpenAI健身房和稳定的Baselines创建了自己的自定义环境3。一旦训练了代理,我将尝试使用stable_baselines3.common.evaluation的estaiute_po…

爱殇璃 2025-01-20 01:05:52 6 0

演员评论家模型返回NAN的行动概率

我是 RL 新手,正在逐步了解 Actor Critic 的 Keras 实现。 作为它的一个变体,我正在尝试学习 WORDLE 的策略。然而,经过几次运行后,我的动作空间全…

墨离汐 2025-01-19 16:45:25 2 0

如何在 Python 中离散连续观察和动作空间?

我的教授要求我在 OpenAI 的 Pendulum-V1 健身房环境中应用策略迭代方法。 Pendulum-V1 有以下环境: 观测 类型:Box(3) Num Observation Min Max 0 c…

笨笨の傻瓜 2025-01-19 15:53:12 6 0

知识可以从深度学习模型转移到深度强化学习代理吗?

迁移学习最近在强化学习中得到了广泛的研究。然而,在文献中,大多数文章(我读过)都将知识从一个 RL 代理转移到另一个任务相似的 RL 代理。我的问题…

悲念泪 2025-01-19 06:17:14 4 0

是否可以在不同的观察和行动空间进行演员评论的转移学习?

我一直在连续控制任务上尝试使用 SAC 和 TD3 等演员批评家网络,并尝试使用经过训练的网络进行迁移学习到另一个具有较小观察和动作空间的任务。 如果…

甲如呢乙后呢 2025-01-19 02:02:08 3 0

嵌套列表作为状态、元组作为动作的 Q 表表示

当我的状态是列表而操作是元组时,如何创建 Q 表? N = 3 的状态示例 [[1], [2], [3]] [[1], [2, 3]] [[1], [3, 2]] [[2], [3, 1]] [[1, 2, 3]] 这些…

墨小沫ゞ 2025-01-19 00:28:05 3 0

将健身房转换为健身房。

我正在尝试通过Gym Openai的一些测试床实现Q学习算法,并试图转换一些空间,因为不同的环境具有不同的动作和观察空间。我知道包装纸的存在,但找不到…

人事已非 2025-01-18 17:11:34 4 0

尽管采取了随机操作,但乒乓球的平行环境仍处于同一状态

嗨,我正在尝试使用SubproveCenv运行8个平行的乒乓环境实例。我尝试使用随机操作测试状态过渡,但是在15个步骤(随机左或右操作)之后,所有环境的状…

记忆里有你的影子 2025-01-18 13:47:45 4 0

具有连续动作空间的python策略梯度强化学习不起作用

我正在尝试学习一个代理来导航到我的自定义环境中的目标。 该代理正在使用神经网络(2 个隐藏的 Dense 层、1 个 dropout 层和 1 个维度为 4 的输出层…

夏至、离别 2025-01-18 05:51:05 4 0

Gym 中的 CarRacing-v0:运行环境时屏幕全黑

我正在尝试使用( https:/https:/https:/https:/ 。 ​它在每时每刻都采取的动作。 但是,显示并不是应该的(请参见 https://wwww.youtube.com/观…

浅忆流年 2025-01-17 21:20:00 7 0

无法进口ACME的Gym_wrapper,有什么解决方案吗?

导入acme成功,但找不到gym包装类 import acme from acme.wrappers import gym_wrapper 运行时出现错误消息 ModuleNotFoundError Traceback (most rec…

薄荷港 2025-01-17 09:00:47 5 0

渲染 open-AIgym 时如何避免此错误(错误:显示 Surface quit)?

我正在尝试解决 AI 健身房中的山车问题,但是当我使用 env. render() 它第一次工作,但是当我在 2000 运行后尝试再次渲染模拟时,它给出了以下错误(…

逆流 2025-01-17 05:18:06 2 0

应该使用哪种OpenAIgym环境来解决最短路径问题?

我正在尝试使用强化学习来确定两个节点之间的最短路径。我不确定使用什么环境。我发现了这个特定环境并且不确定我是否走对了方向。任何人都可以帮忙吗…

陌上青苔 2025-01-17 04:42:42 2 0
更多

推荐作者

浪子阿飞

文章 0 评论 0

JK.Yang

文章 0 评论 0

人间不值得

文章 0 评论 0

静待花开

文章 0 评论 0

只涨不跌

文章 0 评论 0

污浊的双黑

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文