stable-baselines

stable-baselines

文章 0 浏览 1

StableBaselines3-为什么呼叫“ Model.Learn(50,000)”两次不与Called“ Model.Learn(100,000)”给出相同的结果。一次?

我正在研究稳定的baselines中的增强学习问题3。 我试图理解为什么此代码: model = MaskablePPO(MaskableActorCriticPolicy, env, verbose=1, learnin…

可可 2025-02-12 20:56:14 2 0

Pytorch-如何指定输入层?默认情况下包括吗?

我正在努力在稳定的Baselines中处理强化学习问题3,但我认为这对这个问题并不重要。 SB3基于Pytorch。 我有101个输入功能,即使我设计了一个神经体系…

潜移默化 2025-02-11 04:09:30 2 0

如何在自定义环境中培训RL代理?

我创建了一个自定义空间,该空间扩展了OpenAi Gym.space。我需要这个空间,因为我需要一个可总结一个值的动作空间。使用此功能,我可以扩大输出并满足…

阳光的暖冬 2025-02-10 13:46:58 4 0

使用稳定的基线创建自定义健身房环境模型时的错误3算法

我使用pygame对俄罗斯方块进行了编码,现在我正在尝试创建一个能够使用稳定的基线3播放它的代理。因此,我为游戏创建了一个健身房环境,其中observati…

—━☆沉默づ 2025-02-09 20:56:14 3 0

UNABEL加载PPO模型

您好,我已经从stabel_baselines3上培训了一个PPO模型3,我保存了它, model.save("model") 但是当我尝试加载它时,我会收到以下错误: m = PPO.load(…

攒眉千度 2025-02-08 10:35:09 3 0

火车稳定的基线3与示例?

对于我的学习算法的基本消除 我定义了一个自定义环境。 现在有了稳定基线的标准示例 似乎总是由稳定的基线自动启动 (通过稳定的baselines选择自己的…

我不会写诗 2025-02-08 06:27:50 5 0

在OpenAI健身环境中,15x15 NP阵列的正确观察形状是什么?

我正在创建一个健身房环境,它只能观察到15x15网格。网格最初用0填充,并且随着游戏的进行,内容的变化为0到255之间。有225个可能的操作,每个操作都…

小糖芽 2025-02-06 14:37:52 3 0

没有名为' stable_baseline3'即使将其安装在Google Colab中

我正在尝试在Google Colab中建立稳定的基本3。该文档通过Jupyter笔记本电脑连接到我的PC上的本地运行时。在我的PC上,我使用Anaconda安装了稳定的基线…

晨曦慕雪 2025-02-06 13:28:24 5 0

ValueError:给定的Numpy阵列中的至少一步是负的,目前不支持具有负相距的张量

我正在编写使用RL自动驾驶的代码。我正在使用稳定的基线3和开放的AI健身房环境。我在Jupyter笔记本中运行以下代码,这给我带来了以下错误: # Testing…

凉世弥音 2025-02-05 15:53:43 5 0

stable_baseline3 ppo get'get'流程以退出代码139完成。

我使用stable_baseline3.ppo训练在高速公路fast-v0上的代理(继续操作类型), 并找到调用ppo.learn()方法时,它被“以“出口代码139”完成的过程中…

旧伤慢歌 2025-02-04 04:09:04 6 0

稳定的基本3 ppo() - 如何在训练过程中更改clip_range参数?

在我的PPO模型中,我想逐渐减少clip_range(Epsilon,Epsilon,Exploration与剥削参数)。 我尝试简单地运行“ model.clip_range = new_value”,但这…

海拔太高太耀眼 2025-02-03 23:01:52 6 0

带有稳定的生物线和Pygame的弦乐加固学习

我正在尝试使用Pygame和稳定的冰淇淋来编写Ponggame AI。环境已经准备就绪。对于代理,IM使用自定义Envodation稳定 - 贝赛( https:/> https:/ /sta…

夏末的微笑 2025-02-02 19:20:35 5 0

为什么Model.Learn()返回numpy错误?

我正在尝试训练我的模型,这是体育馆中的突破性游戏。我正在尝试使用100000个时间段训练环境。但是,它不断返回此错误消息。有人可以解释为什么并帮助…

不奢求什么 2025-02-02 13:04:39 5 0

RL+优化:如何做得更好?

我正在学习如何使用强化学习来优化。我选择了最大匹配在bipartite中。 回想一下,图中的匹配是边缘的子集,其中没有两个边缘在同一节点/顶点上。目标…

清欢 2025-01-25 05:22:27 4 0

为什么在稳定的基线3中进行多处理较慢?

我以稳定基线3的多处理示例,一切都很好。 但是,当我尝试使用PPO而不是A3C,而BipedalWalker-V3而不是Cartpole-V1时,我会看到多处理模式下的性能较…

饮惑 2025-01-25 03:43:11 5 0
更多

推荐作者

882123719

文章 0 评论 0

朦胧时间

文章 0 评论 0

alipaysp_DQOPIT9H5Y

文章 0 评论 0

眼藏柔

文章 0 评论 0

微信用户

文章 0 评论 0

寻梦旅人

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文