reinforcement-learning

reinforcement-learning

文章 0 浏览 7

stable_baseline3 ppo get'get'流程以退出代码139完成。

我使用stable_baseline3.ppo训练在高速公路fast-v0上的代理(继续操作类型), 并找到调用ppo.learn()方法时,它被“以“出口代码139”完成的过程中…

旧伤慢歌 2025-02-04 04:09:04 6 0

稳定的基本3 ppo() - 如何在训练过程中更改clip_range参数?

在我的PPO模型中,我想逐渐减少clip_range(Epsilon,Epsilon,Exploration与剥削参数)。 我尝试简单地运行“ model.clip_range = new_value”,但这…

海拔太高太耀眼 2025-02-03 23:01:52 6 0

.backward()在pytorch中尝试第二次通过图向后

def train_step(self, state, action, reward, next_state, game_over): state = torch.tensor(state, dtype=torch.float) next_state = torch.tensor…

无人问我粥可暖 2025-02-03 02:58:50 2 0

带有稳定的生物线和Pygame的弦乐加固学习

我正在尝试使用Pygame和稳定的冰淇淋来编写Ponggame AI。环境已经准备就绪。对于代理,IM使用自定义Envodation稳定 - 贝赛( https:/> https:/ /sta…

夏末的微笑 2025-02-02 19:20:35 5 0

如何将2D字符数组转换为Python中的图像?

我只是在训练一名强化学习代理以击败自己的Roguel-Game,这是我用标记地图并将其喂入多层感知者来训练他的。 该地图由一个2D字符组成(例如:'z'是僵…

归属感 2025-02-02 18:11:29 1 0

为什么Model.Learn()返回numpy错误?

我正在尝试训练我的模型,这是体育馆中的突破性游戏。我正在尝试使用100000个时间段训练环境。但是,它不断返回此错误消息。有人可以解释为什么并帮助…

不奢求什么 2025-02-02 13:04:39 5 0

Openai Gym 0.21.0- attributeError:模块'没有属性' goalenv'

我正在尝试以Openai Gym格式构建自定义环境。我构建了Env,并希望确保它与健身房格式兼容,因此使用Check_env()进行此操作。图像显示了我面对的错误…

恰似旧人归 2025-02-02 05:12:34 5 0

如何基于过去的数据优化变量,而没有任何已知的目标函数

我正在处理一个非线性优化问题,在这个问题中,我没有方程来仅处理过去的数据。 创建示例代码段与 import pandas as pd size = 100 min_d = 5 max_d =…

旧梦荧光笔 2025-02-02 02:22:32 5 0

卡拉斯特工训练需要太多时间

我是强化学习的新手,我已经建立了一个将两个输入输入其神经网络的代理(第一个输入是一个元组,带有两个代理当前位置的数字|第二个输入是一系列数字…

叫嚣ゝ 2025-02-02 02:09:01 4 0

Keras的可变输入和输出尺寸

在开始之前,我是Keras和机器学习的新手。我非常了解该理论,但是语法却少得多。 我正在尝试使用Keras建立一个增强学习神经网络。要解决的问题本质上…

荆棘i 2025-01-31 03:30:30 4 0

DDPG总是选择边界动作

IAM试图实现DDPG算法,该算法以8个值的状态和大小= 4的输出操作。 这些动作由[5,5,0,0]的下限,上限为[40,40,15,15]。 当我训练DDPG时,它总是选择其…

心的憧憬 2025-01-30 14:45:20 4 0

哪个深钢筋库与Pygame最有效

我正在寻找一个可以与自定义的Pygame环境配合使用的加固库。 非常感谢。 请不要结束我的问题;我已经研究了很长时间,但尚未找到解决方案。即使是单一…

想念有你 2025-01-27 20:34:53 2 0

TF代理在培训强化学习后为所有测试状态采取相同的措施

我正在尝试创建一个自定义的Pyenvironment,以使代理商学习最佳小时,以将通知发送给用户,以基于单击前7天发送的通知获得的奖励。 培训完成后,即使…

一抹苦笑 2025-01-27 17:12:03 7 0

深钢筋学习1步TD不融合

获得1步TD(时间差异)预测以与神经网络收敛的预测是否有一些技巧?该网络是使用Relu的简单馈送向前网络。我已经通过以下方式进行了网络来进行Q学习:…

盛夏已如深秋| 2025-01-27 16:11:17 7 0

如何在tf_agents中编写自定义策略

我想在TF_AGENTS中使用上下文强盗代理(线性刺激采样剂)。 我正在使用自定义环境,奖励延迟​​了3天。因此,用于训练,观察结果是从保存的历史表(3…

在巴黎塔顶看东京樱花 2025-01-26 04:19:03 6 0
更多

推荐作者

浪子阿飞

文章 0 评论 0

JK.Yang

文章 0 评论 0

人间不值得

文章 0 评论 0

静待花开

文章 0 评论 0

只涨不跌

文章 0 评论 0

污浊的双黑

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文