reinforcement-learning

reinforcement-learning

文章 0 浏览 7

StableBaselines3-为什么呼叫“ Model.Learn(50,000)”两次不与Called“ Model.Learn(100,000)”给出相同的结果。一次?

我正在研究稳定的baselines中的增强学习问题3。 我试图理解为什么此代码: model = MaskablePPO(MaskableActorCriticPolicy, env, verbose=1, learnin…

可可 2025-02-12 20:56:14 2 0

GPU未在D3rlpy上使用

我是使用D3RLPY进行离线RL训练的新手,并使用Pytorch。因此,我按照 pytorch doc : pip> pip3安装torch torchvision torchvision torchvision torchv…

鹤仙姿 2025-02-12 08:47:10 3 0

可变的近邻居?

我正在尝试为给定的数据点找到一个近台面的邻居,然后在不重建整个NN数据库的情况下添加数据点,因为这太昂贵了。是否有任何有效的方法可以在不重建的…

蓝颜夕 2025-02-11 11:13:40 4 0

如何在自定义环境中培训RL代理?

我创建了一个自定义空间,该空间扩展了OpenAi Gym.space。我需要这个空间,因为我需要一个可总结一个值的动作空间。使用此功能,我可以扩大输出并满足…

阳光的暖冬 2025-02-10 13:46:58 4 0

在加强学习中需要帮助以奖励功能

我已经创建了一个用于人造自定义金融资产进行交易的RL(完成代码)。这是我的数据框(环境)由“近距离”价格和“音量”制成: loses = [] volumes = …

丢了幸福的猪 2025-02-10 09:23:56 4 0

使用稳定的基线创建自定义健身房环境模型时的错误3算法

我使用pygame对俄罗斯方块进行了编码,现在我正在尝试创建一个能够使用稳定的基线3播放它的代理。因此,我为游戏创建了一个健身房环境,其中observati…

—━☆沉默づ 2025-02-09 20:56:14 3 0

火车稳定的基线3与示例?

对于我的学习算法的基本消除 我定义了一个自定义环境。 现在有了稳定基线的标准示例 似乎总是由稳定的基线自动启动 (通过稳定的baselines选择自己的…

我不会写诗 2025-02-08 06:27:50 5 0

如何在演员评论家中找到真正的Q值和高估偏见

我试图在DDPG和TD3模型中绘制评论家的高估偏差。 因此,从本质上讲,有一个评论家和批评网络。 我想了解如何以真正的Q值找到评论家的高估偏见?以及如…

哆兒滾 2025-02-07 17:49:15 3 0

在健身房环境中动态增加观察空间

我正在尝试为蛇游戏建立动态的健身环境。随着分数自然而增加,蛇的长度会增加。为了模拟动态性,我将随着分数的增加而逐渐在游戏中添加障碍物(墙壁)…

凉城凉梦凉人心 2025-02-07 05:21:15 4 0

导入TF_AGENTS.ENVIRONMENT的问题

I get this error report: ... File "C:\Users\larsa\AppData\Local\Programs\Python\Python310\lib\site-packages\tensorflow_probability\python\in…

泅人 2025-02-06 17:46:30 3 0

如何使目标尺寸等于我的DQN代码中的输入大小?

大家!当我进行DQN编程时,我遇到了一些问题。这个错误说 “用户保证:使用目标大小(Torch.Size([32,32]))与输入大小不同(Torch.Size([32,1])…

人生戏 2025-02-05 18:23:33 5 0

ValueError:给定的Numpy阵列中的至少一步是负的,目前不支持具有负相距的张量

我正在编写使用RL自动驾驶的代码。我正在使用稳定的基线3和开放的AI健身房环境。我在Jupyter笔记本中运行以下代码,这给我带来了以下错误: # Testing…

凉世弥音 2025-02-05 15:53:43 5 0

加强学习中的状态定义

在为加强学习中的特定问题定义状态时,如何确定要包括的内容以及为定义留下什么,以及如何在观察和状态之间设置差异。 例如,假设代理商是在人力资源…

混浊又暗下来 2025-02-05 04:01:10 5 0

在Python过程之间进行交流

上下文: 使用 ” ),以及游戏的每个实例的一个驱动程序(4-8个实例), 我需要在控制器和驱动程序 速度之间发送数据(指令和状态)是关键,请考虑30…

韵柒 2025-02-04 16:37:48 4 0

目标函数(SA)和值函数(RL)有什么区别

在模拟退火(SA)中具有目标函数e(S)定义了从一个状态s转移到另一个s'的过渡概率。理想情况下,目标函数最小对应于最佳解决方案。 在强化学习(RL)…

策马西风 2025-02-04 12:29:11 4 0
更多

推荐作者

882123719

文章 0 评论 0

朦胧时间

文章 0 评论 0

alipaysp_DQOPIT9H5Y

文章 0 评论 0

眼藏柔

文章 0 评论 0

微信用户

文章 0 评论 0

寻梦旅人

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文