当前位置：文江博客话题详情

火车稳定的基线3与示例？

发布于 2025-02-08 06:27:50 字数 698 浏览 5 评论 0原文

对于我的学习算法的基本消除我定义了一个自定义环境。现在有了稳定基线的标准示例似乎总是由稳定的基线自动启动（通过稳定的baselines选择自己的随机行动并评估奖励）。标准学习似乎是这样完成的：

model.Learn（total_timesteps = 10000）

，这将尝试不同的操作并优化动作观察的关系学习。

我想尝试一种非常基本的方法：对于我的自定义环境，我会尝试生成示例列表，应根据某些操作采取哪些操作相关性的情况（因此有预定义的观察行动奖励列表）。

我想通过此列表训练模型。

使用StableBaselines实施此操作的最合适的方法是什么3 （使用pytorch）？

附加信息：也许可以将问题的感觉与Atari游戏的想法进行比较，而不是一次训练整个游戏序列（从游戏开始到结尾，然后再次重新启动直到训练结束），而是要训练只有某些更具体的代表性情况的代理人。或国际象棋：让代理商似乎是一个巨大的区别选择随机选择或随机选择的移动或让他遵循大师们特别有趣的举动情况。

也许可以将清单作为环境反应的主要部分（例如然后用环境2进行训练，例如1000步，依此类推）。这可能是一个解决方案。

但是问题是，稳定的基线会选择动作自己，使其无法学习完整的顺序按顺序选择“正确”或类似的象棋精心选择的步骤。

因此，实际的问题是：可能是可能的，在训练/学习时，带来稳定的底贝林而不是自我选择的行动，重要的是要训练预定义的动作吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

俯瞰星空 2025-02-15 06:27:50

模仿学习本质上是您想要的。有一个模仿位于基准顶部的库您可以用来实现这一目标。

请参阅此

回复收藏 0 原文

~没有更多了~

关于作者

我不会写诗

暂无简介

文章

26 人气

关注发私信

浪子阿飞

文章 0 评论 0

关注

JK.Yang

文章 0 评论 0

关注

人间不值得

文章 0 评论 0

关注

静待花开

文章 0 评论 0

关注

只涨不跌

文章 0 评论 0

关注

污浊的双黑

文章 0 评论 0

友情链接

文江博客

火车稳定的基线3与示例？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者