返回介绍

数学基础

统计学习

深度学习

工具

Scala

一、PPO [2017]

发布于 2023-07-17 23:38:23 字数 1447 浏览 0 评论 0 收藏 0

  1. 近年来,人们提出了几种不同的方法从而用神经网络函数近似器来进行强化学习。领先的竞争者是 deep Q-learning《Human-level control through deep reinforcement learning》)、平凡的策略梯度policy gradient方法(《Asynchronous methods for deep reinforcement learning》),以及 trust region / natural 策略梯度方法(《Trust region policy optimization》)。然而,在开发一种 scalable (用于大型模型和并行实现)、数据高效和鲁棒(无需超参数调优即可在各种问题上取得成功)的方法方面仍有改进空间:

    • Q-learning (带 function approximation )在许多简单的问题上都失败了,而且人们对其理解不深。
    • 平凡的策略梯度方法的数据效率和鲁棒性很差。
    • trust region policy optimization: TRPO 相对复杂,而且与包含噪声(如 dropout )或参数共享(在策略函数和价值函数之间参数共享、或与辅助任务之间参数共享)的架构不兼容。

    论文 《Proximal Policy Optimization Algorithms》 试图通过引入一种算法来改善目前的状况,这种算法可以达到 TRPO 的数据效率和可靠性能,同时只使用一阶优化first-order optimization 。论文提出了一个具有 clipped probability ratio 的新目标,它形成了对策略性能的悲观估计(即,下限)。为了优化策略,作者在来自策略的数据采样、以及对被采样的数据进行若干个 epoch 的优化之间交替进行。

    论文的实验比较了各种不同版本的代理目标 surrogate objective 的性能,发现具有 clipped probability ratio 的版本表现最好。论文还将 PPO 与之前文献中的几种算法进行了比较:

    • continuous control 任务上,PPObaseline 算法表现得更好。
    • Atari 任务上,PPO 的表现(就样本复杂度而言)明显优于 A2C ,与ACER 相似,但是 PPO 要简单得多。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文