如何理解看待 OpenAI 公布PPO算法？ _PPO算法

回答一:
TRPO得到的结果是PPO(tRustregionpolicyoptimization)类似的解决方案。TRPO规定解一个constrAInedoptimization(KLdivergence低于某个值)，而PPO则直接将constraints放入objective中。
在TRPO中，这个optimization需要使用conjugategradient的近似解决方案，并且需要规定constraint的二次导向KLdivergence，所以当问题很大时，它会花费大量的资源。而且PPO只需要一次导的信息，这样就大大节省了资源，可以应用到规模较大的问题上(自然需要添加一些细节，这样结果就不会和TRPO差太多了) 。Deepmind最近的一篇文章EmergenceofLocomotiotiotionBen(DPPO)）.
现在OpenAI已经把PPO当作默认算法，deepmind也在最近的几篇文章中使用过，所以我认为有什么问题可以深入加强学习，那就勇敢地使用这个算法吧。
Azure OpenAI 企业API接口开通申请：https://forms.office.com/r/7Y4wFaqAxV

文章插图
回答二：
事实上，PPO的本质应该是：
【如何理解看待 OpenAI 公布PPO算法？】对于likelihood-ratiopolicygradient算法，本质上是提高“好”样本的可能性，降低“差”样本的可能性。那普通的策略梯度是怎样的呢？这是关于一种取样，如果它的return恰好很高，那么它的可能性就会迅速增加，相反，如果return是负的，那么它的可能性就会迅速降低。这实际上是不稳定的，因为策略梯度方差本来就很大。所以，PPO从更新中忽略了这种样本。仅此而已。
回答三：
PPO算法这个太专业了，我尽量简单一点。
在加强学习算法的突破中，两个指标非常重要，一个是你能得到多少关于你最终改进的对策，另一个是你的样本效率。
第一个标准很容易理解，就是看你使用的最终效果。第二个标准的原因来自一个客观事实。互动获取数据往往非常昂贵。我们应该尽可能少地使用互动来实现可用的情况。PPO算法就是解决这些问题。
回答四：
OpenAI发布的PPO算法是一种基于概率的策略优化算法，它可以升级对策参数，以满足环境的变化。
它可以在更低的步骤中获得更多的利润，并更快地学习改变的环境。PPO算法可以帮助研究人员更好地了解机器人行为，帮助他们处理机器人行为控制问题。
也可用于无人驾驶、机器人操作、空中制导技术等机器人领域的任务。

如何理解看待 OpenAI 公布PPO算法？

推荐阅读

新华网■（新春走基层）一座山，一辈子——走进赣江源

文汇网|日本男演员三浦春马去世，年仅30岁，四天前还在更新微博

三月冬不拉|弹性贴合身体线条，彰显女神的光环，高腰牛仔裤穿得充满活力

孙悟空大闹天宫真实原因?孙悟空大闹天宫的结果是什么

晓娜说娱乐|家里的伙食不好自己出来抓鱼，爆笑GIF：这猫咪懂事了

新机发布|荣耀V40将于11月发布，OLED屏+天玑芯片，价格感人

手机中国因为它拥有玉一样的手感，雷军最喜欢的小米手机是它

全视观察|背地里却给头号对手送大礼，莫迪又被耍了？俄罗斯表面与印度交好

演技|大家来说说：刘晓庆有演技吗？

你知道电烤箱和微波炉有哪些区别吗

我的世界|“泥鳅挂钩”垂钓到底行不行？管理部门的意见来了！用意很明确

青蛙你的犀牛▲戴眼镜用纸巾包住手按柜员机，TVB小生黄浩然面对疫情做足准备

cnBeta|14小部件支持，iOS版Gmail应用获得iOS

默默说笑|跌到了5元卖出？为什么在股票投资中很少人能胜出？当你手中你的股票下跌时，请记住这10条经验一辈子牢记！散户炒股五条铁律，中国股民启示录：散户为什么总在10元的时候买入股票

央视新闻客户端|新疆卫健委：喀什新增137例无症状感染者，已启动一级响应

「联想」被淘汰的手机品牌，曾经的辉煌不复存在，使用过的用户已经奔三

这次机构改革中借调人员的去留问题

眼神|原创张泽群86岁母亲因脑梗无法说话，交流全靠眼神，从没看过儿子演出

『』拥有地面最快速度的猎豹，为什么被称为“猫科之耻”？

王一博|节目造型再次翻车！王一博裤子半提被指猥琐，裤子设计被吐槽