硅谷封面|控制AI之战:揭秘谷歌与DeepMind的爱恨情仇(15)

DeepMind很少提及的第二个警告是 , 虚拟环境中的成功取决于奖励功能的存在 , 这是允许软件衡量其进度的信号 。 该程序了解到 , 发射小球到方块上方的空间使其多次反弹能够使得分上升 。 DeepMind与AlphaGo合作的大部分工作是构建能与如此复杂的游戏兼容的奖励函数 。

不幸的是 , 现实世界并不提供简单的回报 , 进步很少用单一标准来衡量 。 即使在这些措施存在的地方 , 政治挑战也会使问题复杂化 。 将气候健康的奖励信号(大气中二氧化碳颗粒的数量)和石油公司的奖励信号(股价)相协调 , 需要满足许多互相矛盾的动机 。 奖励信号往往很弱 。 人脑在完成任务的过程中 , 很少会收到关于任务成功的明确反馈 。

DeepMind通过使用大量的计算机能力找到了解决这个问题的方法 。 AlphaGo需要数千年的人类游戏时间来学习任何东西 。 许多AI思想家怀疑 , 对于报酬较低的任务 , 这种解决方案是不可持续的 。 DeepMind承认存在这样的模棱两可之处 。 该公司最近专注于战略电脑游戏《星际争霸2》(StarCraft2) 。 在游戏早期做出的决定会在稍后产生影响 , 这更接近于许多现实世界任务所特有的那种令人费解和延迟的反馈 。

硅谷封面|控制AI之战:揭秘谷歌与DeepMind的爱恨情仇

----硅谷封面|控制AI之战:揭秘谷歌与DeepMind的爱恨情仇//----江苏龙网 http://www.jiangsulong.com //

图7/7

今年1月 , DeepMind软件在一次演示中击败了世界上许多顶尖的人类游戏玩家 , 虽然受到了严重的限制 , 但其表现仍然令人印象深刻 。 DeepMind的软件也开始学习奖励功能 , 比如遵循人类监工的反馈 。 但是 , 将人类的指令放入循环中 , 可能会失去纯粹计算机处理所提供的规模和速度奖励 。


推荐阅读