硅谷封面｜控制AI之战：揭秘谷歌与DeepMind的爱恨情仇(15) 划重点：1.《

DeepMind很少提及的第二个警告是，虚拟环境中的成功取决于奖励功能的存在，这是允许软件衡量其进度的信号。该程序了解到，发射小球到方块上方的空间使其多次反弹能够使得分上升。 DeepMind与AlphaGo合作的大部分工作是构建能与如此复杂的游戏兼容的奖励函数。

不幸的是，现实世界并不提供简单的回报，进步很少用单一标准来衡量。即使在这些措施存在的地方，政治挑战也会使问题复杂化。将气候健康的奖励信号(大气中二氧化碳颗粒的数量)和石油公司的奖励信号(股价)相协调，需要满足许多互相矛盾的动机。奖励信号往往很弱。人脑在完成任务的过程中，很少会收到关于任务成功的明确反馈。

DeepMind通过使用大量的计算机能力找到了解决这个问题的方法。 AlphaGo需要数千年的人类游戏时间来学习任何东西。许多AI思想家怀疑，对于报酬较低的任务，这种解决方案是不可持续的。 DeepMind承认存在这样的模棱两可之处。该公司最近专注于战略电脑游戏《星际争霸2》(StarCraft2) 。在游戏早期做出的决定会在稍后产生影响，这更接近于许多现实世界任务所特有的那种令人费解和延迟的反馈。