硅谷封面|控制AI之战:揭秘谷歌与DeepMind的爱恨情仇(15)
DeepMind很少提及的第二个警告是 , 虚拟环境中的成功取决于奖励功能的存在 , 这是允许软件衡量其进度的信号 。 该程序了解到 , 发射小球到方块上方的空间使其多次反弹能够使得分上升 。 DeepMind与AlphaGo合作的大部分工作是构建能与如此复杂的游戏兼容的奖励函数 。
不幸的是 , 现实世界并不提供简单的回报 , 进步很少用单一标准来衡量 。 即使在这些措施存在的地方 , 政治挑战也会使问题复杂化 。 将气候健康的奖励信号(大气中二氧化碳颗粒的数量)和石油公司的奖励信号(股价)相协调 , 需要满足许多互相矛盾的动机 。 奖励信号往往很弱 。 人脑在完成任务的过程中 , 很少会收到关于任务成功的明确反馈 。
DeepMind通过使用大量的计算机能力找到了解决这个问题的方法 。 AlphaGo需要数千年的人类游戏时间来学习任何东西 。 许多AI思想家怀疑 , 对于报酬较低的任务 , 这种解决方案是不可持续的 。 DeepMind承认存在这样的模棱两可之处 。 该公司最近专注于战略电脑游戏《星际争霸2》(StarCraft2) 。 在游戏早期做出的决定会在稍后产生影响 , 这更接近于许多现实世界任务所特有的那种令人费解和延迟的反馈 。
----硅谷封面|控制AI之战:揭秘谷歌与DeepMind的爱恨情仇//----江苏龙网 http://www.jiangsulong.com //
图7/7
今年1月 , DeepMind软件在一次演示中击败了世界上许多顶尖的人类游戏玩家 , 虽然受到了严重的限制 , 但其表现仍然令人印象深刻 。 DeepMind的软件也开始学习奖励功能 , 比如遵循人类监工的反馈 。 但是 , 将人类的指令放入循环中 , 可能会失去纯粹计算机处理所提供的规模和速度奖励 。
推荐阅读
- 大宅门|乔治娜晒纪录片封面,穿天鹅绒运动服,脚踩餐桌吃汉堡超霸气
- 郑秀妍|梦回2012?Jessica郑秀妍登《尼龙》封面,齐刘海造型吸睛
- 徐璐|徐璐“撞色封面”曝光,穿背心坐在箱子上摆拍,被指不优雅
- 易烊千玺|2021年度十佳封面竞争激烈,刘雯王一博易烊千玺霸榜,周迅挤进榜
- Vogue|打破东亚人历史登上美国《VOGUE》封面,全面开挂的她凭什么?
- 杂志|王俊凯入选杂志封面预告,成为唯一一位男明星,粉丝喊话外景惊艳
- 杂志|小贝儿子登亚洲杂志封面!长残了?网友:你丑你骄傲!
- 轻医美项目火热,95后是医美行业消费主力军|封面有数 | 主力军
- 王一博|王一博红包封面限量,卡崩了公众号,粉丝:对我们的实力一无所知!
- 秦霄贤|秦霄贤登上时尚杂志封面,一张肌肉照,让粉丝为之“疯狂”
