玩游戏胜过人类：全新增强学习算法，或助AI向真正智能学习体进化-微比恩

图片地址：https://images.tmtpost.com/uploads/images/2021/02/0028e5de3f17371ad31797baff1af648_1614242075.jpeg

图片来源@视觉中国文丨学术头条近年来，人工智能（AI）在强化学习算法的加持下，取得了令人瞩目的成就。比如在围棋、星际争霸 II 和 Dota 2 等诸多策略、竞技类游戏中，AI 都有着世界冠军级的表现，以及在机器人跑步、跳跃和抓握等技能的自主学习方面，也起到了显著的推动作用。如今，AI 可能要变得更 “聪明” 了。作为机器学习的一大关键领域，强化学习侧重如何基于环境而行动，其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。但是，这种算法思路有着明显的短板：许多成功案例都要通过精心设计、信息量大的奖励机制才能实现，当遇到很少给予反馈的复杂环境时，强化学习算法就很容易碰壁。因此，过往的 AI 难以解决探索困难（hard-exploration）的问题，这类问题通常伴随着奖励稀疏（sparse）且会有欺骗性（deceptive）