微比恩 > 信息聚合 > 通用强化学习用算法发现算法:DeepMind 数据驱动「价值函数」自我更新,14款A…

通用强化学习用算法发现算法:DeepMind 数据驱动「价值函数」自我更新,14款A…

2020-07-27 13:24:05来源: 新浪科技

「深蓝」并非以智取胜,而是一个劳动密集型选手当「深蓝」在1997年击败国际象棋世界冠军卡斯帕罗夫时,人工智能似乎要来了。一台电脑击败了有史以来最聪明的国际象棋选手之一,很多人惊呼,电脑要超越人类了。然而事实并非如此,虽然「深蓝」是一段精心编制的程序,但这种方法过于劳动密集,过于依赖清晰的规则和有限的可能性,无法迁移到更复杂的游戏中,更不用说现实世界了。深度学习成功的关键在于算法基本上是自己编写的,给定数据集,他们从中学习到一些表征,所谓的算法就是这么出来的。而DeepMind 正在开发一种新的元学习算法来进一步实现自动化,这种算法能够从零开始发现自己的价值函数--深度强化学习中的一个关键编程规则。近日该论文发表在了arxiv上

关注公众号