微比恩 > 信息聚合 > 动态基准测试Dynabench已发布,Facebook想用人类来「审问」人工智能

动态基准测试Dynabench已发布,Facebook想用人类来「审问」人工智能

2020-10-09 14:00:06来源: 新浪科技

人工智能在过去十年左右的巨大成功通常归功于大量的数据和计算能力,但是「基准测试」在推动进步方面也发挥着至关重要的作用。为了提高SOTA结果,研究人员需要一种方法来比较他们的模型与同行开发的模型的效果差异。准确的比较是验证新模型确实优于该领域现有模型的先决条件这个过程被称为「基准测试」,即Benchmark。研究人员可以利用人工智能进行对比测试,看看它到底有多先进。例如,ImageNet,一个由1400万张图像组成的公共数据集,为图像识别设定了目标。MNIST 在自然语言处理方面对手写数字识别和 GLUE (通用语言理解评估)做了同样的工作,导致了诸如 GPT-3这样的突破性语言模型的出现。基准测试已经越来越快地达到饱和,尤其是在自然语言处理(NLP)领域。虽然研究团队花了大约18年时间才在 MNIST 上取得了人类水平的表现,并在 ImageNet 上花了大约6年时间才超过人类,但在 GLUE 语言理解基准上只花了大约一年时间就

关注公众号