微比恩 > 信息聚合 > 动态基准测试Dynabench已发布，Facebook想用人类来「审问」人工智能

动态基准测试Dynabench已发布，Facebook想用人类来「审问」人工智能

2020-10-09 14:00:06来源: 新浪科技

动态基准测试Dynabench已发布，Facebook想用人类来「审问」人工智能

图片地址：https://n.sinaimg.cn/sinakd20201009s/592/w296h296/20201009/3f5d-kaaxtfp0995326.jpg

人工智能在过去十年左右的巨大成功通常归功于大量的数据和计算能力，但是「基准测试」在推动进步方面也发挥着至关重要的作用。为了提高SOTA结果，研究人员需要一种方法来比较他们的模型与同行开发的模型的效果差异。准确的比较是验证新模型确实优于该领域现有模型的先决条件这个过程被称为「基准测试」，即Benchmark。研究人员可以利用人工智能进行对比测试，看看它到底有多先进。例如，ImageNet，一个由1400万张图像组成的公共数据集，为图像识别设定了目标。MNIST 在自然语言处理方面对手写数字识别和 GLUE (通用语言理解评估)做了同样的工作，导致了诸如 GPT-3这样的突破性语言模型的出现。基准测试已经越来越快地达到饱和，尤其是在自然语言处理(NLP)领域。虽然研究团队花了大约18年时间才在 MNIST 上取得了人类水平的表现，并在 ImageNet 上花了大约6年时间才超过人类，但在 GLUE 语言理解基准上只花了大约一年时间就

关注公众号

标签：人工智能 Facebook

提示：支持键盘“← →”键翻页

上一篇 AMD为什么想买赛灵思？黄仁勋大收购刺激了苏姿丰

下一篇 80后「量子鬼才」陆朝阳获美国物理学会量子计算奖，爱上物理源自潘建伟一次演讲

赞

你的鼓励是对作者的最大支持

相关阅读

LG电子据悉寻求与微软结成人工智能联盟2024-04-19 08:59:25
浪潮信息IPF24: 发展人工智能+，创新需要激发活力、拓展路径、加速落地2024-04-18 14:08:00
2024 年 10 款人工智能教育工具（学生和教师版)2024-04-17 17:34:43
三星推出其当前最快、专为人工智能应用优化的10.7Gbps LPDDR5X2024-04-17 10:00:00
Omdia：到 2028 年，亚洲和大洋洲的生成式人工智能 (AI) 软件收入将超过 180 亿美元2024-04-17 16:14:00
微软将向阿联酋人工智能公司G42投资15亿美元2024-04-16 17:49:00
可以互相交谈的人工智能来了2024-04-14 16:15:58
小米应用商店要求App不得默认勾选自动续费；xAI称Grok-1.5V将很快向早期测试者开放；北京联通人工智能算力中心正…2024-04-14 09:42:29
马斯克的人工智能初创公司xAI称Grok-1.5V将很快提供给早期测试者使用2024-04-13 15:27:43
香港数码港行政总裁郑松岩：重点打造人工智能生态，助力更多内地企业走向全球2024-04-13 17:39:58

热门排行榜

1日1周1月

免费发布分类信息

最新图片