谷歌最近又推出了一个重磅的稀疏注意力模型:Big Bird。之前各种刷榜的BERT和它的各种衍生版本RoBERTa等,都是构建在Transformer基础上。这些模型的核心竞争力就是全注意力机制,但这种机制会产生序列长度的二次依赖,如果输入的token过长,会撑爆内存,而长文本摘要等任务中,BERT的512token,就显得有点捉襟见肘。二次依赖限制了BERTBERT中token的长度一般设置为512,这对普通的NLP任务来说足够了,但是想对一整篇文章或者一本书进行信息挖掘,也就是长文本任务,512的长度就有点短,把token长度变为1024的话,所需的计算量就会变成原来的4倍,对内存是很伤的。如果能把这个n^2的复杂度降下来,那么就能实现一个长距的上下文注意力机制,而不会把内存撑爆,这就是Big Bird要做的事。谷歌团队解决这个问题的方法,是引入一种全新的稀疏注意力机制:Big Bird。谷歌「大鸟」:稀疏注意力机制更省内存
谷歌NLP新模型「大鸟」突破BERT限制,稀疏注意力机制更省内存
2020-08-09 14:40:14来源: 新浪科技
关注公众号
赞
你的鼓励是对作者的最大支持
- 谷歌 2022 年向苹果支付 200 亿美元以作为 Safari 默认搜索引擎2024-05-02 08:12:53
- 谷歌搜索兴衰的背后:从技术驱动转向管理驱动2024-05-02 15:18:07
- 谷歌据悉在关键团队中裁员至少200人2024-05-02 08:13:00
- AI 预测蝴蝶效应?谷歌最新天气预报模型 SEEDS 登 Science 子刊2024-05-01 14:47:15
- 微软内部邮件泄密:为追赶谷歌 AI,巨额投资 OpenAI2024-05-01 22:49:59
- 谷歌 Pixel 8a 手机有望可选 128/256GB 存储空间版本,售 499 美元起2024-04-30 20:29:09
- 利用山寨谷歌 Chrome 浏览器传播,安全公司披露安卓平台勒索木马 Brokewell2024-04-30 19:08:01
- 谷歌 Pixel 8a 手机可选 128/256GB 存储空间版本,售 499 美元起2024-04-30 20:29:09
- 谷歌证实正进行内部裁员,影响 Python / Flutter / Dart 等团队 50 余名员工2024-04-30 21:42:19
- 推三阻四,谷歌第三方Cookie全面淘汰计划年内无望,对国内数字营销行业有何影响?2024-04-28 20:48:36
- 1巴菲特称其对 AI 一无所知,预计苹果到今年年底仍是其最大投资
- 2一季度仅欧洲市场收入增长,苹果抛出1100亿美元“安抚”投资者
- 3海信海外推出“三星画壁竞品”CanvasTV 艺术电视:4K 144Hz QLED 哑光面板,999 美元起
- 4HMD Rocky 4G 手机规格曝光:5000 毫安时电池、后置三摄
- 5特斯拉董事长敦促股东重新批准马斯克天价薪酬方案,价值 550 亿美元
- 6火遍全网的Jellycat,想赚体育迷的钱
- 7马来西亚将进一步优化中国游客入境程序
- 8AGI要闻:斯坦福李飞飞首次创业,瞄准“空间智能”;OpenAI下周发布搜索产品挑战谷歌|钛媒体AGI
- 9索尼 Xperia 1 VI /10 VI 手机更多官方渲染图曝光:保留 3.5mm 耳机孔、可选挂绳支架保护壳
- 10中国驻新加坡使馆:海外旅游放飞无人机需谨慎、飞行前应查阅法律法规