微比恩 > 信息聚合 > 不拆分单词也可以做 NLP，哈工大最新模型在多项任务中打败 BERT，还能直接训练中文

不拆分单词也可以做 NLP，哈工大最新模型在多项任务中打败 BERT，还能直接训练中文

2022-03-05 15:13:16来源: IT之家

不拆分单词也可以做 NLP，哈工大最新模型在多项任务中打败 BERT，还能直接训练中文

图片地址：https://img.ithome.com/newsuploadfiles/2022/3/8727675e-56b2-4721-b459-7dd9aa5a7365.jpg

众所周知，BERT 在预训练时会对某些单词进行拆分（术语叫做“WordPiece”）。比如把“loved”、“loving”和“loves”拆分成“lov”、“ed”、“ing”和”es”。目的是缩减词表、加快训练速度，但这样一来，在某些时候反而会阻碍模型的理解能力。比如把”lossless”分成”loss”和”less”的时候。现在，来自哈工大和腾讯 AI Lab 的研究人员，尝试利用不做单词拆分的词汇表开发了一个 BERT 风格的预训练模型 ——WordBERT。结果，这个 WordBERT 在完形填空测试和机器阅读理解方面的成绩相比 BERT 有了很大提高。在其他 NLP 任务，比如词性标注 (POS-Tagging)、组块分析 (Chunking) 和命名实体识别 (NER) 中，WordBERT 的表现也都优于 BERT。由于不用分词，这个 WordBERT 还可以直接进行中文训练。更值得一提的是，它在性能

关注公众号

提示：支持键盘“← →”键翻页

上一篇一箭七星，长征二号丙火箭成功发射“暄铭星愿”等多个商业卫星

下一篇上海海思：2022 年全国大学生嵌入式芯片与系统设计竞赛启动报名

赞

你的鼓励是对作者的最大支持

相关阅读

英特尔 i7-12650HX 曝光：14 核 20 线程，55W 基础功耗2022-03-05 15:19:02
realme V25 首销战报：相比 V15 同比增长 677%，V 系列整体销量突破 460 万2022-03-05 15:28:04
雷蛇发布猎魂光蛛模拟光轴迷你版机械键盘，1199 元2022-03-05 15:34:53
TP-LINK 今晚举行“史上最具爆点”发布会，4 大领域 20 类新品2022-03-05 15:44:58
国资委：在集成电路等领域加大重要产品和关键核心技术攻关力度2022-03-05 16:04:10
realme Book 增强版 Air 新增「天空青」版本，4299 元起2022-03-05 16:09:54
华为与土耳其电信签署 5G 协议谅解备忘录，合作开发相关项目2022-03-05 16:14:17
戴尔推出游匣 G15 2022 高配版：i7+ RTX 3070 Ti，首发 10499 元2022-03-05 16:17:56
吉利回应李书福退出吉利汽车集团董事：业务需要，仍为实控人2022-03-05 16:20:50
森海塞尔推出 IE600 高保真音乐耳机：3D 打印锆外壳，首发 4999 元2022-03-05 16:32:45

热门排行榜

1日1周1月

免费发布分类信息

最新图片