众所周知,BERT 在预训练时会对某些单词进行拆分 (术语叫做“WordPiece”)。比如把“loved”、“loving”和“loves”拆分成“lov”、“ed”、“ing”和”es”。目的是缩减词表、加快训练速度,但这样一来,在某些时候反而会阻碍模型的理解能力。比如把”lossless”分成”loss”和”less”的时候。现在,来自哈工大和腾讯 AI Lab 的研究人员,尝试利用不做单词拆分的词汇表开发了一个 BERT 风格的预训练模型 ——WordBERT。结果,这个 WordBERT 在完形填空测试和机器阅读理解方面的成绩相比 BERT 有了很大提高。在其他 NLP 任务,比如词性标注 (POS-Tagging)、组块分析 (Chunking) 和命名实体识别 (NER) 中,WordBERT 的表现也都优于 BERT。由于不用分词,这个 WordBERT 还可以直接进行中文训练。更值得一提的是,它在性能
不拆分单词也可以做 NLP,哈工大最新模型在多项任务中打败 BERT,还能直接训练中文
2022-03-05 15:13:16来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 英特尔 i7-12650HX 曝光:14 核 20 线程,55W 基础功耗2022-03-05 15:19:02
- realme V25 首销战报:相比 V15 同比增长 677%,V 系列整体销量突破 460 万2022-03-05 15:28:04
- 雷蛇发布猎魂光蛛模拟光轴迷你版机械键盘,1199 元2022-03-05 15:34:53
- TP-LINK 今晚举行“史上最具爆点”发布会,4 大领域 20 类新品2022-03-05 15:44:58
- 国资委:在集成电路等领域加大重要产品和关键核心技术攻关力度2022-03-05 16:04:10
- realme Book 增强版 Air 新增「天空青」版本,4299 元起2022-03-05 16:09:54
- 华为与土耳其电信签署 5G 协议谅解备忘录,合作开发相关项目2022-03-05 16:14:17
- 戴尔推出游匣 G15 2022 高配版:i7+ RTX 3070 Ti,首发 10499 元2022-03-05 16:17:56
- 吉利回应李书福退出吉利汽车集团董事:业务需要,仍为实控人2022-03-05 16:20:50
- 森海塞尔推出 IE600 高保真音乐耳机:3D 打印锆外壳,首发 4999 元2022-03-05 16:32:45
- 1爱玛科技:拟投资约20亿元建设爱玛兰州新区产业园项目
- 2EA《F1 24》官方授权赛车游戏明日凌晨解锁,Steam 国区售 298 元起
- 3Pasternack 推出新型负斜率均衡器
- 4余承东:华为与江淮合作的智选车品牌首款车型将于2025年春季上市
- 5空客据悉因零部件和劳动力短缺而面临新的生产压力
- 6Nike On Air非凡创新体验活动在沪举办,发布2024年巴黎奥运会国家队装备
- 7亿万富翁投资者比尔·阿克曼据悉计划让Pershing Square进行IPO
- 8机构今日抛售中超控股等10股,买入斯菱股份4007万元
- 9浪潮数据李辉出席CCF秀湖会议,共话新应用与硬件驱动下的存储系统创新
- 10蔚来能源获15亿元战略投资