微比恩 > 信息聚合 > 不拆分单词也可以做 NLP,哈工大最新模型在多项任务中打败 BERT,还能直接训练中文

不拆分单词也可以做 NLP,哈工大最新模型在多项任务中打败 BERT,还能直接训练中文

2022-03-05 15:13:16来源: IT之家

众所周知,BERT 在预训练时会对某些单词进行拆分 (术语叫做“WordPiece”)。比如把“loved”、“loving”和“loves”拆分成“lov”、“ed”、“ing”和”es”。目的是缩减词表、加快训练速度,但这样一来,在某些时候反而会阻碍模型的理解能力。比如把”lossless”分成”loss”和”less”的时候。现在,来自哈工大和腾讯 AI Lab 的研究人员,尝试利用不做单词拆分的词汇表开发了一个 BERT 风格的预训练模型 ——WordBERT。结果,这个 WordBERT 在完形填空测试和机器阅读理解方面的成绩相比 BERT 有了很大提高。在其他 NLP 任务,比如词性标注 (POS-Tagging)、组块分析 (Chunking) 和命名实体识别 (NER) 中,WordBERT 的表现也都优于 BERT。由于不用分词,这个 WordBERT 还可以直接进行中文训练。更值得一提的是,它在性能

关注公众号