微比恩 > 信息聚合 > 谷歌提出多语言BERT模型:可为109种语言生成与语言无关的跨语言句子嵌入

谷歌提出多语言BERT模型:可为109种语言生成与语言无关的跨语言句子嵌入

2020-08-20 13:15:05来源: 新浪科技

近日,谷歌AI研究人员提出了一种称为LaBSE的多语言BERT嵌入模型,该模型可为109种语言生成与语言无关的跨语言句子嵌入。这一论文题目为「Language-agnostic BERT Sentence Embedding」,目前已在arxiv上发表。论文地址:https://arxiv.org/pdf/2007.01852.pdf研究背景多语言嵌入模型是一种功能强大的工具,可将不同语言的文本编码到共享的嵌入空间中,从而使其能够应用在一系列下游任务,比如文本分类、文本聚类等,同时它还利用语义信息来理解语言。用于生成此类嵌入的现有方法如LASER或m~USE依赖并行数据,将句子从一种语言直接映射到另一种语言,鼓励句子嵌入之间的一致性。尽管这些现有的多语言嵌入方法可在多种语言中有良好的整体性能,但与专用双语模型相比,它们在高资源语言上通常表现不佳。此外,由于有限的模型容量、低资源语言的训练数据质量通常较差,可能难以扩展多语言模型以

关注公众号
标签: 谷歌