微比恩 > 信息聚合 > 世界最大的多语言语音数据集现已开源:超 40 万小时,共 23 种语言

世界最大的多语言语音数据集现已开源:超 40 万小时,共 23 种语言

2021-08-06 14:25:42来源: IT之家

最近,Facebook 开源了目前世界上最大的多语言语音数据集,VoxPopuli:这一数据集共涵盖了 23 种语言,时长超过 40 万小时。其中,每种语言都有 9000 到 18000 小时的无标签语音数据。此外,还包括了共 1800 小时,16 种语言的转录语音数据,以及 17300 小时,15 种目标语言的口译语音数据。国外网友很快为这一行为点赞:显然,如果数据集已经存在,那么它应该被利用,并以一种道德的方式来改善人类社会。这一数据集庞大的无标签数据量和广泛的语言覆盖率,对改进自监督模型有着很大的帮助。而 Facebook 也希望能够帮助提高语音数据集的质量和鲁棒性,使训练语音转换神经网络更加可靠。最终加速新的 NLP 系统的开发,使 AI 翻译的效果越来越好。而数据集的名字,VoxPopuli 的直译“人民的心声”也表示了其原始数据的来源 ——即源语音全都收集自 2009-2020 年欧洲议会的活动录音。来自 10 年欧

标签: 语音 开源