微比恩 > 信息聚合 > Meta 发布会读唇语的 AI，可提高嘈杂场景的语音识别准确率（已开源）

Meta 发布会读唇语的 AI，可提高嘈杂场景的语音识别准确率（已开源）

2022-01-10 14:38:41来源: IT之家

Meta 发布会读唇语的 AI，可提高嘈杂场景的语音识别准确率（已开源）

图片地址：https://img.ithome.com/newsuploadfiles/2022/1/1bc6ed9f-46e6-42db-ae19-41aa7b0f7d43.gif

借助读唇语，人类能够更容易听懂他人的讲话内容，那么 AI 也能如此吗？最近，Meta 提出了一种视听版 BERT，不仅能读唇语，还能将识别错误率降低 75%。效果大概就像如下这样，给一段视频，该模型就能根据人物的口型及语音输出他所说的内容。而且与此前同类方法相比，它只用十分之一的标记数据，性能就能超过过去最好的视听语音识别系统。这种结合了读唇的语音识别方法，对于识别嘈杂环境下的语音有重大帮助。Meta 的研究专家 Abdelrahman Mohamed 表示，该技术未来可用在手机智能助手、AR 眼镜等智能设备上。目前，Meta 已将相关代码开源至 GitHub。自监督 + 多模态Meta 将该方法命名为 AV-HuBERT，这是一个多模态的自监督学习框架。多模态不难理解，该框架需要输入语音音频和唇语视频两种不同形式内容，然后输出对应文本。Meta 表示，通过结合人们说话过程中嘴唇和牙齿活动、语音方面的信息，AV-HuBERT 可

关注公众号

标签： AI 语音 Meta 开源

提示：支持键盘“← →”键翻页

上一篇斗山协作机器人年销量逾1000台，打破韩国销量纪录

下一篇 GMKtec 推出 NucBox4 迷你主机：R7 3750H 处理器，3435 元起

赞

你的鼓励是对作者的最大支持

相关阅读

珂芝 Z98AI 三模机械键盘上架：主打人工智能功能、Gasket 结构，599 元2024-04-27 08:51:26
谷歌 Pixel 8a 手机宣传视频曝光：主打 Best Take、圈选即搜等诸多 AI 功能2024-04-27 09:04:42
浩瀚 V3 手机云台稳定器发布：支持 AI 跟拍、超广角运镜，569 元2024-04-27 10:43:21
印度第二大公司高管预言：生成式 AI 最快 1 年“摧毁”人类客服岗位2024-04-27 11:32:56
谷歌为 AI 拍照功能 RealFill 申请商标：可扩展和修复现有图像2024-04-27 14:53:33
消息称 OPPO XR 探索暂停，转向 AI Device、机器人2024-04-26 16:45:51
【IT之家开箱】联想昭阳 X7 AI 高能本图赏：轻薄有型，传承经典设计2024-04-26 16:51:23
【IT之家评测室】联想昭阳 X7 AI 高能本评测：AI 唱主角，产品力提升明显2024-04-26 17:35:05
VAIO 全新蓝牙无线鼠标上架：支持三通道连接，售价 299 元2024-04-26 18:06:44
长安启源 A07 正式推送启源 OS 1.0 版本：新增车外音控、AI 对话、导航分屏等功能2024-04-26 18:12:45

热门排行榜

1日1周1月

免费发布分类信息

最新图片