借助读唇语,人类能够更容易听懂他人的讲话内容,那么 AI 也能如此吗?最近,Meta 提出了一种视听版 BERT,不仅能读唇语,还能将识别错误率降低 75%。效果大概就像如下这样,给一段视频,该模型就能根据人物的口型及语音输出他所说的内容。而且与此前同类方法相比,它只用十分之一的标记数据,性能就能超过过去最好的视听语音识别系统。这种结合了读唇的语音识别方法,对于识别嘈杂环境下的语音有重大帮助。Meta 的研究专家 Abdelrahman Mohamed 表示,该技术未来可用在手机智能助手、AR 眼镜等智能设备上。目前,Meta 已将相关代码开源至 GitHub。自监督 + 多模态Meta 将该方法命名为 AV-HuBERT,这是一个多模态的自监督学习框架。多模态不难理解,该框架需要输入语音音频和唇语视频两种不同形式内容,然后输出对应文本。Meta 表示,通过结合人们说话过程中嘴唇和牙齿活动、语音方面的信息,AV-HuBERT 可
Meta 发布会读唇语的 AI,可提高嘈杂场景的语音识别准确率(已开源)
2022-01-10 14:38:41来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 珂芝 Z98AI 三模机械键盘上架:主打人工智能功能、Gasket 结构,599 元2024-04-27 08:51:26
- 谷歌 Pixel 8a 手机宣传视频曝光:主打 Best Take、圈选即搜等诸多 AI 功能2024-04-27 09:04:42
- 浩瀚 V3 手机云台稳定器发布:支持 AI 跟拍、超广角运镜,569 元2024-04-27 10:43:21
- 印度第二大公司高管预言:生成式 AI 最快 1 年“摧毁”人类客服岗位2024-04-27 11:32:56
- 谷歌为 AI 拍照功能 RealFill 申请商标:可扩展和修复现有图像2024-04-27 14:53:33
- 消息称 OPPO XR 探索暂停,转向 AI Device、机器人2024-04-26 16:45:51
- 【IT之家开箱】联想昭阳 X7 AI 高能本图赏:轻薄有型,传承经典设计2024-04-26 16:51:23
- 【IT之家评测室】联想昭阳 X7 AI 高能本评测:AI 唱主角,产品力提升明显2024-04-26 17:35:05
- VAIO 全新蓝牙无线鼠标上架:支持三通道连接,售价 299 元2024-04-26 18:06:44
- 长安启源 A07 正式推送启源 OS 1.0 版本:新增车外音控、AI 对话、导航分屏等功能2024-04-26 18:12:45
- 1中科创达滴水OS整车操作系统亮相北京车展
- 2用回iPhone 5c后,我怀念起那个把塑料做出高端感的时代
- 3雷军、谷歌、联想、甲骨文……F1 为什么成了科技圈春晚?
- 4科林电气vs海信网能:资本市场并购浪潮渐起
- 59点1氪|周鸿祎辟谣进军汽车行业;恒大地产欠税752万元被公告;黄金变现火爆,业内人士提醒投资者需谨慎
- 6谷歌计划投资 30 亿美元新建数据中心,并将设立 7500 万美元 Google AI 基金
- 7团结引擎亮相北京车展,Unity中国持续引领智能出行生态
- 8朱华荣:要培养长安汽车的“雷布斯”“余大嘴”,车市面临机遇远大于挑战
- 9一汽丰田推出购车置换等补贴政策,国补 + 厂补最高 23000 元
- 10“全国老字号产业投资基金”有望近期设立