只需 3 秒钟,一个根本没听过你说话的 AI,就能完美模仿出你的声音。是不是细思极恐?这是微软最新 AI 成果 —— 语音合成模型 VALL·E,只需 3 秒语音,就能随意复制任何人的声音。它脱胎于 DALL・E,但专攻音频领域,语音合成效果在网上放出后火了:有网友表示,要是将 VALL・E 和 ChatGPT 结合起来,效果简直爆炸:看来与 GPT-4 在 Zoom 里聊天的日子不远了。还有网友调侃,(继 AI 搞定作家、画家之后)下一个就是配音演员了。所以 VALL・E 究竟怎么做到 3 秒钟模仿“没听过”的声音?用语言模型来分析音频基于 AI“没听过”的声音合成语音,即零样本学习。语音合成趋于成熟,但之前零样本语音合成效果并不好。主流语音合成方案基本是预训练 + 微调模式,如果用到零样本场景下,会导致生成语音相似度和自然度很差。基于此,VALL・E 横空出世,相比主流语音模型提出了不太一样的思路。相比传统模型采用梅尔频谱提
3 秒复制任何人的嗓音,微软音频版 DALL・E 细思极恐,连环境背景音也能模仿
2023-01-12 21:15:03来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 东南亚之行即将开启,微软 CEO 纳德拉拟访问印尼、泰国、马来西亚2024-04-25 21:45:59
- 苹果连放4个开源“小模型”,跑分却不到微软Phi-3一半,不卷性能卷效率?2024-04-25 19:31:34
- 微软新专利:基于用户互动情况发送社交平台通知2024-04-25 16:08:49
- 微软 Win11 开始菜单广告将面向所有用户推出,可手动关闭2024-04-24 17:53:35
- 微软 Win10 推送 4 月可选更新,新增微软账号相关通知等2024-04-24 06:43:30
- 微软 Win11 推送 4 月可选更新:改进任务栏小组件图标等2024-04-24 06:53:08
- 微软、谷歌和 OpenAI 等巨头承诺制定生成式 AI 发展措施,妥善保护儿童健康2024-04-24 08:29:54
- 5 年 11 亿美元,可口可乐和微软签署新合作:迁移至 Azure、探索 AI 应用2024-04-24 09:02:14
- 微软解锁 Copilot 特性:字符上限最高调至 1.6 万、支持梳理 PDF 等文件内容2024-04-24 09:17:04
- 微软扩充 Edge 浏览器文本编辑功能:重写指定内容、优化手写体验等2024-04-24 10:24:02
- 1中科创达滴水OS整车操作系统亮相北京车展
- 2IBM助客户赢得中国信通院"可信AI案例"奖
- 3团结引擎亮相北京车展,Unity中国持续引领智能出行生态
- 4三七互娱:一季度净利润6.16亿元,同比下降20.45%
- 5“全国老字号产业投资基金”有望近期设立
- 6朱华荣:要培养长安汽车的“雷布斯”“余大嘴”,车市面临机遇远大于挑战
- 7洛阳钼业:一季度净利润20.72亿元,同比增长553.28%
- 8绝味食品:2023年净利润3.44亿元,同比增长46.63%
- 9医疗健康行业周报 | 「月泉仿生」再获千万元天使+轮融资;数字化口腔健康品牌「Oclean欧可林」获1亿元C轮融资
- 10宁德时代获北向资金净买入8.48亿元