591
首页 > 热点 > 列表

微软发布AI声音生成工具VALL-E,只需3秒音频即可模仿人说话

时间:2023-01-18 14:17:09       来源:IT之家       阅读量:19742次      

感谢本站的朋友OC_Formula的线索传递!

微软发布AI声音生成工具VALL-E,只需3秒音频即可模仿人说话

,微软最近发布了一款名为VALL—E的人工智能工具,它可以只用3秒钟的音频来模仿人类说话。

这个工具由6万小时的英语语音数据训练,使用特定语音的3秒片段生成内容与目前的许多人工智能工具不同,VALL—E可以复制说话者的情绪和语气,甚至说话者自己从未说过的话也可以模仿

本站了解到,康奈尔大学的一篇论文用VALL—E合成了几种声音,你可以在GitHub上听听AI合成的音频。

研究人员指出,在许多情况下,Vall—E的性能优于当前的文本到语音转换模型可是,该研究也写道,目前人工智能模型存在几个问题例如,文本提示中的一些单词可能发音不清楚,被完全省略或在输出中出现两次此外,这种模型目前很难模仿一些声音,尤其是带有口音的声音

像其他新的人工智能技术一样,VALL E也引起了安全和道德方面的担忧微软已经发布了一份关于VALL—E使用的道德声明,但是对于其未来的用途并没有明确的解释

目前微软Vall—E并没有开源微软在GitHub上创建了一个Vall—E资源库,但目前只包含一个描述文件

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

C-U501