wepoker官网-引领华丽娱乐新潮流

走进微扑克WePoker 公司简介 企业文化 品质为先 联系我们 产业布局 音频事业部 电器事业部 智能事业部 电声事业部 智能锁事业部 wepoker官网资讯 公司新闻 媒体报导 行业洞察 社会责任 互助基金 社会公益 wepoker官网中文版 wepoker官网登录入口 加入我们

CN / EN

wepoker官方版下载|火龙骑士动画片|语音克隆达到人类水平微软全新VALL-

2024-08-22 03:25:48

  WePoker下载微扑克✿✿★ღ。wepoker官方网站✿✿★ღ!继去年初的第一代VALL-E模型之后✿✿★ღ,微软最近又上新了VALL-E 2模型✿✿★ღ,标志着第一个在合成语音稳健性✿✿★ღ、相似度✿✿★ღ、自然程度等方面达到人类水平的文本到语音模型✿✿★ღ。

  最近✿✿★ღ,微软发布了零样本的文本到语音(TTS)模型VALLE-2✿✿★ღ,首次实现了与人类同等的水平✿✿★ღ,可以说是TTS领域里程碑式的进展✿✿★ღ。

  随着近年来深度学习的快速进步✿✿★ღ,用录音室环境下的干净单人语音训练模型✿✿★ღ,已经可以达到人类同等水平的质量✿✿★ღ,但零样本TTS依旧是一个有挑战性的问题✿✿★ღ。

  「零样本」意味着推理过程中✿✿★ღ,模型只能参照一段简短的陌生语音样本✿✿★ღ,用相同的声音说出文本内容✿✿★ღ,就像一个能即时模仿的口技大师✿✿★ღ。

  令人欣慰的是✿✿★ღ,MSRA考虑到了这一点✿✿★ღ,他们目前只将VALL-E系列作为研究项目✿✿★ღ,并没有纳入产品或扩大使用范围的计划✿✿★ღ。

  虽然VALL-E 2有很强的零样本学习能力可以像配音员一样模仿声音✿✿★ღ,但相似度和自然度取决于语音prompt的长度和质量✿✿★ღ、背景噪音等因素✿✿★ღ。

  在项目页面和论文中✿✿★ღ,作者都进行了道德声明✿✿★ღ:如果要将VALL-E推广到真实世界的应用中✿✿★ღ,至少需要一个强大的合成语音检测模型✿✿★ღ,并设计一套授权机制✿✿★ღ,确保模型在合成语音前已经得到了声音所有者的批准✿✿★ღ。

  但Reddit上有人揣测✿✿★ღ:微软只是不想当「第一个吃螃蟹的人」✿✿★ღ,不发模型是担心可能的带来的批评和负面舆论✿✿★ღ。

  一旦有了能将VALL-E转化为产品的方法✿✿★ღ,或者市场上杀出其他竞品✿✿★ღ,难道还担心微软有钱不赚吗?

  的确如网友所说✿✿★ღ,从项目页面目前放出的demo来看火龙骑士动画片✿✿★ღ,很难判断VALL-E的线个单词的英文短句✿✿★ღ,语音prompt的人声音色都非常相近✿✿★ღ,英语口音也不够多样化✿✿★ღ。

  1)稳定性✿✿★ღ:推理过程中使用的随机采样(random sampling)可能会导致输出不稳定✿✿★ღ,而top-p值较小的核采样可能会导致无限循环问题火龙骑士动画片✿✿★ღ。虽然可以通过多次采样和后续排序来缓解✿✿★ღ,但会增加计算成本✿✿★ღ。

  2)效率✿✿★ღ:VALL-E的自回归架构绑定了与现成的音频编解码器模型相同的高帧率✿✿★ღ,且无法调整✿✿★ღ,导致推理速度较慢✿✿★ღ。

  虽然已经有多项研究用于改进VALL-E的这些问题✿✿★ღ,但往往会使模型的整体架构复杂化wepoker官方版下载✿✿★ღ,而且增加了扩展数据规模的负担wepoker官方版下载✿✿★ღ。

  重复感知采样是对VALL-E中随机采样的改进✿✿★ღ,能够自适应地采用随机采样或者核采样(nucleus sampling)wepoker官方版下载✿✿★ღ,选择的依据是曾经的token重复✿✿★ღ,因此有效缓解了VALL-E的无限循环问题✿✿★ღ,大大增强解码稳定性火龙骑士动画片✿✿★ღ。

  值得注意的是✿✿★ღ,VALL-E 2仅需要简单的语音-转录文本数据进行训练✿✿★ღ,不需要额外的复杂数据✿✿★ღ,大大简化了数据的收集✿✿★ღ、处理流程火龙骑士动画片✿✿★ღ,并提高了潜在的可扩展性✿✿★ღ。

  (