AI精确复制声音:真假“比尔·盖茨”难辨

  • 时间:
  • 浏览:1
  • 来源:吉林快3娱乐平台-吉林快3下注平台_吉林快3注册平台

脸书人工智能研究中心的肖恩·瓦斯奎兹(Sean Vasquez)和迈克·刘易斯(Mike Lewis)于本周表示,一帮人可能性努力模仿人类语言有一段时间了。然而,模仿人类语言显然是件难事,当一帮人听到斯蒂芬·霍金所使用的那套最著名的说话机器发声时,会发现它听起来仍然很不像人类。

然后现在,研究员们似乎可能性取得了进展。可能性你听了盖茨的克隆qq所发出的声音,然后你是会同意的。可能性它听起来很像比尔·盖茨,你甚至不难 分辨出它和他真实声音的区别。

研究人员展示了一帮人的研究。在这里,机器模仿着盖茨的腔调发声,“请然后珍爱的一帮人发一封充满爱意的短信。”其中最不可思议的是,这台机器在说“珍爱(cherish)”时,准确无误地捕捉到盖茨不断上升的语调变化的。

这项技术被称为MelNet,里能用来克隆qq人类的语调。到目前为止,盖茨和当事一帮人的声音都被它完美地再现了。瓦斯奎兹和刘易斯说,克隆qq的音频取自各类Ted演讲。

两位研究人员还表示,直到最近,文本到语音转换软件还里能了很好地工作的愿因是它使用了波形图记录声音。那些图显示了声音在几秒钟内的音阶变化。可能性你听到过盖茨说“珍爱”你你你是什么词,就知道他的语气是变化剧烈的。在试图模仿一当事人的然后,淬硬层 学习机器才能 预测到所有那些细微的变化,这很不容易。

瓦斯奎兹和刘易斯说,一帮人通过使用本身 叫做光谱图的东西来训练机器,成功地克隆qq了声音。

研究人员说:“光谱图的时间轴比波形图的时间轴紧凑几个 数量级,这愿因在波形中跨越数万个时间步长的依赖关系在光谱图中只跨越数百个时间步长。这使得一帮人的光谱图模型才能在数秒内记录各种语音和音乐样本,并保持它们一致性。”

不过,一帮人也经历了或多或少挫折。研究小组表示,对一帮人来说,几乎完美地克隆qq一一两个多话语不必难,难的是克隆qq那些在长达几十秒或几分钟的时间里,显示了情绪变化的简化语调”。尽管越来越,当涉及到人机交互时,研究小组说,在只涉及简短对话的情境中,这项技术可能性会带来革命性的变化。