虽然目前模拟人声的技术还不成熟，但随着脸书AI研究中心的肖恩•瓦斯奎兹(Sean Vasquez)和迈克•刘易斯(Mike Lewis)的出现，似乎有了转机。他们发明了一种可以克服文本-语音系统限制的方法，创造出完全由机器合成的、极其逼真的音频片段。这个机器被称为MelNet，它不仅可以复制人类的语调，还能以被复制者的声音说话。因此，研究团队训练该机器模拟比尔盖茨的声音来说话。这项工作为实现更加真实的人机互动提供了可能，但也引起了新时代下虚假音频的恐慌。

首先需了解一下背景，仿真的文本-语音系统的研究进展缓慢并不是缺乏尝试，大量团队企图借助深度学习算法和大数据音频来创造真实的语音模式。瓦斯奎兹和刘易斯称，这种方法的问题在于数据类型。到目前为止，大多数工作集中在音频波形的记录。这些波形记录，每秒钟录制的音频就包含成千上万的时间步长，显示了声音的振幅是如何随着时间的推移而变化的。这些波形在许多不同的尺度上显示出特定的模式。例如，在几秒钟的讲话中，波形反映出了与单词序列相关的特征模式。但在微秒级上，波形显示出了与声音的音高和音色相关的特征。在其他尺度上，波形反映出了演讲者的语调、音素结构等。处理这些模式的另一种方法是将波形在一个时间步长和下一个时间步长之间的关联性考虑进来，即在给定的时间范围内，单词开头的声音与后面的声音是相关的。

深度学习系统理应擅长学习这种相关性并对它们进行复制，可问题在于这种关联性跨越了许多不同的时间尺度，而深度学习系统仅能在限定的时间尺度上研究该关联性。这是由于该系统使用了一种称为反向传播的学习过程，这种学习方式是通过不断地重新连接网络，根据所看到的示例来改进其功能的。由于重复率限制了学习关联性的时间尺度，因此深度学习网络只能选择在长时间或短时间内研究音频波形的关联性，不能同时研究两者。这也就解释了为什么机器复制语音的效果不佳。

与此同时，瓦斯奎兹和刘易斯采取了不同的手段，他们不再用音频波形，而是使用光谱图来训练机器的深度学习网络。光谱图记录了整个音频频谱及其随时间的变化，所以当波形捕捉参数、振幅随时间的变化时，光谱图可以在不同频率范围内捕捉其变化。这意味着光谱的数据呈现方式可以包含更加密集的音频信息。瓦斯奎兹和刘易斯称：“光谱图的时间轴比音频波形的时间轴紧凑几个数量级，在波形中跨度数万个时间步长的关联性在光谱图中仅跨度几百个时间步长”。这种现象使得深度学习系统更易分析关联性，他们还说：“这种方式使我们的光谱模型能够在数秒内创造出一致的无条件语音和音乐样本”。

事实上，MelNet复制人声的结果令人印象深刻，经过TED演讲中普通语音的训练，MelNet能够复制演讲者的声音，或多或少地说上几秒钟。脸书的研究者为了展示其可塑性，用比尔盖茨的TED演讲语音训练MelNet，然后MelNet成功地复制了其声音并说了一些随意的语句。以下是该系统说的语音，内容是“We frown when events take a bad turn”（当事情变得糟糕时，我们会皱眉）和“Port is a strong wine with a smoky taste”（波特酒是一种带有烟熏味的烈酒），其他实例请点击这里。

当然，该系统仍存在限制。常规演讲包含了长时间尺度内的关联性，例如，当故事长达数十秒或数十分钟时，人们会改变语调来表明主题或情感的变化，但脸书的机器似乎还无法做到这样。因此，MelNet尽管能够说出极其逼真的短语，但是它还无法完成长句子、段落或文章的叙述。而且，这似乎不是一个短期内能够实现的目标。

纵然如此，该项工作仍可能会对人机交互产生重大影响。许多对话只包含一些短语，尤其像电话接线员和服务后台，他们只需要用到一些相当简短的语句，因此该技术能够以一种比当前系统更加接近人类的方式，自动进行人机交互。不过，目前瓦斯奎兹和刘易斯对该系统潜在的应用前景守口如瓶。

与以往一样，自然发声的机器也存在潜在的问题，尤其是那些能够有效模仿人类的机器，我们很容易就能想象出这种技术被用于恶作剧的场景。正因为如此，随着人工智能的进步，它引起的伦理问题比它所能回答的更多。

参考：TechnologyReview

[关于转载]：本文为“AMiner”官网文章。转载本文请联系原作者获取授权，转载仅限全文转载并保留文章标题及内容，不得删改、添加内容绕开原创保护，且文章开头必须注明：转自“AMiner”官网。谢谢您的合作。