所有文章 > 正文

谷歌云语音遥遥领先!云语音新增多种声音模型并能为客户提供更好的服务体验

作者: Jansfer

时间: 2019-08-30 09:51

2019年2月,谷歌宣布了一系列对其谷歌云平台(GCP)人工智能文本到语音和语音到文本服务的更新,山景城公司(Mountain View)今天在这个基础上将云文本到语音的新变体和语音的数量增加了近70%,将涵盖的语言和变体总数提高到33种。

190830-1.png

早在今年2月,谷歌宣布了一系列对其谷歌云平台(GCP)人工智能文本到语音和语音到文本服务的更新,这些文本服务引入了多通道来识别、配置文件和由人工智能系统WaveNet合成的其他语言。在这些改进的基础上,山景城公司(Mountain View)今天将云文本到语音的新变体和语音的数量增加了近70%,将涵盖的语言和变体总数提高到33种。

由于增加了76个新的声音和38个新的WaveNet支持的声音,Cloud Text-to-Speech现在共拥有187个声音和95个WaveNet声音。新支持语言和变体包括捷克语、英语(印度)、菲律宾语、芬兰语、希腊语、印地语、匈牙利语、印度尼西亚语、汉语普通话(中国)、现代标准阿拉伯语、挪威语(尼诺斯克语)和越南语,所有这些语言和变体都至少有一个人工智能生成的声音。

通过这些更新,云端文本到语音开发人员现在可以通过他们的应用程序覆盖众多国家/地区的数百万人,在将来还有更多语言可供选择。产品经理Dan Aharon写道,这项支持将会被广泛的应用,包括呼叫中心IVR,与汽车和家庭中的物联网设备的交互,以及图书和其他基于文本内容的音频支持。

190830-2.png

WaveNet通过识别语音中的音调模式来模仿压力和语调之类的东西,这在语言学中被称为韵律。它产生了比以前的语音生成模型更有说服力的语音片段而且它也有更高的效率。谷歌称它已经基于平均意见得分将人类语音的质量差距缩小了70%。WaveNet在Google的张量处理单元(TPU)上运行,定制芯片包含针对AI模型培训优化的电路,一秒钟的语音样本只需50毫秒即可创建。

Aharon指出,在提供的人工智能语音数量这一方面,Cloud Text-to-Speech轻松超越了微软的Azure语音服务和亚马逊Polly等竞争对手:Polly的58个语音中,有11个是由人工智能模型生成的,而Azure语音服务中只有5个是人工智能合成的。此外,Polly和Azure语音服务仅提供2种和4种使用人工智能语音的语言/变体。

当客户拨打呼叫中心的电话、在车内或家中使用连接设备发出口头指令或者收听文本媒体的音频转换时,他们越来越希望听到一种自然而人性化的声音。Aharon表示能发出类似人声的企业必定会为客户提供最好的服务体验,如果这种体验也能以多种语言在多个国家提供,那么这种优势就会变成全球性的。另外,Cloud Text-to-Speech最多可免费使用API处理的前一百万个字符。

参考:https://venturebeat.com/2019/08/27/google-cloud-text-to-speech-now-has-187-voices-and-95-wavenet-voices/

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多