12月,谷歌公布了一篇研究论文,详细阐述一个名为“Tacotron 2”的人工智能(AI)文字-语音转换系统。Tacotron 2生成的声音与人类相似,甚至达到真假难辨的程度。需要指出的是,这篇论文尚未进行同行评议。
Tacotron 2是谷歌的第二代文字-语音转换技术,由两个深度神经网络构成。第一个网络负责将文本转化成声谱图,也就是让音频可视化。声谱图随后传输给的WaveNet系统:WaveNet 是一种用于生成原始音频波形的深层神经网络模型,读取声谱图后生成与文本相匹配的音频。声音与人声高度相似,还能听出相应的节奏变化。
WaveNet由 Alphabet人工智能研究实验室DeepMind于2016年提出。在过去一年里,DeepMind 和谷歌的团队创建了一个速度快 1000 倍的新模型,大幅提高了效率,解决了之前计算速度太慢的问题。今年10月份,DeepMind 正式宣布新的并行WaveNet开始在现实世界中落地商用。
在论文中,谷歌团队表示WaveNet由卷积神经网络构建,在训练阶段该网络就会确定语音的底层结构,训练好的网络每生成的一个样本都会参考前一个样本的属性,所产生的声音包含自然语调和如嘴唇形态等参数。
谷歌研究人员表示Tacotron 2能够处理发音难度较大的单词和名字,它还可以从混合数据集中创建独特声音,不过它的“口音”取决于它接受训练时的声音。同时,它能够根据读音改变发声方式。例如,字首大写的单词它会像人类一样使用重音,以突出它们在句子中的重要性。此外,该系统还具备处理文本中少量的单词错误的功能,在英文文本的转换阅读中可分辨细小差异。
不过,Tacotron2系统目前接受的训练只能模仿一名女性的声音,如果想模仿男性或者其他女性,还需要再次接受训练。
与谷歌进行的其它核心人工智能研究不同,这项技术能够立即让谷歌受益。2016年WaveNet上线后,就能帮助谷歌助手生成逼真的美国英语和日语语音。在走出实验室并进行完善后,投入使用的Tacotron 2将进一步提高谷歌助手的竞争力。
这项语音系统的突破,也使谷歌在国际智能语音技术竞赛中再次领先。不过在国内市场中,谷歌语音技术的中文语义理解不是很深入,百度、科大讯飞等企业在中文语音处理技术方面还是稍占先机。
语音合成是百度AI的代表技术之一。去年在百度语音三周年的活动现场,百度语音技术团队就成功利用“情感语音合成技术”,合成出张国荣生前的声音,并以他的声音回应粉丝的祝福,引得众多粉丝围观。如今,百度语音技术的应用场景也大大扩展,进入到教育、出行、翻译等各个领域,形成从技术模型、场景开发到行业应用的矩阵。
今年11月,百度还宣布语音技术全系列接口永久免费开放,提供语音识别、语音合成、语音唤醒多平台软件开发工具包。“免费”支持众多开发者和合作伙伴的背后,可能还是蕴含着着坐中文智能语音技术头把交椅的野心。
编辑:Bixby