那个曾开发阿尔法狗的公司，又出了一个新成果

2016年09月10日 13:38
来源：凤凰科技

eepMind周五在一篇博文中表示，该公司已开发出一种名为“WaveNet”的人工智能系统，可通过学习如何形成人类声音产生的单个音波来模仿人的声音。

谷歌语音合成技术获重大突破：利用声波模拟人类声音

凤凰科技讯北京时间9月10日消息，据国外媒体报道，谷歌旗下子公司DeepMind已经开发出一种计算机生成语言的新系统，并号称其准确性比当前技术高出50%。DeepMind致力于开发智能程度超高的计算机。

谷歌语音合成技术取得重大突破

DeepMind总部设在英国，2014年被谷歌以大约4亿英镑（约合5.33亿美元）的价格收购。DeepMind周五在一篇博文中表示，该公司已开发出一种名为“WaveNet”的人工智能系统，可通过学习如何形成人类声音产生的单个音波来模仿人的声音。在针对美式英语和汉语普通话的盲测中，参与者发现WaveNet生成的语音听上去比谷歌现有文本转语音系统生成的语音更自然。

许多计算机生成的语音程序一般是分析单个人的大量简短录音的数据集，然后将这些语音片段结合起来变成完整的字词。由此生成的语音听上去虽然不是那么自然，但起码能听懂，而且感觉就像真人说话一样。缺点是，这种声音无法轻松地进行改进。

其他一些系统完全是以电子手段来形成语音的，通常是基于有关某些字母组合的发音规则实现的。DeepMind表示，这些系统可以让用户轻松操控语音，但它们听上去没有计算机基于人类说话者录音生成的语音那么自然。

WaveNet是一种被称为“神经网络”（neural network）的人工智能技术，旨在模仿人类大脑的部分功能。这种网络需要用大量数据集进行训练。

颇具挑战性的任务

WaveNet不会立即被投入商用，因为这种系统需要大量计算能力：它必须以每秒1.6万次的速度对测试接收的音频信号进行取样，然后再根据特定算法对声波变化的进行预测。连DeepMind的研究人员也承认，这是“一项颇具挑战性的任务”。

尽管如此，科技公司仍有可能会密切关注DeepMind在这方面取得的突破。语音正成为人类与手机、汽车等各类设备互动的日趋重要的方式。亚马逊、苹果、微软和Alphabet旗下谷歌等科技巨头都对个人数字助手技术的开发进行了投资——个人数字技术主要通过语音与用户进行交流。

上周，在伦敦举办的一个安卓开发者大会上，安卓应用商店Google Play海外事务主管马克·本尼特（Mark Bennett）表示，在用户通过移动设备在谷歌进行的搜索中，20%都是由语音而非书面文字完成的。尽管研究人员在让计算机理解口头语言的意思上取得了很大进步，但在计算机生成人类语言方面却处于落后。

DeepMind曾战胜世界围棋冠军

WaveNet也是DeepMind在人工智能系统方面取得的又一次突破。DeepMind因开发出AlphaGo而闻名全世界。作为一种人工智能系统，AlphaGo今年在与世界围棋最顶尖的棋手李世石的较量中轻松胜出。

不过，谷歌并未透露DeepMind的研究将在商业化上对这项技术有何帮助，虽然该公司透露它已经利用DeepMind的技术将其数据中心的电量需求降低了40%，同时节省了大量资金，证明谷歌4亿英镑收购DeepMind是物有所值。谷歌还表示，得益于DeepMind的技术，“从YouTube、Google Play到广告产品，谷歌各类服务的质量都取得了显著改善。”（编译/清辰）