图片来源@视觉中国
钛媒体注:本文来自于公众号浅黑科技(qianheikeji),作者:史中,钛媒体经授权转载。
刘慈欣在小说《乡村教师》里,有这么一段描述:
一个文明程度极高的外星文明观察地球,发出了惊叹:这种没有记忆遗传的生物,相互间用薄膜器官震动产生的声波进行交流,每秒只有1-10比特的速率,居然能够独立进化出 5B 级文明,这太不可思议了!
看到这里,我心头一紧。。。
姑且不论在大刘心中 5B 文明比 2B 文明强多少。重点在于:外星人说的有道理啊,我们不就是些只能靠超低带宽的语言交流的沙雕残疾生物么。。。人类这个创业团队一点点从古猿集团剥离,用了一百万年才“独立上市”。我们仰仗的全部家当:“听说”“读写”“思考”,全都和语言能力相关。
幸亏我们“身残志坚”,在渺小之余还意外赢回些许尊重。
利用低效的语言文字,我们发现了牛顿定律,发现了相对论和量子论。
我们喜欢党同伐异顺便制造了世界大战,但我们没死反而在战争中发明了计算机,在此之上,我们还发明了人工智能。
我们还扛着锄头进军人工智能领域最难开垦的土地——“自然语言处理技术”,想让人工智能反过来听懂我们说话。
人类果然是个不知天高地厚的狂妄物种啊。
这个魔幻的剧本一旦打开,就再也停不下来了。2018年底,一则预测击中了人们的神经:
语音人工智能将在特定领域通过图灵测试。
这是啥意思?这意味着人工智能马上就成为世界上第二个会“说人话”的物种了。
想想看,你和妹子煲了五分钟电话粥,可能都根本分辨不出她到底是个人还是机械。这将带来一场伦理革命:未来我们不仅把人工智能当做合作伙伴,也会把它们当做爱或恨的对象。人类稳固万年的情感边界将第一次松动。
发布这条预测的,不是民间科学家,而是大名鼎鼎的达摩院——阿里巴巴挑战前沿科学的骑士团。
很多人都会回想起2017年马云在云栖大会上振臂一挥,豪掷千亿组建达摩院的热血沸腾。而欣赏一部史诗,决不能只看它的封皮。他的况味藏在每一行诗句的光影里。
达摩院的大神们,究竟怎样一步一步攀登“人工智能”这座梦幻远山?
你和身边的朋友们,又要怎样一点一点地学会和“说人话的机器人”相处?
接下来中哥还得用“语言”这种低效的模式,慢慢讲给你听。
(1)脑洞+脑洞+脑洞
按照惯例,先跟中哥开几个脑洞。
听过那么多道理,却还是过不好这一生。
你有没有想过这是为什么?因为你是“听”到的道理,而不是用一根电线直接怼到你大脑传输进去的完整信息,语言传递的不是全量信息。
脑洞一:语言和电线是一样的,他们从本质上来说都是“脑脑接口”。
给你一分钟,闭上眼睛理解一下。
你可以想象每个人的大脑都是一汪深邃的湖泊,他们之间若要连接,需要挖一道水渠,就像下面这样:
这个水渠,就是我们的语言。(这回你理解为啥说话又叫沟通了吧)然而,语言携带的信息量很少,就像水渠的宽度非常窄,很难把一个湖里的水瞬间全部灌进另一个湖里。
脑洞二:为了更高效地沟通,语言实际上是把信息进行了极高的压缩。
每个人都会把脑海里综合视觉、触觉、嗅觉、味觉、环境、常识、专业知识和彼时心境综合起来形成的汹涌思路压缩成一段语言说给接受者,而接收者听到之后,在自己脑海里把这些语言信息结合自己的视觉、触觉、嗅觉、味觉、环境、常识、专业知识储备和当时的心境加以还原,这个过程完成,听话者才理解了说话者的意思。
这个压缩比率有多大呢?每秒人脑可以处理的信息是400部高清电影,而每秒语言的信息量只有几k大小,差距几十万倍。所以,如果你的语言是这颗豌豆,那么脑补出来的内容就是这个篮球。
脑洞三:巨幅压缩会伴随巨大的信息损失。由于每个人的感官和知识储备不同,在补全的过程中就会出现一定歧义。
特别明显的一个例子就是:过年你和来串门的熊孩子讲不要乱动自己珍贵的手办,结果他完全理解不了你在说什么。直到他把模型弄碎一地,你抓着他的腿往树上一顿抡。有了这次完整的体验之后,他的知识结构里才会添加一项特别具体的禁忌。
情侣之间吵架,女生哽咽着说:你不懂我!这根本不是无情无耻无理取闹,实际上这时她已经一语道破了人类的生理极限。
脑洞四:机器理解人话的过程中,最重要的一个障碍就是:“歧义”。
人类可以根据自己所有的感官采集到的实时信息和巨量的知识储备在大脑里解压对方的语言,但是机器远没有人这么敏感的嗅觉触觉视觉,更没有人的常识知识图谱,所以它们把语言中压缩的信息进行还原时,所出现的“歧义”就会像火山喷涌那样多。
半个世纪以来,所有自然语言处理技术的目的都可以归纳为:消除歧义。(在机器的精神空间中,一句话对应且只对应一个意思)
我说这么一大堆的目的,是为了让你理解:人能听懂人已经靠脑补+幸运了;让机器听懂人,我只能说这是个奇迹。
说到这,中哥多补充一些背景知识。
自从人类发明计算机那天起,人机交互就踏上了艰难的长征路。
上世纪中叶,人们把打孔的纸带塞进机器,用这种方式和计算机交流。
上世纪80年代,人们组合了键盘、显示器、命令行界面、编程语言,人机交互的方式变成了手的敲击和屏幕显示。
上世纪末,MacOS 和 Windows 领导的图形界面出现,键鼠套装成为了人机交互的标配。
2010年,智能手机普及,人机交互的方法变成了一根手指点点点。
2016年以后,智能音箱爆发,这才让酝酿已久的语音交互方式站在了历史的聚光灯下。
在未来,很可能人类可以用脑电波设计“脑机接口”进行人机交流,但所有相关的技术都处在非常早期的阶段。
你可能觉得人机交互的方法变来变去,捉摸不定。但事实上,它至少呈现了两个永不回头的趋势:
1、交互的带宽越来越大。
2、人机交互中,人需要适应机器习惯的比重越来越小,机器需要适应人习惯的比重越来越大。
虽然在未来脑机接口有可能实现超大的带宽,但是不可否认,语言仍然是人类千万年进化形成的最高效的“天然接口”,占据了无可替代的“技术生态位”。目前人工智能语音交互被公认为“下一代人机交互技术”。
这种和人类命运息息相关的科技研究,正是达摩院的菜。
不久之前,我见到了这一领域的两位大神——达摩院语音实验室的老大鄢志杰和达摩院语言技术实验室的老大司罗。
语音实验室,就像鱼头和鱼尾,负责“听和说”。简单来说就是把人说的话精确转录为机器能处理的文字,把机器的文字输出用无限接近于真人的发音说出来。
语言技术实验室,就像鱼的中段,负责思考。简单来说就是在人工智能大脑内完成归纳、理解、思考、总结等等一系列步骤。
这两个团队,拼成了“自然语言处理”从接受信息到处理信息到表达信息完整的一条鱼。
像很多达摩院的大神一样,鄢志杰和司罗也不是普通的科学家,他们是“有故事的科学家”。
(2)上山下乡
如果你像欣赏雕塑大卫那样欣赏达摩院,你就会发现达摩院的躯体很有意思。
达摩院下设机器智能、数据计算、机器人、金融科技、X实验室几大分支,几乎全部和人工智能相关。这样浓重的配比,和达摩院的传承不可分割。
举个例子,达摩院中领衔机器智能班底的金榕和蚂蚁金服首席科学家漆远,他们都是当年阿里巴巴最神秘的机构——iDST——的创世团队。
金榕
iDST,全称是“数据科学与技术研究院”。当年马云高呼的“DT 时代”,其中的D和T,都被放进了 iDST 的名称里,可见它被给予了多重的期待。
说到 iDST,不能绕过理想主义者王坚。人们对王坚筚路蓝缕创立阿里云的那一趴故事耳熟能详津津乐道。其实,王坚同样是 iDST 的构想者。在他的最初设想里,iDST 更像是对标 AT&T 贝尔实验室、微软亚洲研究院的纯研究机构。它的目的无比明确,就是“确立阿里巴巴集团在未来数十年技术领先地位”。
王坚
2014年,阿里巴巴大旗高擎,一众人工智能领域的学界大牛聚义 iDST 的磅礴气势仍然历历在目。
然而,马云在三年后达摩院成立时曾经这样说:
绝大多部分公司都是研而不发。我们要做一个跟微软不一样,跟贝尔实验室不一样,跟英特尔研究院不一样的,做一个最适合这个世纪的研究院,做一个阿里巴巴自己想清楚未来发展的研究院。
这段话背后,涵盖了 iDST 三年间的命运转折。
由于 iDST 的学术研究和具体业务场景有一些分离,造成了 iDST 的“空转”。顶级大牛们每人开着一个梦幻超跑,却要在现实的胡同支脉里穿梭,苦闷可想而知。
iDST 历史上著名的浴火重生由此开始。
2015年 iDST 被分入阿里巴巴的各个部门。漆远率领一众人马进入蚂蚁金服,金榕率领一众人马进入淘宝搜索,初敏和鄢志杰率领的 iDST 语音部门留在阿里云。明眼人都能看出来,这是阿里巴巴生态内部人工智能最肥沃的几块战场。
正如1968年毛主席大手一挥,知识青年上山下乡。历史没有假设,但广阔天地,毕竟大有作为。这一次技术下沉,给淘系、阿里云和蚂蚁金服都带来了一场深远的革命。(甚至这场革命的意义到现在都没有完全被人认知)
漆远一众为蚂蚁金服的风控系统建立了一个绵延几千台服务器的大脑,成为了如今蚂蚁金服风控系统的定海神针;
金榕和司罗一众为淘系的智能搜索推荐奠定了一台底层大脑,如今每天为十几亿人提供精确推荐;
漆远和鄢志杰一众把语音技术的灵魂烧录进客服系统,完全把淘系和蚂蚁的客服系统推进到次世代;
周靖人一众则整合了诸多大数据引擎,为阿里万亿帝国装配了一台无人匹敌的精密发动机。
2016年,阿里巴巴 CTO 行癫重新在集团层面举起 iDST 大旗,大神们重磅回归。这一次,他们一扫所有的质疑,手中握着荣光。王坚感慨:“iDST 又回来了!”诚然,理想不死,它只是需要重生。
行癫
直到这时,马云才有了组建达摩院的底气。
“手榴弹造得再厉害也造不出导弹。”马云的这句话,值得玩味。
2017年3月,阿里巴巴推出“NASA”计划,刻度为未来二十年,目标是从基础科学到应用科学的星辰大海。半年以后的10月11日,NASA 点燃了“一级火箭”——达摩院。iDST 的金身被重新熔铸,成为了达摩最坚硬的一部分。
至此,众神依次归位。
当年,iDST 是阿里巴巴最为神秘的部门之一,如今,iDST 的班底反倒成为了曝光最多的人。“自然语言处理”,也从当年 iDST 皇冠上的明珠,变成了如今达摩院的硬核主战场。
它不小心标记了一项技术的成人礼,也见证了一代技术人的沧海桑田。
(3)从零开始
鄢志杰毕业于中国语音识别的黄埔军校中科大,不知为何看到他总有一种看到战狼吴京的错觉。。。
鄢志杰
2015年2月,鄢志杰从微软亚洲研究院加入阿里巴巴 iDST ,负责组建万众期待的语音团队。彼时正赶上轰轰烈烈的上山下乡运动,两个月后,他就进入了阿里云的编制。
语音科学家的终极目标是让机器通过语音交互的方式融入人类协作网络,但鄢志杰面前的现实过于骨感。用他的话说,阿里巴巴在这项技术上技术储备是“一张白纸”。而那个时候,百度的语音搜索已经成为标配,而微信的语音消息已经可以长按转成文字。
面对阿里巴巴巨大的实用主义思潮,鄢志杰并不拒绝,甚至有点小激动。他决定摸着石头过河。
第一步,起码先得给人工智能装一个耳朵。
他盯上了客服妹子。。。
2015年初,为了应对业务爆炸式增长,阿里巴巴的电话客服人数达到了几万。几万客服人员直接面对淘宝天猫的用户,如果他们服务质量不合格,会带来非常不好的用户体验。(参考六六和京东那次事件)
所以,语音技术团队就用自己的技术把客服对话全部做语音识别,然后利用语义分析自动检查里面是否出现了不当用语。这波骚操作大获成功,一下提高了几万客服的平均服务质量。
第二步,就得为人工智能安装一张嘴。
这一次,他又盯上了客服。。。
2015年下半年,iDST 悍将漆远已经进入了蚂蚁金服,他和语音团队一起定义了一个巨大的新场景:让人工智能来代替部分客服,用语音回答用户的问题,从根本上减省人力成本。
这就要求语音团队开发一套非常基础的能力:TTS 语音合成技术。简单来说就是让机器发出和真人无异的声音。
这项技术在2015年年内就落地蚂蚁金服。2016年,语音交互技术被用到云OS手机、斑马智联网汽车、智能电视机上。
第三步,就是让人工智能听得更准,说得更好。(这是个相当漫长的过程)
比如2017年,天猫精灵发布。它从一开始就搭载了一个神奇的功能:声纹支付。你用自己的声音,就可以让天猫精灵帮你充话费买东西,而天猫精灵听到别人的声音,就会拒绝付款。从这项技术衍生开去,天猫精灵还可以识别家里不同人的声音,从而为他们推荐个性的内容。
站在历史的时间轴上,直到这一时点,达摩院才真正成立。
实际上,达摩院成立,并没有改变语音实验室的研究内容。我问鄢志杰,那你感觉到最大的变化是什么?
“决心。”他说。“阿里巴巴要做自主研发核心技术的决心。”
达摩院成立
比鄢志杰早半年加入 iDST 的司罗,是一位标准的学界大咖。从打游戏开始接触计算机,一直做到了普渡大学终身教授。(下次家长再阻止你打游戏,你就说我的偶像是司罗。)
在美国学校“吃了八年粉笔末”之后,司罗决定回国加入阿里巴巴。他的理由是:在学校里研究一个新的算法,有20个学生来做评测就已经算是豪华阵容了。而在阿里巴巴研究一个新的算法,会有上千万真实世界的体验和反馈。
于是,他成为了 iDST 语言技术实验室的领头人。
司罗
“学以致用”是司罗的信条,这恰好也和阿里巴巴的实用主义精神相契合。司罗团队用了五年时间,搭建起两座技术金字塔:
第一座技术金字塔,名叫自然语言处理平台(NLP),有“帮你选择合适内裤”的功效。
简单来说,这套系统有三大功能:把任何一段话拆分字句,提取其中的信息,理解其中的意义。
举几个实际的例子:
你在淘宝搜索一个关键词:“男士内裤骚粉”,NLP 系统就会把它拆分为“男士+内裤+骚粉”,从而找到适合你的商品,这就叫电商分词。
你在淘宝买过骚粉内裤,之后它就会一直给你推荐各种彩色内裤,这就是大名鼎鼎的淘宝推荐系统。
你在购买记录里评价购买的内裤又舒适又美观,于是淘宝就会知道这是个正面评价,然后把这个商品推荐给更多的买家,这就是情感分析系统的功劳。
如果你不知道哪家内裤的性能最好,可以询问阿里小蜜,人工智能就会查看很多商品介绍,然后给你推荐最适合的那款,这就是信息提取功能。
司罗说,仅仅 NLP 基础技术平台,每天在阿里内部就会被四百多个部门调用两万亿次。可见它的职责之重。
第二座技术金字塔,名叫机器翻译平台,有“帮土耳其人买中国辣条”的功能。
翻译的用途当然很多,但是在阿里巴巴内部,跨境电商是“最有商业价值”的战场。
如果一个土耳其用户,想要在电商上购买中国的零食,需要和卖家聊天。但他是不可能看懂中文的。对于这种对话的翻译,不是简单地说明白就行,还要特别讲究“信达雅”。
比如卖家说:
我家的辣条,软滑香糯,入口即化,唇齿留香,余音绕梁,三月不识肉味。买回去你撕开包装,隔壁小孩直接馋哭了。
要把这话翻译成土耳其语,那得把人工智能累哭了。但司罗和团队的技术正在把它变成现实。
话说回来,谁让你叫“达摩院”,达摩院可是禅宗初祖菩提达摩面壁开悟的地方。如果不做这种挑战人类极限的事情,那就别叫达摩院,干脆叫幼稚园得了。。。
阿里巴巴的同事帮我找了一张“英俄互译”的截图
(4)面壁者
走得更远的人,背包也更重。
2017年10月10日,你搜索“达摩院”,结果是少林寺。2017年10月11日,你搜索“达摩院”,结果是阿里巴巴。一瞬间,世界开始用新的标准审视达摩院的科学家。
成为达摩院诸神一员,意味着每人面前都有两堵墙。一堵墙是技术极限,另一堵墙是商业实践。
在鄢志杰眼里,技术是一只高速飞行的蝙蝠,而商业就是反馈和矫正方向的超声波雷达。他举了两个例子:
2018年,我们为上海地铁售票机研发的语音购票系统,你只需要说出想去哪儿,售票机就自动给你推荐最近的地铁站。看上去很简单,但放到真实的商业环境里,你会发现很多意想不到的困难。
地铁站里面的售票机是并排放置的,每个人说话都会干扰到临近的售货机。你不可能让地铁站把售票机距离拉大,这件事只能靠算法来解决。
再比如,我们用技术帮助法庭书记员语音撰写庭审记录。但是法庭的现场情况比较特别,原告有个麦克风,身后还有扩音喇叭。被告的声音从喇叭里出来,又会串进原告的麦克风。这同样需要精巧的算法来解决。
下图就是上海地铁购票机,亲测还挺好用的。
你可能没想到,达摩院的大神们用顶尖的人工智能技术,最后解决的却是实际应用中鸡零狗碎的小问题。
通常的研究者,经常会把一件事情抽象,再抽象。抽象到终于能解了,于是认为自己解决了问题。但他们往往忽略,抽象之后的逻辑和真实世界已经有很大的差距了。一个抽象中的算法,要解决最原初的实际问题,需要反过来走很多的路。
金榕一语概括了技术和商业的相爱相杀。
其实跟着达摩院大神们的节奏,我们已经窥探到了“自然语言处理”中科学钻探的最深处。
1、如何像人一样“听清”。
传统意义上的语音识别,人工智能只有一个耳朵。但在一个真实的公共环境中,只靠一个耳朵是远远不够的。
而鄢志杰想在这个耳朵旁边再安装上眼睛。正如人一样,我感觉到谁在对我说话,一定会把脸转向他,从而让耳朵获得最有针对性的声音。
正是基于这个“多模态语音交互”的理念,他才为上海地铁购票机装上了摄像头,配备了可以定向收声定向降噪的一组麦克风。这一套系统可以感知它身处什么环境、谁在和我说话,在说什么,等等一系列精准地信息。
鄢志杰把它用在了咖啡点餐机上,在真实的嘈杂环境中,机器用49秒时间点了34杯咖啡,作为对比,人完成这些事情却用了2分37秒。
2、如何像人一样“说清”。
机器模拟人声,这就是非常著名的技术 TTS。
TTS 是机器人通过图灵测试的关键一环。哪怕机器人对你所有的问题都对答如流,但是声音被你识破了,它还是会在图灵测试中失败。
而 TTS 是个深坑。各种最前沿的技术方向正在混战,谷歌、亚马逊,还有国内的 BAT 都在这篇混战的战场中。
鄢志杰告诉我,通过最新的 Knowledge Aware TTS,一个机器模拟声和原声相比较,已经从80-90%的相似度,提高到了95%的相似度。这意味着,你需要特别仔细地判断,才能知道电话那头究竟是人还是机。
在阿里云上,有一个小 Demo,你无论输入什么文字,萌妹子都能没羞没臊地给你读出来,而你丝毫感觉不出这是机器声。你可以去试试。
3、如何像人一样“思考”。
在最开始中哥曾经提到,人在大脑里会“解压”语音,解压的过程中绝对性地依赖自己对于世界的“知识图谱”。
要想让机器在大脑里像人一样理解人话,必须要对这个世界进行非常精准的建模,形成像百科全书一样的知识图谱。
这条长征路,达摩院已经迈出了第一步。
2018年举行了一场“精确阅读大赛”(此处求名字,我会做替换),规则是:人和机器同时用给定一堆维基百科的资料来回答问题。只有回答出精准答案才得分,部分答案不得分。在这场比赛中,司罗带领达摩院语言技术实验室拿到了第一名(此处需要核实成绩和名次),远远超越人的成绩。
当然,这几页维基百科相比现实世界的通用知识图谱,还只是大海中的一滴水。
这就是为什么达摩院的预测中会强调:语音人工智能将在特定领域通过图灵测试。
快递行业,就是其中一个“特定领域”。
现在,很多快递都用到了“阿里 AI 助手“。快递投送之前,AI 会代替快递员给你打电话,问你是不是在家,包裹送到哪里。这大大减少了快递员的工作量。
2019年2月,《麻省理工科技评论》评选出2019年“全球十大突破性技术”,“阿里 AI 助手”就位列其中。
但这还远远不够。
“建立一个有初中、高中知识图谱的通用人工智能,不仅是阿里巴巴面临的挑战,也是全世界面临的挑战。这个庞大知识图谱的定义和学习,需要很多代计算机科学家很多年的努力。”司罗说。
科学家不能贪杯,因为前路还有星辰大海。
(5)重修“巴别塔”
在文章的前半部分,其实中哥埋了一个伏笔。
我说语言和电线一样,都是“脑脑接口”。现在让我们顺着这个脑洞继续推演。
如果把人类文明看成一个整体,那么每个人的大脑都是一个计算节点,这个整体其实是由无数大脑组成的“脑联网”。由于他们之间的连接使用了语言(包括文字)通路,带宽极低,姑且可以称为“脑联网1.0”。
在计算机出现之后,我们在人体之外复制了一套网络,那就是由每个计算机连接而成的“互联网”。
而我们通篇在讨论的“人机交互”,从本质上来讲,就是把“互联网”融入“脑联网”的历史进程。
如果按照这个逻辑思考下去,我们可以推演未来一百年脑联网的后续版本:
脑联网1.1:特定图灵测试级别的人机语音交互+互联网计算节点
脑联网1.5:通用人机多模交互+物联网计算节点
脑联网2.0:高带宽脑机接口+全球物联网
阿西莫夫在《基地》系列小说里,描述了一个名叫盖娅的星球。
在这个星球上,所有的生命,人类、动物、植物、有机物和无机物之间都可以分享自己体内的资料和记忆。他们思想联通,共享喜怒哀乐,连死后都可以留存自我意识。
这,也许就是脑联网3.0。
如此你会明白,达摩院诸神所研究的,哪里是“让土耳其人买中国辣条”,“49秒内点34杯咖啡”,“买粉内裤之后给你推荐红内裤”这样的小事,他们是在为“下一代人机交互技术”一刻不停地积累实战经验,这不仅是未来十年的硬核,也将是人类进化史上重要的一环。
《圣经·旧约》中记载,人类为了对抗上帝“洪水降临”的誓言,联合起来修筑通天大厦“巴别塔”。上帝为了阻止人们的计划,降临神迹,瞬间把人们的语言变成千种万种。于此,人们难以相互理解,四散流亡,巴别塔终成废墟。
如此看来,今天达摩院正试图重修“巴别塔”。
从当年马云为了天下没有难做的生意而创建阿里巴巴B2B平台,到为了让中国人建立信任机制的支付宝,到为了人人平等享受计算力的通用计算平台阿里云,到为了迈进万物互联的 IoT 赛道,到试图用同一种语言连接全人类的达摩院。
你可以诟病阿里巴巴心态过度自信,也可以吐槽阿里巴巴动作不够优雅,但你唯独不能说阿里巴巴不够勇猛。
你不必告诉我前面是荆棘还是绿洲,我会自己去看。
面对未来,好奇的孩子总是这样说。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”