对话云知声CTO梁家恩:三大技术、四大行业,全面解读云知声的全栈硬核AI体系
科技
科技 > 数码 > 正文

对话云知声CTO梁家恩:三大技术、四大行业,全面解读云知声的全栈硬核AI体系

智东西(公众号:zhidxcom)
文 | 季瑜生

云知声最近搬了家,原来的办公室已经装不下现在五百多人的规模。或许对于一个创业公司而言这已经是一个不小的数量,但在梁家恩看来,对一个AI领域独角兽级别的全栈玩家而言,这已经是一个非常精简的人员规模了。

这也是智东西对话梁家恩的过程中,让他颇为自豪的一点。依托产品化思维解决行业问题以及金字塔结构的灵活高效AI技术架构,不仅为云知声带来了人才的高效利用,同时也让云知声的快速迁移部署能力远远超越多数同行。

与此同时,作为一家以语音技术起家的AI企业,智东西发现,我们已经不能简单的用语音技术玩家来定义这家企业。从交互入手,云知声已经构建起了包括异构超算平台、AI芯片、语音图像交互算法等一系列全栈、硬核的AI体系。

在一个多小时的深入交流中,智东西与梁家恩详细探讨了云知声全栈、硬核的技术体系构建以及产品化思维做B端服务的逻辑,以及对于超算中心,对于IoT芯片与算法,他的一些真知灼见。

智东西早报:2018华为5G研发支出153亿美元;苹果曾挖英特尔5G工程师

一、语音技术起家,云知声的全栈、硬核AI技术体系构建

但凡对语音行业稍有了解,就一定不会对云知声这家企业感到陌生。

这家当前在国内语音交互领域处于第一梯队的AI企业,诞生于2012年6月。那时候,AI创业在行业中尚属稀缺,深度学习也尚未完全成熟,就连Alpha Go大战李世石也发生在四年之后。

智东西早报:2018华为5G研发支出153亿美元;苹果曾挖英特尔5G工程师

▲云知声技术与应用迭代图

但是在那时候,云知声就已经一头扎入了AI交互方案的研发,并在2012年底,就完成了包括语音云、深度学习及超算平台的三驾马车构建,率先将深度学习应用到语音识别产业服务中,通过深厚扎实的技术研发奠定了在行业中的广泛影响力。

接着在2014年初,云知声又提出了“专注物联网人工智能服务”的定位,以及面向物联网的“云端芯”概念和产品体系构想,并在此后数年中,不断打磨智能交互技术能力和应用服务体系,进一步完成了包括远场、降噪、唤醒、语用计算、流式交互等物联网智能交互功能完善和量产应用,并拓展口语评测、车载后装市场、医疗等多个领域的行业应用。

值得一提的是,云知声作为算法和软件起家的公司,2014年就意识到智能交互与物联网结合是大势所趋,并提出了“云端芯”的产品体系构想。经历四年的研发,才正式于2018年5月推出了首款面向物联网的AI芯片UniOne雨燕(Swift),宣告了“云端芯”闭环的完成,也开启了“云+芯”的商业扩张与应用落地的加速阶段。

而所谓“云端芯”一体化方案,是云知声为智能物联网产业,提供从“智能交互”到“应用服务”的全套基础架构:

1、云——云知声的Athena智慧大脑,为行业应用提供认知计算、领域定制、个性化的内容服务平台,以及基于用户行为数据的快速学习迭代能力

2、端——物联网智能交互和应用,针对领域应用进行快速定制

3、芯——为AI交互与应用,提供高性能、低成本的边缘计算能力

其中“雨燕”芯片,是云知声通用ARM芯片模组完成智能家居语音交互产品验证情况下,推出的高性能、低成本、一体化芯片解决方案。“雨燕”架构内置的uDSP单元,可支持多麦克降噪和声源定位;DeepNet单元则是云知声完全自主研发的深度神经网络处理器(NPU),实现语音识别、理解、合成所需的深度学习计算加速。这两个核心单元,浓缩了云知声在语音交互能力上的多年积累与经验,为市场提供了极具竞争力的方案。

智东西早报:2018华为5G研发支出153亿美元;苹果曾挖英特尔5G工程师

▲云知声雨燕芯片

此外,云知声在“雨燕”集成语音交互核心技术能力基础上,为用户提供可定制的交互源码、工具以及云端AI服务能力,将人机交互部分代码对用户开源,用户可以根据不同的产品形态需求,定制相应的交互模式。

正是基于这种灵活开源的架构设计,雨燕在高效和可靠支撑当前的语音交互和定制化能力的同时,保持对算法演进的灵活性,进一步可以完成快速的产品迭代以及定制化开发能力。

截至当前,云知声已经确立起了包括语音、语义以及图像为代表的AI技术体系、以雨燕为代表的AI边缘计算芯片以及Atlas为代表的超算平台三大技术体系,形成了“云端芯”一体化的产品架构,并实现在智能家居、车载、医疗、教育四大应用领域的规模化验证。

梁家恩将云知声的这种技术与产品的构想和实现能力,归纳为云知声的AI哲学,并用“全栈”和“硬核”两个关键词进行概括:

全栈——既包括从感知、表达到认知的完整AI技术图谱,也包括贯穿技术、产品与产业闭环的全栈AI产业能力,可以把技术创新和整个产业应用需求价值的闭环打通。

硬核——是从底层感知、认知和表达技术,到AI芯片和超算平台的硬核技术实力,解决AI技术产业化应用中的难题。

在他看来,云知声从语音交互技术起家,能够在不到七年的时间内,拓展出包括语用计算、图像识别、机器翻译等全栈技术体系,并在四大领域拓展产业应用,在很大程度上受益于其高效的技术研发体系和平台——基于Atlas超算平台的三层“金字塔型”研发体系构建:

智东西早报:2018华为5G研发支出153亿美元;苹果曾挖英特尔5G工程师

▲云知声的AI技术图谱

首先是位于金字塔最底层的异构超算和存储集群DeepFlow——它具备上千块GPU计算资源,超过一亿亿次每秒的浮点计算能力,以及PB量级的分布式存储,可以为上层的超算平台以及应用提供高密度的计算以及存储能力。

其次是位于中间层的大规模机器学习超算平台Atlas——能高效调度DeepFlow提供的分布式并行计算和存储能力,实现大规模数据的机器学习试验和优化,这是上层AI技术应用优化的共性基础。

最后是位于最顶层的云知声AI应用技术体系,包括:DSP(信号处理)、ASR(语音识别)、TTS(语音合成)、FID(人脸识别)、OD(物体检测)、NLU(自然语言理解)、DM(对话管理)、NLG(自然语言生成)、NMT(神经网络机器翻译)、AVS(音像合成)等多种算法,其快速拓展和迭代优化,都是基于Atlas平台。

梁家恩将Atlas平台称为云知声AI技术拓展和演进的“高铁”,基于Atlas超算平台和AI技术功底,云知声在图像和机器翻译等技术延伸方面得心应手,用不到一年的时间,就实现从零到一到技术延展,并在国际评测集上取得领先的成绩,包括WMT2018世界机器翻译评测第三名,人脸识别标准评测数据库LFW和MegaFace上,分别取得了99.80%和99.47%的成绩,而且参与每个方向评测的只有2~3人,效率非常高。

得益于这种高效、灵活的金字塔结构的技术研发体系和平台,云知声才能在2018年400人规模下,实现了从语音技术向信号、图像、翻译、知识图谱、智能芯片等全栈技术的快速拓展,以及“云端芯”产品体系在多个行业应用中的规模化商业应用。

不过,梁家恩最后也表示,为支撑产业技术挑战,云知声还联合包括自动化所、西北工业大学、杜克大学等院校进行联合研发,并携手中国中医科学院、上师大等高校,推动在医疗、教育等行业的应用研究,也是云知声在技术和人才储备方面的一大灵活体现。

二、AI商业化的杀手锏:用产品化思维解决行业问题

历数云知声的四位创始人:董事长兼CTO梁家恩与副总裁康恒都取得了中科院自动化所的博士学位,CEO黄伟与副总裁李霄寒则是毕业于中科大的博士,同时,在Moto、盛大等企业有多年产业界实战经验。

创始人全数知名高校与研究院所的博士出身,公司78%都是研发人员,这是云知声在技术研发方面一个巨大的优势,但是在梁家恩看来,AI技术能力对AI产业化而言只是个基础。技术领域从0到1很难,从1到10也充满挑战,但对整个产业而言,还需要跨越从10到100以上的挑战——即产品化、商业化和模式创新,才算真正带来产业的变革。

过去两次AI浪潮,基本上都是学术AI的“自嗨”,第三次AI浪潮,技术基础、产业基础和需求都日渐成熟,产业力量成为引领行业变革的主力,而云知声相信,产业机遇就在问题背后。

因此,相比很多同行企业,云知声更早的将AI技术产品化,并与行业应用结合。从2014年云知声提出“专注物联网人工智能服务”的定位以来,不断将AI技术与物联网应用结合,以“云端芯”一体化解决方案,积极拓展智能家居、汽车、医疗、教育等产业应用,5年过去,云知声在这些产业应用方向均取得了丰硕的成果。

首先,智能家居领域,成为云知声“云端芯”一体化方案构想落地的首选场景。物联网和智能家居,对行业而言并非新概念,在上世纪90年代就提出的构想,但一直没有实现,云知声认为主要问题在于“人机交互”和“应用服务”的核心问题没有得到有效解决。

云知声的“云端芯”一体化解决方案,将云端智能服务、智能技术算法、硬件模组/芯片、终端交互逻辑合为一体,让专业度很高的智能交互与应用方案,能根据客户需求和应用场景,进行快速定制和优化,极大提升了规模化落地的效率。梁家恩打了一个形象的比方,这就像从为合作伙伴提供水泥与铲子,变成了直接为他们铺路,而合作伙伴只需要根据自己的意愿来对路面进行简单的布置以及刷漆。

而在当前,云知声在这一领域的合作伙伴已经覆盖了格力、海尔、美的、奥克斯、长虹、京东、华帝、海信等几乎所有主流家电企业。在战略融资阶段,云知声还获得了来自高通、京东、360、美的等一众产业资本的联合投资,并在业务方面完成了相应的产业布局。

其次,云知声从2015年起,还积极拓展在智能车载后装市场应用,同样以“云端芯”产品体系,为客户提供包括智能后视镜、智能车机等智能语音交互整体解决方案,主要挑战是车载噪声、导航和娱乐媒体等优化。

智东西早报:2018华为5G研发支出153亿美元;苹果曾挖英特尔5G工程师

▲云知声的智能车机

当前,云知声在汽车智能车载后装市场上,可以做到两周内完成集成优化与交付,服务用户也超过2000万,市场占有率超过70%,并与奔驰、上汽、吉利等众多品牌商建立了紧密的合作关系,在2018年9月与吉利亿咖通成立合资公司。

最后,在为智能家居、车载等智能硬件设备提供人机交互解决方案,触达终端用户的同时,云知声还积极拓展教育、医疗等服务领域应用。在云知声看来,智能交互只是解决效率问题,作为智能化的切入点,而为用户提供高质量、个性化的内容服务,深度推动行业闭环优化,才是本质需求。

正是基于这种理念,云知声2014年起,为教育领域客户提供口语评测技术SaaS服务,目前日均调用量已经超过2.7亿次,覆盖用户超过五千万,主要客户包括新东方、一起做业务等80多家企业。

2016年起,云知声还相继为北京协和、浙大附一院、中山医院等上百家三甲医院提供语音电子病历录入、超声助手、智能导医等方案,语音电子病历,能够帮医生将病例处理时间从每天3个多小时,缩短到1小时,极大提高效率。

智东西早报:2018华为5G研发支出153亿美元;苹果曾挖英特尔5G工程师

▲云知声为某医院提供的电子病历录入

2017年起,云知声推出面向儿童的教育和陪伴机器人方案,去年方案出货量超过400万台,居行业第一位,集成了唐诗宋词、成语接龙、英语学习、数学计算、童话故事、儿歌等丰富的内容与功能。目前,云知声已经与喜马拉雅、蜻蜓FM等达成了合作,包含诗词曲库7万余首以及超3000小时原创精品内容,并可以完成20多种交互应用模式。

智东西早报:2018华为5G研发支出153亿美元;苹果曾挖英特尔5G工程师

▲搭载云知声方案的机器人

到2018年,云知声在智慧医疗方面,与平安好医生达成深度合作,成立合资公司,探索AI与医疗应用结合。与此同时,在语音电子病历基础上,还延伸了基于医疗知识图谱的病历质检方案,解决医疗电子病历的质量控制问题,开始从外围工具,向医疗业务深度结合的尝试。

尽管从行业跨度看,云知声所选择的四大应用领域几乎无一不是壁垒高筑并充满挑战,但是在梁家恩看来,云知声的商业化路径选择,并不是以难易来作为判断标准的,而是考虑这些应用场景中,用户对智能交互是否有足够强的需求,以及是否具有明确的行业应用价值。

在梁家恩看来,AI产业革命是没有捷径可走的,要有选择“正确”而不是“容易”道路的眼光和勇气;商业规模化增长的核心并非ToB和ToC的区别,而在于产品标准化程度。因此,在他的规划中,如何根据自身的技术优势搭建起合理的产品化体系,并通过产品化思维来解决行业问题,是他考虑最多,也是云知声持续发力的重点。

梁家恩透露,通过这些年“云端芯”产品体系的持续打磨,云知声在ToB客户需求实现方面,产品标准化程度已经达到80%以上,大多数的行业应用,都能够通过非常低的人力投入,快速实现项目落地,这是云知声推动AI高效商业化的杀手锏。

三、云知声的AIoT野心与挑战

自从云知声2014年将AI技术的产业化赛道定位在AIoT以来,在全栈AI技术与“云端芯”产品体系构建,以及产业化应用拓展方面,都已取得了不错的成绩,但在梁家恩看来,这只是AI产业化的序章,未来挑战将更加艰巨。

而问起云知声今年的小目标,梁家恩则表示,云知声2018年收入相比2017年增长3倍,今年云知声的目标还是增长2~3倍,这一数字已经拆解到各业务与技术层面,已经定下了详细的产品和商业规划。

首先,在底层技术方面,梁家恩表示,这些年深度学习结合行业大数据,确实在产业化应用突破方面起到了重大作用,但对于产业变革来说,光靠一块拼板是不够的。

深度学习本质上解决的是大数据、端到端的序列映射问题,极大程度上发挥了海量真实数据和复杂建模方法的威力,这是这些年产业化应用突破的基础。但深度学习本身的数据需求规模、不可解释性、攻击防御等方面,本身有很多工作要做,更重要的是,很多理解和认知等方面的问题,在数学上并不是一个简单的序列映射问题,需要结合知识图谱、应用场景、用户画像等,进行优化和迁移,目前甚至还没有统一的计算架构来解决。梁家恩表示,这些技术挑战和困难,实际上并非云知声一家所要解决的问题,而是整个行业都在面临的挑战。

其次,在智能芯片领域,云知声在去年五月推出的首款面向物联网的AI芯雨燕基础之上,今年还将进一步扩张其多模态AI芯片战略与规划。

具体来说,云知声今年将会发布第二代物联网语音AI芯片蜂鸟、面向智慧城市的支持图像与语音计算的多模态AI芯片海豚(Dolphin),以及面向智慧出行的车规级多模态AI芯片雪豹(Leopard),并计划分别于二季度及三四季度量产。

以AIoT芯片为基础,云知声为行业合作伙伴提供开源的“端”方案,进一步降低行业应用拓展的成本。在当前,“云端芯”一体化已经成为行业大趋势,产品化能力也成为行业共识,云知声虽然还有进步空间,但是依然走在行业前列。

最后,在行业应用方面,梁家恩认为,来自AI产品形态和商业模式演进的不确定性,会成为重要挑战。正如移动互联网,不是简单的将PC应用缩小放到手机中一样,AIoT的应用和服务形态,肯定不是简单的AI+IoT形式,而是需要建立AI思维(ThinkinginAI),根据AI特点重构应用与服务形态,才是真正的AI应用与服务,而目前整个行业来说,并没有标准答案,Amazon Echo为代表的智能音箱,也只是一种尝试。

在云知声看来,AI应用与服务,可能不是一个简单的独立应用,需要比互联网更深入的结合行业,才能引发产业变革。因此,云知声在家居、车载和医疗领域,分别与世茂集团、吉利亿咖通、平安好医生达成深度合作,成立合资公司,积极探索AI技术和方案与行业应用的深度融合。

对于AIoT的未来,梁家恩认为,这是互联网的下半场,除了AI技术,5G和IoT技术本身的发展,都是主要的助推力量。在“智能交互”和“应用服务”问题解决后,将实现线上服务与线下产业的打通,真正的产业变革将到来。技术驱动的产业变革,路径会比应用和模式驱动来得长,但爆发力也更强大,正是由于整个路径上问题挑战仍然很多,技术型创业公司在巨头面前才有机会。

结语:产业AI,何以决胜?

AI经过60多年发展,现在迎来了第三次浪潮。在过去两次浪潮中,由于产业落地相距甚远而衰落,2016年Alpha Go掀起的第三次AI热潮,今天看来也有渐退的迹象,整个行业也开始理性思考AI的前途在哪里?概念、刷榜和炫技,早已经不能赶上实际的行业应用需求,一切都以能产业规模化落地为硬道理,决定AI产业变革的成败,和众多AI企业的命运。

今天,越来越多的AI公司,已经意识到ToB市场的重要性,“云端芯”一体化、重视产业落地,也逐渐成为AIoT行业共识。站在AI大规模落地的产业节点上,技术从单纯的学术AI走向产业AI也是大势所趋。在这种大趋势之下,面对密布赛道中的一干巨头和创业公司,如何能胜出,是云知声需要回答的问题。

对此,梁家恩的回答是,产业变革时代,没有捷径可走,比拼的是解决产业需求和技术问题的能力,本质上就是人才和团队的实力比拼。

对云知声来而言,技术和应用方面的积累和实力,以及高效迭代演进效率,只是外界看得到的结果;对企业而言,支撑持续发展的是战略和组织能力,即前瞻技术和产业规划,以及高效的技术和产品研发组织体系,这是云知声持续高速发展的推动力。

梁家恩认为,AI行业发展迅速,技术和应用的领先都是时间差,需要将时间差转化为用户、数据、品牌和模式的优势,才能建立真正的商业壁垒。战略规划和执行决心,造就了云知声今天在AIoT的先发优势,而灵活高效的技术研发组织体系,则为后续长跑提供了重要支撑。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载