科技 > 数码 > 正文

深度对话搜狗3D AI合成主播研发团队，揭秘两会“网红”新小微

智东西

下载客户端
独家抢先看

2020年05月26日 20:00:08 来自北京

文 | 韦世玮

时值全国两会召开，科技圈又热闹了起来。这厢行业大牛们纷纷建言献策，那边科技企业直接秀肌肉助力两会顺利召开。

有意思的是，在两会新闻资讯报道方面，搜狗联合新华社推出的全球首个3D AI合成主播“新小微”火了一把！她不仅能实现一秒换装，360度无死角播报，还可以站起身在虚拟演播中穿梭，肢体语言也较为丰富。

实际上，早在两年前的互联网大会上，搜狗发布的首个2D AI合成主播“新小浩”就曾引起大家的广泛关注。

但今年推出的“新小微”不同，它采用超写实3D数字人建模、多模态识别及生成等技术，不仅更真实立体，其播报口型、肌肤毛孔、发丝等细节都清晰可见，就连表情、发型、服饰均能根据不同新闻和场景变换。同时，它还支持实时多机位、多景深拍摄，丰富AI合成主播播报新闻节目的多样性。

为了更深一步了解“新小微”的诞生，近日智东西与少数媒体对搜狗AI交互技术部总经理陈伟进行了采访，在探究搜狗3D AI合成主播技术的同时，进一步挖掘搜狗AI合成主播业务背后的战略布局和构思。

一、五大硬核技术优势，真人VS 3D版如“大家来找茬”

“新小微”原型为新华社记者赵婉微。她的3D AI合成形象是如何诞生的呢？

首先，赵婉微需佩戴数据采集头盔，由数百个摄像头对其身体各个部位进行全方位“打点”扫描，采集每一处细节，同时还对她各种形态的表情和动作进行细微地捕捉。

其次，搜狗采用领先的扫描还原、面部肌肉驱动和表情肢体捕捉等技术，生成高逼真度的3D数字人模型。

最后，基于搜狗分身技术的多模态生成算法，对3D数字人模型进行实时驱动和渲染，使其面部表情的唇动、肢体动作和语言表达能力实现高度契合，进一步提升数字人在虚拟场景下的自然视觉效果。

实际上，搜狗3D AI合成主播并非2D AI合成主播的技术升级和迭代版本，而是搜狗AI合成主播品牌下一条新的技术线。

“3D和2D在核心的多模态上是一脉相承的，包括多模态识别及生成。”搜狗AI交互技术部总经理陈伟谈到，2D AI合成主播的写实度比3D高，但是灵活度却相对不足。

随着数字化进程的加速，数字人这一概念和重要性在行业中进一步凸显。“我们发现3D对数字人来说是一个非常好的场景。”陈伟说，一是包括运动和面部肌肉捕捉在内的3D写实度技术不断成熟；二是3D产业亦在不断提速发展。

更重要的是，经过前期调研和实践，搜狗发现3D技术与搜狗AI算法相结合，是一条切实可行的路。基于此，搜狗决定将3D AI合成主播技术作为一个新的“搜狗分身”体系，同时也在2D和3D的底层生成算法上进行充分打通。

目前，搜狗3D AI合成主播技术拥有超写实、360度展现、实时文本驱动、灵活可控、低成本迁移共5大优势。

1、超写实：毛孔、发丝清晰可见

这主要体现在视觉效果上，3D AI合成主播的皮肤质感、纹理轮廓、唇齿、眼球、毛发等细节十分逼近真实效果。同时，其说话和举手投足间的肌肉运动也较为流畅。

2、360度展现：全方位、多景深场景展示

以往搜狗的2D AI主播仅支持身体在180度的幅度内运动，而3D可支持“机位”对AI模型360度的呈现，未来也将能应用在多机位和多景深的虚拟场景中。

3、实时文本驱动：文字实时生成视频

3D AI合成主播能够基于AI算法实时驱动，即给到一个文本，就能实时输出一个视频或者视频流。相较于如今游戏和电影中的3D人物，它们前期都需投入大量的人力和成本进行3D建模，才能保证模型足够写实。

4、灵活可控：轻易控制模型运动

由于3D数字人和3D AI合成主播是一个完全参数化、数字化的模型，研发人员可完全通过参数化方式对模型进行控制，更轻易地实现各种各样的动作，如走路、头动、比手势等。

5、低成本迁移：3D生成降本增效

基于搜狗AI算法和先前2D AI合成主播上积累的迁移学习能力，3D AI合成主播能够在降低3D制作成本的同时，进一步提高制作效率。

同时，在预训练的基础上，搜狗只需用大约一个小时的语音数据对基础模型进行迭代优化，就能训练出目前3D AI合成主播的效果。

二、以AI技术为核心，实时生成3D数字人视频

“从分身技术的研发，到数字人的建模、动作采集，整个研发周期有半年左右。”陈伟谈到，目前数字人技术在行业中并非十分成熟，一方面搜狗希望能更快地构建良好的3D建模能力和数据能力，另一方面也需打通3D和AI之间的技术壁垒，让AI去驱动3D。

如果从3D技术角度出发，实际上3D数字人技术已实现广泛应用，尤其是电影和游戏领域的3D建模技术。

但实际上，搜狗的3D AI合成主播与电影、游戏3D数字建模人物并不相同。

“例如二次元中的洛天依等卡通模型，或是写实模型，都是基于Blend shape和骨骼动画来做的。”陈伟提到，这导致做出来的模型面部表情和身体动作逼真度不够高，搜狗3D AI合成主播采用前沿的肌肉模型、肌肉绑定技术，能进一步优化面部表情和肢体动作的细节度。

更重要的是，目前市面上大多数3D模型效果都是真人采集，而搜狗3D AI合成主播则是通过AI技术来驱动3D模型。“一个基于AI驱动的3D数字人，这点正是搜狗3D AI合成主播的首创性所在。”陈伟说。

他谈到，以AI驱动3D模型的其中一个重要优势在于“降本增效”。在游戏3D行业中，一个专业美术师制作一分钟视频，差不多需要一个月时间，而搜狗基于AI驱动的3D AI合成主播，生成一分钟视频只需要一分钟。

“这是在不降低写实度的情况下实时生成出来的，意味着我们的3D AI合成主播技术在未来有可能替代掉游戏产业中的3D制作工作，在提升写实人物制作效率的同时，大幅度降低3D人物制作成本。”陈伟说。

值得一提的是，在不同的应用场景下，3D AI合成主播技术的难度也不尽相同。例如，在虚拟演播厅中，3D AI主播的技术难度更多在于实现说话表情、手势、身体晃动等运动的自然结合，但外景主持则需要在室内主持的基础上，添加与受访人互动、对话的能力。

因此，如何在不同场景下，让3D AI合成模型能够与场景更自然地结合，也是该技术需要不断精进发展的方向。

三、优先打通搜狗内部产品，向交互式分身发展

作为AI合成主播的开创者与领先者，从2018年发布第一代AI虚拟主播技术至今，搜狗分身技术不断创新发展。

长期以来，“语言”一直是搜狗AI发展的关键词。那么“搜狗分身”对于搜狗而言，究竟有何价值？

“搜狗的使命是让表达和获取信息更加简单。”陈伟谈到，实现这一使命，搜狗以前是通过输入法帮助用户表达信息，通过搜索引擎帮助用户获取信息。随着以语言为核心的AI战略布局，搜狗在AI上拥有了自然交互和知识计算两大能力，进一步推进人机交互协同发展。

搜狗将分身技术定位成多模态人机交互系统，这一链条包含了语言语义识别、对话、反馈以及多模态的表达。“我们希望，通过构建多个数字人的形象，能让它们帮助用户解决重复性工作，进一步解放生产力。”他提到。

如今，搜狗AI合成主播技术已经落地媒体、广电、金融、健康等多个领域。其中在金融领域，搜狗在去年9月已在平安普惠APP上线第一个AI面审客服，能够与用户进行对话问答等服务。

在今年的全国两会中，3D AI合成主播则会在虚拟演播厅内进行站姿、坐姿播报，并引入了动作、表情等有表现力的场景，以满足新闻播报的高专业性要求。

至于搜狗分身的未来，陈伟提到，搜狗将优先从内部产品出发，利用该技术打通输入法、搜索、AI硬件以及数字家庭医生等产品，以提供一个具有差异化竞争的技术能力。

之于外部，搜狗将把表达式的分身逐渐发展为交互式分身，在不断提高分身技术的自然度、灵活性和适配性的基础上，再陆续围绕医疗、健康、教育和泛娱乐等垂直领域做知识计算，成为用户个人助理。

结语：打开3D+AI技术协同发展的新突破口

从2D到3D，搜狗AI合成主播技术的发展，不仅是搜狗对其分身技术的一次次创新，同时在搜狗推动3D和AI技术融合的过程中，亦看到了它不断尝试打破技术疆界的信心和底气。

也许在未来，搜狗分身也将更深地走进我们的生活，成为每一个人身边的3D虚拟助手。

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

深度对话搜狗3D AI合成主播研发团队，揭秘两会“网红”新小微

亲爱的凤凰网用户:

第三方浏览器推荐: