深度对话搜狗3D AI合成主播研发团队,揭秘两会“网红”新小微
科技

深度对话搜狗3D AI合成主播研发团队,揭秘两会“网红”新小微

2020年05月26日 20:00:08
来源:智东西

文 | 韦世玮

时值全国两会召开,科技圈又热闹了起来。这厢行业大牛们纷纷建言献策,那边科技企业直接秀肌肉助力两会顺利召开。

有意思的是,在两会新闻资讯报道方面,搜狗联合新华社推出的全球首个3D AI合成主播“新小微”火了一把!她不仅能实现一秒换装,360度无死角播报,还可以站起身在虚拟演播中穿梭,肢体语言也较为丰富。

实际上,早在两年前的互联网大会上,搜狗发布的首个2D AI合成主播“新小浩”就曾引起大家的广泛关注。

但今年推出的“新小微”不同,它采用超写实3D数字人建模、多模态识别及生成等技术,不仅更真实立体,其播报口型、肌肤毛孔、发丝等细节都清晰可见,就连表情、发型、服饰均能根据不同新闻和场景变换。同时,它还支持实时多机位、多景深拍摄,丰富AI合成主播播报新闻节目的多样性。

为了更深一步了解“新小微”的诞生,近日智东西与少数媒体对搜狗AI交互技术部总经理陈伟进行了采访,在探究搜狗3D AI合成主播技术的同时,进一步挖掘搜狗AI合成主播业务背后的战略布局和构思。

一、五大硬核技术优势,真人VS 3D版如“大家来找茬”

“新小微”原型为新华社记者赵婉微。她的3D AI合成形象是如何诞生的呢?

首先,赵婉微需佩戴数据采集头盔,由数百个摄像头对其身体各个部位进行全方位“打点”扫描,采集每一处细节,同时还对她各种形态的表情和动作进行细微地捕捉。

其次,搜狗采用领先的扫描还原、面部肌肉驱动和表情肢体捕捉等技术,生成高逼真度的3D数字人模型。

最后,基于搜狗分身技术的多模态生成算法,对3D数字人模型进行实时驱动和渲染,使其面部表情的唇动、肢体动作和语言表达能力实现高度契合,进一步提升数字人在虚拟场景下的自然视觉效果。

实际上,搜狗3D AI合成主播并非2D AI合成主播的技术升级和迭代版本,而是搜狗AI合成主播品牌下一条新的技术线。

“3D和2D在核心的多模态上是一脉相承的,包括多模态识别及生成。”搜狗AI交互技术部总经理陈伟谈到,2D AI合成主播的写实度比3D高,但是灵活度却相对不足。

随着数字化进程的加速,数字人这一概念和重要性在行业中进一步凸显。“我们发现3D对数字人来说是一个非常好的场景。”陈伟说,一是包括运动和面部肌肉捕捉在内的3D写实度技术不断成熟;二是3D产业亦在不断提速发展。

更重要的是,经过前期调研和实践,搜狗发现3D技术与搜狗AI算法相结合,是一条切实可行的路。基于此,搜狗决定将3D AI合成主播技术作为一个新的“搜狗分身”体系,同时也在2D和3D的底层生成算法上进行充分打通。

目前,搜狗3D AI合成主播技术拥有超写实、360度展现、实时文本驱动、灵活可控、低成本迁移共5大优势。

1、超写实:毛孔、发丝清晰可见

这主要体现在视觉效果上,3D AI合成主播的皮肤质感、纹理轮廓、唇齿、眼球、毛发等细节十分逼近真实效果。同时,其说话和举手投足间的肌肉运动也较为流畅。

2、360度展现:全方位、多景深场景展示

以往搜狗的2D AI主播仅支持身体在180度的幅度内运动,而3D可支持“机位”对AI模型360度的呈现,未来也将能应用在多机位和多景深的虚拟场景中。

3、实时文本驱动:文字实时生成视频

3D AI合成主播能够基于AI算法实时驱动,即给到一个文本,就能实时输出一个视频或者视频流。相较于如今游戏和电影中的3D人物,它们前期都需投入大量的人力和成本进行3D建模,才能保证模型足够写实。

4、灵活可控:轻易控制模型运动

由于3D数字人和3D AI合成主播是一个完全参数化、数字化的模型,研发人员可完全通过参数化方式对模型进行控制,更轻易地实现各种各样的动作,如走路、头动、比手势等。

5、低成本迁移:3D生成降本增效

基于搜狗AI算法和先前2D AI合成主播上积累的迁移学习能力,3D AI合成主播能够在降低3D制作成本的同时,进一步提高制作效率。

同时,在预训练的基础上,搜狗只需用大约一个小时的语音数据对基础模型进行迭代优化,就能训练出目前3D AI合成主播的效果。

二、以AI技术为核心,实时生成3D数字人视频

“从分身技术的研发,到数字人的建模、动作采集,整个研发周期有半年左右。”陈伟谈到,目前数字人技术在行业中并非十分成熟,一方面搜狗希望能更快地构建良好的3D建模能力和数据能力,另一方面也需打通3D和AI之间的技术壁垒,让AI去驱动3D。

如果从3D技术角度出发,实际上3D数字人技术已实现广泛应用,尤其是电影和游戏领域的3D建模技术。

但实际上,搜狗的3D AI合成主播与电影、游戏3D数字建模人物并不相同。

“例如二次元中的洛天依等卡通模型,或是写实模型,都是基于Blend shape和骨骼动画来做的。”陈伟提到,这导致做出来的模型面部表情和身体动作逼真度不够高,搜狗3D AI合成主播采用前沿的肌肉模型、肌肉绑定技术,能进一步优化面部表情和肢体动作的细节度。

更重要的是,目前市面上大多数3D模型效果都是真人采集,而搜狗3D AI合成主播则是通过AI技术来驱动3D模型。“一个基于AI驱动的3D数字人,这点正是搜狗3D AI合成主播的首创性所在。”陈伟说。

他谈到,以AI驱动3D模型的其中一个重要优势在于“降本增效”。在游戏3D行业中,一个专业美术师制作一分钟视频,差不多需要一个月时间,而搜狗基于AI驱动的3D AI合成主播,生成一分钟视频只需要一分钟。

“这是在不降低写实度的情况下实时生成出来的,意味着我们的3D AI合成主播技术在未来有可能替代掉游戏产业中的3D制作工作,在提升写实人物制作效率的同时,大幅度降低3D人物制作成本。”陈伟说。

值得一提的是,在不同的应用场景下,3D AI合成主播技术的难度也不尽相同。例如,在虚拟演播厅中,3D AI主播的技术难度更多在于实现说话表情、手势、身体晃动等运动的自然结合,但外景主持则需要在室内主持的基础上,添加与受访人互动、对话的能力。

因此,如何在不同场景下,让3D AI合成模型能够与场景更自然地结合,也是该技术需要不断精进发展的方向。

三、优先打通搜狗内部产品,向交互式分身发展

作为AI合成主播的开创者与领先者,从2018年发布第一代AI虚拟主播技术至今,搜狗分身技术不断创新发展。

长期以来,“语言”一直是搜狗AI发展的关键词。那么“搜狗分身”对于搜狗而言,究竟有何价值?

“搜狗的使命是让表达和获取信息更加简单。”陈伟谈到,实现这一使命,搜狗以前是通过输入法帮助用户表达信息,通过搜索引擎帮助用户获取信息。随着以语言为核心的AI战略布局,搜狗在AI上拥有了自然交互和知识计算两大能力,进一步推进人机交互协同发展。

搜狗将分身技术定位成多模态人机交互系统,这一链条包含了语言语义识别、对话、反馈以及多模态的表达。“我们希望,通过构建多个数字人的形象,能让它们帮助用户解决重复性工作,进一步解放生产力。”他提到。

如今,搜狗AI合成主播技术已经落地媒体、广电、金融、健康等多个领域。其中在金融领域,搜狗在去年9月已在平安普惠APP上线第一个AI面审客服,能够与用户进行对话问答等服务。

在今年的全国两会中,3D AI合成主播则会在虚拟演播厅内进行站姿、坐姿播报,并引入了动作、表情等有表现力的场景,以满足新闻播报的高专业性要求。

至于搜狗分身的未来,陈伟提到,搜狗将优先从内部产品出发,利用该技术打通输入法、搜索、AI硬件以及数字家庭医生等产品,以提供一个具有差异化竞争的技术能力。

之于外部,搜狗将把表达式的分身逐渐发展为交互式分身,在不断提高分身技术的自然度、灵活性和适配性的基础上,再陆续围绕医疗、健康、教育和泛娱乐等垂直领域做知识计算,成为用户个人助理。

结语:打开3D+AI技术协同发展的新突破口

从2D到3D,搜狗AI合成主播技术的发展,不仅是搜狗对其分身技术的一次次创新,同时在搜狗推动3D和AI技术融合的过程中,亦看到了它不断尝试打破技术疆界的信心和底气。

也许在未来,搜狗分身也将更深地走进我们的生活,成为每一个人身边的3D虚拟助手。