Soul张璐团队发布开源模型SoulX-LiveAct,破解长时数字人生成难题
科技
科技 > 传媒 > 正文

Soul张璐团队发布开源模型SoulX-LiveAct,破解长时数字人生成难题

Soul张璐团队发布开源模型SoulX-LiveAct,推动实时数字人生成迈入长时稳定阶段

Soul张璐团队发布开源模型SoulX-LiveAct,破解长时数字人生成难题

近日,Soul App张璐团队在实时数字人生成领域取得新的技术进展。其旗下AI团队(Soul AI Lab)对外发布开源模型SoulX-LiveAct,该模型通过对自回归扩散框架的结构性优化,使流式生成从“能生成”进一步迈向“能长期稳定生成”,为数字人技术在实际场景中的应用提供了更具可行性的解决方案。

在过去的技术路径中,AR diffusion虽具备流式生成能力,但在长视频场景下往往面临显存持续增长与稳定性下降的双重挑战。SoulX-LiveAct针对这一问题,从条件传播方式与历史记忆管理两个关键环节进行优化,使模型在长时间运行过程中既能保留必要的历史信息,又避免缓存无限扩张带来的性能压力。这一设计使系统在机制层面具备支持更长时的能力,同时保持推理过程的稳定性。

在计算效率方面,SoulX-LiveAct在512×512分辨率下,仅需2张H100/H200即可实现20 FPS的实时流式推理能力,端到端延迟约为0.94秒,单帧计算成本控制在27.2 TFLOPs/ frame。该表现表明,在保证实时性的前提下,模型对算力资源的消耗得到有效控制,为线上部署提供了更具现实性的成本参考。

长时间生成场景中,身份一致性与细节稳定性一直是衡量系统可靠性的关键指标。针对常见的面部漂移、服饰细节变化及口型错位等问题,SoulX-LiveAct在长时间窗口内表现出较好的稳定性。实验结果显示,该模型在持续生成过程中能够维持人物身份特征一致,并保持配饰与纹理细节的连贯呈现,从而降低长时运行中的质量波动。

在技术实现路径上,SoulX-LiveAct基于AR Diffusion范式,构建了Neighbor Forcing与ConvKV Memory两项核心机制。Neighbor Forcing通过在同一扩散步内传播相邻帧的latent信息,使上下文与当前预测处于统一的噪声语义空间,从而减少训练与推理阶段的分布不一致问题。ConvKV Memory则将传统线性增长的KV缓存转化为“短期精确+长期压缩”的结构,通过固定长度的记忆表示实现恒定显存推理,同时兼顾局部细节与全局一致性。此外,配合位置编码对齐机制,模型在长序列处理中能够有效避免位置漂移带来的误差积累。

在训练策略上,SoulX-LiveAct按chunk组织训练样本,模型在训练阶段即接触连续生成与误差累积过程,从而提升其在长时间运行中的稳定性。同时,引入与推理一致的记忆机制,使模型学会在压缩历史信息的条件下仍能保持身份与细节一致,减少训练与实际应用之间的偏差。

在多项基准测试中,SoulX-LiveAct展示了较为均衡的综合表现。在HDTF数据集上,其取得9.40的Sync-C与6.76的Sync-D,同时在分布相似性上获得10.05 FID与69.43 FVD;在VBench评测中,Temporal Quality达到97.6,Image Quality为63.0。VBench-2.0的Human Fidelity达到99.9。在包含全身动作的EMTD数据集上,模型同样保持稳定表现,Sync-C为8.61、Sync-D为7.29,并在Temporal Quality与Image Quality上的分值分别达到97.3与65.7,Human Fidelity为98.9。这些结果反映出其在口型同步、动作表现及整体一致性方面具备较强的稳定能力。

基于上述性能表现,SoulX-LiveAct已能够适配多种对实时性与稳定性要求较高的应用场景。例如,在数字人直播、AI教育、智慧服务终端以及播客录制等场景中,系统需要在长时间运行下保持表达一致性与交互自然性;在开放世界交互环境中,角色需要持续输出稳定的语音与动作表现。SoulX-LiveAct在全身动作与长时推理方面的能力,使其能够支持此类复杂应用需求。

通过开源SoulX-LiveAct,Soul张璐团队进一步丰富了实时数字人领域的技术选择,为开发者在不同算力条件与应用需求下提供更具适配性的解决方案。其在长时稳定与实时推理之间取得平衡的技术路径,也为行业探索数字人持续在线交互能力提供了新的参考。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载