科技 > 人工智能 > 正文

讯飞星火多模态交互大模型上线，数字人、语音、视觉支持一键调用

IT之家

下载客户端
独家抢先看

2024年11月14日 18:37:08 来自山东

IT之家 11 月 14 日消息，“讯飞开放平台”公众号今天傍晚宣布，讯飞星火多模态交互大模型正式上线，其实现从语音交互拓展到音视频流实时多模交互，新增“多模态、超拟人和个性化”能力，实现语音、视觉、数字人交互三合一，支持一键调用。

据介绍，讯飞星火多模态交互大模型首发超拟人数字人技术，数字人躯干和四肢动作能够精准匹配语音内容，快速生成表情和动作，令 AI“栩栩如生”。通过统一文本、语音和表情，能够实现跨模态的语义一致性，从而使大模型情感表达真实连贯。

其支持超拟人极速交互，采用统一神经网络直接实现语音到语音的端到端建模，响应更快速、流畅，可敏锐感知情绪变化，也可根据指令自由变换声音的节奏、大小和人设。

其支持多模态视觉交互，能够“听懂世界”“认清万物”，更全面感知具体背景场景、物流状态等信息，对任务的理解更加精准，并通过语音、手势、行为、情绪等进行综合判断，作出合适的回复。

据IT之家此前报道，用户可与数字人进行语音、视频通话，数字人可实现与用户的自然语音对话，人物表情等也能够匹配说话的语句。星火超拟人数字人还支持多模态交互，可让数字人识别摄像头中的内容，比如孙悟空和奥特曼站在一起、面霜的品牌和作用、花的品类等。

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

讯飞星火多模态交互大模型上线，数字人、语音、视觉支持一键调用

亲爱的凤凰网用户:

第三方浏览器推荐: