12月11日,由量子位举办的MEET2025智能未来大会在北京圆满落幕,大会也同步公布了2024人工智能年度评选,声网凭借在 RTE+AI 领域的杰出探索,荣膺2024人工智能年度领航企业、2024人工智能年度杰出解决方案两项大奖。
本次评选于今年9月启动,在3个月时间里,共有数百家企业、机构和个人报名参与评选。最终,以真实数据为基础,结合量子位对数百家 AI 公司的深入调研,以及数十位行业知名专家的意见,得出最终榜单结果。
在Gen AI 的浪潮下,实时多模态成为大势所趋,声网作为全球实时互动云行业的开创者,在音视频领域积累了深厚的技术优势与场景实践,通过将 RTE 与 生成式AI 结合,推出了声网 Conversational AI Agents ,该方案以语音为核心,支持视频扩展,实现文本/音频/图像/视频的组合输入&输出,具备500ms超低延时、对话更自然拟真、框架灵活可拓展等一系列特性,帮助开发者与企业快速构建适配自己业务场景的 AI 实时语音对话服务。
AI语音对话延迟低至 500ms 支持智能打断
超低延时语音对话是声网 Conversational AI Agents 解决方案的一大核心优势,通过在客户端进行低延迟的音频采集和播放,借助声网自研的 SD-RTN™ 实时传输网络实现全球范围的低延时 RTC 传输,语音对话延迟低至 500ms,并进一步通过更快速的 LLM 推理首字耗时、低延迟流式 TTS、同机部署等一系列技术手段,保证对话的实时性与流畅性,达到近似人与人之间日常对话停顿与间隔。
在真实的语音对话中,打断对方并提出新疑问是很常见的现象,而在 Gen AI 场景,能否支持随时打断也成为衡量大模型智能化的重要指标。声网自研的 AI VAD 技术,适应人类对话的停顿、语气和对话节奏,支持 AI 对话过程中随时打断。
领先的音频处理 让 AI 对话更“听得清”
在人与人音视频通话的过程中,经常会遭遇环境噪音,影响沟通效率。在Gen AI 场景中,环境噪音同样无法避免。声网的解决方案具备业界领先的音频3A能力,即使在嘈杂的环境中,也能通过 AI 噪声抑制、背景人声过滤、音乐检测/过滤等算法,确保人与 AI 的对话不受环境干扰,始终保持顺畅,AI 也更听得清人说的话。
灵活可扩展的 AI Agent架构支持快速接入
AI Agent 作为大模型的应用框架,其重要性不言而喻。而开发者经常会根据自身的喜好或者业务场景选择不同的组件搭配 AI Agent。对此,声网的解决方案采用了灵活可扩展的 AI Agent架构,兼容市场主流的 ASR、LLM 和 TTS 技术,并具备工作流编排能力,帮助开发者与企业根据特定需求定制和扩展 AI 驱动的实时互动体验。
同时,这套方案支持 API 快速调用,提供开箱即用的场景化 Demo,最快 3h 即可实现方案快速验证,并提供端到端 SDK,同样适用于针对目标场景化业务开发,寻求整套技术方案的客户。
声网 Conversational AI Agents 架构图
目前,声网已与国内外多家 AI厂商展开了合作,借助 Conversational AI Agents 帮助客户实现了对话式AI 在智能助手、虚拟陪伴、口语陪练、语音客服、同声传译、智能硬件等多个场景的落地。例如虚拟陪伴场景,通过 AI 虚拟伴侣,在社交陪聊、亲情陪伴、游戏 NPC 等场景中提供 7x24h 时刻在线服务,可自定义人设、声音、形象等模拟真人声音及情感,为用户提供情感支持、心理慰藉以及陪伴。
口语陪练场景,通过拟人化的 AI口语老师,在外语考试、语法巩固、语言学习等场景提供更高性价比的外教陪练服务,借助定制化的分级语料训练,为不同流畅度的学员提供个性化的多语言发音指导。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”