科技 > 人工智能 > 正文

谷歌干掉“请再说一次”！Gemini 3.1毫秒级接话，实时Agent时代来了

新智元

2026年03月28日 11:40:34 来自北京

编辑：元宇

【新智元导读】语音AI最烦人的一句话，可能终于要被谷歌干掉了。Gemini 3.1 Flash Live 正在逼近「像人与人说话那样响应」的体验：不仅更快、更自然，连在交通声、电视声这样的真实噪音里，也更能听清你在说什么。

刚刚，谷歌把语音AI最烦人的一句话狠狠干掉了：「请再说一次。」

这次谷歌新发布的 Gemini 3.1 Flash Live，直接瞄准了现实生活中最乱、最吵的那些场景。

https://blog.google/innovation-and-ai/technology/developers-tools/build-with-gemini-3-1-flash-live/

更重要的是，它不只是「听」，它还能看，还能调用工具，还能守住设定边界。

谷歌称，这是在延迟、可靠性和更自然的对话表现上的一次跃迁式提升。

你说话的速度

就是它思考的速度

谷歌官方博客中提到，实时交互里，每一毫秒的延迟，都会破坏用户期待的自然对话流。

因此，Gemini 3.1 Flash Live的一个目标，就是把语音Agent推进到「接近对话本身速度的响应」。

因为现实体验中，语音AI最劝退人的不是答错，而是那种你已经张嘴说完，它还在后台转圈带来的「断片」感。

谷歌这次改进的方向，不是某一个点，而是语音Agent最容易掉链子的整条实时交互系统：

一边增强对音高、语速、重音和意图的识别能力；一边强化复杂系统指令遵循，让Agent即便在对话突然转向时，也能守住既定边界、不轻易跑偏。

更关键的是，谷歌还专门强调了它在真实噪音环境中的任务完成率提升：

面对交通声、电视声等背景干扰，模型能更有效地区分有效语音与环境噪声，在实时对话中更稳定地触发工具、返回信息。

并且，相比2.5 Flash Native Audio，新模型在这些方面都有明确提升。

AI终于走出实验室

想象在一个嘈杂的咖啡厅：

隔壁两个人正在吵架，你一边盯着明天的航班，一边对手机说：帮我改签到上午。

结果你说3遍，它仍是回答你3次：「抱歉，请再说一次。」

这样的情景是不是很熟悉？

语音AI这些年最大的问题，并不是它「能不能聊天」，而是它能不能在你需要它的时候和它聊天。

这些需要和它聊天的场景，往往是在地铁站、车上、开着电视的客厅、菜市场这些噪声环境，所以，谷歌这次把「噪声」放到了非常核心的位置。

新模型显著提升了在嘈杂、真实环境中的任务完成率，能更准确地区分有效语音和交通声、电视声等环境噪音。

这些改进，让语音AI能够更适应真实场景的需要。

设计师、老人、玩家

三个人的AI已经不一样了

谷歌官方列举了Gemini 3.1 Flash Live在设计、陪伴和游戏三个代表性的案例。

设计师

语音第一次变成创作工具

自动播放

谷歌官方称，借助Gemini Live API，用户现在可以直接用语音做创意设计，AI不仅能听，还能看到你的画布和当前选中的界面，然后给出设计点评、生成变体。

小功能背后，设计工作流也在改变。

以前你跟设计工具的关系，是手点。后来是手点+文字框。现在开始变成：你一边看画布，一边开口，AI一边理解、一边改。

这意味着设计师不再只是「操作软件」，而是在「调度一个实时搭档」。

你不用停下来把脑子里的感觉翻译成一大段prompt，而可以直接说：这个卡片太满了、留白拉开、主按钮再有互动性一点、这个版本偏保守，给我三个更大胆的……

这正是语音在创作场景里的真正价值，它将大大缩短灵感到执行之间的距离。

在Stitch这种场景里，语音已经不是输入法了，而成了创作指挥棒。

老人

陪伴终于不是假聊天了

第二个案例，是Hey Ato。

自动播放

这是一个面向老年人的AI陪伴设备。

谷歌给出的重点是，Ato利用Gemini 3.1 Flash Live的多种语言支持能力，把日常对话变成真正的联系。

「AI陪伴」过去最大的问题不是功能少，而是太假、太模板化，而老年场景，对「实时感」「打断恢复」「语言自然度」的要求，远比年轻人想象得更高。

对很多老人来说，他们不会有耐心和能力去调参数，也不会切来切去看屏幕。

Gemini 3.1 Flash Live的多语言、低延迟和更自然对话，在这样的场景中成了一个入门级的能力。

当AI设备真的能用父母更熟悉的母语，稳定地接住日常闲聊时，它才能真正让「人机交互」切入「陪伴关系」这一高挑战场景。

玩家

游戏里的NPC终于不像木头人了

第三个场景最有戏剧感。

自动播放

它来自Weekend团队的RPG游戏Wit’s End。

谷歌官方说，他们把Gemini 3.1 Flash Live的「强角色塑造能力」和「类人的表达方式」结合起来，给Game Master加上了独特的戏剧风格。

游戏也是实时语音AI最危险、也最容易炸场的场景，因为玩家对「卡顿」和「出戏」的容忍度极低，这也是为什么游戏行业会特别敏感地拥抱这类能力。

他们不需要一个「会回答问题的模型」，而是需要一个「能演、能接、能控场」的实时角色。

从Stitch到Ato，再到Wit’s End，谷歌Gemini 3.1 Flash Live其实都是在印证这样一个变化：

语音+视觉Agent，正在同时渗透进创造、陪伴、娱乐这三种最贴近个体生活的场景。

实时AI竞赛的战火

正在烧向App

对于大厂来说，最值得警惕的，往往不是它们某个单点功能有多强，而在于它什么时候开始变成基础能力。

Gemini 3.1 Flash Live这次最让竞争对手感到危险的，也正是在这里。

自3月26日起，Gemini 3.1 Flash Live已通过Gemini API和Google AI Studio提供，当前为预览版，开发者可通过Live API集成。

官方文档中特别强调了tool use、session management、ephemeral tokens等关键能力，这些都直接对应实时Agent落地时最核心的工程问题。

https://ai.google.dev/gemini-api/docs/live-api/get-started-sdk

按照官方文档，Gemini Live API基于有状态WebSocket连接，支持连续的音频、图片和文本流输入，并以低延迟方式返回语音结果。

输入侧可接收16kHz、16-bit PCM音频，输出侧则返回24kHz、16-bit PCM音频。

换句话说，它不是传统那种「说一句、等一次结果」的调用方式，而更像一个持续在线的实时交互回路。

文档还明确列出了多语言支持、用户随时打断、函数调用与Google Search等工具接入、输入输出转写、主动音频控制等能力。

对开发者来说，这些能力组合起来，意味着它已经不再只是一个会语音对话的模型，而是一个可直接接入应用工作流的实时Agent接口。

Google AI for Developers的版本说明也确认了模型名为gemini-3.1-flash-live-preview。

由此看，这次更新不再只是谷歌自家产品里的一个新功能，而是一个可被复制、可被集成、可被规模化嵌入的能力层。

不仅如此，谷歌还在博客中专门提到了两类合作伙伴能力：WebRTC扩展，以及全球边缘路由。

这说明谷歌考虑的已经不只是模型演示效果，而是更接近真实生产部署的要求。

视频流、电话场景、跨区域低延迟分发，这些都不是「实验室demo」会提前考虑的东西。

这次升级，官方不只开了API，还给了Live API文档、示例，以及GenAI SDK代码入口。

也就是说，下一波实时AI应用的爆发，不一定从大厂内部开始，很可能是从一批动作快的开发者和创业团队开始。

很多人还在把「实时语音助手」理解成一个独立产品，但未来真正可能发生的，并不是你去下载一个新的AI App，而是你原来每天就在用的App，某天突然多了一个按钮。

它可以与你实时交互，会看、会听、能做事，那时整个交互范式可能已经开始变化。

语音AI真正的敌人

也许不是技术

谷歌官方这次推出的是预览版（preview），即Gemini 3.1 Flash Live现在仍处在预览阶段。

官方文档已经提示了两种典型接入模式：要么由后端中转，与Live API进行服务器到服务器通信；要么由前端直接建立WebSocket连接，但在生产环境里推荐改用临时Token，而不是直接暴露标准API Key。

当然，这套能力距离「无摩擦落地」还有一段距离。

因为，实时语音Agent并不只是模型问题，它还叠加了持续连接、音视频流传输、状态保持和安全控制等工程约束。

也就是说，Gemini 3.1 Flash Live虽然已经把「实时多模态交互」这层能力打开了，但要真正把它打磨成稳定产品，还需要回答以下现实性的问题：

成本会不会压垮高频使用？长时对话稳定性到底怎么样？多人环境下的说话权分离能做到多稳？隐私、误触发、持续监听的边界怎么画……

这些问题解决，实时语音Agent才有望真正成为「下一代入口」。

但至少这次Gemini 3.1 Flash Live发布让我们看到：语音AI终于不那么像一个总在掉链子的笨助手了。

过去，人类用API调AI。接下来，AI会越来越频繁地替你调用世界。

一旦响应速度追平人类开口的节奏，很多今天看起来还不成立的场景，明天就会突然成立。

比如，它能替你打电话、改签、盯屏幕、陪父母聊天、打游戏……我们日常的耳机、手机、眼镜也可能改变，我们经常使用的App也可能被重新定义。

那时，我们与机器沟通的习惯方式，可能真的是要改变了。

谷歌干掉“请再说一次”！Gemini 3.1毫秒级接话，实时Agent时代来了

亲爱的凤凰网用户:

第三方浏览器推荐: