豆包手机的“生死劫”:权限、边界与生态
科技
科技 > 人工智能 > 正文

豆包手机的“生死劫”:权限、边界与生态

豆包碰了谁的奶酪?

文/郭佳哿

编辑/张晓

发布仅一周时间,豆包手机助手就已经引来舆论层面的几轮冲击。

12月5日,豆包团队发布公告,称为了让技术发展与行业接受度良性适配,将对AI操作手机的能力进行“规范化调整”。其中包括限制金融类应用和部分游戏的使用。

图/豆包手机助手官微

此前12月1日,字节跳动豆包团队发布豆包手机助手技术预览版,是在豆包大模型基础上和手机厂商在操作系统层面合作的AI助手软件,并官宣率先落地中兴旗下的努比亚M153,这款真正接近“AI手机”的产品,3499元的价格一度在二级市场炒至万元高价。

随后不少业内人士抨击,豆包拥有的跨应用操作能力,是因为获取了一项操作系统高危权限INJECT_EVENTS,直接引来抖音副总裁李亮的公开发声:“只要是用户许可就不存在侵犯隐私的行为。豆包手机助手是经过用户授权,才能完成操作手机的任务”。

图/@抖音集团李亮个人微博

短短一周,这一系列喧嚣不仅将系统级AI推上风口,也让外界看清了AI Agent在终端上的潜力与局限——让每个用户真正拥有自己的“贾维斯”,远比想象中要难。

01

一个无限接近AI Agent的产品

豆包手机助手的直观功能并不复杂。

除了基础的多模态能力和本地工具调用,它最核心的能力其实是跨应用自动执行和全局记忆功能。

在豆包最早发布的演示视频中,在不同电商平台比价下单、调取用户放进微信、小红书、大众点评等App收藏夹的地点,并在地图上进行标注,都是典型案例。

类似早期单个AI搜索软件中的上下文感知能力,豆包手机助手的全局记忆相当于把这种记忆能力扩展到用户平时对手机的所有操作上:你保存的某个日程、关注的某家餐厅、记录的某人生日,全局记忆让助手能够把分散在不同应用或时间点的任务整合在一起,实现跨应用的连续操作,比如通过唤醒记忆帮你订餐厅、订机票等。

如果说早期的豆包像个聪明的语音助手,如今却更接近直接把你的秘书塞进了系统里。它能理解屏幕内容、判断界面状态、自己寻找任务路径,而非依赖某个插件或API。以往的语音助手只是替你发出指令,豆包开始替你实际“动手”。

某种程度来说,它其实是一个无限接近AI Agent的产品。

但从技术层面来看,豆包手机助手的核心功能逻辑不外乎两部分:读取屏幕+模拟用户操作。

即它可以通过操作系统提供的无障碍接口获取当前屏幕的界面结构和元素信息,换句话说,它能“看到”屏幕上每个可交互元素的位置、属性和文本信息。

图/豆包手机助手官网

事实上,这种功能并不新鲜,大多数安卓手机早期的无障碍功能就已经可以读屏并控制应用了——一种最初设计给视障用户的系统权限。区别在于豆包手机助手本质是把AI大模型做成系统级的手机助手,预装在手机里,以最高权限直接插进系统,让操作不再只是机械执行,而是可以根据上下文和任务目标自主判断和规划,从而完成更复杂、跨应用的自动化任务。

这种产品模式看起来确实性感,如果是过去的手机是“你点”,语音助手是“你说,我帮你打开”;那现在就是“你说,我整个事情全部做好”。

说到底,这从用户体验上是质变,但从技术底座上,只是量变的叠加,并没有颠覆性的底层技术突破。

那问题来了:这套能力为什么现在才出现?

一方面,大模型的多模态理解能力在这两年提升明显,另一方面,推理成本下降,让模型常驻后台变得现实,不再像过去那样昂贵、卡顿甚至不稳定。

这个节点落在2024年底,模型能力、算力成本与用户需求共同逼近阈值,用户场景开始成为AI大模型们的共同目标。豆包踩中了这样一个窗口,它与其他AI产品的关键区别并不在算力水平,而在于其把锚点瞄准更与用户息息相关的移动终端——手机。

豆包手机助手的出现,显然不是为了证明技术实力,而是为了占据这个潜在的超级入口。在应用增长见顶、内容平台竞争白热化的当下,“入口”比“功能”重要得多。一旦模型能稳当地承担跨应用执行任务,它就拥有了重新分配移动生态流量的可能性。

同时随着App越做越复杂、生态越来越臃肿,用户被挤压的耐心反而催生了对“简单直接快速”的渴望,整个手机行业给AI让出了一个可被替换的链路。

这也解释了为什么豆包手机助手在短时间内激起如此多讨论:它触碰的不只是产品,而是互联网大厂们多年构建起的底层生态。而下一步能否走下去,要看它如何穿越更复杂的生态摩擦。

02

核心应用们的集体围剿

舆论的导火索始于微信对豆包手机助手的突然“隔离”。

仅正式发布一天,就陆续有用户发现,在使用这台搭载了豆包手机助手的手机操作微信时,直接触发了微信“登录环境异常”提示,导致微信被强制下线且无法正常登录。

紧接着阿里系也紧跟其后,有用户反馈在登录淘宝、闲鱼、大麦等App时,也遭到了强弹窗提醒,被强制推出并显示登陆环境异常,要求更换设备重新登陆。与此同时,该手机上的农业银行、建设银行等App也被直接拒绝登陆。

这些核心应用的罢工,让这台在二手市场溢价已经高达近4倍的努比亚工程机,短短几天内直接变成一块“砖头”。

虽然对此微信方的公开回复是,“没有什么特别的动作,可能是触发了本来就有的安全风控措施”,但如果把视角拉回到豆包手机助手本身,它所依赖的系统级权限正是这些风控敏感的关键所在。

要实现“像人一样操作其他应用”,AI助手必须获得较高权限或厂商级接入,尤其是连续跨应用调用会触及大量第三方数据,包括聊天记录、联系人、支付信息等等,这些个人信息都需要非常明确的用户授权、最小权限原则、以及本地化数据保护。

而AI Agent在真实环境中面对App版本迭代、网络波动等复杂情况,一旦出现执行失败或误操作,尤其涉及支付等重要设置时,用户容错成本极高。

这不仅关乎用户数据安全,也关系到产品的稳定性和风控体系完整性。对微信而言,每一次消息发送、每一个操作流程,都嵌入了复杂的反作弊、反滥用和数据监控逻辑,一旦被外部工具绕开,就可能打乱系统设计,增加异常事件和责任归属风险。

值得注意的是,今年4月,微信刚发布公告提醒用户切勿使用第三方工具管理微信聊天记录。此后,包括Siri、小爱同学、华为小艺等手机语音助手均无法再通过语音直接调用微信功能。

图/微信安全中心官微

这也能解释为何此次微信动作跟进得如此迅速的原因,这个窗口一旦打开,便意味着潜在的滥用可能。对于微信等核心应用,它们必须重新评估每一个外部调用行为的安全性与可信度,这也是为何会选择直接阻断的原因。

这种担心并非微信独有。对整个App生态而言,当外部助手掌握了系统级操作能力,就意味着任何应用的控制权都有可能被分流或代替。

这也是豆包手机助手面临的行业级矛盾:入口之争必然带来动作边界之争。

用户想象中的“便利”,对应用开发者而言可能是潜在的安全漏洞或者运营风险。无论是社交、支付还是电商应用,每一次操作都可能牵扯到账户安全、交易完整性、用户体验等多重考量。

从市场角度看,这类限制也揭示了决策权的归属——无论系统权限多么高,最终能否执行任务,取决于App是否允许。

即使系统层的AI助手具备多高的系统权限,最终能否真正执行任务,仍要看各个App是否在业务链路、相应接口与风控体系上给予“可被自动化”的空间。如果没有应用方的配合,AI助手的“全局执行”就会遇到天花板。

更广义地说,这种冲突反映了整个行业在系统级AI入口上的博弈。大厂都希望保留对用户操作链路的掌控权,因为这是流量、数据、风控与用户体验的根基。

一个简单的例子,如果豆包这类系统层智能体能够“代替用户”在多个应用之间直接执行操作,意味着用户不再需要进入各个平台完成这些动作。原本打开ABC平台→搜索关键词→浏览、比价商品→完成下单的传统路径,变成只需要说一句“帮我买一包50元以内、销量高、明天能送达的猫粮”,AI助手就会自动去各电商平台比价、选品并完成下单。

用户不再进入平台首页,平台就会失去搜索入口的流量;AI抽取内容后,平台本身的“推荐流”不再是用户入口,内容价值链被上游截断;而用户浏览时间下降,广告曝光就会减少;平台的“货架逻辑”和推荐流量分发也会失效。

当AI助手尝试跨越应用边界,它实际上挑战的是现有App生态的权力分布。豆包手机助手的尝试虽然显示了技术可行性,但真正能否长期运行,取决于能否在在系统权限与App生态之间找到商业操作上的平衡点。

03

软硬一体才是真正入口

AI发展了近3年,从算力到多模态能力,再到AI硬件落地,产业格局逐渐回到可持续性商业模式的考量上。

正如豆包明知跨应用自动执行存在隐私合规与平台关系的多重风险,却仍要执意往前推进,原因非常直接:跑马圈地之后,入口之争进入了新的阶段,AI 厂商和手机厂商都意识到,未来真正能沉淀商业价值的,不是一个个独立的 AI 服务,而是真正与用户场景相关的超级入口。

AI Agent的发展初期,豆包、元宝、Kimi、通义千问等产品都曾试图通过嵌入应用内功能占据用户场景。

豆包初期曾嵌入到抖音、今日头条等应用内,提供智能推荐、内容生成等功能;今年初腾讯甚至在微信里几乎能放广告的所有地方,都给元宝上了广告位……

而AI搜索软件和手机厂商上一次深度合作还是Deepseek爆火后,华为、荣耀、小米等主流国产手机厂商都先后宣布在其原有的语音助手中接入DeepSeek。

事实上,系统级AI也并非豆包“首发”。

早在今年6月华为开发者大会上,鸿蒙系统6展示的AI智能体验,就已出现系统级AI的雏形,但当时华为强调的仍是调度多个智能体协同完成任务。

苹果方面,Siri正在向系统层执行能力升级,未来的Apple Intelligence同样瞄准跨App协作和操作路径重构。小米、华为、OPPO等厂商也在持续改进语音助手的全局操作能力,逐步向中心化、一体化方向靠拢。

硬件端同样在布局未来入口,从早前的网红AI穿戴设备Humane的AI Pin,到阿里在11月最新发布的夸克AI眼镜,都曾被视作可能的替代入口。但至少目前尚未获得用户心智占领,手机仍是最稳定、使用频次最高的终端。因此,大部分厂商仍将手机作为核心入口下注。

这也是为什么各大厂在AI生态布局中,软硬件同步推进:软件确保系统级操作能力落地,硬件探索未来交互形态,二者结合才可能形成对用户行为路径的长期控制。

AI的洪流滚滚向前,当技术变得愈加通用,企业要么上车,要么被抛弃。

头图/豆包AI生成

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载