科技 > 人工智能 > 正文

当字节的AI洪水，试图漫过微信们的堤坝

锦缎

下载客户端
独家抢先看

2025年12月12日 07:59:50 来自北京

过去一周，中国AI领域接连发生的两件事，形成了一组微妙的对应：字节跳动率先推出可实际体验的“豆包AI手机”，让人工智能大模型得以直接操控设备；紧接着，智谱宣布开源AutoGLM，相当于把“用AI操作手机”这项能力向所有人开放。

然而，新技术的亮相，迅速演变为一场远超预期的争议。

风暴的中心，正是那台“豆包AI手机”——这款将大模型能力深植于操作系统底层的工程样机“努比亚M153”，甫一问世，便遭遇微信、淘宝、美团等超级应用，以及多家高敏感度银行应用的联手抵制：或被拒绝登录，或被持续弹出安全警告。

争议的焦点，也随之从对AI功能的惊叹，迅速转向其依赖的高系统权限（INJECT_EVENTS）所引发的隐私安全忧虑，乃至更深层的商业模式冲击。一场关于技术边界、数据主权与商业利益的激烈辩论，就此爆发。

相较于此前被舆论放大的商业竞争叙事，我更愿意从程序员的视角，探寻这场交锋背后的深层逻辑与潜在含义。

这让我想起了“Python”

谈到“AI手机”（或称AI手机助手），我第一个联想到的，就是Python。

提起Python，许多人都不会陌生。1989年圣诞节，荷兰程序员Guido van Rossum因不满C语言之繁琐、Shell脚本之简陋，在闲暇之余创制了这门兼具功能完整与语法简洁的新脚本语言。

此后，Python并未选择与C++竞逐性能，而是独辟蹊径，将“开发效率”奉为核心。在摩尔定律持续生效的年代，程序员的时间成本逐渐超越机器时间，Python恰好押中了未来：让人更好用，比让机器好用更有价值。

当然，C++作为经典编程语言并未因此失色。本质上，Python作为解释型语言运行效率并不高，但其最擅长的，正是调用C/C++编写的库。面对高性能任务时，用C++完成底层实现，再封装为Python接口，便能以一行Python代码调动数千行C++逻辑。

随着近年人工智能的兴起，Python更成为深度学习框架TensorFlow与PyTorch的首选接口——想做AI，几乎绕不开Python。

回看AI手机所做之事，与Python的思路高度相似：

Python的逻辑是：C++写起来太麻烦，我用简单的API在底层调用它。

AI手机的逻辑则是：App操作太繁琐，我用自然语言在底层模拟点击、串联服务。

对普通用户而言，AI手机的核心价值在于省时与提效——这与Python的定位高度契合。Python不与C++比拼性能，而是通过简洁的接口调用底层复杂功能，最终成为连接人类逻辑与机器算力的桥梁。

但两者的生态命运却截然不同：Python与C++形成了经典的共生关系：C++开发者乐于让自己的库被Python调用，从而扩大影响力；豆包手机助手面临的，却是“生态抵抗”——微信、淘宝等应用不愿被AI直接调用，如同要求用户“必须亲手写C++”，手动点击、观看广告。

当深度学习的需求从服务器蔓延至手机，即便是C++、Java这样的语言，也不得不为Python的易用性让路。

AI手机未必能成为移动领域的Python，但“Python式”的演进方向——让人更便捷地调动底层能力——已是清晰可见的趋势。编程语言的演进早已揭示方向：技术的终极善意，是让人做得更少，而非更多。

我们眼前正在发生的，不仅是一款新工具的出现，也不仅是字节与腾讯们的商业博弈，而是从“打开一个个App”到“AI串联生成所有功能”的移动互联网范式迁移。

因此，这场争议远不止于技术或商业竞争，本质上是“AI代理”新范式与“App中心化”旧秩序之间的激烈碰撞。我们目睹的，正是从“打开应用”到“AI生成服务”的范式转移前夜。

AI手机的“Python之困”

如果说Python的成功源于与底层生态（C++库）的和谐共生，那么豆包手机助手眼下正深陷“Python之困”——它急需调用的“库”（各类App）并不愿被轻易“导入”。

实现跨应用自动化的核心技术之一，是获取Android系统的INJECT_EVENTS

（注入事件）权限。这一权限允许应用模拟用户的触摸与点击，堪称系统级的“上帝之手”，也随即引发了用户对隐私与资金安全的强烈担忧：一个拥有如此高阶权限的AI，是否可能失控？

尽管豆包官方多次声明所有操作需经用户明确授权，敏感环节（如支付）会暂停并交由用户手动完成，且承诺数据不用于训练，但疑虑并未全然消散——用户未必总是在充分理解后果的情况下授权，也难以实时监控AI的每一步行动。

更深层的阻力，源自商业利益的根本冲突。

互联网平台的“护城河”，正是建立在用户必须打开App这一行为之上。AI助手绕过应用界面、直接调用服务，无异于架空应用的流量入口与交互价值。这已不是简单的功能竞争，而是“入口控制权”与“数据主权”的争夺。

一言以蔽之，AI手机助手触动的，是互联网商业模式的根基。因此，各大应用的“封堵”绝非偶然。

作为对排山倒海而来的阻力的应对，豆包已于12月5日宣布对AI操作能力进行规范化调整，暂时下线金融、支付类应用的操作能力，并限制刷分、刷激励及部分游戏场景。这既是对安全关切的回应，也是在生态摩擦下的阶段性妥协。

更大可能的演进逻辑

如果说字节发布的“豆包手机助手”是对App城墙发起的一次“奇袭”，那么智谱开源AutoGLM，则无异于在关键时刻，向战场投下了一把更具普惠性的“攻城锤”。

事实上，智谱此举并非首次尝试。AutoGLM项目已持续演进一年有余，其早期形态依赖“云手机”环境，功能已与豆包助手相似。

此次开源虽未引发同等规模的商业震动，但从技术演进的角度看，其意义或许更为深远。

字节的路径是“单点突破”，而豆包手机助手所遭遇的封禁，也印证了这种路径在当下生态中的局限——超级应用能够通过点对点的防御轻易化解。但开源，却可能发挥出“分布式”的力量。

一个有技术能力的学生，即可下载代码、进行微调并部署于自己的设备中；更不必说大量开发者与公司，正等待在城墙松动时分得一杯羹。这不再是单次进攻，而是一场可能多点开花的“渗透战”。

技术史上不乏相似的情节。2001年，微软时任CEO史蒂夫·鲍尔默曾将Linux称为“癌症”，并试图遏制其发展。然而，抵抗的结果并非开源技术的消亡，而是微软最终全面拥抱Linux。当一项技术摆脱单一产品的形态，成为一种开放、普适的生态基础时，封闭体系便难以仅靠“封杀”来固守。

如今的AI手机助手，正面临相似的关口。一旦它从某个公司的“功能”进化为开发者皆可参与建设的“通用能力”，现有应用生态将面临根本性的挑战。尽管“安全性”始终是合理的质疑焦点，但其作为防御理由的边际效应可能递减——进入互联网时代以来，人们早已在诸多场景中，为便利而让渡了部分隐私。

短期内，视觉识别（CV）与多模态模型的持续进化，仍将为AI助手提供绕过API封锁的技术路径。长期看，更优雅的解决方案或许是走向类似MCP的标准化接口，让App将核心功能封装为安全的“能力组件”供AI调用。然而，让各大平台自愿开放接口，注定是一场漫长的博弈。

因此，最具可行性的“下一代Python”，或许将内生于操作系统本身。无论是iOS、Android还是HarmonyOS，由系统提供原生的AI代理服务，在权限管理与生态协调上具备天然优势。

主流手机厂商也早已将自研AI助手定为核心战略，系统层的AI主导权之争，实则早已悄然展开。

终局胜利属于谁？

Python没有取代C++，App也不会被AI助手完全取代。

短期来看，博弈仍将继续。腾讯、阿里等巨头完全有能力——且正在推进——开发各自的“微信助手”、“淘宝助手”，在生态内部提升自动化体验。然而，这类“各扫门前雪”的策略，难以孕育出那个能够连接一切的“Python”。

技术演进的常见结局，是能力的下沉与融合：复杂功能被封装成简洁接口，从而催生新的产业层级与协作规则。

真正的“Python”，将是那个在技术可能性、商业利益与用户权益之间找到最佳平衡的“连接器”。它可能源自开源社区的集体智慧，也可能诞生于操作系统厂商的顶层设计，但必然建立在行业广泛接受的协议与标准之上。

据称，相关行业机构已开始探讨制定相关标准，强调“双重授权”等原则，这预示着AI Agent的发展正从“野蛮生长”转向“规范发展”。我们正站在交互范式切换的隘口，争议、冲突与妥协，都是必经之路。

历史不会重复，却常押着相似的韵脚。

豆包手机助手与AutoGLM开源所引发的这场风波，或许正是这个时代更为复杂的“Python故事”跌宕起伏的开篇。最终，胜利不会归于任何单一公司，而将属于那个能让技术善意、商业理性与用户价值协同演进的新规则。

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

当字节的AI洪水，试图漫过微信们的堤坝

亲爱的凤凰网用户:

第三方浏览器推荐: