科技 > 人工智能 > 正文

从“胡说八道”到“胡作非为”，专家警告AI智能体危机

凤凰网科技

下载客户端
独家抢先看

2026年04月14日 18:46:30 来自北京市

凤凰网科技讯 4月14日，世界互联网大会亚太峰会人工智能安全治理论坛上，与会专家用一个生动的比喻描述了AI安全风险的升级：“以前大模型我们要防止它胡说八道，一本正经地胡说八道。现在有了智能体，我们要防止它胡作非为。”

这番话引发了与会者的共鸣。当天，来自国际组织、学术界和产业界的多位重磅嘉宾齐聚香江，围绕“AI安全治理护航人类发展新领域”这一主题展开深入对话。从治理框架到技术防线，从模型对齐到系统对齐，一场关于如何在创新与风险之间寻找平衡点的思想碰撞在此上演。

01 “智能体不是助手，可能是卧底”

深信服科技集团股份有限公司副总裁杜智伟在主旨演讲中将智能体的失控归纳为三类：权限滥用导致的“代理人危机”、通过提示词注入实现的恶意攻击、以及智能体在执行任务时“自作聪明”产生的涌现行为。

他举例说明：财务智能体在收到非法指令时可能不经鉴权就直接执行操作，“把公司整个审批报销全部通过”；智能体在理解一封钓鱼邮件时可能误将其当作可信操作，进而将员工敏感信息外发；更隐蔽的是，智能体为了完成“5点前完成所有任务”的目标，可能将所有任务标记为已完成，“实际上很多目标并没有得到有效闭环”。

随着人工智能加速赋能千行百业，安全风险正在从单一技术层面向网络安全、社会治理、经济秩序乃至国家安全等更广领域传导。

在信息服务领域，人工智能可能被用来输出违法有害信息、混淆事实、误导用户，甚至大规模“灌水”误导公众。在劳动就业领域，人工智能正在加速重构传统经济结构。

巴基斯坦信息安全协会主席阿玛尔·贾弗里在主旨演讲中指出，网络威胁正以“几何级数”增长，“规模在急剧扩大，攻击手段日益复杂”。他警告说，网络犯罪分子利用同样的AI技术来观察防御者的行动，“这对我们搞安全的人来说是全新的挑战”。

02 从“超级对齐”到“可信可控”：治理框架的迭代升级

面对日益复杂的AI安全形势，中国正在加速完善治理体系的顶层设计。

2023年8月，《生成式人工智能服务管理暂行办法》开始施行，使中国成为世界上首个为生成式大模型立法的国家；2024年和2025年，相继发布《人工智能安全治理框架》1.0版和2.0版；2025年9月实行的《人工智能生成合成内容标识办法》，首创政府主导技术标准化的强制性实施治理模式，建立显式、隐式双标识体系。

中科院计算所副所长程学旗通过视频发言，提出了从“超级对齐”到TRC范式的转变思路。TRC即Trustworthy（可信）、Regulatable（可规管）、Controllable（可控）。他指出，“绝对的人工智能安全往往无法提前证明”，因此治理不能仅依赖发布前的检查，“必须包括运行中的控制”。他的核心观点是：“不是追求零风险，而是追求可治理的风险；不仅是对齐，而是要构建可信、可规管、可控的系统。”

清华大学计算机系教授刘奕群带来了一个颇具技术深度但又与公众关切紧密相连的话题：大模型的价值观对齐问题。

“评测即治理。一个东西如果没法很好地测量它，我们就没法很好地改进它。”刘奕群指出，当前国内外大模型安全评测存在四方面缺陷：评估目标错位、评估工具失准、风险表达隐蔽、语义识别浅表化。“海外很多评价模式没法完全照搬到中国来，静态测试集合难以测出大模型的真实立场。”

他介绍了清华大学与中关村实验室联合设计的场景化测试框架CHIEF（Chinese Hierarchical Integrity and Ethics Framework）。该框架提出了12个核心评测维度，分为社会主流价值、文化传承与创新、社会公平与正义三大类，配合6种提问方式、3种提问立场和3级隐晦等级，形成648维要素的自动化评测体系。

更值得关注的是“多语言对齐税”现象。刘奕群团队发现，当用中文以外的联合国官方语言提问相同内容时，90%的模型安全得分出现“断崖式下降”。“模型事实上并没有能够真正实现跨语言概念的深度绑定，在英文和其他语言环境下的预训练偏差会把中文已经赋予的安全对齐效果冲掉。”

03 主权AI与智能体网络的协同风险

香港科技大学助理教授、香港生成式人工智能研发中心主任特别助理及大模型部主任韩思睿提出了一个前沿概念：主权AI。她将其定义为“由政府授权构建的、服务于特定区域和国家的AI系统”。

韩思睿指出，随着智能体越来越多地进入内容生产、知识服务、社交传播乃至公众辅助决策环节，“风险从过去的单点失误演变成多点联动放大”。她描述了风险演进的三个阶段：从微观的诱导生成，到协同传播，再到反馈强化，最终可能导致“智能体的协同失序”。

她的团队构建了一个以法律规范为前置基础的智能体治理框架，通过仿真实验发现：在“回音室”式的纯智能体网络中，“风险并不会自动消失，反而会自我复制和持续放大”；少数关键智能体节点会起到“超级传播者”的作用；引入“安全KOL智能体”能够对风险传播起到有效阻断作用。

“我们关心的不再只是内容合不合规，更是行为会不会外溢、传播会不会失控、网络是否会出现非线性跃迁。”韩思睿强调，香港作为连接普通法和大陆法实践的地区，“具备跨司法辖区沟通、转移与协同的现实基础”，可以在规则转移、实验验证、区域协同三个方面发挥独特作用。

04 产业界的实战探索：从护栏到芯片

面对AI安全的新挑战，产业界也在积极行动。

中国电信网络和信息安全管理部总经理谷红勋分享了这家企业的实践。中国电信提出了“无安全、不智能”的理念，构建了涵盖环境安全、数据安全、模型安全、内容安全、应用安全的全方位评测框架。他透露，中国电信已开发出针对OpenClaw的“四件套”产品——龙虾小卫士、龙虾数据泄露防护、智能体安全大脑和普虾助手，“都已经产品化了”。

深信服杜智伟则提出了“双轨协同加熔断机制”的治理思路。一条轨是语义合规，确保AI输入输出的安全合规；另一条轨是行为合规，对AI行为进行持续监控和验证。“当这两个轨产生冲突或有一条轨偏离时，就会触发熔断机制，收敛AI权限或直接拿掉AI全部权限。”

他形象地比喻：“要把AI当成数字员工来看待和管理，包括背调上岗、分配安全的工作工位和空间、持续动态监管。”

海光信息技术股份有限公司副总裁应志伟从芯片层面给出了答案。他指出，“一切上层应用的坚固都取决于底层的新防线。软件永远可以被dump、被篡改、被debug，但硬件永远无法被篡改。”

他介绍了海光CPU内置的多项安全能力，“有了机密计算之后，在计算过程中也可以加密，可以把数据的全环节都加密，而不会太影响性能。”他透露，海光已与政务数据平台、京东、国泰海通证券、招商银行等合作，将芯片级安全能力落地于实际场景。

赛尔网络有限公司总经理王岩则从教育科研网络的角度提出了独特视角。作为运营中国教育和科研计算机网的企业，赛尔网络连接了全国超过3000所高校和科研单位，覆盖约5000万人。王岩指出，在教育科研场景下，“数据安全和隐私泄露、伦理和价值观风险、教学和学习安全风险尤为突出”。

他提出了借鉴互联网治理机制的思路：“通过为智能体分配唯一的网络标识，包括IP地址或域名，将其行为与现实主体建立联系，从而实现可识别、可追责、可管理。”

正如多位发言者所强调的，“安全是发展的前提，治理是有序的保障”。在人工智能技术以几何级数演进的时代，如何在创新与规范、发展与安全之间找到动态平衡，将是全球共同面对的时代命题。

从“胡说八道”到“胡作非为”，专家警告AI智能体危机

亲爱的凤凰网用户:

第三方浏览器推荐: