OpenClaw 的爆火,让一个本来更多逗留在技巧圈内部的变更,忽然变得具象起来。
当一个 Agent 可以跨应用履行义务、调用对象、在几乎没有人工干涉的情况下完成复杂流程时,人们第一次直不雅地看到:AI 正在从“生成内容的对象”,改变为“介入行动的主体”。也恰是在这一刻,安然问题敏捷被推到前台。
邓智航:假如从进击者的角度来看,其实这些进击有一个异常同一的本质,那就是争夺对 Agent 的决定计划控制权。无论是 prompt 进击、情况注入、记忆投毒,照样对象链上的问题,它们外面上产生在不合模块,但本质上都是在影响 Agent 的懂得才能和认知过程。
但一个更值得留意的现象是,在几乎所有关于 Agent 安然的评论辩论中,问题的定义仍然高度集中在模型层面:输入是否被注入、输出是否越界、对齐是否掉效。这种评论辩论路径本身并没有错,但它隐含着一个前提,即安然问题重要产生在“模型”这一单点之上。
问题在于,这个前提可能正在掉效。当 Agent 不再只是响应指令,而是持续接收来自不合来源的信息、在多组件构造中做出决定计划、并经由过程对象链将决定计划转化为实际动作时,“安然”所指向的对象,已经不再是单一模型,而是一个由模型、记忆、对象、情况以及交互链路合营构成的体系。
邓智航:是的,这是一个异常实际的问题。假如是人说错话,我们可以直接找到这小我,但假如是 Agent 出现问题,我们很难断定它是本身断定缺点,照样被其他 Agent 误导,或者是某个中心环节被污染。
在如许的体系中,风险不必定以“缺点输出”的情势出现,也不必定以“瞬时掉控”的方法爆发。它可能表示为决定计划过程中的偏移、信息在链路中的传递与放大年夜,甚至是跨组件、跨主体之间的互相影响。
这也意味着,Agent 安然的问题,正在从“是否安然”,转向“若何被影响”。
在论文《From Secure Agentic AI to Secure Agentic Web》中,上海交通大年夜学、上海创智学院张伟楠团队恰是从这一改变出发,测验测验将 Agent 安然从模型层面的鲁棒性问题,从新置于体系构造与运行机制之中进行评论辩论。
环绕这一问题,AI 科技评论与论文一作邓智航进行了对话。下文在不改变原意的前提下,对访谈内容进行了整顿与出现,试图还原其对于 Agent 安然问题“从模型走向体系”的整体懂得。

论文链接:https://arxiv.org/pdf/2603.01564
Agent 安然,被懂得错了吗?
AI 科技评论: 比来 OpenClaw 的爆火,让很多人开端存眷 Agent 安然,但你会发来岁夜家评论辩论的重点几乎都集中在 prompt injection、逃狱这些问题上,你是怎么对待这种不雅点的?
邓智航:我认为这其实是今朝一个异常广泛的误会。如今大年夜多半人在谈 Agent 安然的时刻,照样逗留在 prompt injection、逃狱这些比较“表层”的问题上,本质上仍然是在存眷模型输出这一层。
在这种情况下,安然问题的重心必须产生改变,也就是要从“模型会不会措辞”,转向“全部体系在开放情况中是否可控、可审计、可束缚”。我认为这是今朝最重要的一个视角变更。
AI 科技评论: 也就是说,它的风险已经不只是“说错话”,而是会真正影响实际世界?
邓智航:可以这么懂得。因为 Agent 如今具备调用对象和操作外部体系的才能,它的行动已经不再局限在生成内容这一层,而是可以直接转化为实际中的动作。比如它可以删除你的文件,可以泄漏你的隐私,甚至可以在获取到一些敏感信息之后,调用邮件体系主动发送给进击者。所以如今的问题不只是“生成是否安然”,而是它在履行层面是否安然,这个变更是异常本质的。雷峰网("大众,"号:雷峰网)
AI 科技评论: 假如必须选一个关键身分,你认为这种变更是由什么驱动的?很多人会说是对象调用。
邓智航:对象调用确切是一个重要身分,但假如只能选一个更核心的点,我认为是 Agent 在开放情况中的自立行动才能。对象调用本质上只是才能的一个接口,它让 Agent 可以做更多工作,但真正让安然问题产生质变的,是 Agent 开端在一个动态、复杂,甚至带有对抗性的情况中进行感知、断定和履行。
比如网页中的内容、文档中的信息、第三方办事返回的数据,这些都邑进入 Agent 的决定计划流程,从而合营构成一个更大年夜的风险面。所以关键不只是“能不克不及调用对象”,而是“在什么情况中行动,以及若何行动”。
AI 科技评论: 在你们的论文中把威逼分成 prompt、environment、memory、toolchain 等不合类别,这种分类背后的共性是什么?
所以安然问题的核心,并不是某个马脚被触发,而是 Agent 在看似正常的情况下,被静静带偏了。这种“控制权的转移”,是我认为最关键的共性。雷峰网
AI 科技评论: 你方才提到情况,那是不是可以懂得为,外部世界本身就是 Agent 的输入?
所以从体系安然的角度来看,我们须要把全部外部情况都视为潜在的进击面,也就是说默认它可能是带有恶意意图的,而不是默认它是可托的。
AI 科技评论: 假如有人认为,经由过程 system prompt 和拒答机制,已经可以解决大年夜部分问题,你会怎么回应?
邓智航:我认为这是远远不敷的。起首,system prompt 本身就可能被修改或者被进击,其次,很多进击并不是经由过程用户正面输入进入体系的,而是来自网页内容、对象返回,甚至是跨 Agent 的通信。
所以 system prompt 和拒答机制更多只是第一层护栏,它们很重要,但无法覆盖全部 Agent 体系的进击面。真正靠得住的安然筹划,须要把对象权限控制、运行时监控、协定级校验以及持续的红队测试结合起来,从而形成一个更完全的安然体系,本质上这是一个生态级的问题。
邓智航:这是一个弗成避免的张力。Agent 的才能越强,它可以拜访的高低文越多、可以调用的对象越多,自立性也越高,但响应的风险也会增长。假如把权限收紧,它的才能又会受到限制。
AI 科技评论: 在你们的论文中把 toolchain 风险类比为供给链问题,这个你会怎么解释?
邓智航:这个类比是比较直不雅的。风险不必定来自模型本身,也可能来自它依附的第三方对象、API 或插件。比如一个被污染的对象供给方,一个返回成果弗成靠的接口,或者多个看起来安然的对象在组合调用时产生联动,这些都可能导致严重的后果。所以在 Agent 体系中,对象链其实就相当于一个供给链,而安然问题也就变成了供给链安然问题。
AI 科技评论: 那像 MCP 这种同一对象调用方法,一方面晋升才能,一方面是否也在放大年夜风险?
邓智航:是的,这种双重性是异常明显的。一方面,MCP 供给了同一的高低文和对象交互方法,使得不合体系之间可以更便利地协作,这确切大年夜幅晋升了 Agent 的才能。但另一方面,它作为一个同一进口,也会把权限问题、信赖问题以及潜在的污染风险集中放大年夜。
所以关键不在于要不要应用 MCP,而在于在应用这些才能的同时,是否同步设计了响应的安然机制。本质上,才能越强,对应的风险面就越大年夜。
AI 科技评论: 如今环绕 Agent 安然的评论辩论很多,你认为哪些风险被高估了,哪些被低估了?
邓智航:被高估的,主如果那些轻易被发明的风险,比如单轮逃狱或者即时攻破,这类问题因为比较直不雅,所以更轻易被存眷。但被低估的,是一些更接近真实安排场景的问题,比如经久记忆污染、Agent 之间的传播效应,以及行动偏移。这些问题平日不会急速爆发,也不轻易被察觉,但会在经久过程中持续影响 Agent 的行动。
一个更“聪慧”的进击,不会让 Agent 当场掉控,而是会慢慢改变它的偏好、信赖对象和决定计划偏向,让它在很多看似正常的决定计划中逐渐偏移。我认为这种风险是更值得当心的。
问题,不再产生在一个 Agent 上
AI 科技评论: 假如 Agent 之间形成收集,会带来什么新的变更?
邓智航:一个很重要的变更是,我们本来在互联网中有一个默认前提,就是请求的另一端大年夜概率是人,很多信赖关系是建立在这个隐含假设之上的。但在 Agentic Web 中,这个前提被打破了,因为请求很可能来自另一个 Agent,甚至是多层 Agent 的委托和主动决定计划。
这就意味着,本来依附常识建立的信赖关系已经不成立了,必须改变为显式表达,并且须要具备可验证、可审计和可追踪的才能。
AI 科技评论: 这是不是也意味着,一旦出问题,会很难追溯义务?
在这种情况下,就须要一整套审计和追溯机制,不然就会变成须要一层一层往上追,这个过程是异常艰苦的,有点类似于追查资金来源的链条。
AI 科技评论: 那会不会出现一种进击,不是急速出问题,而是经久埋伏?
邓智航:我认为这种情况是异常可能的,并且概率很高。一个更成熟的进击方法,不会立时制造一个可以被发明的变乱,而是会静静改变 Agent 的偏好、信赖对象以及行动偏向,让它在很多看似正常的渺小决定计划中持续偏移。比拟那种刹时掉控,这种经久的行动漂移其实更危险,因为它更隐蔽,也更难被检测。
AI 科技评论: 那才能和安然之间的抵触应当怎么处理?
但实际上,Agent 已经不再是一个只生成文本的体系了。以前的 chatbot,本质上就是输入一段文本、输出一段文本,而如今的 Agent 会调用对象,会写入经久记忆,还会持续和外部情况进行交互。
AI 科技评论: 你认为将来两三年,Agent 安然的分水岭会涌如今哪里?
邓智航:我认为关键在于,全部行业能不克不及把身份、授权、溯源以及运行时治理这些才能真正做成基本举措措施。假如这些基本举措措施建立起来,Agent 才有可能从“能用但危险”,走向“可扩大且可治理”。
假如只是依附 prompt 工程或者局部的补丁式防御,一旦 Agent 大年夜范围进入开放收集,这种方法是无法支撑的。
邓智航:是的,这个懂得是对的。对于人来说,网页主如果用来浏览和断定信息的,但对于 Agent 来说,它平日不会像人一样去做复杂断定,而是会把网页、文件以及对象返回的内容直接作为输入,用来影响它的义务筹划和行动决定计划。
AI 科技评论: 那这种“安然基本举措措施”,你认为可能会以什么情势出现?
所以问题不在于能不克不及清除这种张力,而在于能不克不及把它设计成一个可控的体系,比如经由过程分级授权、及时监测以及过后追溯等机制,把这种张力转化为一个可以被治理的状况。
邓智航:具体情势还须要行业去摸索,但可以做一个类比。两年前没有 MCP 的时刻,大年夜家的对象调用方法是完全不同一的,不合体系之间也很难互通。但 MCP 出现之后,经由过程同一协定,对象调用这一层被标准化,Agent 的才能也是以晋升。
将来的安然机制,也有可能以类似“协定”的情势出现,经由过程同一的安然协定,让全部 Agent 生态在运行过程中更安然。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复