对话邓智航｜以「龙虾」为起点，起底从单个 Agent 到 Agentic Web 的安然重构

284 阅读 0 评论 0 点赞

OpenClaw 的爆火，让一个本来更多逗留在技巧圈内部的变更，忽然变得具象起来。

当一个 Agent 可以跨应用履行义务、调用对象、在几乎没有人工干涉的情况下完成复杂流程时，人们第一次直不雅地看到：AI 正在从“生成内容的对象”，改变为“介入行动的主体”。也恰是在这一刻，安然问题敏捷被推到前台。

邓智航：假如从进击者的角度来看，其实这些进击有一个异常同一的本质，那就是争夺对 Agent 的决定计划控制权。无论是 prompt 进击、情况注入、记忆投毒，照样对象链上的问题，它们外面上产生在不合模块，但本质上都是在影响 Agent 的懂得才能和认知过程。

但一个更值得留意的现象是，在几乎所有关于 Agent 安然的评论辩论中，问题的定义仍然高度集中在模型层面：输入是否被注入、输出是否越界、对齐是否掉效。这种评论辩论路径本身并没有错，但它隐含着一个前提，即安然问题重要产生在“模型”这一单点之上。

问题在于，这个前提可能正在掉效。当 Agent 不再只是响应指令，而是持续接收来自不合来源的信息、在多组件构造中做出决定计划、并经由过程对象链将决定计划转化为实际动作时，“安然”所指向的对象，已经不再是单一模型，而是一个由模型、记忆、对象、情况以及交互链路合营构成的体系。

邓智航：是的，这是一个异常实际的问题。假如是人说错话，我们可以直接找到这小我，但假如是 Agent 出现问题，我们很难断定它是本身断定缺点，照样被其他 Agent 误导，或者是某个中心环节被污染。

在如许的体系中，风险不必定以“缺点输出”的情势出现，也不必定以“瞬时掉控”的方法爆发。它可能表示为决定计划过程中的偏移、信息在链路中的传递与放大年夜，甚至是跨组件、跨主体之间的互相影响。

这也意味着，Agent 安然的问题，正在从“是否安然”，转向“若何被影响”。

在论文《From Secure Agentic AI to Secure Agentic Web》中，上海交通大年夜学、上海创智学院张伟楠团队恰是从这一改变出发，测验测验将 Agent 安然从模型层面的鲁棒性问题，从新置于体系构造与运行机制之中进行评论辩论。

环绕这一问题，AI 科技评论与论文一作邓智航进行了对话。下文在不改变原意的前提下，对访谈内容进行了整顿与出现，试图还原其对于 Agent 安然问题“从模型走向体系”的整体懂得。

对话邓智航｜以「龙虾」为起点，起底从单个 Agent 到 Agentic Web 的安然重构

论文链接：https://arxiv.org/pdf/2603.01564

Agent 安然，被懂得错了吗？

AI 科技评论：比来 OpenClaw 的爆火，让很多人开端存眷 Agent 安然，但你会发来岁夜家评论辩论的重点几乎都集中在 prompt injection、逃狱这些问题上，你是怎么对待这种不雅点的？

邓智航：我认为这其实是今朝一个异常广泛的误会。如今大年夜多半人在谈 Agent 安然的时刻，照样逗留在 prompt injection、逃狱这些比较“表层”的问题上，本质上仍然是在存眷模型输出这一层。

在这种情况下，安然问题的重心必须产生改变，也就是要从“模型会不会措辞”，转向“全部体系在开放情况中是否可控、可审计、可束缚”。我认为这是今朝最重要的一个视角变更。

AI 科技评论：也就是说，它的风险已经不只是“说错话”，而是会真正影响实际世界？

邓智航：可以这么懂得。因为 Agent 如今具备调用对象和操作外部体系的才能，它的行动已经不再局限在生成内容这一层，而是可以直接转化为实际中的动作。比如它可以删除你的文件，可以泄漏你的隐私，甚至可以在获取到一些敏感信息之后，调用邮件体系主动发送给进击者。所以如今的问题不只是“生成是否安然”，而是它在履行层面是否安然，这个变更是异常本质的。雷峰网("大众,"号：雷峰网)

AI 科技评论：假如必须选一个关键身分，你认为这种变更是由什么驱动的？很多人会说是对象调用。

邓智航：对象调用确切是一个重要身分，但假如只能选一个更核心的点，我认为是 Agent 在开放情况中的自立行动才能。对象调用本质上只是才能的一个接口，它让 Agent 可以做更多工作，但真正让安然问题产生质变的，是 Agent 开端在一个动态、复杂，甚至带有对抗性的情况中进行感知、断定和履行。

比如网页中的内容、文档中的信息、第三方办事返回的数据，这些都邑进入 Agent 的决定计划流程，从而合营构成一个更大年夜的风险面。所以关键不只是“能不克不及调用对象”，而是“在什么情况中行动，以及若何行动”。

AI 科技评论：在你们的论文中把威逼分成 prompt、environment、memory、toolchain 等不合类别，这种分类背后的共性是什么？

所以安然问题的核心，并不是某个马脚被触发，而是 Agent 在看似正常的情况下，被静静带偏了。这种“控制权的转移”，是我认为最关键的共性。雷峰网

AI 科技评论：你方才提到情况，那是不是可以懂得为，外部世界本身就是 Agent 的输入？

所以从体系安然的角度来看，我们须要把全部外部情况都视为潜在的进击面，也就是说默认它可能是带有恶意意图的，而不是默认它是可托的。

AI 科技评论：假如有人认为，经由过程 system prompt 和拒答机制，已经可以解决大年夜部分问题，你会怎么回应？

邓智航：我认为这是远远不敷的。起首，system prompt 本身就可能被修改或者被进击，其次，很多进击并不是经由过程用户正面输入进入体系的，而是来自网页内容、对象返回，甚至是跨 Agent 的通信。

所以 system prompt 和拒答机制更多只是第一层护栏，它们很重要，但无法覆盖全部 Agent 体系的进击面。真正靠得住的安然筹划，须要把对象权限控制、运行时监控、协定级校验以及持续的红队测试结合起来，从而形成一个更完全的安然体系，本质上这是一个生态级的问题。

邓智航：这是一个弗成避免的张力。Agent 的才能越强，它可以拜访的高低文越多、可以调用的对象越多，自立性也越高，但响应的风险也会增长。假如把权限收紧，它的才能又会受到限制。

AI 科技评论：在你们的论文中把 toolchain 风险类比为供给链问题，这个你会怎么解释？

邓智航：这个类比是比较直不雅的。风险不必定来自模型本身，也可能来自它依附的第三方对象、API 或插件。比如一个被污染的对象供给方，一个返回成果弗成靠的接口，或者多个看起来安然的对象在组合调用时产生联动，这些都可能导致严重的后果。所以在 Agent 体系中，对象链其实就相当于一个供给链，而安然问题也就变成了供给链安然问题。

AI 科技评论：那像 MCP 这种同一对象调用方法，一方面晋升才能，一方面是否也在放大年夜风险？

邓智航：是的，这种双重性是异常明显的。一方面，MCP 供给了同一的高低文和对象交互方法，使得不合体系之间可以更便利地协作，这确切大年夜幅晋升了 Agent 的才能。但另一方面，它作为一个同一进口，也会把权限问题、信赖问题以及潜在的污染风险集中放大年夜。

所以关键不在于要不要应用 MCP，而在于在应用这些才能的同时，是否同步设计了响应的安然机制。本质上，才能越强，对应的风险面就越大年夜。

AI 科技评论：如今环绕 Agent 安然的评论辩论很多，你认为哪些风险被高估了，哪些被低估了？

邓智航：被高估的，主如果那些轻易被发明的风险，比如单轮逃狱或者即时攻破，这类问题因为比较直不雅，所以更轻易被存眷。但被低估的，是一些更接近真实安排场景的问题，比如经久记忆污染、Agent 之间的传播效应，以及行动偏移。这些问题平日不会急速爆发，也不轻易被察觉，但会在经久过程中持续影响 Agent 的行动。

一个更“聪慧”的进击，不会让 Agent 当场掉控，而是会慢慢改变它的偏好、信赖对象和决定计划偏向，让它在很多看似正常的决定计划中逐渐偏移。我认为这种风险是更值得当心的。

问题，不再产生在一个 Agent 上

AI 科技评论：假如 Agent 之间形成收集，会带来什么新的变更？

邓智航：一个很重要的变更是，我们本来在互联网中有一个默认前提，就是请求的另一端大年夜概率是人，很多信赖关系是建立在这个隐含假设之上的。但在 Agentic Web 中，这个前提被打破了，因为请求很可能来自另一个 Agent，甚至是多层 Agent 的委托和主动决定计划。

这就意味着，本来依附常识建立的信赖关系已经不成立了，必须改变为显式表达，并且须要具备可验证、可审计和可追踪的才能。

AI 科技评论：这是不是也意味着，一旦出问题，会很难追溯义务？

在这种情况下，就须要一整套审计和追溯机制，不然就会变成须要一层一层往上追，这个过程是异常艰苦的，有点类似于追查资金来源的链条。

AI 科技评论：那会不会出现一种进击，不是急速出问题，而是经久埋伏？

邓智航：我认为这种情况是异常可能的，并且概率很高。一个更成熟的进击方法，不会立时制造一个可以被发明的变乱，而是会静静改变 Agent 的偏好、信赖对象以及行动偏向，让它在很多看似正常的渺小决定计划中持续偏移。比拟那种刹时掉控，这种经久的行动漂移其实更危险，因为它更隐蔽，也更难被检测。

AI 科技评论：那才能和安然之间的抵触应当怎么处理？

但实际上，Agent 已经不再是一个只生成文本的体系了。以前的 chatbot，本质上就是输入一段文本、输出一段文本，而如今的 Agent 会调用对象，会写入经久记忆，还会持续和外部情况进行交互。

AI 科技评论：你认为将来两三年，Agent 安然的分水岭会涌如今哪里？

邓智航：我认为关键在于，全部行业能不克不及把身份、授权、溯源以及运行时治理这些才能真正做成基本举措措施。假如这些基本举措措施建立起来，Agent 才有可能从“能用但危险”，走向“可扩大且可治理”。

假如只是依附 prompt 工程或者局部的补丁式防御，一旦 Agent 大年夜范围进入开放收集，这种方法是无法支撑的。

邓智航：是的，这个懂得是对的。对于人来说，网页主如果用来浏览和断定信息的，但对于 Agent 来说，它平日不会像人一样去做复杂断定，而是会把网页、文件以及对象返回的内容直接作为输入，用来影响它的义务筹划和行动决定计划。

AI 科技评论：那这种“安然基本举措措施”，你认为可能会以什么情势出现？

所以问题不在于能不克不及清除这种张力，而在于能不克不及把它设计成一个可控的体系，比如经由过程分级授权、及时监测以及过后追溯等机制，把这种张力转化为一个可以被治理的状况。

邓智航：具体情势还须要行业去摸索，但可以做一个类比。两年前没有 MCP 的时刻，大年夜家的对象调用方法是完全不同一的，不合体系之间也很难互通。但 MCP 出现之后，经由过程同一协定，对象调用这一层被标准化，Agent 的才能也是以晋升。

将来的安然机制，也有可能以类似“协定”的情势出现，经由过程同一的安然协定，让全部 Agent 生态在运行过程中更安然。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

本文分类：互联网
本文标签：AI Agent Agent安全
浏览次数：284 次浏览
发布日期：2026-04-13 09:19:21
本文链接：https://www.fqpy.com/internet/12542

对话邓智航｜以「龙虾」为起点，起底从单个 Agent 到 Agentic Web 的安然重构

Agent 安然，被懂得错了吗？

问题，不再产生在一个 Agent 上

评论列表共有 0 条评论

发表评论取消回复

对话邓智航｜以「龙虾」为起点，起底从单个 Agent 到 Agentic Web 的安然重构

Agent 安然，被懂得错了吗？

问题，不再产生在一个 Agent 上

CVPR 2026 动态视觉智能不雅察梳理：Benchmark 之外的新考题已经出现

摩尔线程最新财报：营收持续高增，推动十万卡级集群扶植

上交大年夜 x vivo 团队：一个简单修改，让 diffusion 周全晋升丨CVPR 2026

清华段岳圻团队论文：从调参数到做控制，文生图迎来一次办法论进级丨CVPR 2026

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复