AI可以自审代码了 Opus 4.7出手解决“屎山”

247 阅读 0 评论 0 点赞

Opus 4.7紧跟在Anthropic的Project Glasswing和Mythos Preview之后。而上周他们方才宣布Mythos Preview因为收集安然才能过强，临时限制宣布。

是以Opus 4.7被明白定位为“第一款用来测试新收集安然护栏的公开模型”。

这是一种更成熟的产品思路。早期AI产品寻求的是“便宜”和“快”，如今开端寻求“靠谱”。

官方甚至还说，他们在练习过程中实验性地减弱了这个模型的收集安然才能。

01 Opus 4.7的机能若何？

先说惯例部分。

Opus 4.7在多个基准测试上跨越了Opus 4.6，尤其是在高等软件工程义务上。

官方图表里，Opus 4.7在SWE-Bench Verified上为87.6%，Opus 4.6为80.8%；在更难的SWE-Bench Pro上，Opus 4.7为64.3%，Opus 4.6为53.4%；在Terminal-Bench 2.0上，Opus 4.7为69.4%，Opus 4.6为65.4%；Finance agent v11上，Opus 4.7为64.4%，Opus 4.6为60.1%。

让我们用人话来解释一下这一串数字：你如今可以把更复杂的编程工作交给Opus 4.7，它会更严谨地处理长时光运行的义务，更精确地遵守指令，还会在报告请示之前想办法验证本身的输出。

在Opus 4.7早期测试者的反馈里，有几个点值得留意。

第一个是指令遵守才能大年夜幅晋升。

Opus 4.7会严格按照字面意思懂得指令，而之前的模型往往会松散解读或者跳过某些部分。

这听起来是功德，但实际上可能带来麻烦。其表示为Opus 4.7更“听话”了，但这反而会让一些旧提示词掉效。

以前的Claude可能会比较“会心”。你写一个模糊指令，它会主动补全你的真实意图，或者忽视一些不太重要、互相冲突、写得不清楚的请求。很多用户的提示词，其实是在这种旧模型习惯上调出来的。

这个策略能不克不及成功，取决于市场是否定可“谨慎”这个概念。

但Opus 4.7官方说，它更偏向于严格按字面意思履行指令。如许一来，旧提示词里那些以前被模型主动忽视的小细节，如今可能会被卖力履行。而以前模型会灵活处理的模糊表达，如今反而会按最直接的方法懂得。

第二个是多模态支撑改进。

Opus 4.7可以接收长边最高2576像素的图像，大年夜约3.75兆像素，是之前Claude模型的三倍多。

这不是通俗的“识图才能”进级，而是为了让AI能看懂软件界面，办事于Anthropic的Computer Use功能。

Opus 4.7的视觉进级，不是为了让用户问“这张图里有什么”，而是为了让agent能看懂软件界面。

agent假如看不清密集表格、终端输出、设计稿细节、代码截图，它的操作才能再强也没用，因为它只知道怎么干活，却不知道去哪上班。

Anthropic把图像分辨率往上提，本质上是在给Claude装更清楚的眼睛。

将来AI办公、AI测试、AI安然、AI前端开辟，很多义务都不是纯文本义务，而是屏幕义务。

第三个是实际工作表示。

内部测试显示，Opus 4.7在金融分析义务上比Opus 4.6更有效，能产出更严谨的分析和模型、更专业的演示文稿，以及更慎密的跨义务整合。

它在GPQAval-AA这个第三方评估中也是最高分，这是一个覆盖金融、司法等范畴的评估。

第四个是记忆才能。

Opus 4.7更会应用基于文件体系的记忆。它能在长周期、多会话的工作中记住重要笔记，后续义务须要的前置信息更少。

这个点在官方通知布告里不显眼，但我认为可能是经久应用中最关键的一个更新特点。

成果就是模型明明更强了，但输出反而和用户预期不一样。

一个能跨会话记住项目束缚、用户偏好、架构决定计划和前次掉败原因的agent，才可能从“聪慧临时工”变成“稳定同事”。

安然性和对齐方面，Opus 4.7和Opus 4.6的整体表示类似。

它在诚实度和抵抗恶意提示注入进击的才能上有所晋升，在给出伤害建议的才能上有所降低，比如若何制造应用管束刀具这类问题。

官方的对齐评估结论是，这个模型“根本对齐且值得信赖，但行动上还不完全幻想”。

但迁徙指南里提到了两个成本变更。新的tokenizer可能让雷同输入变成1.0到1.35倍的token。在强思虑模式下，尤其是agent的多轮对话，模型会思虑更多，输出的token也可能更多。

所以这就是Anthropic耍当心思的处所了，名义上价格确切没变，但跑多了就会变贵。

以前模型计费重要看输入输出长度，如今还要看思虑的等级、义务预算、agent跑了几轮、对象掉败后有没有持续推理。

Anthropic新增的x-high effort和task budgets，解释高端模型的应用方法正在走昔时云计算的那套逻辑。你买的不是一次答复，而是在给一个会思虑、会试错、会验证的义务过程付费。

02 Anthropic为何会宣布阉割模型？

话又说回来，Opus 4.7的真正卖点之一，恰好是它没有完全释放才能。

这听起来有点反直觉，但可能是下一代模型公司的常态。

模型越接近真实临盆情况，越不克不及只寻求更强。它要知道哪些事能做、哪些事不克不及做、哪些用户能开放更多权限，哪些请求必须拦住。

Anthropic在宣布Opus 4.7的同时，推出了Cyber Verification Program。

这个项目本质上是在给才能分级。通俗用户拿到的是有护栏的Opus，经由验证的安然专家才能申请更宽的收集安然用处。

价格方面，Opus 4.7和Opus 4.6保持一致。输入每百万token 5美元，输出每百万token 25美元。

模型会主动检测和阻拦那些注解禁止或高风险收集安然用处的请求。

Anthropic说，他们会从Opus 4.7的真实安排中进修，为将来Mythos级别模型的广泛宣布做预备。

不得不说照样Anthropic会玩，他们认为Opus今朝的才能是多余的，所以他们就把安然这件事，变成了产品才能。

以前几年，AI公司的竞争逻辑是“我比你强”。跑分更高、参数更多、能做的事更复杂。但当模型才能达到某个临界点后，这个逻辑开端掉效。

一个在收集安然测试中表示太好的模型，可能意味着它也能被恶意应用。一个完全不设限的agent，就有可能会在用户不知情的情况下做出危险决定计划。

Anthropic选择的路径是，先把最强的模型锁起来，用稍弱但足够好的模型来测试安然机制。这不是技巧上做不到，而是主动选择不做。这种“克制”本身成了产品差别化的一部分。

假如用户只在乎“能不克不及做到”，那Anthropic的做法会显得保守。但假如企业客户开端看重“会不会出事”，那这种分级宣布、主动减弱某些才能的做法，反而可能成为竞争优势。

在宣布Opus 4.7的同时，Anthropic还更新了Claude Code，新增了auto mode和/ultrareview功能。

auto mode不是模型主动选型，而是权限选项。它许可Claude替用户做一些权限决定计划，让长义务少被打断，但风险低于完全跳过权限确认。

这个设计针对的是agent产品的核心抵触：问太多，agent像练习生；不问，风险又太大年夜。

agent时代最难设计的按钮，不是“开端”，而是“许可”。

以前AI只是答复问题，权限很少。

如今它要改代码、读文件、跑敕令、开网页、提交PR，每一步都牵扯风险。

假如每个操作都要用户确认，agent的自立性就掉去了意义。但假如完全放手，用户又会担心AI做出弗成逆的缺点决定计划。

auto mode的本质，就是在“别烦我”和“别糊弄”之间找均衡。

它会根据操作的风险级别，决定是主动履行、提示用户、照样请求明白授权。

那Opus 4.7具体若何呢？

/ultrareview是一个专门的代码审查会话，读取变革并指出bug和设计问题。

这个功能可比写代码好玩多了，因为它解释AI编程正式进入了第二阶段，让AI本身审查AI本身生成的代码。

AI写代码已经不稀奇，真正稀缺的是AI能不克不及审本身的代码。

/ultrareview像是Anthropic给Claude Code补上的第二双眼睛。

一个agent负责写，另一个更谨慎的会话负责审。

不消看数据我都能猜到，这两个功能必定是高频功能。因为本质上，这两个功能以前就是所有应用Claude Code的法度榜样员干的活。

生成代码只是开辟流程的一部分，审查、测试、重构、文档同样重要。假如AI只能做第一步，它永远只是帮助对象。假如它能介入全部流程，它才可能真正改变软件开辟的方法。

此次宣布还有一个细节值得留意。官方在迁徙指南里专门提示广大年夜用户，Opus 4.7的token应用可能增长，但在实际编程评估中，整体效力反而晋升了。

这也是agent从“能干什么”，到“能不克不及用”之间巨大年夜的飞跃。

这解释他们在优化的不是单次调用的成本，而是完成义务的总成本。一个agent假如第一次就把工作做对，即使单次调用贵一点，总成本也比反复试错要低。

Opus 4.7不是最强的模型，Anthropic也没有把它包装成最强的模型。

它是在才能、安然、成本之间的一个均衡点。然则说它是不是真的均衡，我不知道，这个要等市场来验证。

至少在宣布策略上，Anthropic给出了一种新思路，因为有时刻“不做什么”比“能做什么”更重要。

点赞(0) 打赏

本文分类：互联网
本文标签：AI 人工智能 AI可以自审代码了 Opus 4.7出手解决“屎山”
浏览次数：247 次浏览
发布日期：2026-04-17 18:02:28
本文链接：https://www.fqpy.com/internet/12824

AI可以自审代码了 Opus 4.7出手解决“屎山”

评论列表共有 0 条评论

发表评论取消回复

AI可以自审代码了 Opus 4.7出手解决“屎山”

Claude强迫实名验证引争议：用户质疑验证实为封号前兆 15岁开辟者账号被封

AI可以自审代码了 Opus 4.7出手解决“屎山”

OpenAI据悉将斥资超200亿美元购买Cerebras芯片并获得股份

Perplexity推出Mac版Personal Computer 打造常驻AI代理

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复