Opus 4.7紧跟在Anthropic的Project Glasswing和Mythos Preview之后。而上周他们方才宣布Mythos Preview因为收集安然才能过强,临时限制宣布。
是以Opus 4.7被明白定位为“第一款用来测试新收集安然护栏的公开模型”。
这是一种更成熟的产品思路。早期AI产品寻求的是“便宜”和“快”,如今开端寻求“靠谱”。
官方甚至还说,他们在练习过程中实验性地减弱了这个模型的收集安然才能。
01 Opus 4.7的机能若何?
先说惯例部分。
Opus 4.7在多个基准测试上跨越了Opus 4.6,尤其是在高等软件工程义务上。
官方图表里,Opus 4.7在SWE-Bench Verified上为87.6%,Opus 4.6为80.8%;在更难的SWE-Bench Pro上,Opus 4.7为64.3%,Opus 4.6为53.4%;在Terminal-Bench 2.0上,Opus 4.7为69.4%,Opus 4.6为65.4%;Finance agent v11上,Opus 4.7为64.4%,Opus 4.6为60.1%。
让我们用人话来解释一下这一串数字:你如今可以把更复杂的编程工作交给Opus 4.7,它会更严谨地处理长时光运行的义务,更精确地遵守指令,还会在报告请示之前想办法验证本身的输出。
在Opus 4.7早期测试者的反馈里,有几个点值得留意。
第一个是指令遵守才能大年夜幅晋升。
Opus 4.7会严格按照字面意思懂得指令,而之前的模型往往会松散解读或者跳过某些部分。
这听起来是功德,但实际上可能带来麻烦。其表示为Opus 4.7更“听话”了,但这反而会让一些旧提示词掉效。
以前的Claude可能会比较“会心”。你写一个模糊指令,它会主动补全你的真实意图,或者忽视一些不太重要、互相冲突、写得不清楚的请求。很多用户的提示词,其实是在这种旧模型习惯上调出来的。
这个策略能不克不及成功,取决于市场是否定可“谨慎”这个概念。
但Opus 4.7官方说,它更偏向于严格按字面意思履行指令。如许一来,旧提示词里那些以前被模型主动忽视的小细节,如今可能会被卖力履行。而以前模型会灵活处理的模糊表达,如今反而会按最直接的方法懂得。
第二个是多模态支撑改进。
Opus 4.7可以接收长边最高2576像素的图像,大年夜约3.75兆像素,是之前Claude模型的三倍多。
这不是通俗的“识图才能”进级,而是为了让AI能看懂软件界面,办事于Anthropic的Computer Use功能。
Opus 4.7的视觉进级,不是为了让用户问“这张图里有什么”,而是为了让agent能看懂软件界面。
agent假如看不清密集表格、终端输出、设计稿细节、代码截图,它的操作才能再强也没用,因为它只知道怎么干活,却不知道去哪上班。
Anthropic把图像分辨率往上提,本质上是在给Claude装更清楚的眼睛。
将来AI办公、AI测试、AI安然、AI前端开辟,很多义务都不是纯文本义务,而是屏幕义务。
第三个是实际工作表示。
内部测试显示,Opus 4.7在金融分析义务上比Opus 4.6更有效,能产出更严谨的分析和模型、更专业的演示文稿,以及更慎密的跨义务整合。
它在GPQAval-AA这个第三方评估中也是最高分,这是一个覆盖金融、司法等范畴的评估。
第四个是记忆才能。
Opus 4.7更会应用基于文件体系的记忆。它能在长周期、多会话的工作中记住重要笔记,后续义务须要的前置信息更少。
这个点在官方通知布告里不显眼,但我认为可能是经久应用中最关键的一个更新特点。
成果就是模型明明更强了,但输出反而和用户预期不一样。
一个能跨会话记住项目束缚、用户偏好、架构决定计划和前次掉败原因的agent,才可能从“聪慧临时工”变成“稳定同事”。
安然性和对齐方面,Opus 4.7和Opus 4.6的整体表示类似。
它在诚实度和抵抗恶意提示注入进击的才能上有所晋升,在给出伤害建议的才能上有所降低,比如若何制造应用管束刀具这类问题。
官方的对齐评估结论是,这个模型“根本对齐且值得信赖,但行动上还不完全幻想”。
但迁徙指南里提到了两个成本变更。新的tokenizer可能让雷同输入变成1.0到1.35倍的token。在强思虑模式下,尤其是agent的多轮对话,模型会思虑更多,输出的token也可能更多。
所以这就是Anthropic耍当心思的处所了,名义上价格确切没变,但跑多了就会变贵。
以前模型计费重要看输入输出长度,如今还要看思虑的等级、义务预算、agent跑了几轮、对象掉败后有没有持续推理。
Anthropic新增的x-high effort和task budgets,解释高端模型的应用方法正在走昔时云计算的那套逻辑。你买的不是一次答复,而是在给一个会思虑、会试错、会验证的义务过程付费。
02 Anthropic为何会宣布阉割模型?
话又说回来,Opus 4.7的真正卖点之一,恰好是它没有完全释放才能。
这听起来有点反直觉,但可能是下一代模型公司的常态。
模型越接近真实临盆情况,越不克不及只寻求更强。它要知道哪些事能做、哪些事不克不及做、哪些用户能开放更多权限,哪些请求必须拦住。
Anthropic在宣布Opus 4.7的同时,推出了Cyber Verification Program。
这个项目本质上是在给才能分级。通俗用户拿到的是有护栏的Opus,经由验证的安然专家才能申请更宽的收集安然用处。
价格方面,Opus 4.7和Opus 4.6保持一致。输入每百万token 5美元,输出每百万token 25美元。
模型会主动检测和阻拦那些注解禁止或高风险收集安然用处的请求。
Anthropic说,他们会从Opus 4.7的真实安排中进修,为将来Mythos级别模型的广泛宣布做预备。
不得不说照样Anthropic会玩,他们认为Opus今朝的才能是多余的,所以他们就把安然这件事,变成了产品才能。
以前几年,AI公司的竞争逻辑是“我比你强”。跑分更高、参数更多、能做的事更复杂。但当模型才能达到某个临界点后,这个逻辑开端掉效。
一个在收集安然测试中表示太好的模型,可能意味着它也能被恶意应用。一个完全不设限的agent,就有可能会在用户不知情的情况下做出危险决定计划。
Anthropic选择的路径是,先把最强的模型锁起来,用稍弱但足够好的模型来测试安然机制。这不是技巧上做不到,而是主动选择不做。这种“克制”本身成了产品差别化的一部分。
假如用户只在乎“能不克不及做到”,那Anthropic的做法会显得保守。但假如企业客户开端看重“会不会出事”,那这种分级宣布、主动减弱某些才能的做法,反而可能成为竞争优势。
在宣布Opus 4.7的同时,Anthropic还更新了Claude Code,新增了auto mode和/ultrareview功能。
auto mode不是模型主动选型,而是权限选项。它许可Claude替用户做一些权限决定计划,让长义务少被打断,但风险低于完全跳过权限确认。
这个设计针对的是agent产品的核心抵触:问太多,agent像练习生;不问,风险又太大年夜。
agent时代最难设计的按钮,不是“开端”,而是“许可”。
以前AI只是答复问题,权限很少。
如今它要改代码、读文件、跑敕令、开网页、提交PR,每一步都牵扯风险。
假如每个操作都要用户确认,agent的自立性就掉去了意义。但假如完全放手,用户又会担心AI做出弗成逆的缺点决定计划。
auto mode的本质,就是在“别烦我”和“别糊弄”之间找均衡。
它会根据操作的风险级别,决定是主动履行、提示用户、照样请求明白授权。
那Opus 4.7具体若何呢?
/ultrareview是一个专门的代码审查会话,读取变革并指出bug和设计问题。
这个功能可比写代码好玩多了,因为它解释AI编程正式进入了第二阶段,让AI本身审查AI本身生成的代码。

AI写代码已经不稀奇,真正稀缺的是AI能不克不及审本身的代码。
/ultrareview像是Anthropic给Claude Code补上的第二双眼睛。
一个agent负责写,另一个更谨慎的会话负责审。
不消看数据我都能猜到,这两个功能必定是高频功能。因为本质上,这两个功能以前就是所有应用Claude Code的法度榜样员干的活。
生成代码只是开辟流程的一部分,审查、测试、重构、文档同样重要。假如AI只能做第一步,它永远只是帮助对象。假如它能介入全部流程,它才可能真正改变软件开辟的方法。
此次宣布还有一个细节值得留意。官方在迁徙指南里专门提示广大年夜用户,Opus 4.7的token应用可能增长,但在实际编程评估中,整体效力反而晋升了。
这也是agent从“能干什么”,到“能不克不及用”之间巨大年夜的飞跃。
这解释他们在优化的不是单次调用的成本,而是完成义务的总成本。一个agent假如第一次就把工作做对,即使单次调用贵一点,总成本也比反复试错要低。
Opus 4.7不是最强的模型,Anthropic也没有把它包装成最强的模型。
它是在才能、安然、成本之间的一个均衡点。然则说它是不是真的均衡,我不知道,这个要等市场来验证。
至少在宣布策略上,Anthropic给出了一种新思路,因为有时刻“不做什么”比“能做什么”更重要。

发表评论 取消回复