实测Claude Opus4.8 这可能是第一个不会偷懒的模型

242 阅读 0 评论 0 点赞

看来确切GPT-5.5和Codex给的压力确切太大年夜了，Opus 4.7的口碑确切把本身也给拉完了，所以没办法，要最快速度把Opus 4.8拉出来救火，要不然真的可能被Codex偷家偷疯了。

很多时刻经常会出现。

价格也没变，$5/M输入、$25/M输出。

然后，我就反响过来了一件事，我靠，你Opus 4.8上了，你不会要把我的Opus 4.6给顶掉落了吧。

因为Opus 4.5在内容创作上是我认为的巅峰，Opus比Opus 4.7差了一点，然则我认为还能用，而Opus 4.7是我完全认为弗成用的状况。

按照claude在以前网页端只保存两代模型的优良传统，Opus 4.6可能会被顶掉落。

我抱着进展的心境一看。

Claude我干你大年夜爷。

行吧，只能接收，说不定Opus 4.8，在内容创作上更好呢？（固然我几乎纰谬这个工作抱有等待了。）

说回Claude Opus 4.8。

我又去翻了下此次Opus 4.8的体系卡。

并且你能明显的感到到，加倍自负，在过程中跟你确认的时刻变少了。

不废话，先看跑分截图吧。

跑分我真的不想多聊了，很没劲，反正就是赢学。

数字又高了一点，大年夜概就是如许。

到底是个什么光景。

独一一个在上面穷尽洪荒之力照样没跑过GPT-5.5的类别，是Terminal-Bench 2.1。

这玩意是一个Agentic基准，大年夜概就是用来评估Agent在真实敕令行情况里干活的才能，考的就是把模型直接扔进一个沙盒终端里，让它本身去查文件、敲敕令、看报错、调试等等，看看能不克不及跨多个步调把一个义务做完。

这个是在Claude口径里，独一一个跑不过GPT-5.5的，并且这个还挺要命的。

因为Terminal-Bench根本代表着Agent开辟才能的最岑岭，穷尽了洪荒之力也没干过GPT-5.5，那这过两天GPT-5.6出来，那还玩个屁啊。

这也从侧面说清楚明了，GPT-5.5的开辟才能，是真的强……

然后再说一说此次更新的一些特点。

1.思虑强度给所有人开放

此次4.8上线，同时把一个叫effort（尽力程度）的控制，开放给所有人了，也就是你在Chat模式下，也可以调剂模型的尽力程度了，所有套餐都有，免费用户也有。

Claude Code和Cowork用户对这个器械肯定很熟悉。

地位就在模型选择那个处所旁边。

上面那个从Low到Max，就是尽力等级。

下面那个自适应思虑记得别关，照样开着，组合起来用就行。

我本身其实常年爱好默认开着Extra，然后开大年夜活就上Max的，因为Opus 4.7只有自适应思虑，不是很好用，Opus 4.8终于给弄回来了。

2.变得更精确但也更不主动了

Opus 4.8更新今后，有一个明显的感到，就是它加倍的精确了，有一点GPT-5.5的感到，指哪打哪。

加倍的遵守你的指令，这确切对于专业的开辟者来说，是件功德。

然则同时也带来一个弊病，就是他的主动性，会变弱。

就是你让它干A，它如今就只干A，毫不会自作主意认为诶你这意思是不是趁便也想要B然后把B也顺带手给你办了。

我本身如今就碰到了，晚上测试的时刻，习惯性的没跟它说必定要去看线上数据不要只看本地代码，然则在Opus 4.6和4.7的时刻，他们都照样会主动的去用我的skill连接线上办事器，看临盆情况的数据的，然则Opus 4.8却两次都没主动去看，给我的筹划，都是基于本地的，这反而给我带来了一些麻烦，从新调剂了一下文档和记忆，才好一点。

对于一个设计好了本身Harness的情况的专业开辟者，我认为会感到到异常得劲，那其实能感到到，它的缺点率和幻觉率，都在降低，很精准。

然则假如把这个群体，推衍到全部Vibe Coding群体，我其实绝对，不必定是个功德。

我们视频组同事今晚在用Opus 4.8来测他们的用Skill来做视频动效的工作流，发明后果反而变差的，有一个很形象的描述就是。

根本上大年夜家的感到都差不多。

比如这个，优化筹划出来，直接不确认，直接就本身干了。

因为我们其实很多非专业者，在用AI的时刻，是靠着AI的主动性去往前走的，就是真的有的时刻会用习惯了那种你懂我意思的爽感。

你含暧昧糊扔一句话以前，它就能猜到你心里那个完全的需求，然后问你是不是，在帮你直接搞出来，这种被懂得的感到，其实还挺上头的。

当然这个爽感，是有价值的，就是模型的主不雅性太强，价值就是弗成控。

它猜对了你舒畅，它猜错了呢，它就拿着一个你压根没提的需求，吭哧吭哧给你干一堆活，最后还得你来擦屁股，这种出发点是好的然则成果是拉的，在长时Agent义务中，尤其要命。

所以，将来再跟Opus 4.8协同的时刻，可能须要，对大年夜家需求表达才能，请求的更高了。

3.变得加倍诚实了

这个点更上面有点像，也是Anthropic本身拎出来放在博客核心肠位的点。

以前大年夜家必定碰到过，就比如说Claude帮你写个功能，它噼里啪啦给你写了一大年夜段，然后特别自负地跟你说，搞定了，没问题，可以跑了。

你信了，你一跑，你才发明，另一个处所崩了。

你归去问它，它又特别自负地说，哦抱歉，问题找到了，对不去我没有发明，我再改一下，这下绝对没问题了。

你又信了，你又跑，然后你又报错了。

你要知道，它每一次都那么斩钉截铁，每一次都那么言之凿凿，但每一次，它其实本身心里也没底，AI，很多时刻，只是被练习得看起来很有把握罢了，这个缺点，几乎是所有大年夜模型的通病。

此次Opus 4.8，就在这个问题上做了重点的优化。

还有那个奇怪的比方，为什么要把靠谱特质的人，比方成“高速运转的机械里那点润滑油”，我是真的有点不睬解，这是有什么奇怪的癖好吗。

官方通知布告对外说的数字是，4.8让本身写的代码里的瑕疵蒙混过关的概率，比上一代低了大年夜概4倍。

然后发清楚明了更牛逼的器械。

在偷懒这个问题上，Opus 4.8，似乎是独一一个，能做到0%不良率的模型。

之前有次都给我干朝气了。

Opus 4.8明显靠谱很多，异常具体的在周全审查我的代码，找尽可能须要优化的处所。

我同事的反馈也是如许。

到时刻，我想看看这个号称最牛逼的模型。

Opus 4.8在开辟上总体的感到，是有大年夜进步的。

4.创作才能

同样的Skill，同样的创作，比Opus 4.7是有进步的，然则依然比不上Opus 4.6。

比如我把我我之前写的AI时代的6小我才特质给抽离出来了，让Opus 4.8用我的写作Skill去写，写出来的一些句子，是如许的。

Opus 4.6+我的Skill是绝对不会写出这种话的，不是XX、而是XX，这是明白的禁用词，直接给我改成不再是往来交往规避，真的是耍小聪慧。

还有这段，非要把一小我，给比方成一个物化的锚？？？

还有模型奥妙的大年夜段的无意义的排比，把所谓的AI味的禁忌都犯了个遍。

让它根据《流浪地球2》的故事，续写一个新的地下城的1000字的小故事。

写的也挺刻板印象的。

在模型的本身参数比如最大年夜高低文、输出长度、常识库时光啥的，跟Opus 4.7几乎是一样。

比4.7好，然则确切没好若干。

整体的人机味还都挺重的。

5.其他更新

此次Opus 4.8还迭代了下快速模型，官方叫fast mode。

之前其实就有，你再Claude Code里输入/fast就有。

只是之前是Opus 4.7的fast就是比较贵，2.5倍的速度，然则是6倍的价格。

通俗版本价格一向是百万输入5美元、百万输出25美元，然后Opus 4.7 fast模式的价格是输入30美元、输出150美元。

然则此次做了一个还不错的进级，速度直接达到了标准版的2.5倍的速度，价格却只有之前版本fast的三分之一，降到了输入10美元，输出50美元。

从标准版的6倍价格，变成了标准版的2倍价格，然则速度没变。

也能侧面看出来马斯克的算力确切是给到位了，Claude一会儿就财大年夜气粗了。

然后还有一个器械，也挺有意思的，是Claude Code的dynamic workflows功能。

翻译过来叫动态工作流。

大年夜概感化就是，让Claude本身写一套编排脚本，在一次义务里，一口气拉起几十个、甚至上百个子agent并行开干，干完它还会先本身验一遍，确认

没问题了，然后把成果交给你。

原话是：“有些问题过于宏大年夜，单次单代理处理难以胜任，尤其是在复杂、遗留的代码库中：跨全部办事的缺点排查、涉及数百个文件的迁徙、或是在最终决定计划前须要从多角度进行压力测试的筹划。动态工作流可以或许端到端地处理所有这些义务。”

触发方法有两种。

第一种是直接跟Claude Code说，创建一个动态工作流balbalbala。

第二种是，把尽力级别调剂成一个特别的选项Ultracode，这个设置会本身会将尽力级别调至xhigh，同时让Claude主动断定何时应用工作流来处理你的义务。

在我夜里几个小时的测试与开辟中，我也能感到到，这是真的不偷懒啊，思虑的是真细啊……

所以根本上用的也是Opus 4.7的基模上直接又调了一下。

此次Opus 4.8的更新总结，大年夜概就是如许。

我本身照样比较爱好的，因为在开辟上确切有不错的加成，整体确切变好用了。

然则在创作上，我照样有点掉落的，因为把我的Opus 4.6给顶掉落了……

将来为了适配Opus 4.8，可能我们的很多跟内容相干的Prompt和Skill全都得重写了，因为这玩意牵扯的器械太多了，调研、汗青文献撰写、分镜撰写、特效生成啥的，全都是内容……

就很烦，十分艰苦都在Opus 4.6上跑通了，又得全部从新来。

哎。

哦对了，Anthropic此次还留了个更大年夜的钩子。

除了Opus这条线，它们手里那个还攥了良久的，比Opus智能还要更高一档的新模型，代号Mythos，说是过几周，就能给所有客户用上了。

AI啊，真好玩。

点赞(0) 打赏

本文分类：互联网
本文标签：AI 人工智能实测Claude Opus4.8 这可能是第一个不会偷懒的模型
浏览次数：242 次浏览
发布日期：2026-06-01 15:05:09
本文链接：https://www.fqpy.com/internet/14819

实测Claude Opus4.8 这可能是第一个不会偷懒的模型

评论列表共有 0 条评论

发表评论取消回复

实测Claude Opus4.8 这可能是第一个不会偷懒的模型

OpenAI推出“修补地球”筹划 联手安然公司为开源项目找马脚打补丁

美国当局据称因NSA机密体系被破解而紧急封杀Anthropic最新AI模型

Anthropic CEO：人工智能公司需“数千亿美元”收入 不然将面对生计风险

DeepSeek之后 中国又一开源AI模型激发硅谷热议

评论列表 共有 0 条评论

发表评论 取消回复

OpenAI推出“修补地球”筹划联手安然公司为开源项目找马脚打补丁

Anthropic CEO：人工智能公司需“数千亿美元”收入不然将面对生计风险

DeepSeek之后中国又一开源AI模型激发硅谷热议

评论列表共有 0 条评论

发表评论取消回复