AI 编程帮助对象 Cursor 近日分享了一项内部测试发明:在处理超长程、自立性的编程义务时,OpenAI 最新的GPT-5.2模型表示出比 Anthropic 的Claude Opus4.5更高的靠得住性。
为了验证模型才能,Cursor 团队测验测验从零开端构建一个功能完全的Web 浏览器,涵盖了 HTML 解析、CSS 构造及自定义 JavaScript 虚拟机等复杂底层架构。
今朝,Cursor已在其平台上同步上线了GPT-5.2模型,旨在摸索 AI 代理是否能自力完成平日须要人类团队花费数月才能完成的大年夜型项目。除了浏览器实验,该模型还成功完成了包含 Windows7模仿器及超百万行代码的复杂迁徙义务,展示了生成式 AI 在自立工程范畴的巨大年夜潜力。

实测成果显示,GPT-5.2在这种须要数百万行代码、耗时数周的“长跑式”义务中,可以或许更精准地遵守复杂指令,并保持极高的专注度,有效避免了长程义务中常见的“目标漂移”问题。比拟之下,Claude Opus4.5固然在很多场景表示出色,但在处理此类极大年夜范围工程时,往往更偏向于半途停止或寻找捷径,提前交出控制权。

发表评论 取消回复