AI春晚实锤!Claude Opus4.6 vs GPT-5.3 Codex 中门对狙,编程与Agent时代彻底提速
日期:2026-02-06 19:29:06 / 人气:23

中门对狙,Claude Opus4.6和GPT-5.3 Codex同时发布,这下真的是AI春晚了!说实话,最近因为AI圈这些密集发布的模型和产品,我熬夜熬得是真扛不住,但最颠覆、最让人直呼“要了亲命”的是——Anthropic发完新模型才20分钟,OpenAI也官宣了GPT 5.3 Codex,这波正面硬刚,刺激到头皮发麻。
这两个模型我必须重点聊,因为此前GPT和Claude几乎是我最常用的两大主力模型:GPT-5.2负责各类搜索、事实核查、研究以及编程改BUG,Opus 4.5则主打创作和主力编程。现在两者同步更新,等于我的两大“生产力神器”同时升级,废话不多说,挨个拆解,带你看清这波AI对决的核心看点。
一、Claude Opus 4.6:跑分封神,Agent能力全面升级
这次Anthropic不只是发布了Claude Opus 4.6,还同步推出了Agent Teams(智能体团队)功能,以及Excel和PPT插件的重大更新,诚意拉满。我们先聚焦核心——Claude Opus 4.6本身。
1. 跑分亮眼,多项指标登顶(未对比GPT-5.3 Codex前)
新模型发布,大家最关心的永远是跑分,Opus 4.6这次的表现确实让人惊艳,挑几个关键评测重点说:
- Terminal-Bench 2.0(终端编程能力):得分65.4%,位列所有模型第一,超过GPT-5.2的64.7%和Gemini 3 Pro的56.2%,意味着其终端环境下的编程能力再获突破。
- OSWorld(电脑操作能力):得分72.7%,较上一代Opus 4.5的66.3%提升明显。这一进步至关重要,说明Claude越来越“会用电脑”,能更流畅地操作鼠标、点击按钮、切换应用,朝着全面Agent化稳步迈进。
- BrowseComp(网页搜索能力):得分84.0%,远超第二名GPT-5.2 Pro的77.9%(差距达6个百分点)。要知道,我一直把GPT-5.2 Pro当作顶级研究报告生成引擎,其精准度高、幻觉率低,而Opus 4.6能实现反超,足以见得它在信息检索和整合上的实力。
- GDPval-AA(真实工作任务表现):Elo得分1606,比GPT-5.2高144分,较自身前代Opus 4.5高190分。144分的Elo差距不算小,这意味着在金融、法律等领域的知识工作中,Opus 4.6的实操能力已经成为目前最强,并且正在将编程能力泛化到更多工作场景。
- ARC AGI 2(流体智力测试):得分68.8%,直接吊打所有同类模型。所谓流体智力,就是不依赖已有知识,在全新情境下进行逻辑推理、识别模式、解决问题的能力(类似“悟性”)。要知道,GPT-5.1在此项的得分仅17.6%,GPT-5.2 Pro飙升至50%+,而Opus 4.6直接逼近70%,进步堪称离谱。
整体来看,除了世界知识和问答领域仍略逊于GPT-5.2,Opus 4.6在其余核心指标上几乎全面领先,当之无愧的当前SOTA( state-of-the-art,最先进)模型。
2. 产品层面升级:解决痛点,实用性拉满
跑分是门面,实际体验才是核心。Opus 4.6的几处产品升级,每一个都戳中了用户痛点,尤其是编程和长期工作场景:
- 1M token上下文窗口(重点升级):普天同庆!Claude Opus系列终于支持100万token的上下文,较之前的200K直接翻了5倍。做编程的朋友都懂,上下文容量直接决定了AI能否处理大型代码库、长文档,现在再也不用为“上下文不够用”发愁。更关键的是,Opus 4.6能真正用好这100万token——在MRCR v2(大海捞针式检索测试)中,100万token、藏8个关键信息的场景下,它得分76%,而Sonnet 4.5仅18.5%,避免了“上下文越大越蠢”的“context rot(上下文腐烂)”问题。无论是审查几百页的法律文件、分析大型财报,还是处理复杂代码库,都能一次性搞定。
- 输出上限提升至128K:较之前的64K直接翻倍,看似不起眼,却能大幅提升长文本输出效率,比如生成完整的代码文档、研究报告时,不用频繁中断,体验更流畅。
- Context Compaction(上下文压缩):解决了长期对话或复杂任务的上下文溢出问题。当对话内容过多、接近上下文上限时,Claude会自动将旧对话压缩成摘要,腾出空间给新内容,无需手动清理历史,能支持更长时间的自主工作,尤其适合持续迭代的编程任务。此前该功能仅在Claude Code中通过工程实现,现在模型自带,稳定性和适配性更好。
- Adaptive Thinking(自适应思考)+ Effort控制:优化了此前的“extended thinking(深度思考)”功能——以前要么全开、要么全关,简单问题开深度思考就是“杀鸡用牛刀”。现在,Adaptive Thinking能让Claude自主判断问题复杂度,简单问题快速回应,复杂问题深度思考;Effort控制则支持手动设置思考程度(low/medium/high/max,默认high),可根据需求在速度、成本、质量之间找到平衡点。
3. 重磅新增:Agent Teams(智能体团队)
这是Claude Code此次最核心的更新,彻底改变了AI的工作模式:以前用Claude Code,是单个智能体干活,需分步骤下达指令;现在有了Agent Teams,可让一个会话充当“团队负责人”,协调工作、分配任务、汇总结果,同时启动多个独立智能体并行工作,且智能体之间能直接通信,无需通过负责人。
举个编程场景的例子:要审查一个完整代码库,需兼顾前端、后端、数据库代码。以前要分3次让Claude审查,现在只需说“帮我审查这个代码库”,负责人会自动启动3个智能体——分别负责前端、后端、数据库,三者并行工作,还能互相沟通(比如后端智能体发现API变更,会直接告知前端智能体检查调用处)、互相质疑、排查问题,最终汇总完整的审查报告。
这里要区分Agent Teams和此前的subagents(子代理):子代理在单个会话中运行,只能向主代理报告结果;而Agent Teams是真正的“团队”,成员可直接互动、自主协调,适合需要多模块协同的复杂任务(如大型代码开发、多维度项目分析)。简单说,子代理适合快速、专注的单一任务,Agent Teams适合多模块协同、需要共享发现的复杂任务。
4. 办公插件更新:深耕B端,实用性拉满
- Claude in Excel:将Opus 4.6直接集成到Excel,支持数据透视表编辑、图表修改、条件格式设置、排序筛选、数据验证以及金融级格式设置,还新增了长对话自动压缩、拖放多文件支持等功能,大幅提升Excel办公效率。
- Claude in PowerPoint:集成到PowerPoint侧边栏,能读取现有幻灯片的布局、字体和母版,可根据客户模板构建演示文稿,也能针对性编辑现有幻灯片,解决了PPT制作中“风格不统一、内容难贴合模板”的痛点。
看得出来,Anthropic正凭借Claude在B端领域快速突破,尤其是生产力工具的集成,实用性已经拉开了与GPT的差距。
5. 价格:保持不变,高性价比延续
API价格未调整,仍为$5/$25每百万token(输入/输出);若使用超过20万token的上下文,额外定价为$10/$37.50每百万token。目前,Claude网页版和Claude Code已全面上线Opus 4.6,可直接使用。
二、GPT-5.3 Codex:AI自迭代,编程实力更精准
聊完Claude,再看OpenAI的反击——GPT-5.3 Codex。说实话,我对GPT一直有特殊情感,它依然是我遇到问题、验证事实时的首选;而且在我有限的编程体验中,GPT-5.2 Codex的改BUG、解难点能力,要强于Claude Opus 4.5,我的常规工作流就是“Claude Code写初稿,GPT Codex做精准调整”,所以这次GPT-5.3 Codex的更新,我格外期待。
两家巨头中门对狙,最终受益的还是我们用户——无论是编程效率还是模型能力,都迎来了跨越式提升。
1. 最震撼的突破:AI参与自身开发
这次GPT-5.3 Codex最让我震惊的,不是跑分,而是OpenAI博客里的一句话:“GPT-5.3 Codex是我们第一个在创造自己的过程中发挥重要作用的模型。”
用人话解释就是:OpenAI的Codex团队在开发GPT-5.3的过程中,用早期版本的模型调试训练脚本、管理部署流程、诊断测试结果、评估模型性能——AI亲手参与了自己的开发。
虽然逻辑上顺理成章(AI模型开发的核心也是代码,AI编程能力足够强,自然能帮忙写代码),但真正落地的难度极大。OpenAI团队也表示,他们被Codex加速自身开发的程度震惊了。这个突破的意义,远超任何跑分:如果AI能持续参与自身开发,其进化速度会呈指数级提升,未来的AI迭代,可能会快到超出我们的想象。
2. 跑分对比:看似落后,实则含金量更高
GPT-5.3 Codex在多个关键编程评测中拿下最高分,但由于两家使用的评测基准存在细节差异,大部分分数无法直接对比,我们重点看唯一对齐的基准和核心差异点:
- Terminal-Bench 2.0(唯一对齐基准):由89个复杂真实终端任务组成,每个任务运行在独立Docker容器内(2025年11月7日发布)。Claude Opus 4.6得分65.4%,GPT-5.3 Codex得分77.3%,OpenAI领先11.9个百分点,这也符合我对Codex系列“编程更精准”的认知。
- OSWorld(电脑操作能力):Claude Opus 4.6使用原版OSWorld(得分72.7%),GPT-5.3 Codex使用OSWorld-Verified(得分64.7%)。关键差异在于,OSWorld-Verified(2025年7月28日发布)是原版的全面重构,修复了300+已知问题(失效URL、反爬CAPTCHA、不稳定HTML结构等),评测更严格、更可控,难度更高。因此,GPT-5.3 Codex的64.7%,实际含金量高于Claude Opus 4.6的72.7%。
- GDPVal(真实知识工作任务):两者评测体系完全不同,无法直接对比。GPT-5.3 Codex用OpenAI自有方法,由人类专家盲评,统计“AI产出与人类一样好或更好”的比例(70.9%);Claude Opus 4.6用独立机构的Elo评分体系(1606分),以GPT-5.1的1000分为锚点,两者评判标准不同,无法判断孰优孰劣。
- SWE-bench(代码补丁修复能力):Claude Opus 4.6使用SWE-bench Verified(500题、人工验证、仅Python,得分80.8%),该基准接近饱和,顶级模型已普遍超过70%;GPT-5.3 Codex使用SWE-bench Pro Public(731题、多语言、覆盖41个仓库,得分56.8%),难度更高(参考解平均107.4行、4.1个文件,且降低数据污染风险)。要知道,GPT-5和Claude Opus 4.1此前在Pro版本的得分仅约23%,不到其Verified版本的三分之一,因此GPT-5.3 Codex的56.8%,实际表现更亮眼。
总结来说,虽然GPT-5.3 Codex的表面得分看似低于Claude Opus 4.6,但由于其使用的评测基准更严格、更复杂,单论编程(尤其是代码修复、多语言开发)能力,GPT-5.3 Codex可能更实用、更强劲。再加上一个关键优势——GPT不封号,对高频编程用户来说,容错率更高。
3. 产品体验:自主迭代+实时互动,效率翻倍
跑分之外,GPT-5.3 Codex的实际体验升级也很有亮点:
- 自主开发完整游戏:OpenAI在博客中展示了两个由GPT-5.3 Codex独立完成的游戏——赛车游戏(含多种赛车、8张地图、道具系统)和潜水游戏(含珊瑚礁探索、氧气/压力管理、危险要素)。这些不是简单demo,而是完整可玩的产品:通过Codex的“develop web game”技能,加上简单跟进提示(如“修复这个bug”“改进玩法”),GPT-5.3 Codex在几天内自主迭代数百万token,完成了游戏的全流程开发,足以见得它的自主编程和迭代能力。
- 实时互动介入:终于支持在GPT-5.3 Codex工作时实时互动、随时介入调整方向,不用先停止任务再重新下达指令,尤其适合编程过程中“临时修改需求”“快速调试方向”的场景,体验更流畅。
- 速度大幅提升:虽然OpenAI博客未公布具体数据,但奥特曼在X上透露:“GPT-5.3 Codex完成相同任务所需的令牌数不到5.2-Codex的一半,且单令牌速度快25%以上”,实操中能明显感受到卡顿减少、响应更快,尤其处理大型编程任务时,效率提升显著。
目前,GPT-5.3 Codex已在Codex平台上线,我已经开始使用,整体体验远超上一代,尤其编程流畅度,提升非常明显。
三、写在最后:AI军备竞赛升级,软件行业范式转移加速
这篇稿子又是通宵写完的,几乎把两个模型的核心更新、跑分差异、实际体验都梳理清楚了,应该是目前最全面的解析之一。至于更细致的实际测试,还需要一个周末的时间,正儿八经开发几个产品,才能感受到两者的细微差异——但有一点可以肯定:现在的AI模型,几乎都在全力押注编程和Agent方向,提升非常显著,就像手机一样,“用新不用旧”。
对我而言,常规工作流大概率不会变:依然是Claude Opus 4.6+Claude Code打草稿(擅长大型文档、多模块协同),GPT-5.3 Codex+Codex做后续精准开发(改BUG、优化代码、提升效率),两者互补,能最大化发挥生产力。
今天,绝对是AI行业的大日子——Anthropic和OpenAI两大头部公司同一天放出大招,正面中门对狙,这在AI发展史上都极为罕见。现在,就等着Gemini后续的更新,看能否带来新的惊喜。
从行业层面来看,这次两大模型的同步升级,也释放了三个关键信号:
- 模型能力差距持续缩小,Anthropic和OpenAI的竞争进入白热化,最终受益的是所有用户;
- Agent已经成为AI发展的核心方向,无论是Claude的Agent Teams,还是GPT的自主迭代,都在朝着“AI自主工作、多智能体协同”迈进,未来的编程和办公,将彻底摆脱“手动执行”的束缚;
- 软件行业的范式转移正在加速,传统SaaS公司正面临巨大压力——当AI能快速、廉价地完成编程、文档生成、多模块协同等工作,软件的核心价值,将彻底从“代码本身”转向“人类的判断力、业务洞察力”,这也和我此前聊的“软件股崩盘启示录”形成呼应。
我不知道一年后AI行业会变成什么样,但可以肯定的是,现在绝对是需要密切关注、积极学习的关键时期——错过这一波AI军备竞赛的浪潮,可能就真的错过了未来的生产力革命。
如果你还没用过Claude Code、没用过Codex,现在就是最好的开始时机。毕竟,未来已经来了,只是还没均匀分布——而我们能做的,就是主动拥抱这一切,用最新的工具,提升自己的核心竞争力(判断力、业务理解能力),才能在AI时代站稳脚跟。
作者:天富注册登录平台
新闻资讯 News
- 周深实绩封神!杂志6小时售14.6万...02-13
- 秀恩爱被打脸?她老公这句话也太...02-13
- 律师解读杨幂新增60件告黑案:侵...02-13
- 从模特到顶流:7个关键词解读白鹿...02-13

