AI春晚实锤！Claude Opus4.6 vs GPT-5.3 Codex 中门对狙，编程与Agent时代彻底提速

日期：2026-02-06 19:29:06 / 人气：71

中门对狙，Claude Opus4.6和GPT-5.3 Codex同时发布，这下真的是AI春晚了！说实话，最近因为AI圈这些密集发布的模型和产品，我熬夜熬得是真扛不住，但最颠覆、最让人直呼“要了亲命”的是——Anthropic发完新模型才20分钟，OpenAI也官宣了GPT 5.3 Codex，这波正面硬刚，刺激到头皮发麻。

这两个模型我必须重点聊，因为此前GPT和Claude几乎是我最常用的两大主力模型：GPT-5.2负责各类搜索、事实核查、研究以及编程改BUG，Opus 4.5则主打创作和主力编程。现在两者同步更新，等于我的两大“生产力神器”同时升级，废话不多说，挨个拆解，带你看清这波AI对决的核心看点。

一、Claude Opus 4.6：跑分封神，Agent能力全面升级

这次Anthropic不只是发布了Claude Opus 4.6，还同步推出了Agent Teams（智能体团队）功能，以及Excel和PPT插件的重大更新，诚意拉满。我们先聚焦核心——Claude Opus 4.6本身。

1. 跑分亮眼，多项指标登顶（未对比GPT-5.3 Codex前）

新模型发布，大家最关心的永远是跑分，Opus 4.6这次的表现确实让人惊艳，挑几个关键评测重点说：

- Terminal-Bench 2.0（终端编程能力）：得分65.4%，位列所有模型第一，超过GPT-5.2的64.7%和Gemini 3 Pro的56.2%，意味着其终端环境下的编程能力再获突破。

- OSWorld（电脑操作能力）：得分72.7%，较上一代Opus 4.5的66.3%提升明显。这一进步至关重要，说明Claude越来越“会用电脑”，能更流畅地操作鼠标、点击按钮、切换应用，朝着全面Agent化稳步迈进。

- BrowseComp（网页搜索能力）：得分84.0%，远超第二名GPT-5.2 Pro的77.9%（差距达6个百分点）。要知道，我一直把GPT-5.2 Pro当作顶级研究报告生成引擎，其精准度高、幻觉率低，而Opus 4.6能实现反超，足以见得它在信息检索和整合上的实力。

- GDPval-AA（真实工作任务表现）：Elo得分1606，比GPT-5.2高144分，较自身前代Opus 4.5高190分。144分的Elo差距不算小，这意味着在金融、法律等领域的知识工作中，Opus 4.6的实操能力已经成为目前最强，并且正在将编程能力泛化到更多工作场景。

- ARC AGI 2（流体智力测试）：得分68.8%，直接吊打所有同类模型。所谓流体智力，就是不依赖已有知识，在全新情境下进行逻辑推理、识别模式、解决问题的能力（类似“悟性”）。要知道，GPT-5.1在此项的得分仅17.6%，GPT-5.2 Pro飙升至50%+，而Opus 4.6直接逼近70%，进步堪称离谱。

整体来看，除了世界知识和问答领域仍略逊于GPT-5.2，Opus 4.6在其余核心指标上几乎全面领先，当之无愧的当前SOTA（ state-of-the-art，最先进）模型。

2. 产品层面升级：解决痛点，实用性拉满

跑分是门面，实际体验才是核心。Opus 4.6的几处产品升级，每一个都戳中了用户痛点，尤其是编程和长期工作场景：

- 1M token上下文窗口（重点升级）：普天同庆！Claude Opus系列终于支持100万token的上下文，较之前的200K直接翻了5倍。做编程的朋友都懂，上下文容量直接决定了AI能否处理大型代码库、长文档，现在再也不用为“上下文不够用”发愁。更关键的是，Opus 4.6能真正用好这100万token——在MRCR v2（大海捞针式检索测试）中，100万token、藏8个关键信息的场景下，它得分76%，而Sonnet 4.5仅18.5%，避免了“上下文越大越蠢”的“context rot（上下文腐烂）”问题。无论是审查几百页的法律文件、分析大型财报，还是处理复杂代码库，都能一次性搞定。

- 输出上限提升至128K：较之前的64K直接翻倍，看似不起眼，却能大幅提升长文本输出效率，比如生成完整的代码文档、研究报告时，不用频繁中断，体验更流畅。

- Context Compaction（上下文压缩）：解决了长期对话或复杂任务的上下文溢出问题。当对话内容过多、接近上下文上限时，Claude会自动将旧对话压缩成摘要，腾出空间给新内容，无需手动清理历史，能支持更长时间的自主工作，尤其适合持续迭代的编程任务。此前该功能仅在Claude Code中通过工程实现，现在模型自带，稳定性和适配性更好。

- Adaptive Thinking（自适应思考）+ Effort控制：优化了此前的“extended thinking（深度思考）”功能——以前要么全开、要么全关，简单问题开深度思考就是“杀鸡用牛刀”。现在，Adaptive Thinking能让Claude自主判断问题复杂度，简单问题快速回应，复杂问题深度思考；Effort控制则支持手动设置思考程度（low/medium/high/max，默认high），可根据需求在速度、成本、质量之间找到平衡点。

3. 重磅新增：Agent Teams（智能体团队）

这是Claude Code此次最核心的更新，彻底改变了AI的工作模式：以前用Claude Code，是单个智能体干活，需分步骤下达指令；现在有了Agent Teams，可让一个会话充当“团队负责人”，协调工作、分配任务、汇总结果，同时启动多个独立智能体并行工作，且智能体之间能直接通信，无需通过负责人。

举个编程场景的例子：要审查一个完整代码库，需兼顾前端、后端、数据库代码。以前要分3次让Claude审查，现在只需说“帮我审查这个代码库”，负责人会自动启动3个智能体——分别负责前端、后端、数据库，三者并行工作，还能互相沟通（比如后端智能体发现API变更，会直接告知前端智能体检查调用处）、互相质疑、排查问题，最终汇总完整的审查报告。

这里要区分Agent Teams和此前的subagents（子代理）：子代理在单个会话中运行，只能向主代理报告结果；而Agent Teams是真正的“团队”，成员可直接互动、自主协调，适合需要多模块协同的复杂任务（如大型代码开发、多维度项目分析）。简单说，子代理适合快速、专注的单一任务，Agent Teams适合多模块协同、需要共享发现的复杂任务。

4. 办公插件更新：深耕B端，实用性拉满

- Claude in Excel：将Opus 4.6直接集成到Excel，支持数据透视表编辑、图表修改、条件格式设置、排序筛选、数据验证以及金融级格式设置，还新增了长对话自动压缩、拖放多文件支持等功能，大幅提升Excel办公效率。

- Claude in PowerPoint：集成到PowerPoint侧边栏，能读取现有幻灯片的布局、字体和母版，可根据客户模板构建演示文稿，也能针对性编辑现有幻灯片，解决了PPT制作中“风格不统一、内容难贴合模板”的痛点。

看得出来，Anthropic正凭借Claude在B端领域快速突破，尤其是生产力工具的集成，实用性已经拉开了与GPT的差距。

5. 价格：保持不变，高性价比延续

API价格未调整，仍为$5/$25每百万token（输入/输出）；若使用超过20万token的上下文，额外定价为$10/$37.50每百万token。目前，Claude网页版和Claude Code已全面上线Opus 4.6，可直接使用。

二、GPT-5.3 Codex：AI自迭代，编程实力更精准

聊完Claude，再看OpenAI的反击——GPT-5.3 Codex。说实话，我对GPT一直有特殊情感，它依然是我遇到问题、验证事实时的首选；而且在我有限的编程体验中，GPT-5.2 Codex的改BUG、解难点能力，要强于Claude Opus 4.5，我的常规工作流就是“Claude Code写初稿，GPT Codex做精准调整”，所以这次GPT-5.3 Codex的更新，我格外期待。

两家巨头中门对狙，最终受益的还是我们用户——无论是编程效率还是模型能力，都迎来了跨越式提升。

1. 最震撼的突破：AI参与自身开发

这次GPT-5.3 Codex最让我震惊的，不是跑分，而是OpenAI博客里的一句话：“GPT-5.3 Codex是我们第一个在创造自己的过程中发挥重要作用的模型。”

用人话解释就是：OpenAI的Codex团队在开发GPT-5.3的过程中，用早期版本的模型调试训练脚本、管理部署流程、诊断测试结果、评估模型性能——AI亲手参与了自己的开发。

虽然逻辑上顺理成章（AI模型开发的核心也是代码，AI编程能力足够强，自然能帮忙写代码），但真正落地的难度极大。OpenAI团队也表示，他们被Codex加速自身开发的程度震惊了。这个突破的意义，远超任何跑分：如果AI能持续参与自身开发，其进化速度会呈指数级提升，未来的AI迭代，可能会快到超出我们的想象。

2. 跑分对比：看似落后，实则含金量更高

GPT-5.3 Codex在多个关键编程评测中拿下最高分，但由于两家使用的评测基准存在细节差异，大部分分数无法直接对比，我们重点看唯一对齐的基准和核心差异点：

- Terminal-Bench 2.0（唯一对齐基准）：由89个复杂真实终端任务组成，每个任务运行在独立Docker容器内（2025年11月7日发布）。Claude Opus 4.6得分65.4%，GPT-5.3 Codex得分77.3%，OpenAI领先11.9个百分点，这也符合我对Codex系列“编程更精准”的认知。

- OSWorld（电脑操作能力）：Claude Opus 4.6使用原版OSWorld（得分72.7%），GPT-5.3 Codex使用OSWorld-Verified（得分64.7%）。关键差异在于，OSWorld-Verified（2025年7月28日发布）是原版的全面重构，修复了300+已知问题（失效URL、反爬CAPTCHA、不稳定HTML结构等），评测更严格、更可控，难度更高。因此，GPT-5.3 Codex的64.7%，实际含金量高于Claude Opus 4.6的72.7%。

- GDPVal（真实知识工作任务）：两者评测体系完全不同，无法直接对比。GPT-5.3 Codex用OpenAI自有方法，由人类专家盲评，统计“AI产出与人类一样好或更好”的比例（70.9%）；Claude Opus 4.6用独立机构的Elo评分体系（1606分），以GPT-5.1的1000分为锚点，两者评判标准不同，无法判断孰优孰劣。

- SWE-bench（代码补丁修复能力）：Claude Opus 4.6使用SWE-bench Verified（500题、人工验证、仅Python，得分80.8%），该基准接近饱和，顶级模型已普遍超过70%；GPT-5.3 Codex使用SWE-bench Pro Public（731题、多语言、覆盖41个仓库，得分56.8%），难度更高（参考解平均107.4行、4.1个文件，且降低数据污染风险）。要知道，GPT-5和Claude Opus 4.1此前在Pro版本的得分仅约23%，不到其Verified版本的三分之一，因此GPT-5.3 Codex的56.8%，实际表现更亮眼。

总结来说，虽然GPT-5.3 Codex的表面得分看似低于Claude Opus 4.6，但由于其使用的评测基准更严格、更复杂，单论编程（尤其是代码修复、多语言开发）能力，GPT-5.3 Codex可能更实用、更强劲。再加上一个关键优势——GPT不封号，对高频编程用户来说，容错率更高。

3. 产品体验：自主迭代+实时互动，效率翻倍

跑分之外，GPT-5.3 Codex的实际体验升级也很有亮点：

- 自主开发完整游戏：OpenAI在博客中展示了两个由GPT-5.3 Codex独立完成的游戏——赛车游戏（含多种赛车、8张地图、道具系统）和潜水游戏（含珊瑚礁探索、氧气/压力管理、危险要素）。这些不是简单demo，而是完整可玩的产品：通过Codex的“develop web game”技能，加上简单跟进提示（如“修复这个bug”“改进玩法”），GPT-5.3 Codex在几天内自主迭代数百万token，完成了游戏的全流程开发，足以见得它的自主编程和迭代能力。

- 实时互动介入：终于支持在GPT-5.3 Codex工作时实时互动、随时介入调整方向，不用先停止任务再重新下达指令，尤其适合编程过程中“临时修改需求”“快速调试方向”的场景，体验更流畅。

- 速度大幅提升：虽然OpenAI博客未公布具体数据，但奥特曼在X上透露：“GPT-5.3 Codex完成相同任务所需的令牌数不到5.2-Codex的一半，且单令牌速度快25%以上”，实操中能明显感受到卡顿减少、响应更快，尤其处理大型编程任务时，效率提升显著。

目前，GPT-5.3 Codex已在Codex平台上线，我已经开始使用，整体体验远超上一代，尤其编程流畅度，提升非常明显。

三、写在最后：AI军备竞赛升级，软件行业范式转移加速

这篇稿子又是通宵写完的，几乎把两个模型的核心更新、跑分差异、实际体验都梳理清楚了，应该是目前最全面的解析之一。至于更细致的实际测试，还需要一个周末的时间，正儿八经开发几个产品，才能感受到两者的细微差异——但有一点可以肯定：现在的AI模型，几乎都在全力押注编程和Agent方向，提升非常显著，就像手机一样，“用新不用旧”。

对我而言，常规工作流大概率不会变：依然是Claude Opus 4.6+Claude Code打草稿（擅长大型文档、多模块协同），GPT-5.3 Codex+Codex做后续精准开发（改BUG、优化代码、提升效率），两者互补，能最大化发挥生产力。

今天，绝对是AI行业的大日子——Anthropic和OpenAI两大头部公司同一天放出大招，正面中门对狙，这在AI发展史上都极为罕见。现在，就等着Gemini后续的更新，看能否带来新的惊喜。

从行业层面来看，这次两大模型的同步升级，也释放了三个关键信号：

- 模型能力差距持续缩小，Anthropic和OpenAI的竞争进入白热化，最终受益的是所有用户；

- Agent已经成为AI发展的核心方向，无论是Claude的Agent Teams，还是GPT的自主迭代，都在朝着“AI自主工作、多智能体协同”迈进，未来的编程和办公，将彻底摆脱“手动执行”的束缚；

- 软件行业的范式转移正在加速，传统SaaS公司正面临巨大压力——当AI能快速、廉价地完成编程、文档生成、多模块协同等工作，软件的核心价值，将彻底从“代码本身”转向“人类的判断力、业务洞察力”，这也和我此前聊的“软件股崩盘启示录”形成呼应。

我不知道一年后AI行业会变成什么样，但可以肯定的是，现在绝对是需要密切关注、积极学习的关键时期——错过这一波AI军备竞赛的浪潮，可能就真的错过了未来的生产力革命。

如果你还没用过Claude Code、没用过Codex，现在就是最好的开始时机。毕竟，未来已经来了，只是还没均匀分布——而我们能做的，就是主动拥抱这一切，用最新的工具，提升自己的核心竞争力（判断力、业务理解能力），才能在AI时代站稳脚跟。

作者：天富注册登录平台

AI春晚实锤！Claude Opus4.6 vs GPT-5.3 Codex 中门对狙，编程与Agent时代彻底提速

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →