可比較的公開表格並沒有給出單一總冠軍:Claude Opus 4.7 在 GPQA Diamond 以 94.2% 領先,並在 HLE 無工具情境拿到 46.9% [6]。
可直接 head to head 的資料主要是 Claude Opus 4.7 與 GPT 5.5:GPT 5.5 在 Terminal Bench 2.0 為 82.7%,Claude 為 69.4%;Claude 在 SWE Bench Pro Public 為 64.3%,GPT 5.5 為 58.6% [5]。
截至 2026 年 4 月的公開資料,四者沒有單一總冠軍:GPT‑5.5 在 agentic computer use 與工具流程訊號最強,Claude Opus 4.7 在 repo level coding 表現突出,Kimi K2.6 是開放權重 coding 強選,DeepSeek V4 則值得放進長上下文與開源部署評估清單。[5][17][29][37][42]
沒有單一勝者:GPT 5.5 在 Terminal Bench 2.0、FrontierMath 與 BrowseComp 類研究任務較突出;Claude Opus 4.7 在 SWE Bench Pro 與 MCP Atlas 較有優勢。
API 以每 100 萬 token 單價比較,gpt 5.1 codex mini 最便宜:100 萬輸入 + 100 萬輸出、無快取約 US$2.25;Claude Opus 4.7/4.6/4.5 約 US$30.00。[24][13]
如果你要的是橫跨 app、IDE、CLI、web、review、automations 與整合工具的 AI coding 工作流程,Codex 較值得優先評估。
若只能先選一個,且日常工作集中在現有 repo、讀碼、debug、重構與 Git 流程,Claude Code 是較好的預設起點;資料描述它可在終端機理解 codebase、處理例行任務並協助 Git 工作流程 [17]。
若今天要先挑一個主力候選,Claude Code 較適合優先試用;它的官方文件入口涵蓋 quickstart、changelog、Extend Claude Code、instructions and memories、common workflows、best practices、platforms 與 Chrome extension beta 等長期使用會遇到的面向。[1]
如果主要在本機 repo 長時間 debug、重構、跑測試,先試 Claude Code;如果重點是 PR 自動審查、Slack、跨 Web/CLI/IDE/iOS 與並行雲端任務,先試 OpenAI Codex。Codex 官方價格為 Plus $20/month、Pro from $100/month;本次來源沒有可引用的 Claude Code 即時官方價格。
Claude Code 的官方文件更明確描述整個程式碼庫、多檔案工作流與本機權限控制;OpenAI Codex 的文件更完整呈現企業導入、治理、安全與定價。
GPT 5.5 在 Artificial Analysis 的整體 Intelligence Index 訊號最強:xhigh 為 60、high 為 59;Claude Opus 4.7 Adaptive Reasoning Max Effort 為 57。[2]
目前沒有足夠公開證據能支持「單一總冠軍」。Claude Opus 4.7 的官方文件最完整,DeepSeek V4 的價格與輸出規格最清楚。