現有證據不支持單一總排名:GPT 5.5 在 OpenAI 公布的 ARC AGI 1/2 高於 Claude Opus 4.7,Claude 則在 MCP Atlas 領先 GPT 5.5 [6] [14]。
目前沒有一個公開基準測試能把 4 款模型完整放在同一把尺下比較;GPT 5.5 在 Terminal Bench 2.0 以 82.7% 對 69.4% 領先 Claude Opus 4.7,但 Claude 在 SWE Bench Pro 以 64.3% 對 58.6% 領先 [2]。
Claude Opus 4.7 是 Anthropic 面向程式開發與 AI 代理的混合推理模型,具 100 萬 token 上下文視窗;目前更應把免費管道視為限量評估,而非無限免費 [3][7]。