目前沒有公開同條件測試能證明 Claude Opus 4.7 或 GPT 5.5 在所有長流程研究中更少失焦;可查核資料支持分工選型:GPT 5.5 偏檢索與多源整合(BrowseComp 84.4% vs 79.3%),Claude Opus 4.7 偏長時間 agent loop、工具編排與收尾。[1][3][58]
OpenAI API 文件有 GPT Image 2 模型頁,Images API 也有 size 欄位;Create image edit 範例出現 1024x1024,但這不等於完整尺寸清單 [1][14][18]。
若只看這裡引用的 SWE bench Pro 數字,Claude Opus 4.7 暫時領先:VentureBeat 報導 64.3%,Interesting Engineering 報導 GPT 5.5 為 58.6%。[33][39]
目前公開來源中,最具體的 GPT 5.5 API 價格說法來自 Economic Times:起價每 100 萬 token 5 美元;但本文對照的 OpenAI API Pricing 尚未顯示 GPT 5.5 的獨立價格列 [4][11]。
GPT 5.5 看起來是 GPT 5.4 的漸進升級:OpenAI 公布 GDPval 為 84.9%,高於 GPT 5.4 的 83.0%。[14][12]
GPT 5.5 於 2026 年 4 月 23 日發布,OpenAI 將它定位為處理程式、線上研究、資訊分析與跨工具任務的模型;因此它最適合先在 coding agent、研究與知識工作流程中試點。[22][15]
公開資料不支持單一勝者:Terminal Bench 2.0 中 GPT 5.5 為 82.7%、Claude Opus 4.7 為 69.4%;但 SWE Bench Pro 中 Claude Opus 4.7 為 64.3%、GPT 5.5 為 58.6%,且兩組數字都有解讀注意事項。[4][8]
GPT 5.5 整體更適合追求最高能力的任務:OpenAI 公布它在 GDPval 達 84.9%、OSWorld Verified 達 78.7%、Tau2 bench Telecom 達 98.0%。
OpenAI 於 2026 年 4 月 23 日介紹 GPT 5.5,將它定位為面向實務工作的新版旗艦模型,涵蓋程式、資料、研究與文件等任務 [6][7]。
公開資料不足以支持一個放諸四海皆準的冠軍;GPT 5.5 適合先測 OpenAI 生態系,Claude Opus 4.7 適合長上下文生產工作,DeepSeek V4 適合成本敏感的 100 萬 token 評估,Kimi K2.6 適合開放權重與多模態實驗。
沒有絕對贏家:GPT 5.5 在 Terminal Bench 2.0 為 82.7%,適合先測終端機型 coding agent;Claude Opus 4.7 在 SWE Bench Pro 為 64.3%,大型 codebase 任務更值得先測。[6][36]
既有程式碼庫的 bug 修補、測試通過與 PR patch,可先評估 Claude Opus 4.7;SWE bench Pro 上公開整理的數字為 Claude Opus 4.7 64.3%、GPT 5.5 58.6%。[16][29]