Claude Opus 4.7 在 GPQA Diamond 以 94.2% 領先,並在無工具 Humanity’s Last Exam 以 46.9% 領先;GPT 5.5 則以 82.7% 拿下 Terminal Bench 2.0 [4][5]。
GPT 5.5 是目前資料中最穩的全能型:Artificial Analysis Intelligence Index xhigh 為 60 分、high 為 59 分,BrowseComp 為 84.4% [2][3]。
現有證據不支持單一總排名:GPT 5.5 在 OpenAI 公布的 ARC AGI 1/2 高於 Claude Opus 4.7,Claude 則在 MCP Atlas 領先 GPT 5.5 [6] [14]。
對美國使用者而言,DeepSeek V4 最好只用於公開、低風險的測試;現有來源未顯示一般私人使用遭全國禁止,但已記錄政府設備限制與中國資料儲存疑慮。
目前沒有一個公開基準測試能把 4 款模型完整放在同一把尺下比較;GPT 5.5 在 Terminal Bench 2.0 以 82.7% 對 69.4% 領先 Claude Opus 4.7,但 Claude 在 SWE Bench Pro 以 64.3% 對 58.6% 領先 [2]。
目前沒有可核實的「支援香港繁中、免費存取 GPT 5.5」AI App;數量是 0 個。這不代表沒有免費繁中 AI,而是免費層沒有明確提供 GPT 5.5。
台灣繁中使用者要找 DeepSeek V4,目前可確認的入口只有 2 個:DeepSeek 官方 App/Web/API 與 OpenRouter;公開資料尚未保證完整 zh TW 在地化,因此仍需用提示詞與實測確認。