GPT-5.5 vs Claude Opus 4.7：coding、搜尋、設計、創作邊個贏？

公開資料睇，GPT 5.5 喺 coding 方面證據最硬：Terminal Bench 82.7% 報道，加上 SWE Bench Verified 上工具使用同檔案瀏覽略佔優。搜尋同網頁 research 可以先試 GPT 5.5，但唔好誇大成直接勝利：主要證據係 Opus 4.7 喺 BrowseComp 較前代下跌，並低過 GPT 5.4 Pro。

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

19K0

GPT-5.5와 Claude Opus 4.7 벤치마크 비교를 상징하는 AI 생성 이미지 — GPT-5.5 vs Claude Opus 4.7: 코딩은 GPT 우세, 디자인·창작은 아직 미정GPT-5.5와 Claude Opus 4.7의 코딩·검색·디자인·창작 비교를 표현한 AI 생성 에디토리얼 이미지.
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7: 코딩은 GPT 우세, 디자인·창작은 아직 미정. Article summary: 공개 자료 기준으로 코딩은 GPT 5.5가 Terminal Bench 82.7% 보도 등으로 근소 우세이고, 검색·리서치는 GPT 5.5부터 시험할 만합니다.. Topic tags: ai, openai, anthropic, chatgpt, claude. Reference image context from search candidates: Reference image 1: visual subject "# Claude Opus 4.7 vs GPT 5.5: Full Comparison (April 2026). claude-opus-4-7-vs-gpt-5-5. Anthropic dropped Claude Opus 4.7 on April 16. Both with 1M token context windows. Both clai" source context "Claude Opus 4.7 vs GPT 5.5: Full Comparison (April 2026)" Reference image 2: visual subject "# Claude Opus 4.7 vs GPT 5.5: Full Comparison (April 2026). claude-opus-4-7-vs-gpt-5-5. Anthropic dropped Claude Opus 4.7 on April 16. Both with 1M token context windows. Both clai" source context "Claude Opus 4.7 vs GPT 5.5: Full Compariso
openai.com

如果你而家要揀模型落到開發、research 或內容流程，最穩陣嘅問法唔係「邊個最勁」，而係「邊個先值得我用自己啲 task 試」。公開資料綜合落嚟，GPT-5.5 同 Claude Opus 4.7 唔係一個模型通殺所有場景。Coding 係 GPT-5.5 證據最強；搜尋／網頁 research 可以由 GPT-5.5 先試；設計同創意內容就暫時未夠公開資料判死邊個贏 ^[4]^[6]^[7]^[20]。

先講一個容易睇錯嘅位：長 context 唔係 Claude 獨有優勢

好多人成日會以為長文件、長 project brief、成個 repo 一次過塞入去，就一定係 Claude 佔優。但就提供到嘅公開規格，呢個結論太快。

LLM Stats 將 GPT-5.5 同 Claude Opus 4.7 都整理為支援 1M token 輸入、128K token 輸出，而且兩者都支援文字加圖片輸入、文字輸出 ^[3]。所以如果你嘅任務核心係「放好多資料入去」，單靠 context window 呢一點，暫時唔足以話 Claude Opus 4.7 自動勝出。

另一個要留意嘅係 benchmark 環境。OpenAI 表示，GPT-5.5 嘅評測係用 xhigh reasoning effort，並喺研究環境進行；某啲情況下，實際 ChatGPT 產品輸出可能同評測環境有少少差異 ^[5]。換句話講，公開分數係好有用嘅起點，但唔應該代替你用自己 prompt、工具鏈、資料同驗收標準再測一次。

快速判斷表

場景	公開資料下嘅判斷	實務建議
Coding／開發代理	GPT-5.5 輕微佔優。Terminal-Bench 82.7% 報道，以及 SWE-Bench Verified 上工具使用、檔案瀏覽優勢係主要根據 ^[4]^[6]。	自動改 bug、跑測試、repo 探索、agentic coding，可先由 GPT-5.5 開始測。
搜尋／網頁 research	GPT-5.5 值得優先測。Opus 4.7 喺 BrowseComp 比前代跌，亦低過 GPT-5.4 Pro ^[20]。	做 web research agent 時先試 GPT-5.5，但記住目前引用嘅唔係 GPT-5.5 直接 BrowseComp 勝利分數。
設計／UX	未能定勝負。Opus 4.7 強調 vision、文件分析改善；GPT-5.5 亦支援圖片輸入同長 context ^[3]^[7]^[14]。	UX review、brand guide 解讀要用同一份 brief 盲測；如果牽涉 UI code 實作，可先試 GPT-5.5。
創意內容	未能定勝負。兩者都可用於創意 project，但公開資料未足夠分出創作質素勝負 ^[7]。	用品牌語氣、原創性、修稿次數、最終編輯時間做 blind A/B test。

Coding：GPT-5.5 證據較硬，但 Claude 唔係弱

四個範疇入面，coding 係最容易講到「GPT-5.5 暫時領先」嘅一項。Interesting Engineering 報道，GPT-5.5 喺 Terminal-Bench 達到 82.7%，並喺 agentic coding 上領先 Claude Opus 4.7 ^[6]。

睇真實 GitHub issue 解決能力嘅 SWE-Bench Verified，方向都相近。MindStudio 指出，兩個模型都係 2026 leaderboard 頂層競爭者，但 GPT-5.5 喺需要精準工具使用同檔案 navigation 嘅問題略為佔優；Claude Opus 4.7 則喺大型 codebase 入面需要宏觀架構判斷嘅任務較強 ^[4]。

不過，呢個唔等於 Claude Opus 4.7 寫 code 差。Anthropic 將 Opus 4.7 介紹為面向 coding 同 AI agents 嘅 hybrid reasoning model，並提供 1M context window ^[14]。BenchLM 亦將 Claude Opus 4.7 評為 coding／programming 類別第 2，以及 agentic tool use／computer tasks 類別第 2 ^[15]。

實務上，如果你要做自動 coding agent、bug fix、測試修補、複製問題、掃 repo 搵相關檔案，GPT-5.5 係較合理嘅第一測試對象 ^[4]^[6]。但如果工作係大型重構、架構 review、跨好多檔案嘅設計判斷，就應該將 Claude Opus 4.7 放入同一套測試，而唔好單憑一個總分決定 ^[4]。

搜尋同 research：可以先試 GPT-5.5，但唔好講到太滿

搜尋、網頁 research、引用資料整理，暫時可以由 GPT-5.5 先試。不過呢個結論要講清楚：目前較硬嘅根據，主要係 Opus 4.7 喺相關 benchmark 上退步，而唔係 GPT-5.5 已經有一個公開直接分數全面擊敗 Opus 4.7。

Verdent 解釋，BrowseComp 係量度多步驟網頁 research 嘅 benchmark：模型要跨多個網頁瀏覽、綜合資料、再推理。喺同一資料入面，Claude Opus 4.7 由 Opus 4.6 嘅 83.7% 跌到 79.3%；GPT-5.4 Pro 則係 89.3%，Gemini 3.1 Pro 係 85.9%，兩者都高過 Opus 4.7 ^[20]。MindStudio 亦評價 Opus 4.7 喺 web research 方面有倒退 ^[17]。

但重點 caveat 係：呢組資料顯示 Opus 4.7 喺 BrowseComp 較弱，亦顯示佢低過 GPT-5.4 Pro；佢並無直接提供 GPT-5.5 嘅 BrowseComp 分數 ^[20]。Mashable 整理指，OpenAI 強調 GPT-5.5 改善範疇包括 agentic coding、computer use、knowledge work 同早期科學研究；但單靠呢點，仍然唔應該推論成「所有搜尋任務 GPT-5.5 必勝」^[7]。

所以，做資料搜集、來源比對、web research agent、引用式報告，可以先試 GPT-5.5；但測試時要分開評分：引用準確度、來源多樣性、有冇用舊資料、多步推理成功率、以及最後報告有幾多需要人工改。

設計：要分開「視覺／UX 評審」同「UI code 實作」

設計唔係單一能力。睇 screenshot 評 UX、讀 brand guide 調整語氣、分析用戶流程、甚至直接生成 frontend component code，全部都係唔同考卷。

Claude Opus 4.7 當然值得放入設計評審候選。Anthropic 表示，Opus 4.7 喺 coding、vision、複雜多步任務上更強，並喺專業知識工作上更徹底、更一致 ^[14]。Mashable 亦整理指，Anthropic 強調 Opus 4.7 改善 advanced coding、visual intelligence 同 document analysis ^[7]。

但 GPT-5.5 亦被整理為支援圖片輸入同長 context ^[3]。就現有公開資料，未見到一個足夠清晰、標準化、直接比較 GPT-5.5 同 Claude Opus 4.7 嘅設計 benchmark，可以公平判斷邊個 UX critique、視覺設計理解、品牌規範解讀一定較好。

因此，UX review、品牌文件檢查、設計策略 feedback，最好用同一份 brief、同一套 rubric、同一批 sample 做對照。若果任務包含「由設計要求生成可用 UI code」，GPT-5.5 因為 coding 證據較強，可以先測 ^[4]^[6]。

創意內容：benchmark 參考有限，盲測更實際

創意內容同樣未適合用公開 benchmark 直接判勝負。Mashable 指，GPT-5.5 同 Claude Opus 4.7 都可廣泛用於 research、coding、creative projects ^[7]。但小說、廣告 copy、品牌 campaign、storytelling 呢類工作，質素好大部分取決於風格、受眾、品牌要求同編輯口味，未必可以靠答題準確率式 benchmark 解決。

亦唔好簡單講「長文創作一定 Claude 贏」。Opus 4.7 有 1M context 係事實，但 LLM Stats 同時整理 GPT-5.5 都有 1M 輸入 context 同 128K 輸出 context ^[3]。

創意工作最安全嘅做法，係將模型名收起，用同一份 brief 做 blind A/B test。評分可以包括：語氣一致性、是否貼合品牌、內容有冇新鮮感、能否跟隨修訂指令、最終需要人工編輯幾耐。對內容團隊嚟講，少改半小時可能比 benchmark 高幾分更有用。

最後點揀？

**開發自動化：**先試 GPT-5.5。Terminal-Bench 82.7% 報道，以及 SWE-Bench Verified 上工具使用、檔案 navigation 優勢，係最直接根據 ^[4]^[6]。
**大型 codebase 架構判斷：**Claude Opus 4.7 要一齊測。公開比較指佢喺大型 codebase 嘅宏觀架構推理較強 ^[4]。
**搜尋／網頁 research：**先試 GPT-5.5，但要謹慎解讀。Opus 4.7 喺 BrowseComp 比前代跌，亦低過 GPT-5.4 Pro；但呢唔等同 GPT-5.5 已有直接 BrowseComp 勝利分數 ^[20]。
**設計 review：**未有公開 benchmark 勝者。Opus 4.7 強調 vision 同文件分析改善；GPT-5.5 亦支援圖片輸入同長 context，應用同一 brief 比較 ^[3]^[7]^[14]。
**創意內容：**唔好靠模型名估。兩者都可用於創意 project，應以 blind A/B test、修稿時間同品牌貼合度決定 ^[7]。

現階段最守得住嘅結論係：coding 選 GPT-5.5 先試；搜尋／research 亦由 GPT-5.5 優先；設計同創意內容暫時未有定案。如果你係做工程或 research automation，GPT-5.5 值得先放入 pipeline；如果係 UX、品牌文件、長文創作，就應該用同一套任務同評分表，將兩個模型放埋一齊實測。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

公開資料睇，GPT 5.5 喺 coding 方面證據最硬：Terminal Bench 82.7% 報道，加上 SWE Bench Verified 上工具使用同檔案瀏覽略佔優。
搜尋同網頁 research 可以先試 GPT 5.5，但唔好誇大成直接勝利：主要證據係 Opus 4.7 喺 BrowseComp 較前代下跌，並低過 GPT 5.4 Pro。
設計同創意內容暫時未有夠硬嘅公開直接 benchmark；而且兩者都被整理為支援 1M 輸入、128K 輸出 context，長文工作唔代表 Claude 自動贏。

사람들은 또한 묻습니다.

"GPT-5.5 vs Claude Opus 4.7：coding、搜尋、設計、創作邊個贏？"에 대한 짧은 대답은 무엇입니까?

公開資料睇，GPT 5.5 喺 coding 方面證據最硬：Terminal Bench 82.7% 報道，加上 SWE Bench Verified 上工具使用同檔案瀏覽略佔優。

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

設計同創意內容暫時未有夠硬嘅公開直接 benchmark；而且兩者都被整理為支援 1M 輸入、128K 輸出 context，長文工作唔代表 Claude 自動贏。

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일

Claude Security 공개 베타, 기업 코드 보안을 AI로 훑는 방식

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수

샤오미 Q5는 MIX 5가 아닐 가능성: 최신 단서는 샤오미 18 시리즈

샤오미 Q5, MIX 5일까? 최신 정황은 ‘샤오미 18’ 쪽

Metas KI-Altersprüfung: Neue Regeln für Jugendliche in EU, USA und Brasilien

인스타·페이스북 ‘가짜 생일’ 더 어려워진다: 메타의 AI 연령 확인 확대

메타 AI 연령 확인 확대: EU·미국·브라질에서 바뀌는 청소년 보호

연구 대화

당신2026년 4월 26일

연구문제

GPT-5.5와 Claude Opus 4.7의 벤치마크를 조사해줘. 코딩, 디자인, 창의적 콘텐츠, 검색에서는 누가 이길까?

Studio Global AI2026년 4월 26일24 소스

인용 답변

짧게 말하면, 공개 벤치마크 기준으로는 GPT-5.5가 코딩·검색에서 더 유리하고, Claude Opus 4.7은 디자인/글쓰기처럼 주관적 품질과 긴 컨텍스트 작업에서 강점이 더 뚜렷합니다. 다만 “디자인”과 “창의적 콘텐츠”는 표준화된 신뢰도 높은 공개 벤치마크가 부족해, 승패는 사용 사례별 테스트가 필요합니다.

코딩: GPT-5.5 우세
- OpenAI는 GPT-5.5가 에이전트 코딩, 컴퓨터 사용, 지식 작업, 초기 과학 연구에서 개선됐다고 설명합니다 ^[15].
- GPT-5.5는 Terminal-Bench에서 82.7%로 Claude Opus 4.7을 앞선다는 보도가 있습니다 ^[14].
- SWE-Bench Verified 같은 실제 GitHub 이슈 해결 벤치마크에서는 둘 다 최상위권이지만, GPT-5.5가 도구 사용·파일 탐색이 필요한 문제에서 약간 앞서고, Opus 4.7은 대규모 리팩터링/아키텍처 판단에서 강하다는 비교가 있습니다 ^[12].
- 결론: 자동 코딩 에이전트, 버그 수정, 레포 탐색은 GPT-5.5 쪽을 먼저 선택하는 게 합리적입니다.
디자인: Claude Opus 4.7 약우세, 단 근거는 약함
- Anthropic은 Claude Opus 4.7을 코딩과 AI 에이전트 프런티어를 밀어올린 하이브리드 추론 모델이며 1M 컨텍스트를 제공한다고 설명합니다 ^[3].
- 긴 문서, 브랜드 가이드, 사용자 리서치, 카피 톤을 한 번에 넣고 작업하는 디자인 전략·UX 라이팅에는 1M 컨텍스트가 실용적 이점이 될 수 있습니다 ^[3].
- 반면 “시각 디자인 품질” 자체를 GPT-5.5와 Opus 4.7로 공정 비교한 권위 있는 공개 벤치마크는 확인되지 않습니다.
- 결론: UX 전략, 브랜드 톤, 긴 디자인 문서 작업은 Claude Opus 4.7, 코드 기반 UI 구현은 GPT-5.5가 더 나을 가능성이 큽니다.
창의적 콘텐츠: Claude Opus 4.7 약우세
- Claude 계열은 긴 맥락을 유지하며 문체, 감정선, 브랜드 보이스를 맞추는 작업에서 강점이 크고, Opus 4.7의 1M 컨텍스트는 장편 원고·캠페인 자료·세계관 문서 작업에 유리합니다 ^[3].
- 다만 창의성은 평가자 취향의 영향이 커서, 코딩처럼 단일 벤치마크로 “승자”를 확정하기 어렵습니다.
- 결론: 소설, 브랜드 카피, 스토리텔링, 톤 유지가 중요하면 Claude Opus 4.7을 추천합니다.
검색/리서치: GPT-5.5 우세
- Opus 4.7은 BrowseComp 같은 멀티스텝 웹 리서치 벤치마크에서 Opus 4.6보다 하락했고, GPT-5.4 Pro와 Gemini 3.1 Pro가 Opus 4.7을 앞선다는 분석이 있습니다 ^[9].
- GPT-5.5는 지식 작업과 에이전트 작업 개선이 강조됐고, 검색·브라우징형 작업에서는 Opus 4.7보다 안정적일 가능성이 높습니다 ^[15].
- 결론: 자료 조사, 출처 비교, 웹 검색 기반 보고서는 GPT-5.5 우세로 보는 게 안전합니다.

요약 표

분야	승자	이유
코딩	GPT-5.5	Terminal-Bench 및 도구 사용형 코딩에서 우세 ^[12]^[14]
디자인	Claude Opus 4.7 약우세	긴 컨텍스트 기반 UX/브랜드 작업에 유리, 단 객관 벤치마크 부족 ^[3]
창의적 콘텐츠	Claude Opus 4.7 약우세	장문 맥락·톤 유지에 유리, 단 주관적 평가 영역 ^[3]
검색/리서치	GPT-5.5	Opus 4.7의 BrowseComp 하락과 GPT 계열의 에이전트/지식 작업 강점 ^[9]^[15]

실무 선택이라면: 개발·리서치 자동화는 GPT-5.5, 긴 문서 기반 기획·카피·창작은 Claude Opus 4.7로 나누는 것이 가장 안전합니다.

출처

[3] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Spec GPT-5.5 Claude Opus 4.7 --- Provider OpenAI Anthropic Release date Apr 23, 2026 Apr 16, 2026 Model ID gpt-5.5 claude-opus-4-7 Input / output (≤200K) $5 / $30 per 1M $5 / $25 per 1M Input / output ( 200K) $5 / $30 per 1M (flat) $10 / $37.50 per 1M Conte...
[4] GPT-5.5 vs Claude Opus 4.7: Real-World Coding Performance ...mindstudio.ai
SWE-Bench and Coding Tasks On SWE-Bench Verified — the standard benchmark for evaluating real GitHub issue resolution — both models score competitively at the top of the 2026 leaderboard. GPT-5.5 holds a slight edge on problems requiring precise tool use an...
[5] Introducing GPT-5.5 - OpenAIopenai.com
Abstract reasoning EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro ARC-AGI-1 (Verified)95.0%93.7%-94.5%93.5%98.0% ARC-AGI-2 (Verified)85.0%73.3%-83.3%75.8%77.1% Evals of GPT were run with reasoning effort set to xhigh and were conducte...
[6] OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark ...interestingengineering.com
About UsAdvertise ContactFAQ Follow Us On LinkedInXInstagramFlipboardFacebookYouTubeTikTok All Rights Reserved, IE Media, Inc. AI and Robotics GPT-5.5 crushes Claude Opus 4.7 in agentic coding with 82.7% terminal-bench score GPT-5.5 introduces smarter task...
[7] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Opus 4.7 is available to Pro and Max customers; via the API, it's available for "$5 per million input tokens and $25 per million output tokens." GPT-5.5 and Opus 4.7: Feature set OpenAI says that GPT-5.5 makes noticeable improvements in "agentic coding, com...
[14] Claude Opus 4.7anthropic.com
Skip to main contentSkip to footer []( Research Economic Futures Commitments Learn News Try Claude Claude Opus 4.7 Image 1: Claude Opus 4.7 Image 2: Claude Opus 4.7 Hybrid reasoning model that pushes the frontier for coding and AI agents, featuring a 1M con...
[15] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Is Claude Opus 4.7 good for knowledge and understanding? Claude Opus 4.7 ranks 1 out of 110 models in knowledge and understanding benchmarks with an average score of 99.2. It is among the top performers in this category. Is Claude Opus 4.7 good for coding a...
[17] Claude Opus 4.7 Review: What Actually Changed and What Got ...mindstudio.ai
BlogAbout Log inGet Started My Workspace Blog/Claude Opus 4.7 Review: What Actually Changed and What Got Worse ClaudeLLMs & ModelsComparisons Claude Opus 4.7 Review: What Actually Changed and What Got Worse Opus 4.7 fixes agentic persistence and boosts codi...
[20] Claude Opus 4.7: What Changed for Coding Agents (April 2026)verdent.ai
BrowseComp softened vs Opus 4.6 BrowseComp measures multi-step web research: browse, synthesize, and reason across multiple pages. Opus 4.7 dropped from 83.7% to 79.3% — a 4.4-point regression. GPT-5.4 Pro sits at 89.3%; Gemini 3.1 Pro at 85.9%. Both lead O...

GPT-5.5 vs Claude Opus 4.7：coding、搜尋、設計、創作邊個贏？

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

19K0

先講一個容易睇錯嘅位：長 context 唔係 Claude 獨有優勢

好多人成日會以為長文件、長 project brief、成個 repo 一次過塞入去，就一定係 Claude 佔優。但就提供到嘅公開規格，呢個結論太快。

快速判斷表

場景	公開資料下嘅判斷	實務建議
Coding／開發代理	GPT-5.5 輕微佔優。Terminal-Bench 82.7% 報道，以及 SWE-Bench Verified 上工具使用、檔案瀏覽優勢係主要根據 ^[4]^[6]。	自動改 bug、跑測試、repo 探索、agentic coding，可先由 GPT-5.5 開始測。
搜尋／網頁 research	GPT-5.5 值得優先測。Opus 4.7 喺 BrowseComp 比前代跌，亦低過 GPT-5.4 Pro ^[20]。	做 web research agent 時先試 GPT-5.5，但記住目前引用嘅唔係 GPT-5.5 直接 BrowseComp 勝利分數。
設計／UX	未能定勝負。Opus 4.7 強調 vision、文件分析改善；GPT-5.5 亦支援圖片輸入同長 context ^[3]^[7]^[14]。	UX review、brand guide 解讀要用同一份 brief 盲測；如果牽涉 UI code 實作，可先試 GPT-5.5。
創意內容	未能定勝負。兩者都可用於創意 project，但公開資料未足夠分出創作質素勝負 ^[7]。	用品牌語氣、原創性、修稿次數、最終編輯時間做 blind A/B test。

Coding：GPT-5.5 證據較硬，但 Claude 唔係弱

搜尋同 research：可以先試 GPT-5.5，但唔好講到太滿

設計：要分開「視覺／UX 評審」同「UI code 實作」

設計唔係單一能力。睇 screenshot 評 UX、讀 brand guide 調整語氣、分析用戶流程、甚至直接生成 frontend component code，全部都係唔同考卷。

創意內容：benchmark 參考有限，盲測更實際

亦唔好簡單講「長文創作一定 Claude 贏」。Opus 4.7 有 1M context 係事實，但 LLM Stats 同時整理 GPT-5.5 都有 1M 輸入 context 同 128K 輸出 context ^[3]。

最後點揀？

**開發自動化：**先試 GPT-5.5。Terminal-Bench 82.7% 報道，以及 SWE-Bench Verified 上工具使用、檔案 navigation 優勢，係最直接根據 ^[4]^[6]。
**大型 codebase 架構判斷：**Claude Opus 4.7 要一齊測。公開比較指佢喺大型 codebase 嘅宏觀架構推理較強 ^[4]。
**搜尋／網頁 research：**先試 GPT-5.5，但要謹慎解讀。Opus 4.7 喺 BrowseComp 比前代跌，亦低過 GPT-5.4 Pro；但呢唔等同 GPT-5.5 已有直接 BrowseComp 勝利分數 ^[20]。
**設計 review：**未有公開 benchmark 勝者。Opus 4.7 強調 vision 同文件分析改善；GPT-5.5 亦支援圖片輸入同長 context，應用同一 brief 比較 ^[3]^[7]^[14]。
**創意內容：**唔好靠模型名估。兩者都可用於創意 project，應以 blind A/B test、修稿時間同品牌貼合度決定 ^[7]。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

公開資料睇，GPT 5.5 喺 coding 方面證據最硬：Terminal Bench 82.7% 報道，加上 SWE Bench Verified 上工具使用同檔案瀏覽略佔優。
搜尋同網頁 research 可以先試 GPT 5.5，但唔好誇大成直接勝利：主要證據係 Opus 4.7 喺 BrowseComp 較前代下跌，並低過 GPT 5.4 Pro。
設計同創意內容暫時未有夠硬嘅公開直接 benchmark；而且兩者都被整理為支援 1M 輸入、128K 輸出 context，長文工作唔代表 Claude 自動贏。

사람들은 또한 묻습니다.

"GPT-5.5 vs Claude Opus 4.7：coding、搜尋、設計、創作邊個贏？"에 대한 짧은 대답은 무엇입니까?

公開資料睇，GPT 5.5 喺 coding 方面證據最硬：Terminal Bench 82.7% 報道，加上 SWE Bench Verified 上工具使用同檔案瀏覽略佔優。

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

設計同創意內容暫時未有夠硬嘅公開直接 benchmark；而且兩者都被整理為支援 1M 輸入、128K 輸出 context，長文工作唔代表 Claude 自動贏。

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일

Claude Security 공개 베타, 기업 코드 보안을 AI로 훑는 방식

Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수

샤오미 Q5는 MIX 5가 아닐 가능성: 최신 단서는 샤오미 18 시리즈

샤오미 Q5, MIX 5일까? 최신 정황은 ‘샤오미 18’ 쪽

인스타·페이스북 ‘가짜 생일’ 더 어려워진다: 메타의 AI 연령 확인 확대

메타 AI 연령 확인 확대: EU·미국·브라질에서 바뀌는 청소년 보호

연구 대화

당신2026년 4월 26일

연구문제

GPT-5.5와 Claude Opus 4.7의 벤치마크를 조사해줘. 코딩, 디자인, 창의적 콘텐츠, 검색에서는 누가 이길까?

Studio Global AI2026년 4월 26일24 소스

인용 답변

코딩: GPT-5.5 우세
- OpenAI는 GPT-5.5가 에이전트 코딩, 컴퓨터 사용, 지식 작업, 초기 과학 연구에서 개선됐다고 설명합니다 ^[15].
- GPT-5.5는 Terminal-Bench에서 82.7%로 Claude Opus 4.7을 앞선다는 보도가 있습니다 ^[14].
- SWE-Bench Verified 같은 실제 GitHub 이슈 해결 벤치마크에서는 둘 다 최상위권이지만, GPT-5.5가 도구 사용·파일 탐색이 필요한 문제에서 약간 앞서고, Opus 4.7은 대규모 리팩터링/아키텍처 판단에서 강하다는 비교가 있습니다 ^[12].
- 결론: 자동 코딩 에이전트, 버그 수정, 레포 탐색은 GPT-5.5 쪽을 먼저 선택하는 게 합리적입니다.
디자인: Claude Opus 4.7 약우세, 단 근거는 약함
- Anthropic은 Claude Opus 4.7을 코딩과 AI 에이전트 프런티어를 밀어올린 하이브리드 추론 모델이며 1M 컨텍스트를 제공한다고 설명합니다 ^[3].
- 긴 문서, 브랜드 가이드, 사용자 리서치, 카피 톤을 한 번에 넣고 작업하는 디자인 전략·UX 라이팅에는 1M 컨텍스트가 실용적 이점이 될 수 있습니다 ^[3].
- 반면 “시각 디자인 품질” 자체를 GPT-5.5와 Opus 4.7로 공정 비교한 권위 있는 공개 벤치마크는 확인되지 않습니다.
- 결론: UX 전략, 브랜드 톤, 긴 디자인 문서 작업은 Claude Opus 4.7, 코드 기반 UI 구현은 GPT-5.5가 더 나을 가능성이 큽니다.
창의적 콘텐츠: Claude Opus 4.7 약우세
- Claude 계열은 긴 맥락을 유지하며 문체, 감정선, 브랜드 보이스를 맞추는 작업에서 강점이 크고, Opus 4.7의 1M 컨텍스트는 장편 원고·캠페인 자료·세계관 문서 작업에 유리합니다 ^[3].
- 다만 창의성은 평가자 취향의 영향이 커서, 코딩처럼 단일 벤치마크로 “승자”를 확정하기 어렵습니다.
- 결론: 소설, 브랜드 카피, 스토리텔링, 톤 유지가 중요하면 Claude Opus 4.7을 추천합니다.
검색/리서치: GPT-5.5 우세
- Opus 4.7은 BrowseComp 같은 멀티스텝 웹 리서치 벤치마크에서 Opus 4.6보다 하락했고, GPT-5.4 Pro와 Gemini 3.1 Pro가 Opus 4.7을 앞선다는 분석이 있습니다 ^[9].
- GPT-5.5는 지식 작업과 에이전트 작업 개선이 강조됐고, 검색·브라우징형 작업에서는 Opus 4.7보다 안정적일 가능성이 높습니다 ^[15].
- 결론: 자료 조사, 출처 비교, 웹 검색 기반 보고서는 GPT-5.5 우세로 보는 게 안전합니다.

요약 표

분야	승자	이유
코딩	GPT-5.5	Terminal-Bench 및 도구 사용형 코딩에서 우세 ^[12]^[14]
디자인	Claude Opus 4.7 약우세	긴 컨텍스트 기반 UX/브랜드 작업에 유리, 단 객관 벤치마크 부족 ^[3]
창의적 콘텐츠	Claude Opus 4.7 약우세	장문 맥락·톤 유지에 유리, 단 주관적 평가 영역 ^[3]
검색/리서치	GPT-5.5	Opus 4.7의 BrowseComp 하락과 GPT 계열의 에이전트/지식 작업 강점 ^[9]^[15]

실무 선택이라면: 개발·리서치 자동화는 GPT-5.5, 긴 문서 기반 기획·카피·창작은 Claude Opus 4.7로 나누는 것이 가장 안전합니다.

출처

[3] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Spec GPT-5.5 Claude Opus 4.7 --- Provider OpenAI Anthropic Release date Apr 23, 2026 Apr 16, 2026 Model ID gpt-5.5 claude-opus-4-7 Input / output (≤200K) $5 / $30 per 1M $5 / $25 per 1M Input / output ( 200K) $5 / $30 per 1M (flat) $10 / $37.50 per 1M Conte...
[4] GPT-5.5 vs Claude Opus 4.7: Real-World Coding Performance ...mindstudio.ai
SWE-Bench and Coding Tasks On SWE-Bench Verified — the standard benchmark for evaluating real GitHub issue resolution — both models score competitively at the top of the 2026 leaderboard. GPT-5.5 holds a slight edge on problems requiring precise tool use an...
[5] Introducing GPT-5.5 - OpenAIopenai.com
Abstract reasoning EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro ARC-AGI-1 (Verified)95.0%93.7%-94.5%93.5%98.0% ARC-AGI-2 (Verified)85.0%73.3%-83.3%75.8%77.1% Evals of GPT were run with reasoning effort set to xhigh and were conducte...
[6] OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark ...interestingengineering.com
About UsAdvertise ContactFAQ Follow Us On LinkedInXInstagramFlipboardFacebookYouTubeTikTok All Rights Reserved, IE Media, Inc. AI and Robotics GPT-5.5 crushes Claude Opus 4.7 in agentic coding with 82.7% terminal-bench score GPT-5.5 introduces smarter task...
[7] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Opus 4.7 is available to Pro and Max customers; via the API, it's available for "$5 per million input tokens and $25 per million output tokens." GPT-5.5 and Opus 4.7: Feature set OpenAI says that GPT-5.5 makes noticeable improvements in "agentic coding, com...
[14] Claude Opus 4.7anthropic.com
Skip to main contentSkip to footer []( Research Economic Futures Commitments Learn News Try Claude Claude Opus 4.7 Image 1: Claude Opus 4.7 Image 2: Claude Opus 4.7 Hybrid reasoning model that pushes the frontier for coding and AI agents, featuring a 1M con...
[15] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Is Claude Opus 4.7 good for knowledge and understanding? Claude Opus 4.7 ranks 1 out of 110 models in knowledge and understanding benchmarks with an average score of 99.2. It is among the top performers in this category. Is Claude Opus 4.7 good for coding a...
[17] Claude Opus 4.7 Review: What Actually Changed and What Got ...mindstudio.ai
BlogAbout Log inGet Started My Workspace Blog/Claude Opus 4.7 Review: What Actually Changed and What Got Worse ClaudeLLMs & ModelsComparisons Claude Opus 4.7 Review: What Actually Changed and What Got Worse Opus 4.7 fixes agentic persistence and boosts codi...
[20] Claude Opus 4.7: What Changed for Coding Agents (April 2026)verdent.ai
BrowseComp softened vs Opus 4.6 BrowseComp measures multi-step web research: browse, synthesize, and reason across multiple pages. Opus 4.7 dropped from 83.7% to 79.3% — a 4.4-point regression. GPT-5.4 Pro sits at 89.3%; Gemini 3.1 Pro at 85.9%. Both lead O...

GPT-5.5 vs Claude Opus 4.7：coding、搜尋、設計、創作邊個贏？

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

19K0

先講一個容易睇錯嘅位：長 context 唔係 Claude 獨有優勢

好多人成日會以為長文件、長 project brief、成個 repo 一次過塞入去，就一定係 Claude 佔優。但就提供到嘅公開規格，呢個結論太快。

快速判斷表

場景	公開資料下嘅判斷	實務建議
Coding／開發代理	GPT-5.5 輕微佔優。Terminal-Bench 82.7% 報道，以及 SWE-Bench Verified 上工具使用、檔案瀏覽優勢係主要根據 ^[4]^[6]。	自動改 bug、跑測試、repo 探索、agentic coding，可先由 GPT-5.5 開始測。
搜尋／網頁 research	GPT-5.5 值得優先測。Opus 4.7 喺 BrowseComp 比前代跌，亦低過 GPT-5.4 Pro ^[20]。	做 web research agent 時先試 GPT-5.5，但記住目前引用嘅唔係 GPT-5.5 直接 BrowseComp 勝利分數。
設計／UX	未能定勝負。Opus 4.7 強調 vision、文件分析改善；GPT-5.5 亦支援圖片輸入同長 context ^[3]^[7]^[14]。	UX review、brand guide 解讀要用同一份 brief 盲測；如果牽涉 UI code 實作，可先試 GPT-5.5。
創意內容	未能定勝負。兩者都可用於創意 project，但公開資料未足夠分出創作質素勝負 ^[7]。	用品牌語氣、原創性、修稿次數、最終編輯時間做 blind A/B test。

Coding：GPT-5.5 證據較硬，但 Claude 唔係弱

搜尋同 research：可以先試 GPT-5.5，但唔好講到太滿

設計：要分開「視覺／UX 評審」同「UI code 實作」

設計唔係單一能力。睇 screenshot 評 UX、讀 brand guide 調整語氣、分析用戶流程、甚至直接生成 frontend component code，全部都係唔同考卷。

創意內容：benchmark 參考有限，盲測更實際

亦唔好簡單講「長文創作一定 Claude 贏」。Opus 4.7 有 1M context 係事實，但 LLM Stats 同時整理 GPT-5.5 都有 1M 輸入 context 同 128K 輸出 context ^[3]。

最後點揀？

**開發自動化：**先試 GPT-5.5。Terminal-Bench 82.7% 報道，以及 SWE-Bench Verified 上工具使用、檔案 navigation 優勢，係最直接根據 ^[4]^[6]。
**大型 codebase 架構判斷：**Claude Opus 4.7 要一齊測。公開比較指佢喺大型 codebase 嘅宏觀架構推理較強 ^[4]。
**搜尋／網頁 research：**先試 GPT-5.5，但要謹慎解讀。Opus 4.7 喺 BrowseComp 比前代跌，亦低過 GPT-5.4 Pro；但呢唔等同 GPT-5.5 已有直接 BrowseComp 勝利分數 ^[20]。
**設計 review：**未有公開 benchmark 勝者。Opus 4.7 強調 vision 同文件分析改善；GPT-5.5 亦支援圖片輸入同長 context，應用同一 brief 比較 ^[3]^[7]^[14]。
**創意內容：**唔好靠模型名估。兩者都可用於創意 project，應以 blind A/B test、修稿時間同品牌貼合度決定 ^[7]。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

公開資料睇，GPT 5.5 喺 coding 方面證據最硬：Terminal Bench 82.7% 報道，加上 SWE Bench Verified 上工具使用同檔案瀏覽略佔優。
搜尋同網頁 research 可以先試 GPT 5.5，但唔好誇大成直接勝利：主要證據係 Opus 4.7 喺 BrowseComp 較前代下跌，並低過 GPT 5.4 Pro。
設計同創意內容暫時未有夠硬嘅公開直接 benchmark；而且兩者都被整理為支援 1M 輸入、128K 輸出 context，長文工作唔代表 Claude 自動贏。

사람들은 또한 묻습니다.

"GPT-5.5 vs Claude Opus 4.7：coding、搜尋、設計、創作邊個贏？"에 대한 짧은 대답은 무엇입니까?

公開資料睇，GPT 5.5 喺 coding 方面證據最硬：Terminal Bench 82.7% 報道，加上 SWE Bench Verified 上工具使用同檔案瀏覽略佔優。

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

設計同創意內容暫時未有夠硬嘅公開直接 benchmark；而且兩者都被整理為支援 1M 輸入、128K 輸出 context，長文工作唔代表 Claude 自動贏。

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신2026년 4월 26일

연구문제

GPT-5.5와 Claude Opus 4.7의 벤치마크를 조사해줘. 코딩, 디자인, 창의적 콘텐츠, 검색에서는 누가 이길까?

Studio Global AI2026년 4월 26일24 소스

인용 답변

코딩: GPT-5.5 우세
- OpenAI는 GPT-5.5가 에이전트 코딩, 컴퓨터 사용, 지식 작업, 초기 과학 연구에서 개선됐다고 설명합니다 ^[15].
- GPT-5.5는 Terminal-Bench에서 82.7%로 Claude Opus 4.7을 앞선다는 보도가 있습니다 ^[14].
- SWE-Bench Verified 같은 실제 GitHub 이슈 해결 벤치마크에서는 둘 다 최상위권이지만, GPT-5.5가 도구 사용·파일 탐색이 필요한 문제에서 약간 앞서고, Opus 4.7은 대규모 리팩터링/아키텍처 판단에서 강하다는 비교가 있습니다 ^[12].
- 결론: 자동 코딩 에이전트, 버그 수정, 레포 탐색은 GPT-5.5 쪽을 먼저 선택하는 게 합리적입니다.
디자인: Claude Opus 4.7 약우세, 단 근거는 약함
- Anthropic은 Claude Opus 4.7을 코딩과 AI 에이전트 프런티어를 밀어올린 하이브리드 추론 모델이며 1M 컨텍스트를 제공한다고 설명합니다 ^[3].
- 긴 문서, 브랜드 가이드, 사용자 리서치, 카피 톤을 한 번에 넣고 작업하는 디자인 전략·UX 라이팅에는 1M 컨텍스트가 실용적 이점이 될 수 있습니다 ^[3].
- 반면 “시각 디자인 품질” 자체를 GPT-5.5와 Opus 4.7로 공정 비교한 권위 있는 공개 벤치마크는 확인되지 않습니다.
- 결론: UX 전략, 브랜드 톤, 긴 디자인 문서 작업은 Claude Opus 4.7, 코드 기반 UI 구현은 GPT-5.5가 더 나을 가능성이 큽니다.
창의적 콘텐츠: Claude Opus 4.7 약우세
- Claude 계열은 긴 맥락을 유지하며 문체, 감정선, 브랜드 보이스를 맞추는 작업에서 강점이 크고, Opus 4.7의 1M 컨텍스트는 장편 원고·캠페인 자료·세계관 문서 작업에 유리합니다 ^[3].
- 다만 창의성은 평가자 취향의 영향이 커서, 코딩처럼 단일 벤치마크로 “승자”를 확정하기 어렵습니다.
- 결론: 소설, 브랜드 카피, 스토리텔링, 톤 유지가 중요하면 Claude Opus 4.7을 추천합니다.
검색/리서치: GPT-5.5 우세
- Opus 4.7은 BrowseComp 같은 멀티스텝 웹 리서치 벤치마크에서 Opus 4.6보다 하락했고, GPT-5.4 Pro와 Gemini 3.1 Pro가 Opus 4.7을 앞선다는 분석이 있습니다 ^[9].
- GPT-5.5는 지식 작업과 에이전트 작업 개선이 강조됐고, 검색·브라우징형 작업에서는 Opus 4.7보다 안정적일 가능성이 높습니다 ^[15].
- 결론: 자료 조사, 출처 비교, 웹 검색 기반 보고서는 GPT-5.5 우세로 보는 게 안전합니다.

요약 표

분야	승자	이유
코딩	GPT-5.5	Terminal-Bench 및 도구 사용형 코딩에서 우세 ^[12]^[14]
디자인	Claude Opus 4.7 약우세	긴 컨텍스트 기반 UX/브랜드 작업에 유리, 단 객관 벤치마크 부족 ^[3]
창의적 콘텐츠	Claude Opus 4.7 약우세	장문 맥락·톤 유지에 유리, 단 주관적 평가 영역 ^[3]
검색/리서치	GPT-5.5	Opus 4.7의 BrowseComp 하락과 GPT 계열의 에이전트/지식 작업 강점 ^[9]^[15]

실무 선택이라면: 개발·리서치 자동화는 GPT-5.5, 긴 문서 기반 기획·카피·창작은 Claude Opus 4.7로 나누는 것이 가장 안전합니다.

출처

[3] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Spec GPT-5.5 Claude Opus 4.7 --- Provider OpenAI Anthropic Release date Apr 23, 2026 Apr 16, 2026 Model ID gpt-5.5 claude-opus-4-7 Input / output (≤200K) $5 / $30 per 1M $5 / $25 per 1M Input / output ( 200K) $5 / $30 per 1M (flat) $10 / $37.50 per 1M Conte...
[4] GPT-5.5 vs Claude Opus 4.7: Real-World Coding Performance ...mindstudio.ai
SWE-Bench and Coding Tasks On SWE-Bench Verified — the standard benchmark for evaluating real GitHub issue resolution — both models score competitively at the top of the 2026 leaderboard. GPT-5.5 holds a slight edge on problems requiring precise tool use an...
[5] Introducing GPT-5.5 - OpenAIopenai.com
Abstract reasoning EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro ARC-AGI-1 (Verified)95.0%93.7%-94.5%93.5%98.0% ARC-AGI-2 (Verified)85.0%73.3%-83.3%75.8%77.1% Evals of GPT were run with reasoning effort set to xhigh and were conducte...
[6] OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark ...interestingengineering.com
About UsAdvertise ContactFAQ Follow Us On LinkedInXInstagramFlipboardFacebookYouTubeTikTok All Rights Reserved, IE Media, Inc. AI and Robotics GPT-5.5 crushes Claude Opus 4.7 in agentic coding with 82.7% terminal-bench score GPT-5.5 introduces smarter task...
[7] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Opus 4.7 is available to Pro and Max customers; via the API, it's available for "$5 per million input tokens and $25 per million output tokens." GPT-5.5 and Opus 4.7: Feature set OpenAI says that GPT-5.5 makes noticeable improvements in "agentic coding, com...
[14] Claude Opus 4.7anthropic.com
Skip to main contentSkip to footer []( Research Economic Futures Commitments Learn News Try Claude Claude Opus 4.7 Image 1: Claude Opus 4.7 Image 2: Claude Opus 4.7 Hybrid reasoning model that pushes the frontier for coding and AI agents, featuring a 1M con...
[15] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Is Claude Opus 4.7 good for knowledge and understanding? Claude Opus 4.7 ranks 1 out of 110 models in knowledge and understanding benchmarks with an average score of 99.2. It is among the top performers in this category. Is Claude Opus 4.7 good for coding a...
[17] Claude Opus 4.7 Review: What Actually Changed and What Got ...mindstudio.ai
BlogAbout Log inGet Started My Workspace Blog/Claude Opus 4.7 Review: What Actually Changed and What Got Worse ClaudeLLMs & ModelsComparisons Claude Opus 4.7 Review: What Actually Changed and What Got Worse Opus 4.7 fixes agentic persistence and boosts codi...
[20] Claude Opus 4.7: What Changed for Coding Agents (April 2026)verdent.ai
BrowseComp softened vs Opus 4.6 BrowseComp measures multi-step web research: browse, synthesize, and reason across multiple pages. Opus 4.7 dropped from 83.7% to 79.3% — a 4.4-point regression. GPT-5.4 Pro sits at 89.3%; Gemini 3.1 Pro at 85.9%. Both lead O...