studioglobal
인기 있는 발견
보고서게시됨11 소스

Claude Opus 4.7 vs GPT-5.5:コーディング、エージェント、推論で強いのはどちらか

単独の勝者は見えません。Claude Opus 4.7はSWE bench Proで64.3%対58.6%とGPT 5.5を上回る一方、GPT 5.5はTerminal Bench 2.0で82.7%対69.4%と大きく先行します [6][14]。 エージェント系ではGPT 5.5がOSWorld Verifiedで78.7%対78.0%、BrowseCompで84.4%対79.3%と強い一方、MCP AtlasではClaude Opus 4.7が79.1%対75.3%で上回ります [15]。

17K0
Claude Opus 4.7과 GPT-5.5의 코딩, 에이전트, 추론 벤치마크 비교를 표현한 디지털 일러스트
Claude Opus 4.7 vs GPT-5.5 벤치마크: 코딩·에이전트·추론별 승자Claude Opus 4.7과 GPT-5.5의 분야별 벤치마크 경쟁을 표현한 AI 생성 에디토리얼 이미지.
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5 벤치마크: 코딩·에이전트·추론별 승자. Article summary: 공개 벤치마크 기준 단일 승자는 없습니다. Claude Opus 4.7은 SWE bench Pro 64.3% 대 58.6%로 앞서지만, GPT 5.5는 Terminal Bench 2.0 82.7% 대 69.4%로 앞섭니다 [6][34].. Topic tags: ai, llm, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "# Is GPT-5.5 vs Claude Opus 4.7 the New Hitler vs Stalin. ### Two Enemies Who Both Think They Won. History has a very specific category for two massive rival powers who absolutely" source context "GPT-5.5 vs Claude Opus 4.7: Who Really Won — RichNerds" Reference image 2: visual subject "# OpenAI GPT-5.5 vs Claude Opus 4.7: The New AI Model Showdown in 2026. A colleague pinged me on a Tuesday morning with a message I’ve now gotten about a dozen times this year: “Ok" source context "GPT-5.5 vs

openai.com

公開ベンチマークだけでClaude Opus 4.7とGPT-5.5を比べると、「どちらが上か」よりも「何に使うか」で結論が変わります。Claude Opus 4.7はSWE-bench Pro、GPQA Diamond、MCP Atlasで強く、GPT-5.5はTerminal-Bench 2.0、OSWorld-Verified、BrowseComp、FrontierMathで強い結果が報告されています [6][14][15][29][34]

ただし、ベンチマークの数字はそのまま横並びにできるとは限りません。Artificial AnalysisはGPT-5.5をxhigh条件、Claude Opus 4.7をNon-reasoning、High Effort条件で比較しており、LLM Statsも「ベンチマークは勝者ではなくワークロードを示す」と説明しています [3][4]

まず結論:用途別に見るべき

分野ベンチマークClaude Opus 4.7GPT-5.5読み方
コーディングSWE-bench Pro64.3%58.6%実際のGitHub issue解決に近いタスクではClaudeが高めです [6][34]
ターミナル作業Terminal-Bench 2.069.4%82.7%CLI、ファイル操作、スクリプト実行ではGPT-5.5が大きく先行します [6][14][23]
コンピューター操作OSWorld-Verified78.0%78.7%ほぼ同水準ですが、公開値ではGPT-5.5が0.7ポイント上です [15]
検索・ブラウジングBrowseComp79.3%84.4%調査型エージェントではGPT-5.5が優位です。GPT-5.5 Proは90.1%とされています [15]
ツール利用MCP Atlas79.1%75.3%ツール利用全般をGPT-5.5優位とは言い切れず、この項目はClaudeが上です [15]
科学推論GPQA Diamond94.2〜94.3%93.6%差は小さいものの、Claude Opus 4.7がわずかに高い値です [14][29]
数学FrontierMath T1-3 / T443.8% / 22.9%51.7% / 35.4%高難度数学ではGPT-5.5がはっきり高く出ています [14]
総合推論HLE、ツールなし31.2%または46.9%40.6%または41.4%出典によって数値が食い違い、決定打にはしにくい項目です [6][14][23]
ツール付き推論HLE、ツールあり54.7%52.2%ツール使用条件ではClaudeが僅差で上と報告されています [6][23]

コーディング:コード修正ならClaude、CLI自動化ならGPT-5.5

ソフトウェア開発向けの比較では、ベンチマークをひとまとめにしないことが重要です。SWE-bench ProではClaude Opus 4.7が64.3%、GPT-5.5が58.6%とされ、Claudeが上回ります [6][34]。Vellumも、この差を実際のGitHub issue解決系タスクでClaudeが強いサインとして説明しています [34]

一方、Terminal-Bench 2.0では結果が逆になります。このベンチマークはファイル操作、スクリプト実行、多段階のCLIワークフローなど、現実のターミナル作業を測るものと説明されており、GPT-5.5が82.7%、Claude Opus 4.7が69.4%と報告されています [6][14][23]。開発環境でコマンドを実行しながらファイルを探し、修正し、テストを回すような自動化では、GPT-5.5を先に試す理由があります。

定性的な比較でも似た傾向です。Mindstudioは、GPT-5.5は正確なツール利用やファイル探索が必要な問題でやや強く、Claude Opus 4.7は大きなコードベース全体のアーキテクチャ理解で優れると説明しています [5]。つまり、選択の分かれ目は「コードそのものを深く直す」のか、「ターミナル上で作業を進める」のかです。

エージェント:GPT-5.5が広く強いが、例外もある

OpenAIのGPT-5.5発表資料では、OSWorld-VerifiedでGPT-5.5が78.7%、Claude Opus 4.7が78.0%と示されています [15]。差は小さいものの、公開値ではコンピューター操作系ベンチマークでGPT-5.5がわずかに先行しています [15]

BrowseCompでは差がもう少し開きます。同じOpenAI資料はGPT-5.5を84.4%、GPT-5.5 Proを90.1%、Claude Opus 4.7を79.3%としています [15]。検索、ブラウジング、情報収集型エージェントを製品の中心に置くなら、GPT-5.5系を有力候補にできます。

ただし、ツール利用全体をGPT-5.5の勝ちとまとめるのは早計です。MCP AtlasではClaude Opus 4.7が79.1%、GPT-5.5が75.3%と示されています [15]。エージェント性能を評価するなら、ブラウザー検索、GUI操作、MCP Atlasのようなツール呼び出し、ターミナル自動化を分けてテストするのが安全です。

推論:科学系はClaudeが僅差、数学はGPT-5.5

科学・専門知識寄りのGPQA Diamondでは、Claude Opus 4.7が94.2〜94.3%、GPT-5.5が93.6%と報告されています [14][29]。差は大きくありませんが、提供された資料の範囲ではClaude Opus 4.7がわずかに上です [14][29]

数学では逆です。FrontierMath T1-3ではGPT-5.5が51.7%、Claude Opus 4.7が43.8%、さらに難しいFrontierMath T4でもGPT-5.5が35.4%、Claude Opus 4.7が22.9%とされています [14]。高難度の数学、形式的な推論、検算を重視するなら、GPT-5.5を先に評価するのが現実的です。

HLEはタイブレーカーにしにくい

Humanity’s Last Exam、つまりHLEは注意が必要です。Mashableはツールなし条件でGPT-5.5が40.6%、Claude Opus 4.7が31.2%としてGPT-5.5優位を示しています [6]。一方、o-megaとRDWorldはツールなし条件でGPT-5.5が41.4%、Claude Opus 4.7が46.9%としてClaude優位を示しています [14][23]

ツールあり条件では、MashableとRDWorldがGPT-5.5を52.2%、Claude Opus 4.7を54.7%としており、Claudeが僅差で上です [6][23]。ただし、ツールなしの結果が出典ごとに大きく異なるため、HLEだけで総合推論の勝者を決めるのは避けた方がよいでしょう。

コンテキスト長、価格、ランキングは参考情報

コンテキストウィンドウの表記も出典によって違います。Artificial AnalysisはGPT-5.5を922kトークン、Claude Opus 4.7を1,000kトークンとしています [3]。一方、LLM Statsは両モデルがどちらも1Mトークンのコンテキストで提供され、入力価格帯も同じだと説明しています [4]。実務ではどちらも超長文コンテキスト対応モデルと見なしつつ、実際の上限と価格は利用するAPI、プラン、推論モード、ツール呼び出し条件で確認する必要があります。

総合リーダーボードも便利ですが、最後の判断材料にはなりません。BenchLMはClaude Opus 4.7をprovisional leaderboardの110モデル中2位、verified leaderboardの14モデル中2位としています [1]。同じ系統の出典で、GPT-5.5はprovisional leaderboardの112モデル中5位、verified leaderboardの16モデル中2位と示されています [17]。これは両モデルが最上位級であることの目安にはなりますが、実際の導入では失敗パターン、レイテンシ、コスト、ツール呼び出しの安定性の方が効くこともあります。

どちらを先に試すべきか

Claude Opus 4.7を先に試す価値が高いのは、次のようなケースです。

  • SWE-bench Proに近い、実際のコードissue解決タスクが多い [6][34]
  • 大規模コードベースの構造理解、リファクタリング、コードレビュー品質を重視する [5]
  • GPQA Diamond型の高難度な科学・専門知識クエリが中心になる [14][29]
  • MCP Atlasのような特定のツール呼び出し性能を重く見る [15]

GPT-5.5を先に試す価値が高いのは、次のようなケースです。

  • ターミナルやCLIを使う自動化、ファイル操作が多い [6][14][23]
  • OSWorld-Verifiedのようなコンピューター操作ベンチマークを重視する [15]
  • BrowseComp型の検索・ブラウジングエージェントが重要 [15]
  • FrontierMath系の数学推論性能が必要 [14]

最終判断

Claude Opus 4.7はSWE-bench Pro、GPQA Diamond、MCP Atlasで強い選択肢です [6][14][15][29][34]。GPT-5.5はTerminal-Bench 2.0、OSWorld-Verified、BrowseComp、FrontierMathで強い選択肢です [6][14][15][23]

したがって結論は、「Claude Opus 4.7かGPT-5.5か」ではなく、「何を自動化するのか」です。複雑なコード修正や科学系の質問が中心ならClaude Opus 4.7を先に、ターミナル自動化、ブラウジング、コンピューター操作、数学推論が中心ならGPT-5.5を先にベンチマークするのが、もっとも実務的な進め方です。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • 単独の勝者は見えません。Claude Opus 4.7はSWE bench Proで64.3%対58.6%とGPT 5.5を上回る一方、GPT 5.5はTerminal Bench 2.0で82.7%対69.4%と大きく先行します [6][14]。
  • エージェント系ではGPT 5.5がOSWorld Verifiedで78.7%対78.0%、BrowseCompで84.4%対79.3%と強い一方、MCP AtlasではClaude Opus 4.7が79.1%対75.3%で上回ります [15]。
  • 推論は分野で分かれます。GPQA DiamondはClaude Opus 4.7が94.2〜94.3%、GPT 5.5が93.6%で僅差のClaude優位、FrontierMathではGPT 5.5が明確に高い数値を示しています [14][29]。

사람들은 또한 묻습니다.

"Claude Opus 4.7 vs GPT-5.5:コーディング、エージェント、推論で強いのはどちらか"에 대한 짧은 대답은 무엇입니까?

単独の勝者は見えません。Claude Opus 4.7はSWE bench Proで64.3%対58.6%とGPT 5.5を上回る一方、GPT 5.5はTerminal Bench 2.0で82.7%対69.4%と大きく先行します [6][14]。

먼저 검증할 핵심 포인트는 무엇인가요?

単独の勝者は見えません。Claude Opus 4.7はSWE bench Proで64.3%対58.6%とGPT 5.5を上回る一方、GPT 5.5はTerminal Bench 2.0で82.7%対69.4%と大きく先行します [6][14]。 エージェント系ではGPT 5.5がOSWorld Verifiedで78.7%対78.0%、BrowseCompで84.4%対79.3%と強い一方、MCP AtlasではClaude Opus 4.7が79.1%対75.3%で上回ります [15]。

실무에서는 다음으로 무엇을 해야 합니까?

推論は分野で分かれます。GPQA DiamondはClaude Opus 4.7が94.2〜94.3%、GPT 5.5が93.6%で僅差のClaude優位、FrontierMathではGPT 5.5が明確に高い数値を示しています [14][29]。

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

Claude Opus 4.7과 GPT-5.5의 벤치마크를 조사하고 가능한 한 종합적으로 비교해 주세요.

Studio Global AI35 소스

인용 답변

공개 벤치마크 기준으로는 “단일 승자”보다 “분야별 우위”로 보는 것이 맞습니다. Claude Opus 4.7은 SWE-bench Pro와 일부 에이전트·과학 추론 집계에서 강하고, GPT-5.5는 Terminal-Bench 2.0, OSWorld-Verified, FrontierMath, 일부 HLE 결과에서 더 강하게 보고됩니다 [4][10][12][9]. 다만 출처마다 모델 설정, 도구 사용 여부, Pro/xhigh/high-effort 모드가 달라 직접 비교에는 주의가 필요합니다 [5][10][12].

Key findings

  • 코딩에서는 Claude Opus 4.7이 SWE-bench Pro에서 64.3%로 GPT-5.5의 58.6%를 앞선다는 복수 출처가 있습니다 [4][12]. 반면 Terminal-Bench 2.0에서는 GPT-5.5가 82.7%, Opus 4.7이 69.4%로 GPT-5.5가 크게 앞섭니다 [12].

  • 컴퓨터 사용 벤치마크인 OSWorld-Verified에서는 GPT-5.5가 78.7%, Claude Opus 4.7이 78.0%로 거의 동률에 가까운 GPT-5.5 우위입니다 [10].

  • 과학·추론에서는 GPQA Diamond가 출처상 Claude Opus 4.7 94.3%, GPT-5.5 93.6%로 매우 근소한 Claude 우위로 보고됩니다 [9]. FrontierMath T1-3에서는 GPT-5.5가 51.7%, Claude Opus 4.7이 43.8%로 GPT-5.5 우위입니다 [9].

  • Humanity’s Last Exam 계열은 출처 간 해석이 충돌합니다. 한 비교 기사에서는 GPT-5.5가 HLE에서 40.6%, Claude Opus 4.7이 31.2%로 GPT-5.5 우위라고 보고하지만, LLM Stats 쪽 요약은 Claude Opus 4.7이 HLE를 포함한 5개 벤치마크에서 앞선다고 설명합니다 [12][7]. 이 항목은 방법론 확인 전까지 “불확실”로 보는 것이 안전합니다.

  • 컨텍스트 길이는 Claude Opus 4.7이 1,000k 토큰, GPT-5.5가 922k 토큰으로 비교된 자료가 있지만, 다른 비교 자료는 둘 다 1M 토큰급이라고 설명합니다 [5][7]. 따라서 실사용에서는 “둘 다 초장문 컨텍스트 모델”로 보되, 정확한 한도는 사용하는 API·제품 계층에서 확인해야 합니다 [5][7].

벤치마크 비교표

분야 / 벤치마크Claude Opus 4.7GPT-5.5해석
SWE-bench Pro64.3%58.6%Claude Opus 4.7이 약 5.7%p 앞서는 것으로 보고됩니다 [4][12].
SWE-bench Verified87.6%로 보고됨정확한 공개 수치 확인 부족Opus 4.7 수치는 확인되지만, 동일 조건의 GPT-5.5 수치는 검색 결과만으로는 Insufficient evidence입니다 [4][8].
Terminal-Bench 2.069.4%82.7%터미널·CLI 기반 작업에서는 GPT-5.5가 크게 앞섭니다 [12].
Anthropic 93-task coding benchmarkOpus 4.6 대비 해결률 13% 향상직접 비교 없음Anthropic 내부 벤치마크이므로 Opus 세대 간 개선 근거로는 유용하지만 GPT-5.5와의 직접 비교는 아닙니다 [2].
OSWorld-Verified78.0%78.7%컴퓨터 사용 능력은 거의 동률이나 GPT-5.5가 0.7%p 앞섭니다 [10].
BrowseComp비교 수치 확인 부족84.4%; GPT-5.5 Pro는 90.1%로 보고OpenAI 공식 발표에는 GPT-5.5 계열 수치가 있지만, 검색 결과상 Claude Opus 4.7의 동일 조건 수치는 확인되지 않습니다 [10].
GPQA Diamond94.3%93.6%고난도 과학 질의에서는 Claude가 근소 우위로 보고됩니다 [9].
FrontierMath T1-343.8%51.7%수학 난제 계열에서는 GPT-5.5가 뚜렷하게 앞서는 것으로 보고됩니다 [9].
Humanity’s Last Exam31.2%로 보고된 출처 있음40.6%로 보고된 출처 있음한 출처는 GPT-5.5 우위를 보고하지만, 다른 집계는 Claude 우위를 시사해 결론이 불안정합니다 [12][7].
컨텍스트 윈도우1,000k 토큰922k 또는 1M급Artificial Analysis 비교에서는 Opus가 더 길게 표시되지만, LLM Stats는 둘 다 1M 토큰급으로 설명합니다 [5][7].
비용 / 토큰 효율동일 입력가로 비교됨동일 입력가로 비교됨LLM Stats는 둘이 같은 입력 가격대라고 설명하며, Mindstudio는 GPT-5.5가 같은 작업에서 출력 토큰을 72% 적게 썼다고 보고합니다 [7][8].

분야별 해석

코딩

Claude Opus 4.7은 실제 GitHub 이슈 해결 계열인 SWE-bench Pro에서 GPT-5.5보다 강한 결과를 보입니다 [4][12]. 이 벤치마크를 중시한다면 대규모 코드베이스 수정, 리팩터링, 복잡한 버그 수정에서는 Opus 4.7을 우선 검토할 만합니다 [4][12].

GPT-5.5는 Terminal-Bench 2.0에서 Opus 4.7보다 높은 점수를 보여, 셸 명령 실행, 파일 탐색, 터미널 기반 에이전트 작업에는 더 유리할 가능성이 있습니다 [12]. Mindstudio의 비교도 GPT-5.5가 파일 탐색과 정확한 도구 사용이 필요한 코딩 작업에서 약간의 우위를 보인다고 설명합니다 [8].

에이전트·도구 사용

OSWorld-Verified에서는 GPT-5.5가 78.7%, Claude Opus 4.7이 78.0%로 거의 같은 수준입니다 [10]. 이 정도 차이는 벤치마크 설정과 실행 편차에 따라 체감상 동률에 가까울 수 있습니다 [10].

LLM Stats는 Claude Opus 4.7이 Finance Agent, MCP Atlas, GPQA, HLE, SWE-bench Pro 등 5개 벤치마크에서 앞선다고 요약합니다 [7]. 다만 이 요약은 HLE에서 GPT-5.5 우위를 보고한 다른 출처와 충돌하므로, MCP Atlas·Finance Agent 같은 내부적 또는 특화 벤치마크는 원자료 방법론 확인이 필요합니다 [7][12].

추론·과학·수학

GPQA Diamond에서는 Claude Opus 4.7이 94.3%, GPT-5.5가 93.6%로 보고되어 사실상 초근접 경쟁입니다 [9]. 이 차이는 작기 때문에 과학 질의에서는 벤치마크 점수보다 답변 검증성, 출처 사용, 도메인별 샘플 테스트가 더 중요할 수 있습니다 [9].

FrontierMath T1-3에서는 GPT-5.5가 51.7%, Claude Opus 4.7이 43.8%로 보고되어 GPT-5.5가 더 강하게 나타납니다 [9]. 고난도 수학·정형 추론을 우선한다면 GPT-5.5를 먼저 시험해볼 만합니다 [9].

멀티모달·컴퓨터 사용

OpenAI 공식 발표는 GPT-5.5가 MMMU Pro no-tools에서 81.2%, tools 사용 시 83.2%를 기록했다고 제시합니다 [10]. 검색 결과에서 Claude Opus 4.7의 동일 MMMU Pro 수치가 명확히 확인되지 않아 이 항목은 직접 비교가 어렵습니다 [10].

컴퓨터 사용 항목인 OSWorld-Verified는 GPT-5.5 78.7%, Claude Opus 4.7 78.0%로 GPT-5.5가 근소하게 앞섭니다 [10]. 실제 GUI 조작형 에이전트 워크플로에서는 두 모델 모두 후보에 올리고, 실패 복구율과 툴 호출 비용을 별도로 측정하는 것이 좋습니다 [10].

Evidence notes

  • Anthropic의 공식 발표는 Opus 4.7이 93개 코딩 태스크 벤치마크에서 Opus 4.6 대비 해결률을 13% 높였고, 이전 Opus 4.6과 Sonnet 4.6이 해결하지 못한 4개 태스크를 해결했다고 설명합니다 [2]. 이는 Opus 4.7의 세대 간 개선 근거이지만 GPT-5.5와의 직접 비교는 아닙니다 [2].

  • OpenAI의 공식 발표는 OSWorld-Verified에서 GPT-5.5 78.7%, Claude Opus 4.7 78.0%를 함께 제시합니다 [10]. 같은 발표는 BrowseComp와 MMMU Pro에서도 GPT-5.5 계열 수치를 제시하지만, 검색 결과상 Claude Opus 4.7의 동일 조건 비교값은 제한적으로만 확인됩니다 [10].

  • Artificial Analysis 비교는 GPT-5.5를 “xhigh”, Claude Opus 4.7을 “Non-reasoning, High Effort” 조건으로 비교하므로, 해당 결과는 완전히 같은 추론 모드의 정면 비교로 보기 어렵습니다 [5].

  • BenchLM은 Claude Opus 4.7을 provisional leaderboard 110개 모델 중 2위, verified leaderboard 14개 모델 중 2위, 종합 97/100점으로 제시합니다 [3]. 하지만 검색 결과상 같은 출처에서 GPT-5.5의 동등한 상세 점수를 충분히 확인하지 못했으므로, 이 항목은 Opus 4.7의 위치를 보여주는 참고자료로만 보는 것이 적절합니다 [3].

Limitations / uncertainty

  • HLE 결과는 출처 간 충돌이 있습니다. Mashable은 GPT-5.5가 HLE에서 40.6%, Claude Opus 4.7이 31.2%라고 보고하지만, LLM Stats는 Claude Opus 4.7이 HLE를 포함한 5개 벤치마크에서 앞선다고 요약합니다 [12][7]. 방법론, 도구 사용 여부, 모델 모드가 확인되기 전까지는 HLE 승자를 확정하기 어렵습니다 [12][7].

  • SWE-bench Verified의 GPT-5.5 정확 수치는 검색 결과에서 충분히 확인되지 않았습니다. Claude Opus 4.7의 87.6% 수치는 확인되지만, GPT-5.5의 동일 조건 수치가 없어 이 항목은 Insufficient evidence입니다 [4][8].

  • 공개 벤치마크는 공급자 내부 평가, 제3자 블로그, 독립 리더보드가 섞여 있습니다. 따라서 제품 의사결정에는 동일 프롬프트, 동일 툴, 동일 예산, 동일 재시도 횟수로 자체 평가를 수행하는 것이 필요합니다 [2][10][5].

Summary

Claude Opus 4.7은 SWE-bench Pro, GPQA Diamond, 장문 컨텍스트, 일부 에이전트·금융·도구 집계에서 강점이 보입니다 [4][9][5][7]. GPT-5.5는 Terminal-Bench 2.0, OSWorld-Verified, FrontierMath, 출력 토큰 효율에서 강점이 보고됩니다 [12][10][9][8].

실무 선택 기준은 간단합니다. 복잡한 코드 수정·리뷰·과학 질의 중심이면 Claude Opus 4.7을 먼저 시험하고, 터미널 기반 자동화·컴퓨터 사용·수학 추론·토큰 효율이 중요하면 GPT-5.5를 먼저 시험하는 것이 합리적입니다 [4][12][10][9][8].

출처

  • [1] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 According to BenchLM.ai, Claude Opus 4.7 ranks 2 out of 110 models on the provisional leaderboard with an overall score of 97/100. It also ranks 2 out of 14 on t...

  • [3] GPT-5.5 (xhigh) vs Claude Opus 4.7 (Non-reasoning, High Effort): Model Comparisonartificialanalysis.ai

    Highlights Model Comparison Metric OpenAI logoGPT-5.5 (xhigh) Anthropic logoClaude Opus 4.7 (Non-reasoning, High Effort) Analysis --- --- Creator OpenAI Anthropic Context Window 922k tokens ( 1383 A4 pages of size 12 Arial font) 1000k tokens ( 1500 A4 pages...

  • [4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com

    Within seven days, I had two new frontier models to compare against the workloads I run for LLM Stats:Claude Opus 4.7shipped on April 16, 2026, andGPT-5.5 on April 23. Both land at the same input price. Both ship 1M-token context. Both pitch significantly b...

  • [5] GPT-5.5 vs Claude Opus 4.7: Real-World Coding Performance ...mindstudio.ai

    SWE-Bench and Coding Tasks On SWE-Bench Verified — the standard benchmark for evaluating real GitHub issue resolution — both models score competitively at the top of the 2026 leaderboard. GPT-5.5 holds a slight edge on problems requiring precise tool use an...

  • [6] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [14] GPT-5.5: The Complete Guide (2026) - o-mega | AIo-mega.ai

    Reasoning, Math, and Science Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- MMLU 92.4% - - GPQA Diamond 93.6% 92.8% 94.2% 94.3% ARC-AGI-2 85.0% 73.3% 77.1% ARC-AGI-1 95.0% 93.7% - FrontierMath T1-3 51.7% 52.4% 47.6% 43.8% F...

  • [15] Introducing GPT-5.5 - OpenAIopenai.com

    Computer use and vision EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro OSWorld-Verified 78.7%75.0%--78.0%- MMMU Pro (no tools)81.2%81.2%---80.5% MMMU Pro (with tools)83.2%82.1%---- Tool use EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaud...

  • [17] GPT-5.5 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...

  • [23] How OpenAI's recently released GPT-5.5 stacks up with Anthropic's ...rdworldonline.com

    The overlapping benchmarks stack up like this: Benchmark Mythos (gated) GPT-5.5 GPT-5.5 Pro Opus 4.7† Notes --- --- --- SWE-bench Pro 77.8% 58.6% — 64.3% Memorization concern¹ Terminal-Bench 2.0 82% / 92.1%² 82.7% — 69.4% Different harnesses² GPQA Diamond 9...

  • [29] LLM Leaderboard 2026 — Compare Top AI Models - Vellumvellum.ai

    93.6% GPT-5.5 92.4% GPT 5.2 91.9% Gemini 3 Pro Best in Reasoning (GPQA Diamond) Model Score --- Claude 3 Opus 95.4% Claude Opus 4.7 94.2% GPT-5.5 93.6% GPT 5.2 92.4% Gemini 3 Pro 91.9% Best in High School Math (AIME 2025) 100%96%93%89%86% 100% Gemini 3 Pro...

  • [34] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    SWE-bench Pro: the coding crown stays with Anthropic. Claude Opus 4.7 scores 64.3% versus GPT-5.5's 58.6% — a 5.7-point gap on real GitHub issue ... 1 day ago