studioglobal
인기 있는 발견
답변게시됨14 소스

GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다

공개 벤치마크 기준 종합 1위는 보류가 맞습니다. GPT 5.5는 Terminal Bench 2.0 82.7%로 터미널형 에이전트 코딩에 강하고, Claude Opus 4.7은 SWE Bench Pro 64.3%·SWE Bench Verified 87.6%로 코드 수리 계열에 강하지만, 네 모델을 같은 하네스로 비교한 독립 결과는 부족합니다 [19][27][5].

17K0
네 개의 AI 모델 벤치마크 점수를 비교하는 추상적인 대시보드 일러스트
GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다AI 생성 이미지. 네 모델의 공개 벤치마크 비교를 상징적으로 표현했습니다.
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다. Article summary: 종합 1위는 보류가 맞습니다. 공개값 기준으로 GPT 5.5는 Terminal Bench 2.0 82.7%, Claude Opus 4.7은 SWE Bench Pro 64.3%·SWE Bench Verified 87.6%가 강하지만, 네 모델을 같은 하네스로 평가한 독립 비교는 부족합니다 [19][27][5].. Topic tags: ai, benchmarks, openai, chatgpt, anthropic. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and Kimi K2.6 Changes Everything" Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownun

openai.com

공개 벤치마크만 보면 네 모델을 하나의 순위로 줄 세우기 어렵습니다. GPT-5.5와 Claude Opus 4.7은 같은 표에서 비교되는 공개 점수가 비교적 많지만, Kimi K2.6은 모델카드·별도 하네스 수치가 섞여 있고 DeepSeek V4는 주요 코딩 벤치마크의 공통 수치가 충분하지 않습니다 [1][2][5][6]. 따라서 이 비교의 핵심은 ‘최고 모델’이 아니라 ‘어떤 작업에 어떤 모델을 먼저 테스트할 것인가’입니다.

먼저 보는 작업별 결론

  • 터미널형 에이전트 코딩: GPT-5.5를 먼저 테스트할 만합니다. OpenAI는 GPT-5.5가 Terminal-Bench 2.0에서 82.7%를 기록했다고 밝혔고, 공개 비교표에서 Claude Opus 4.7은 69.4%, Kimi K2.6은 66.7%로 제시됩니다 [19][8][13][6].
  • 실제 GitHub 이슈 해결·코드 수리: Claude Opus 4.7이 가장 강한 1차 후보입니다. 공개 자료에서 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%가 보고됐고, GPT-5.5의 SWE-Bench Pro 58.6%보다 높습니다 [27][19].
  • 긴 멀티모달 컨텍스트: Kimi K2.6을 후보군에 넣을 수 있습니다. Kimi K2.6은 텍스트, 이미지, 비디오 입력과 256k 컨텍스트 라우트를 지원한다고 소개됩니다 [7].
  • 비용 민감형 대량 호출: DeepSeek V4가 가격 면에서 눈에 띕니다. Mashable이 정리한 API 가격은 100만 토큰당 DeepSeek V4 입력 1.74달러·출력 3.48달러, GPT-5.5 입력 5달러·출력 30달러, Claude Opus 4.7 입력 5달러·출력 25달러입니다 [3].

핵심 벤치마크 비교표

아래 표의 는 제공된 공개 출처 안에서 같은 벤치마크에 직접 대응되는 수치를 확인하기 어렵다는 뜻입니다. 해당 모델이 그 작업을 수행하지 못한다는 의미는 아닙니다.

벤치마크GPT-5.5Claude Opus 4.7Kimi K2.6DeepSeek V4읽는 법
Terminal-Bench 2.082.7% [19]69.4% [8][13]66.7% [6]터미널·명령줄 워크플로에서는 GPT-5.5의 공개값이 가장 높습니다.
SWE-Bench Pro58.6% [19]64.3% [27]58.6% [1][6]코드 수정·GitHub 이슈 해결 계열에서는 Claude Opus 4.7이 앞섭니다.
SWE-Bench Verified87.6% [27]80.2% [1][6]제공 출처 기준으로는 Claude Opus 4.7과 Kimi K2.6 수치가 확인됩니다.
GPQA Diamond93.6% [8][13]94.2% [8][13]GPT-5.5와 Claude Opus 4.7이 매우 근접하며, 공개값은 Claude가 소폭 높습니다.
HLE with tools52.2% [8]54.7% [8][29]54.0% [6]Claude와 Kimi의 수치가 높지만, Kimi는 별도 비교 조건일 수 있습니다 [6].
BrowseComp84.4% [8][13]79.3% [8][13]브라우징·웹 탐색형 평가에서는 GPT-5.5가 앞선 공개값입니다.
OSWorld-Verified78.7% [13]78.0% [13]두 모델 차이가 작습니다.
MCP Atlas75.3% [13]79.1% [13]MCP·툴 연동형 평가에서는 Claude Opus 4.7이 앞섭니다.

GPT-5.5: 터미널형 에이전트 코딩에서 강한 후보

OpenAI는 GPT-5.5가 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%를 기록했다고 밝혔습니다 [19]. OpenAI 설명에 따르면 Terminal-Bench 2.0은 계획, 반복, 도구 조정이 필요한 복잡한 명령줄 워크플로를 평가하고, SWE-Bench Pro는 실제 GitHub 이슈 해결 능력을 평가합니다 [19].

이 점수만 보면 GPT-5.5는 샌드박스 실행, 셸 명령 반복, CI 재현, 파일 생성·수정처럼 긴 터미널 세션이 필요한 제품 워크로드에서 우선 테스트할 만합니다. 다만 SWE-Bench Pro에서는 Claude Opus 4.7의 64.3%가 GPT-5.5의 58.6%보다 높게 보고되어, 모든 코딩 작업에서 GPT-5.5가 우위라고 보기는 어렵습니다 [19][27].

Claude Opus 4.7: 코드 수리와 검토형 작업에 강함

Claude Opus 4.7은 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%로 보고됩니다 [27]. DataCamp는 Opus 4.7이 코딩, 추론, 도구 사용, 컴퓨터 사용, 시각 추론을 포함한 14개 벤치마크에서 평가됐다고 정리합니다 [27].

GPT-5.5와의 공통 비교에서는 Claude Opus 4.7이 GPQA Diamond에서 94.2% 대 93.6%, MCP Atlas에서 79.1% 대 75.3%로 앞섭니다 [8][13]. 반대로 Terminal-Bench 2.0과 BrowseComp에서는 GPT-5.5가 더 높은 공개값을 보입니다 [8][13][19]. 즉 Claude Opus 4.7은 터미널 자동화 전반의 절대 강자라기보다, 실제 이슈 해결·코드 수리·리뷰형 작업에서 먼저 검증할 모델에 가깝습니다.

Kimi K2.6: 긴 멀티모달 입력은 매력적, 점수 조건은 확인 필요

Kimi K2.6은 SWE-Bench Pro 58.6%, SWE-Bench Verified 80.2%로 소개되며, 별도 가이드에서는 Terminal-Bench 2.0 66.7%, HLE with tools 54.0%도 제시됩니다 [1][6]. 다만 해당 가이드는 K2.6 수치의 출처를 Moonshot AI 공식 모델카드로 설명하고, SWE-Bench Pro에는 Moonshot의 in-house harness라는 단서를 붙입니다 [6].

따라서 Kimi K2.6의 SWE-Bench Pro 58.6%가 GPT-5.5의 58.6%와 숫자상 같더라도, 동일한 평가 하네스에서 나온 완전한 동률이라고 단정하기는 어렵습니다 [1][6][19]. 대신 Kimi K2.6은 텍스트, 이미지, 비디오 입력과 256k 컨텍스트 라우트를 지원한다고 소개되므로, 긴 멀티모달 입력이 중요한 제품에서는 별도로 실험할 가치가 있습니다 [7].

DeepSeek V4: 가격은 강점, 정확성 검증은 필수

DeepSeek V4는 이 비교표의 Terminal-Bench, SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond 같은 항목에 직접 넣을 만한 공개 수치가 제공 출처 안에서는 충분하지 않습니다. 대신 Artificial Analysis는 DeepSeek V4 Pro Max가 AA-Omniscience에서 -10을 기록해 V3.2 대비 11점 개선됐고, V4 Flash Max는 -23이라고 설명합니다 [2]. 같은 출처는 V4 Pro와 V4 Flash의 환각률을 각각 94%, 96%로 보고하며, 모를 때도 거의 항상 답하는 경향이 있다는 해석을 덧붙입니다 [2].

구조와 가격 면에서는 검토할 이유가 있습니다. DataCamp는 DeepSeek V4가 Mixture of Experts 구조를 쓰며, Pro 모델은 총 1.6조 파라미터 중 490억 활성 파라미터, Flash 모델은 총 2,840억 파라미터 중 130억 활성 파라미터라고 설명합니다 [4]. Mashable이 정리한 API 가격도 DeepSeek V4가 GPT-5.5와 Claude Opus 4.7보다 낮습니다 [3].

따라서 DeepSeek V4는 비용 민감도가 큰 대량 처리, 내부 검증이 가능한 워크플로, 오픈웨이트 계열 검토에서 후보가 될 수 있습니다. 그러나 높은 환각률 보고와 공통 벤치마크 공백을 함께 보면, 정확성이 중요한 제품에서는 별도 평가·후처리·실패 감지가 필요합니다 [2][3][4].

사용 사례별 선택 가이드

사용 사례먼저 테스트할 모델근거
장시간 터미널 자동화, 셸 기반 에이전트, CI 재현GPT-5.5Terminal-Bench 2.0에서 GPT-5.5 82.7%, Claude Opus 4.7 69.4%, Kimi K2.6 66.7%가 공개되어 있습니다 [19][8][13][6].
실제 GitHub 이슈 해결, 코드 수리, SWE-Bench형 작업Claude Opus 4.7Claude Opus 4.7은 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%로 보고됩니다 [27].
브라우징·웹 탐색형 작업GPT-5.5BrowseComp에서 GPT-5.5 84.4%, Claude Opus 4.7 79.3%가 보고됩니다 [8][13].
MCP·툴 연동형 작업Claude Opus 4.7MCP Atlas에서 Claude Opus 4.7 79.1%, GPT-5.5 75.3%가 보고됩니다 [13].
긴 멀티모달 컨텍스트Kimi K2.6Kimi K2.6은 텍스트, 이미지, 비디오 입력과 256k 컨텍스트 라우트를 지원한다고 소개됩니다 [7].
비용 민감한 대량 호출DeepSeek V4Mashable 기준 DeepSeek V4의 토큰 가격은 GPT-5.5·Claude Opus 4.7보다 낮지만, Artificial Analysis의 높은 환각률 보고도 함께 봐야 합니다 [2][3].

왜 종합 1위를 단정하기 어려운가

첫째, 네 모델을 같은 프롬프트, 같은 도구 접근, 같은 추론 예산, 같은 채점기로 평가한 독립 비교가 제공 출처 안에서는 충분하지 않습니다. GPT-5.5와 Claude Opus 4.7은 공통 비교 자료가 상대적으로 많지만, Kimi K2.6은 모델카드·in-house harness 수치가 섞이고 DeepSeek V4는 공통 벤치마크 행이 비어 있습니다 [1][2][5][6].

둘째, 같은 벤치마크 이름이라도 실행 조건이 달라질 수 있습니다. 한 집계 자료는 GPT-5.5와 Claude Opus 4.7의 공개 점수가 형태상 비교 가능하더라도 방법론까지 동일하다고 보기는 어렵다고 설명합니다 [5]. Anthropic도 Terminal-Bench 2.0 평가에서 Terminus-2 하네스와 특정 리소스 조건을 사용했다고 밝힙니다 [31].

셋째, 벤치마크 점수는 제품 품질의 일부일 뿐입니다. 실제 도입에서는 정답률뿐 아니라 실패 방식, 환각률, 지연시간, 비용, 도구 호출 안정성, 보안 정책, 로그 재현성까지 함께 봐야 합니다. ExplainX도 벤치마크 정의, 프롬프트, 툴 정책에 따라 점수가 움직일 수 있으므로 자체 평가 하네스를 대체해서는 안 된다고 지적합니다 [28].

최종 판단

현재 공개 근거만 기준으로 하면 터미널형 에이전트 코딩은 GPT-5.5, SWE-Bench 계열 코드 수리는 Claude Opus 4.7, 긴 멀티모달 컨텍스트는 Kimi K2.6, 비용 민감형 대량 호출은 DeepSeek V4를 먼저 테스트하는 전략이 가장 합리적입니다 [19][27][7][3]. 다만 네 모델의 종합 승자는 아직 보류하는 편이 안전합니다. 공개 점수는 프롬프트, 도구 접근, 추론 설정, 평가 하네스에 따라 달라질 수 있기 때문입니다 [5][28][31].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • 공개 벤치마크 기준 종합 1위는 보류가 맞습니다. GPT 5.5는 Terminal Bench 2.0 82.7%로 터미널형 에이전트 코딩에 강하고, Claude Opus 4.7은 SWE Bench Pro 64.3%·SWE Bench Verified 87.6%로 코드 수리 계열에 강하지만, 네 모델을 같은 하네스로 비교한 독립 결과는 부족합니다 [19][27][5].
  • Kimi K2.6은 SWE Bench Pro 58.6%, SWE Bench Verified 80.2%, Terminal Bench 2.0 66.7% 수치가 공개돼 있지만, 모델카드·in house harness 기반 수치를 GPT 5.5·Claude 점수와 완전한 동일 조건으로 보면 안 됩니다 [1][6].
  • DeepSeek V4는 토큰 가격이 낮게 제시된 것이 강점이지만, 이 비교의 공통 코딩 벤치마크 수치가 부족하고 Artificial Analysis는 V4 Pro·Flash의 높은 환각률을 보고했습니다 [2][3].

사람들은 또한 묻습니다.

"GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다"에 대한 짧은 대답은 무엇입니까?

공개 벤치마크 기준 종합 1위는 보류가 맞습니다. GPT 5.5는 Terminal Bench 2.0 82.7%로 터미널형 에이전트 코딩에 강하고, Claude Opus 4.7은 SWE Bench Pro 64.3%·SWE Bench Verified 87.6%로 코드 수리 계열에 강하지만, 네 모델을 같은 하네스로 비교한 독립 결과는 부족합니다 [19][27][5].

먼저 검증할 핵심 포인트는 무엇인가요?

공개 벤치마크 기준 종합 1위는 보류가 맞습니다. GPT 5.5는 Terminal Bench 2.0 82.7%로 터미널형 에이전트 코딩에 강하고, Claude Opus 4.7은 SWE Bench Pro 64.3%·SWE Bench Verified 87.6%로 코드 수리 계열에 강하지만, 네 모델을 같은 하네스로 비교한 독립 결과는 부족합니다 [19][27][5]. Kimi K2.6은 SWE Bench Pro 58.6%, SWE Bench Verified 80.2%, Terminal Bench 2.0 66.7% 수치가 공개돼 있지만, 모델카드·in house harness 기반 수치를 GPT 5.5·Claude 점수와 완전한 동일 조건으로 보면 안 됩니다 [1][6].

실무에서는 다음으로 무엇을 해야 합니까?

DeepSeek V4는 토큰 가격이 낮게 제시된 것이 강점이지만, 이 비교의 공통 코딩 벤치마크 수치가 부족하고 Artificial Analysis는 V4 Pro·Flash의 높은 환각률을 보고했습니다 [2][3].

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6의 벤치마크를 비교해 주세요.

Studio Global AI34 소스

인용 답변

요약하면, 공개적으로 확인 가능한 “동일 조건” 벤치마크만 놓고 보면 GPT-5.5는 터미널/에이전트 코딩, Claude Opus 4.7은 SWE-Bench Pro·Verified와 추론 계열에서 강합니다. DeepSeek V4와 Kimi K2.6은 공개 수치가 흩어져 있어 4개 모델을 한 표로 공정하게 순위화하기에는 근거가 부족합니다.

항목GPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6
Terminal-Bench 2.082.7%69.4%공개 비교 근거 부족약 66%대로 보도됨
SWE-Bench Pro58.6%64.3%공개 비교 근거 부족58.6%
SWE-Bench Verified공개 수치 확인 부족87.6%공개 비교 근거 부족80.2%
GPQA Diamond0.94/1로 집계된 자료 있음94.2%로 보도됨공개 비교 근거 부족공개 비교 근거 부족
HLEGPT-5.5와 Opus 4.7 비교 자료에서 항목 존재46.9%로 보도됨공개 비교 근거 부족공개 비교 근거 부족
기타OSWorld, BrowseComp, CyberGym 등에서 GPT-5.5가 앞선다는 비교가 있음FinanceAgent, MCP Atlas 등에서 Opus 4.7이 앞선다는 비교가 있음Artificial Analysis 기준 AA-Omniscience 개선이 보고됐지만 환각률이 매우 높다는 지적도 있음텍스트·이미지·비디오 입력과 256k 컨텍스트 지원으로 소개됨
  • GPT-5.5는 OpenAI 발표 기준 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%를 기록한 것으로 확인됩니다 [15].
  • Claude Opus 4.7은 여러 비교 자료에서 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%, Terminal-Bench 69.4%, GPQA Diamond 94.2%로 제시됩니다 [3].
  • GPT-5.5와 Claude Opus 4.7만 비교하면, 한 집계 자료는 공통 10개 벤치마크 중 Claude Opus 4.7이 6개, GPT-5.5가 4개에서 앞선다고 요약합니다 [12].
  • Kimi K2.6은 SWE-Bench Pro 58.6%, SWE-Bench Verified 80.2%로 소개된 자료가 있지만, GPT-5.5·Claude Opus 4.7·DeepSeek V4와 완전히 같은 하네스에서 비교됐는지는 명확하지 않습니다 [15][4].
  • DeepSeek V4는 Artificial Analysis에서 V4 Pro와 V4 Flash의 지식·환각 관련 평가가 언급되지만, 위 표의 SWE-Bench Pro, Terminal-Bench, GPQA, HLE와 직접 대응되는 공개 비교 수치는 충분하지 않습니다 [7].

결론적으로 “벤치마크 승자”를 하나로 고르면 왜곡될 수 있습니다.

  • 에이전트 터미널 작업: GPT-5.5 우세로 볼 근거가 가장 강합니다 [15].
  • 실전 GitHub 이슈 해결/SWE-Bench 계열: Claude Opus 4.7 우세로 볼 근거가 강합니다 [3][12].
  • 비용 대비 성능/오픈웨이트 계열: DeepSeek V4와 Kimi K2.6을 검토할 만하지만, 동일 벤치마크 공개 근거는 부족합니다 [7][4].
  • 종합 순위: Insufficient evidence. 4개 모델 모두를 같은 프롬프트, 같은 도구 사용 조건, 같은 채점기로 평가한 독립 벤치마크가 필요합니다.

출처

  • [1] Claude Opus 4.7 vs Kimi K2.6 - Detailed Performance & Feature Comparisondocsbot.ai

    SWE-Bench Verified Evaluates software engineering capabilities through verified code modifications and custom agent setups Not available 80.2% SWE-Bench Verified, thinking mode Source SWE-Bench Pro Evaluates software engineering on multi-language SWE-Bench...

  • [2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [4] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com

    How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...

  • [5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com

    The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...

  • [6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...

  • [7] Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7blog.laozhang.ai

    Official Contract Lanes Official rows keep the comparison honest. Kimi's K2.6 pricing page says K2.6 is the latest and smartest Kimi model, supports text, image, and video input, and has a 256k context route. DeepSeek's pricing page lists deepseek-v4-flash...

  • [8] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [13] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [19] Introducing GPT-5.5 - OpenAIopenai.com

    Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...

  • [27] Claude Opus 4.7: Anthropic's New Best (Available) Model - DataCampdatacamp.com

    Claude Opus 4.7 Benchmarks Opus 4.7 was evaluated across 14 benchmarks covering coding, reasoning, tool use, computer use, and visual reasoning. The table below shows the full comparison with Opus 4.6, GPT 5.4, Gemini 3.1 Pro, and the not-yet-published Myth...

  • [28] Claude Opus 4.7: Anthropic’s new flagship, benchmarks, and how it compares to Sonnet & Haiku | explainx.ai Blog | explainx.aiexplainx.ai

    \Percentages are as printed on Anthropic’s benchmark figure; leaderboard definitions, prompts, and tool policies can move scores over time—treat this as a snapshot, not a substitute for your eval harness. Reading the table pragmatically Agentic coding (SWE-...

  • [29] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com

    Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...

  • [31] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    For GPT-5.4 and Gemini 3.1 Pro, we compared against the best reported model version available via API in the charts and table. MCP-Atlas: The Opus 4.6 score has been updated to reflect revised grading methodology from Scale AI. SWE-bench Verified, Pro, and...