studioglobal
Популярное в «Открыть»
ОтчетыОпубликовано12 источники

Claude Opus 4.7 vs GPT-5.5: проверяемые бенчмарки 2026 года и статус DeepSeek V4/Kimi K2.6

В прямых таблицах GPT 5.5 заметно сильнее в Terminal Bench 2.0: 82,7% против 69,4% у Claude Opus 4.7, а Claude лидирует в SWE Bench Pro Public: 64,3% против 58,6% [5]. Универсального победителя нет: Claude выше в MCP Atlas и FinanceAgent v1.1, тогда как GPT 5.5 сильнее в BrowseComp, GDPval, OfficeQA Pro и FrontierMa...

17K0
Ilustrasi perbandingan benchmark AI antara Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6
Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6Ilustrasi AI-generated untuk perbandingan benchmark model AI frontier 2026.
Промпт ИИ

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6. Article summary: Bukti terkuat hanya mendukung head to head Claude Opus 4.7 vs GPT 5.5: GPT 5.5 unggul di Terminal Bench 2.0 (82.7% vs 69.4%), sedangkan Claude unggul di SWE Bench Pro (64.3% vs 58.6%); DeepSeek V4 dan Kimi K2.6 belum.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watc

openai.com

Сравнивать AI-модели в 2026 году стало сложнее, чем просто смотреть на первое место в очередной таблице. Один и тот же ярлык вроде “SWE-bench” может означать разные наборы задач, разные правила запуска и разные режимы рассуждения модели. Если сложить Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6 в один общий рейтинг без проверки версий и методики, вывод легко получится красивым, но неверным.

Самая надежная часть сравнения в доступных источниках — это Claude Opus 4.7 против GPT-5.5: обе модели встречаются в одних и тех же таблицах OpenAI и Vellum [5][2]. По DeepSeek V4 и Kimi K2.6 прямых чисел в этих источниках нет: ближайшие данные относятся к DeepSeek V3.2, KimiK2.5 и Kimi K2 Thinking [1][13][6].

Короткий вывод

  • GPT-5.5 выглядит сильнее в задачах терминала/CLI, офисной и профессиональной работы, браузерного поиска и части математических оценок в доступных данных [5][2].
  • Claude Opus 4.7 выглядит сильнее в SWE-Bench Pro Public, MCP Atlas/tool orchestration и FinanceAgent v1.1 в тех же сопоставимых таблицах [5][2].
  • DeepSeek V4 и Kimi K2.6 пока нельзя честно ранжировать против Claude Opus 4.7 и GPT-5.5: опубликованные в этих источниках цифры относятся к другим версиям моделей [1][13][6].

Где цифры действительно сопоставимы

Ниже — только те строки, где Claude Opus 4.7 и GPT-5.5 сравниваются на одном и том же бенчмарке. GPT-5.5 Pro указан отдельно только там, где источник сам выделяет эту версию [2].

Практический сценарийБенчмаркРезультатКак читать
Исправление кода и задач в репозиторияхSWE-Bench Pro PublicClaude Opus 4.7 — 64,3% против GPT-5.5 — 58,6% [5]На этом бенчмарке впереди Claude.
Терминальные и CLI-агентыTerminal-Bench 2.0GPT-5.5 — 82,7% против Claude Opus 4.7 — 69,4% [5]Самое явное преимущество GPT-5.5.
Профессиональные и офисные задачиGDPval; OfficeQA ProGPT-5.5 — 84,9% против Claude — 80,3% в GDPval; GPT-5.5 — 54,1% против Claude — 43,6% в OfficeQA Pro [5]GPT-5.5 выше на обеих метриках.
Финансовый агентFinanceAgent v1.1Claude — 64,4% против GPT-5.5 — 60,0% [5]Claude лучше именно на этой finance-agent оценке.
Работа с компьютером, браузером и поискомOSWorld-Verified; BrowseCompGPT-5.5 — 78,7% против Claude — 78,0% в OSWorld; GPT-5.5 — 84,4% и GPT-5.5 Pro — 90,1% против Claude — 79,3% в BrowseComp [2]В OSWorld почти паритет; в BrowseComp выше GPT-5.5.
Оркестрация инструментовMCP AtlasClaude — 79,1% против GPT-5.5 — 75,3% [2]Claude сильнее в сценариях с большим количеством вызовов инструментов.
Научное и математическое рассуждениеGPQA Diamond; FrontierMath T1–3Claude — 94,2% против GPT-5.5 — 93,6% в GPQA; GPT-5.5 — 51,7% и GPT-5.5 Pro — 52,4% против Claude — 43,8% в FrontierMath [2]GPQA почти не различает модели; в FrontierMath выше GPT-5.5.

Как не попасть в ловушку бенчмарков

1. SWE-Bench Pro и SWE-bench Verified — не одно и то же

OpenAI в прямом сравнении GPT-5.5 и Claude Opus 4.7 использует SWE-Bench Pro Public [5]. Это нельзя автоматически смешивать с SWE-bench Verified. BenchLM описывает SWE-bench Verified как проверенное людьми подмножество SWE-bench, где модели решают реальные GitHub-issue из популярных Python-репозиториев вроде Django, Flask и scikit-learn [21].

Поэтому результат Claude 64,3% в SWE-Bench Pro Public нельзя напрямую сравнивать с оценками Claude в SWE-bench Verified из других таблиц [5][21]. Нужно совпадение не только названия модели, но и бенчмарка, harness, даты запуска и конфигурации.

2. GPQA Diamond уже плохо разделяет frontier-модели

Vellum ставит Claude Opus 4.7 на 94,2%, а GPT-5.5 — на 93,6% в GPQA Diamond [2]. The Next Web также приводит близкие значения для frontier-моделей: Claude Opus 4.7 — 94,2%, GPT-5.4 Pro — 94,4%, Gemini 3.1 Pro — 94,3%, и отмечает, что такие различия находятся в пределах шума [17].

Вывод практичный: GPQA полезен как общий сигнал уровня рассуждения, но выбирать production-модель только по нему — слабая стратегия.

3. Сторонние лидерборды могут расходиться — и это нормально

Даже по SWE-bench Verified оценки Claude Opus 4.7 отличаются в разных источниках. BenchLM указывает Claude Opus 4.7 Adaptive с результатом 87,6% по состоянию на 24 апреля 2026 года [21]. LLM Stats тоже приводит 87,6% [18]. При этом LM Council показывает Claude Opus 4.7 max на уровне 83,5% ±1,7 [10], а MindStudio называет 82,4% [14].

Это не обязательно означает, что кто-то “ошибся”. Разница часто появляется из-за режима модели, набора разрешенных попыток, harness, даты тестирования и того, как leaderboard учитывает reasoning mode или retry. Для инженерной команды публичные цифры лучше использовать как фильтр для shortlist, а не как замену собственных тестов на своем репозитории и workflow.

Claude Opus 4.7: сильный кандидат для repo repair и multi-tool сценариев

Самый сильный сигнал по Claude Opus 4.7 — задачи исправления кода и агентные сценарии с активным использованием инструментов. В таблице OpenAI Claude опережает GPT-5.5 на SWE-Bench Pro Public: 64,3% против 58,6%, а также в FinanceAgent v1.1: 64,4% против 60,0% [5]. Vellum дополнительно показывает преимущество Claude в MCP Atlas: 79,1% против 75,3% у GPT-5.5 [2].

Anthropic в launch note Claude Opus 4.7 также приводит партнерские оценки, релевантные для agentic workflows. По словам Anthropic, Hebbia увидела двузначный рост точности tool calls и планирования в orchestrator agents, а Rakuten-SWE-Bench сообщил, что Opus 4.7 решает в три раза больше production-задач, чем Opus 4.6, с двузначным ростом Code Quality и Test Quality [19]. Это полезный продуктовый сигнал, но его все равно нужно отделять от независимой проверки на ваших данных.

Если приоритет — автономное исправление задач в репозитории, MCP/tool orchestration или длинные workflow с несколькими инструментами, Claude Opus 4.7 логично включить в тест первым. Но финальное решение должно зависеть от ваших test suite, модели прав доступа и реальных схем tool calls.

GPT-5.5: заметно сильнее в терминале, браузере, офисных задачах и части математики

У GPT-5.5 самое яркое преимущество — Terminal-Bench 2.0. OpenAI сообщает 82,7% для GPT-5.5 против 69,4% у Claude Opus 4.7 и 68,5% у Gemini 3.1 Pro [5]. В той же таблице GPT-5.5 выше Claude по GDPval wins/ties — 84,9% против 80,3%, а также по OfficeQA Pro — 54,1% против 43,6% [5].

Vellum добавляет контекст по computer-use, поиску и reasoning. GPT-5.5 немного выше Claude в OSWorld-Verified — 78,7% против 78,0%; заметно выше в BrowseComp — 84,4% против 79,3%; и выше в FrontierMath T1–3 — 51,7% против 43,8% [2]. Для BrowseComp Vellum отдельно указывает GPT-5.5 Pro с результатом 90,1% [2].

С кодингом картина смешанная. GPT-5.5 очень силен в терминальных workflow, но уступает Claude Opus 4.7 на SWE-Bench Pro Public в таблице OpenAI [5]. В System Card OpenAI также описывает CoT-Control для GPT-5.5 — набор из более чем 13 000 задач, собранных на базе GPQA, MMLU-Pro, HLE, BFCL и SWE-Bench Verified [26]. Однако этот источник не дает прямого сравнения GPT-5.5 с DeepSeek V4 или Kimi K2.6 [26].

DeepSeek V4 и Kimi K2.6: прямых доказательств пока нет

По DeepSeek V4 в доступных источниках нет прямого benchmark-результата. Ближайшая цифра относится к DeepSeek V3.2: MangoMind в рекомендациях для coding за апрель 2026 года ставит DeepSeek V3.2 на 89,2% SWE-bench, ниже Claude Opus 4.6 с 93,2% и GPT-5.4 Pro с 91,1% [1]. Но результат DeepSeek V3.2 нельзя использовать как доказательство уровня DeepSeek V4.

По Kimi K2.6 ситуация такая же. Stanford HAI упоминает KimiK2.5 в группе моделей с результатами 70–76% на SWE-bench Verified по состоянию на февраль 2026 года [13]. Siliconflow приводит Kimi K2 Thinking с GPQA 84,5 и SWE Bench 71,3 [6]. Это полезный контекст по экосистеме Kimi, но не прямые данные по Kimi K2.6.

Что тестировать команде продукта

Если главная задача —С чего начать тестыОснованиеВажная оговорка
Терминальный или CLI coding agentGPT-5.5Terminal-Bench 2.0: GPT-5.5 — 82,7% против Claude — 69,4% [5]Проверьте в своем shell-окружении, permission model и CI/CD.
Автономное исправление задач в репозиторииClaude Opus 4.7, затем GPT-5.5 как контрольSWE-Bench Pro Public: Claude — 64,3% против GPT-5.5 — 58,6% [5]Не смешивайте с SWE-bench Verified без совпадения методики [21].
MCP или многошаговая оркестрация инструментовClaude Opus 4.7MCP Atlas: Claude — 79,1% против GPT-5.5 — 75,3% [2]Валидируйте на своих tool schema, retry logic и access policy.
Браузерный или поисковый агентGPT-5.5 или GPT-5.5 ProBrowseComp: GPT-5.5 — 84,4%, GPT-5.5 Pro — 90,1%, Claude — 79,3% [2]BrowseComp не покрывает все возможные внутренние исследовательские задачи.
Финансовые и профессиональные workflowSplit test Claude и GPT-5.5Claude выше в FinanceAgent v1.1, GPT-5.5 выше в GDPval и OfficeQA Pro [5]MindStudio подчеркивает: разрыв между benchmark-скорингом и рабочим finance-инструментом часто лежит в end-to-end инфраструктуре, а не только в “интеллекте” модели [14].
Общее научное рассуждениеНе выбирать только по GPQAGPQA Diamond у Claude и GPT-5.5 почти равен в таблице Vellum [2]Нужна доменная оценка под ваши реальные задачи, особенно если они не похожи на вопросы бенчмарка.

Итог

Если опираться только на прямые head-to-head данные, GPT-5.5 — более сильный первый кандидат для терминальных/CLI-агентов, браузерного поиска, офисных задач и некоторых математических benchmark-сценариев [5][2]. Claude Opus 4.7 — более сильный первый кандидат для SWE-Bench Pro Public, MCP/tool orchestration и FinanceAgent v1.1 [5][2].

DeepSeek V4 и Kimi K2.6 пока нельзя честно поставить выше или ниже этих моделей по доступным источникам. Опубликованные цифры относятся к другим версиям — DeepSeek V3.2, KimiK2.5 и Kimi K2 Thinking, поэтому утверждения, что DeepSeek V4 или Kimi K2.6 уже превосходят Claude Opus 4.7 или GPT-5.5, здесь не подтверждаются прямыми benchmark-данными [1][13][6].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

  • В прямых таблицах GPT 5.5 заметно сильнее в Terminal Bench 2.0: 82,7% против 69,4% у Claude Opus 4.7, а Claude лидирует в SWE Bench Pro Public: 64,3% против 58,6% [5].
  • Универсального победителя нет: Claude выше в MCP Atlas и FinanceAgent v1.1, тогда как GPT 5.5 сильнее в BrowseComp, GDPval, OfficeQA Pro и FrontierMath в доступных таблицах [2][5].
  • DeepSeek V4 и Kimi K2.6 нельзя честно поставить в один рейтинг с Claude Opus 4.7 и GPT 5.5: источники дают данные по другим версиям — DeepSeek V3.2, KimiK2.5 и Kimi K2 Thinking [1][13][6].

Люди также спрашивают

Каков краткий ответ на вопрос «Claude Opus 4.7 vs GPT-5.5: проверяемые бенчмарки 2026 года и статус DeepSeek V4/Kimi K2.6»?

В прямых таблицах GPT 5.5 заметно сильнее в Terminal Bench 2.0: 82,7% против 69,4% у Claude Opus 4.7, а Claude лидирует в SWE Bench Pro Public: 64,3% против 58,6% [5].

Какие ключевые моменты необходимо проверить в первую очередь?

В прямых таблицах GPT 5.5 заметно сильнее в Terminal Bench 2.0: 82,7% против 69,4% у Claude Opus 4.7, а Claude лидирует в SWE Bench Pro Public: 64,3% против 58,6% [5]. Универсального победителя нет: Claude выше в MCP Atlas и FinanceAgent v1.1, тогда как GPT 5.5 сильнее в BrowseComp, GDPval, OfficeQA Pro и FrontierMath в доступных таблицах [2][5].

Что мне делать дальше на практике?

DeepSeek V4 и Kimi K2.6 нельзя честно поставить в один рейтинг с Claude Opus 4.7 и GPT 5.5: источники дают данные по другим версиям — DeepSeek V3.2, KimiK2.5 и Kimi K2 Thinking [1][13][6].

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы

Вопрос исследования

Lakukan riset mendalam tentang benchmark Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6.

Studio Global AI32 источники

Цитируемый ответ

Berdasarkan bukti yang tersedia, benchmark yang paling bisa dibahas secara konkret hanya untuk Claude Opus 4.7. Untuk GPT-5.5, bukti yang tersedia hanya satu unggahan X tanpa angka benchmark lengkap; untuk DeepSeek V4 dan Kimi K2.6 tidak ada bukti benchmark langsung dalam sumber yang diberikan. Karena itu, perbandingan empat model ini belum bisa dibuat secara kuat; Insufficient evidence untuk klaim komparatif penuh.

Key findings

  • Claude Opus 4.7 dilaporkan mencetak 87.6% pada SWE-bench Verified, 94.2% pada GPQA, memiliki konteks 1 juta token, peningkatan vision 3.3x, mode effort “xhigh”, dan harga $5/$25 menurut LLM Stats [7].

  • Claude Opus 4.7 juga dilaporkan menempati peringkat #2 dari 110 model pada leaderboard provisional BenchLM dengan skor keseluruhan 97/100, serta peringkat #2 dari 14 pada verified leaderboard [4].

  • Pada GPQA Diamond, laporan The Next Web menyebut Claude Opus 4.7 mencetak 94.2%, GPT-5.4 Pro 94.4%, dan Gemini 3.1 Pro 94.3%; sumber itu menilai selisihnya berada dalam noise dan benchmark ini sudah cenderung jenuh di antara model frontier [6].

  • Untuk coding, bukti yang tersedia mendukung bahwa Claude Opus 4.7 sangat kuat, tetapi angka SWE-bench yang tersedia tidak sepenuhnya konsisten antar-sumber: LLM Stats menyebut 87.6% untuk SWE-bench Verified [7], sementara Stanford HAI hanya memberi konteks lebih lama bahwa per Februari 2026 Claude 4.5 Opus high reasoning berada sekitar 76.8% dan model lain seperti KimiK2.5, GPT-5.2, serta Gemini 3 Flash high reasoning berada di kisaran 70–76% [1].

  • Untuk analisis finansial, MindStudio menyebut contoh gap antara skor FinanceBench 82.7% dan kesiapan deployment produksi, tetapi bukti snippet yang tersedia tidak cukup untuk memastikan konteks metodologi, pembanding, atau apakah angka itu diklaim sebagai skor resmi Claude Opus 4.7 [3].

  • Untuk GPT-5.5, satu-satunya bukti langsung yang tersedia adalah unggahan X yang menyatakan GPT-5.5 underperform terhadap Mythos pada SWE-Bench Pro dan HLE, setara pada GPQA Diamond, BrowseComp, dan OSWorld-Verified, serta lebih baik pada Terminal-Bench 2.0 [31]. Bukti ini lemah untuk riset benchmark karena tidak menyediakan angka, metodologi, atau sumber primer [31].

  • Untuk DeepSeek V4, tidak ada benchmark langsung dalam bukti yang diberikan; satu-satunya data terkait DeepSeek menyebut DeepSeek V3.2 sebagai #3 rekomendasi coding April 2026 dengan 89.2% SWE-bench menurut MangoMind, bukan DeepSeek V4 [2]. Insufficient evidence.

  • Untuk Kimi K2.6, tidak ada benchmark langsung dalam bukti yang diberikan; Stanford HAI hanya menyebut KimiK2.5 berada dalam kelompok 70–76% pada SWE-bench Verified per Februari 2026, bukan Kimi K2.6 [1]. Insufficient evidence.

Perbandingan ringkas

ModelBukti benchmark langsungAngka yang tersediaKekuatan kesimpulan
Claude Opus 4.7AdaSWE-bench Verified 87.6%, GPQA 94.2%, BenchLM 97/100Sedang, tetapi perlu validasi sumber primer
GPT-5.5Sangat terbatasTidak ada angka; hanya klaim relatif via XLemah
DeepSeek V4Tidak adaTidak adaInsufficient evidence
Kimi K2.6Tidak adaTidak adaInsufficient evidence

Evidence notes

  • Sumber paling kuat yang tersedia adalah Stanford HAI karena bersifat teknis dan institusional, tetapi datanya tidak mencakup Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 secara langsung; sumber itu hanya memberi baseline per Februari 2026 untuk Claude 4.5 Opus, KimiK2.5, GPT-5.2, dan model lain [1].

  • LLM Stats, BenchLM, MindStudio, Vellum, The Next Web, dan MangoMind memberikan konteks pasar serta benchmark yang lebih baru, tetapi sebagian tampak sebagai ringkasan pihak ketiga dan bukan dokumentasi primer dari lab model [2][3][4][5][6][7].

  • Vellum mencantumkan area benchmark untuk Claude Opus 4.7 seperti SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0, MCP-Atlas, Finance Agent v1.1, OSWorld-Verified, BrowseComp, GPQA, dan benchmark reasoning lain, tetapi snippet yang tersedia tidak memberikan angka spesifik yang bisa dipakai untuk perbandingan [5].

  • MangoMind menyediakan daftar rekomendasi April 2026 untuk coding, tetapi model yang disebut adalah Claude Opus 4.6, GPT-5.4 Pro, dan DeepSeek V3.2, bukan versi target Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 [2].

Limitations / uncertainty

  • Tidak ada bukti primer dari Anthropic, OpenAI, DeepSeek, atau Moonshot/Kimi dalam evidence yang tersedia, sehingga angka-angka harus diperlakukan sebagai laporan pihak ketiga, bukan hasil resmi yang sepenuhnya terverifikasi.

  • Tidak tersedia angka benchmark langsung untuk DeepSeek V4 dan Kimi K2.6, sehingga klaim bahwa salah satu lebih unggul dari Claude Opus 4.7 atau GPT-5.5 tidak dapat didukung.

  • Tidak tersedia angka benchmark lengkap untuk GPT-5.5; unggahan X hanya menyebut perbandingan relatif terhadap Mythos tanpa metodologi dan tanpa skor numerik [31].

  • Ada indikasi pergeseran benchmark: GPQA Diamond tampak hampir jenuh pada model frontier karena Claude Opus 4.7, GPT-5.4 Pro, dan Gemini 3.1 Pro berada di sekitar 94.2–94.4% menurut The Next Web [6]. Ini berarti benchmark seperti SWE-bench Pro, Terminal-Bench, OSWorld, BrowseComp, dan evaluasi agentic kemungkinan lebih berguna untuk membedakan model, tetapi bukti angka lintas empat model target belum tersedia.

Summary

Claude Opus 4.7 adalah satu-satunya model dalam daftar yang memiliki bukti benchmark cukup konkret: 87.6% pada SWE-bench Verified, 94.2% pada GPQA, dan skor BenchLM 97/100 menurut sumber pihak ketiga [7][4]. GPT-5.5 hanya memiliki bukti lemah berupa klaim relatif dari X tanpa angka lengkap [31]. DeepSeek V4 dan Kimi K2.6 tidak memiliki data benchmark langsung dalam evidence yang tersedia, sehingga status benchmark keduanya adalah Insufficient evidence.

Источники

  • [1] AI Benchmarks 2026: Monthly Leaderboards & Rankings | MangoMindmangomindbd.com

    5. Monthly Updates AI moves fast. We re-test all models monthly and publish updated rankings to reflect the latest releases. 🎯 Quick Recommendations Best AI for Coding (April 2026) 1. •Claude Opus 4.6 - 93.2% SWE-bench 2. •GPT-5.4 Pro - 91.1% SWE-bench 3....

  • [2] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [5] Introducing GPT-5.5 | OpenAIopenai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...

  • [6] LLM Model Benchmarks 2026 | Siliconflowsiliconflow.com

    Model GRIND (%) AIME (%) GPQA (%) SWE Bench (%) MATH 500 (%) BFCL (%) Alder Polyglot (%) --- --- --- --- Kimi K2 Thinking — — 84.5 71.3 — — — GPT 5.1 — — 88.1 76.3 — — — Claude Haiku 4.5 — — 73 73.3 — — — GPT-5 — — 87.3 74.9 — — 88 Claude Opus 4.1 — — 80.9...

  • [10] AI Model Benchmarks Apr 2026 | Compare GPT-5, Claude 4.5 ...lmcouncil.ai

    METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...

  • [13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu

    On SWE-bench Verified, top models are tightly clustered in the low-to-mid 70s (Figure 2.5.1). As of February 2026, Claude 4.5 Opus (high reasoning) led at approximately 76.8%, with several others including KimiK2.5, GPT-5.2, and Gemini 3 Flash (high reasoni...

  • [14] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, and Financial Analysis | MindStudiomindstudio.ai

    This matters for teams evaluating Opus 4.7 for production use because the model’s capability gains are only useful if they’re integrated into something that works end-to-end. The gap between “this model scores 82.7% on FinanceBench” and “we have a deployed...

  • [17] Claude Opus 4.7 leads on SWE-bench and agentic reasoning, beating GPT-5.4 and Gemini 3.1 Prothenextweb.com

    On graduate-level reasoning, measured by GPQA Diamond, the field has converged. Opus 4.7 scores 94.2%, GPT-5.4 Pro scores 94.4%, and Gemini 3.1 Pro scores 94.3%. The differences are within noise. The frontier models have effectively saturated this benchmark...

  • [18] Claude Opus 4.7: Benchmarks, Pricing, Context & What's Newllm-stats.com

    LLM Stats Logo Make AI phone calls with one API call Claude Opus 4.7: Benchmarks, Pricing, Context & What's New Claude Opus 4.7 scores 87.6% on SWE-bench Verified, 94.2% on GPQA, 1M token context, 3.3x higher-resolution vision, new xhigh effort level. $5/$2...

  • [19] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...

  • [21] SWE-bench Verified Benchmark 2026: 35 LLM scores | BenchLM.aibenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Software Engineering Benchmark Verified (SWE-bench Verified) A curated, human-verified subset of SWE-bench that tests models on resolving real GitHub issues from popular open-so...

  • [26] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...