studioglobal
Популярное в «Открыть»
ОтчетыОпубликовано8 источники

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: perbandingan benchmark

Tidak ada satu pemenang mutlak: Claude Opus 4.7 memimpin GPQA Diamond dan HLE tanpa tools, GPT 5.5 unggul di Terminal Bench 2.0, sedangkan GPT 5.5 Pro memimpin HLE dengan tools dan BrowseComp [6]. Kimi K2.6 perlu dibaca terpisah karena angkanya berasal dari kartu model Hugging Face dan file eval, bukan dari satu tab...

17K0
Сравнение AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам
GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахИллюстрация к сравнению GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по ключевым AI-бенчмаркам.
Промпт ИИ

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond — 94.2% — и HLE без инструментов — 46.9%, GPT 5.5 — в Terminal Bench 2.0 с 82.7%, а GPT 5.5 Pro — в HLE с инструментами и BrowseComp.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2.6 vs GPT-5.5 vs DeepSeek V4](https://www.youtube.com/watch?v=hqPVqQtgWOc). 🤯xCreate 8.4K views • 1 day ago Live Playlist ()Mix (50+)](https://www.youtube.com/watch?v=3928" source context "Kimi K2.6 vs GPT-5.5 vs DeepSeek V4 - YouTube" Reference image 2: visual subject "# GPT-5.5vs Claude Opus 4.7. Get a detailed comparison of AI language modelsOpenAI's GPT-5.5andAnthropic's

openai.com

Perbandingan ini sebaiknya dibaca seperti memilih alat kerja, bukan seperti melihat klasemen liga dengan satu juara. Data yang paling sebanding memuat GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max dalam satu tabel; Kimi K2.6 harus ditambahkan dari kartu model Hugging Face dan file eval, sehingga tidak adil jika diperlakukan sebagai bagian dari run head-to-head yang sama [6][25][37].

Ada satu catatan penting lagi: “DeepSeek V4” tidak selalu merujuk ke varian yang sama di semua sumber. Tabel umum memakai DeepSeek-V4-Pro-Max, sementara angka SWE-Bench Verified di sumber lain merujuk ke DeepSeek V4-Pro, bukan Pro-Max [6][15]. Jadi kesimpulan yang aman adalah: varian DeepSeek V4 yang berbeda menunjukkan hasil berbeda di sumber berbeda.

Rekomendasi cepat berdasarkan kebutuhan

  • Reasoning sulit tanpa tools: mulai dari Claude Opus 4.7. Ia memimpin GPQA Diamond dan Humanity’s Last Exam tanpa tools di tabel utama [6].
  • Tugas agentic di terminal: GPT-5.5 paling menonjol di Terminal-Bench 2.0, dengan 82,7% berbanding 69,4% untuk Claude Opus 4.7 dan 67,9% untuk DeepSeek-V4-Pro-Max [6].
  • Reasoning dengan tools dan browsing: GPT-5.5 Pro memimpin pada baris yang tersedia: 57,2% di HLE dengan tools dan 90,1% di BrowseComp [6].
  • Coding dan eksperimen dengan bobot model: Kimi K2.6 layak diuji terpisah. Kartu modelnya mencantumkan 80,2 di SWE-Bench Verified, 58,6 di SWE-Bench Pro, dan 66,7 di Terminal-Bench 2.0 [25][37]. Sumber lain juga menyebut bobot Kimi tersedia di Hugging Face dan dapat dijalankan melalui vLLM, SGLang, atau KTransformers [7].
  • Jika biaya lebih penting daripada posisi pertama: DeepSeek V4 tidak memimpin baris benchmark utama, tetapi sumber mencantumkan harga API US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, dibanding US$5/US$30 untuk GPT-5.5 dan US$5/US$25 untuk Claude Opus 4.7 [14][19].

Tabel ringkas hasil benchmark

BenchmarkGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek V4Kimi K2.6Pemimpin menurut data yang tersedia
GPQA Diamond93,6% [6]tidak tersedia94,2% [6]90,1% untuk DeepSeek-V4-Pro-Max [6]tidak tersediaClaude Opus 4.7 [6]
Humanity’s Last Exam, tanpa tools41,4% [6]43,1% [6]46,9% [6]37,7% untuk DeepSeek-V4-Pro-Max [6]tidak tersediaClaude Opus 4.7 [6]
Humanity’s Last Exam, dengan tools52,2% [6]57,2% [6]54,7% [6]48,2% untuk DeepSeek-V4-Pro-Max [6]tidak tersediaGPT-5.5 Pro [6]
Terminal-Bench 2.082,7% [6]tidak tersedia69,4% [6]67,9% untuk DeepSeek-V4-Pro-Max [6]66,7 [25][33]GPT-5.5 [6]
SWE-Bench Pro / SWE Pro58,6% [6]tidak tersedia64,3% [6]55,4% untuk DeepSeek-V4-Pro-Max [6]58,6 [25]Claude Opus 4.7 [6]
BrowseComp84,4% [6]90,1% [6]79,3% [6]83,4% untuk DeepSeek-V4-Pro-Max [6]tidak tersediaGPT-5.5 Pro [6]
MCP Atlas / MCPAtlas Public75,3% [6]tidak tersedia79,1% [6]73,6% untuk DeepSeek-V4-Pro-Max [6]tidak tersediaClaude Opus 4.7 [6]
SWE-Bench Verifiedtidak tersediatidak tersedia87,6% dalam perbandingan terpisah [15]80,6% untuk DeepSeek V4-Pro, bukan Pro-Max [15]80,2 [25][37]Tidak ada satu baris umum untuk semua model [15][25][37]

“Tidak tersedia” berarti angkanya tidak dicantumkan di sumber terkait, bukan berarti model mendapat nilai nol.

Reasoning: Claude kuat tanpa tools, GPT-5.5 Pro naik saat tools dipakai

Untuk GPQA Diamond, selisih Claude Opus 4.7 dan GPT-5.5 tipis: 94,2% melawan 93,6%, sementara DeepSeek-V4-Pro-Max berada di 90,1% [6]. Di Humanity’s Last Exam tanpa tools, jaraknya lebih terasa: Claude Opus 4.7 mencapai 46,9%, dibanding 41,4% untuk GPT-5.5, 43,1% untuk GPT-5.5 Pro, dan 37,7% untuk DeepSeek-V4-Pro-Max [6].

Namun urutannya berubah ketika tools diizinkan. Pada HLE dengan tools, GPT-5.5 Pro mencatat 57,2%, diikuti Claude Opus 4.7 dengan 54,7%, GPT-5.5 dengan 52,2%, dan DeepSeek-V4-Pro-Max dengan 48,2% [6]. Jadi ringkasnya: Claude tampak lebih kuat untuk reasoning “murni” tanpa tools, sementara GPT-5.5 Pro memimpin pada reasoning yang diperkuat tools di baris HLE yang tersedia [6].

Coding dan tugas agentic: GPT-5.5 paling jauh di Terminal-Bench

Selisih terbesar GPT-5.5 dalam kumpulan data ini muncul di Terminal-Bench 2.0: 82,7%, jauh di atas Claude Opus 4.7 di 69,4% dan DeepSeek-V4-Pro-Max di 67,9% [6]. Kimi K2.6 tercatat 66,7 di kartu modelnya, dan leaderboard LLM Stats juga mencantumkan 0,667 untuk Kimi K2.6 serta 0,694 untuk Claude Opus 4.7 [25][33]. Artinya, untuk skala ini Kimi berada dekat dengan Claude dan DeepSeek, tetapi masih tertinggal jelas dari GPT-5.5 berdasarkan tabel utama [6][25][33].

Untuk SWE-Bench Pro / SWE Pro, pemenangnya berbeda. Claude Opus 4.7 memimpin dengan 64,3%, GPT-5.5 berada di 58,6%, dan DeepSeek-V4-Pro-Max di 55,4% [6]. Kimi K2.6 juga dicantumkan dengan nilai 58,6 di SWE-Bench Pro pada kartu Hugging Face, tetapi angka itu tidak berasal dari run perbandingan yang sama dengan tabel utama [6][25].

SWE-Bench Verified sebaiknya tidak diubah menjadi ranking umum untuk semua model. Kimi K2.6 memiliki angka 80,2 dari kartu model dan file eval [25][37]. Sumber terpisah tentang DeepSeek V4 menyebut Claude Opus 4.7 di 87,6% dan DeepSeek V4-Pro di 80,6%, tetapi tidak memberi baris lengkap untuk GPT-5.5 dan merujuk ke V4-Pro, bukan V4-Pro-Max [15].

Per model: kekuatan utama masing-masing

GPT-5.5 dan GPT-5.5 Pro

GPT-5.5 paling menonjol di Terminal-Bench 2.0 dengan 82,7%, hasil terbaik pada baris tersebut di tabel utama [6]. GPT-5.5 Pro tidak muncul di semua benchmark, tetapi ketika ada, posisinya kuat: 57,2% di HLE dengan tools dan 90,1% di BrowseComp, keduanya menjadi hasil tertinggi di baris masing-masing [6].

Jika kebutuhan Anda adalah workflow agentic di terminal, GPT-5.5 layak diuji lebih dulu. Jika tugasnya melibatkan tools, browsing, atau langkah eksternal, GPT-5.5 Pro menjadi kandidat yang lebih menarik berdasarkan data yang tersedia [6].

Claude Opus 4.7

Claude Opus 4.7 memimpin beberapa baris penting di tabel utama: 94,2% di GPQA Diamond, 46,9% di HLE tanpa tools, 64,3% di SWE-Bench Pro / SWE Pro, dan 79,1% di MCP Atlas / MCPAtlas Public [6]. Di sisi lain, Claude tertinggal dari GPT-5.5 di Terminal-Bench 2.0 dan dari GPT-5.5 Pro di HLE dengan tools serta BrowseComp [6].

Untuk tim yang membutuhkan model pertama untuk reasoning kompleks tanpa tools, atau coding yang dekat dengan pola SWE-Bench Pro, Claude Opus 4.7 terlihat sebagai pilihan terkuat di baris-baris tersebut [6].

Kimi K2.6

Kimi K2.6 tidak bisa diperingkat secara ketat melawan semua model lain karena angkanya dalam artikel ini berasal dari kartu Hugging Face dan file eval terpisah [25][37]. Namun sebagai kandidat coding, profilnya tetap menarik: kartu model mencantumkan 80,2 di SWE-Bench Verified, 58,6 di SWE-Bench Pro, 76,7 di SWE-Bench Multilingual, 66,7 di Terminal-Bench 2.0, dan 73,1 di OSWorld-Verified [25][37].

Daya tarik operasional Kimi adalah ketersediaan bobotnya. Sumber menyebut bobot Kimi K2.6 tersedia di Hugging Face dan model dapat dijalankan lewat vLLM, SGLang, atau KTransformers [7]. Itu tidak otomatis membuat Kimi menjadi pemenang benchmark keseluruhan, tetapi menjadikannya kandidat penting bagi tim yang ingin melakukan eksperimen self-hosted atau lokal [7][25].

DeepSeek V4

Di tabel utama, DeepSeek diwakili oleh DeepSeek-V4-Pro-Max [6]. Pada baris yang tersedia, varian ini tidak menempati posisi pertama: 90,1% di GPQA Diamond, 37,7% di HLE tanpa tools, 48,2% di HLE dengan tools, 67,9% di Terminal-Bench 2.0, 55,4% di SWE-Bench Pro / SWE Pro, 83,4% di BrowseComp, dan 73,6% di MCP Atlas / MCPAtlas Public [6].

Kekuatan DeepSeek V4 dalam kumpulan data ini bukan posisi nomor satu, melainkan harga. Mashable dan DataCamp mencantumkan harga API DeepSeek V4 sebesar US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output; sebagai pembanding, sumber yang sama mencantumkan US$5/US$30 untuk GPT-5.5 dan US$5/US$25 untuk Claude Opus 4.7 [14][19]. Jika anggaran adalah batas utama, DeepSeek V4 layak masuk evaluasi internal, tetapi tidak tepat disebut pemimpin benchmark berdasarkan tabel ini [6][14][19].

Batasan yang perlu diingat

  1. Tidak ada satu run umum untuk semua model di semua benchmark. Tabel utama mencakup GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max; Kimi K2.6 ditambahkan dari sumber terpisah [6][25][37].
  2. DeepSeek V4 memiliki beberapa varian di sumber berbeda. Tabel utama memakai DeepSeek-V4-Pro-Max, sementara angka SWE-Bench Verified terpisah merujuk ke DeepSeek V4-Pro [6][15].
  3. GPT-5.5 Pro tidak muncul di semua baris. Karena kolom Pro hanya tersedia untuk beberapa benchmark, hasilnya tidak boleh diasumsikan untuk baris yang kosong [6].
  4. Kimi K2.6 sebaiknya diuji dengan evaluasi sendiri. Angka Hugging Face berguna, tetapi tidak berasal dari tabel perbandingan yang sama dengan GPT-5.5, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max [6][25][37].

Kesimpulan

Jika hanya melihat baris yang benar-benar sebanding di tabel utama, Claude Opus 4.7 memimpin GPQA Diamond, Humanity’s Last Exam tanpa tools, SWE-Bench Pro, dan MCP Atlas; GPT-5.5 memimpin Terminal-Bench 2.0; sementara GPT-5.5 Pro memimpin HLE dengan tools dan BrowseComp [6]. Kimi K2.6 tampak kuat sebagai kandidat coding dengan bobot yang tersedia, tetapi belum bisa diperingkat ketat melawan semuanya tanpa run perbandingan yang sama [7][25][37]. DeepSeek V4 bukan pemimpin di baris benchmark ini, namun harga API yang lebih rendah membuatnya tetap relevan untuk skenario yang sangat sensitif biaya [6][14][19].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

  • Tidak ada satu pemenang mutlak: Claude Opus 4.7 memimpin GPQA Diamond dan HLE tanpa tools, GPT 5.5 unggul di Terminal Bench 2.0, sedangkan GPT 5.5 Pro memimpin HLE dengan tools dan BrowseComp [6].
  • Kimi K2.6 perlu dibaca terpisah karena angkanya berasal dari kartu model Hugging Face dan file eval, bukan dari satu tabel head to head yang sama; nilainya mencakup 80,2 di SWE Bench Verified, 58,6 di SWE Bench Pro, d...
  • DeepSeek V4 tidak memuncaki baris benchmark utama yang tersedia, tetapi harga API yang dipublikasikan lebih rendah: US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, dibanding US$5/US$30 untuk GPT 5....

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: perbandingan benchmark»?

Tidak ada satu pemenang mutlak: Claude Opus 4.7 memimpin GPQA Diamond dan HLE tanpa tools, GPT 5.5 unggul di Terminal Bench 2.0, sedangkan GPT 5.5 Pro memimpin HLE dengan tools dan BrowseComp [6].

Какие ключевые моменты необходимо проверить в первую очередь?

Tidak ada satu pemenang mutlak: Claude Opus 4.7 memimpin GPQA Diamond dan HLE tanpa tools, GPT 5.5 unggul di Terminal Bench 2.0, sedangkan GPT 5.5 Pro memimpin HLE dengan tools dan BrowseComp [6]. Kimi K2.6 perlu dibaca terpisah karena angkanya berasal dari kartu model Hugging Face dan file eval, bukan dari satu tabel head to head yang sama; nilainya mencakup 80,2 di SWE Bench Verified, 58,6 di SWE Bench Pro, d...

Что мне делать дальше на практике?

DeepSeek V4 tidak memuncaki baris benchmark utama yang tersedia, tetapi harga API yang dipublikasikan lebih rendah: US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, dibanding US$5/US$30 untuk GPT 5....

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы

Вопрос исследования

Изучите показатели GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 в бенчмарках. Пожалуйста, сделайте отчёт удобным для чтения.

Studio Global AI40 источники

Цитируемый ответ

Я нашёл сопоставимые данные не по всем четырём моделям в одном и том же независимом тестовом прогоне. Поэтому ниже — аккуратная сводка: GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max сравниваются по одной опубликованной таблице, а Kimi K2.6 добавлен по отдельной карточке модели; прямое сравнение с Kimi нужно считать ориентировочным, а не строго «один к одному» [9][15].

Key findings

  • Claude Opus 4.7 выглядит сильнейшим в GPQA Diamond: 94.2% против 93.6% у GPT-5.5 и 90.1% у DeepSeek-V4-Pro-Max [9].

  • Claude Opus 4.7 также лидирует в Humanity’s Last Exam без инструментов: 46.9% против 41.4% у GPT-5.5, 43.1% у GPT-5.5 Pro и 37.7% у DeepSeek-V4-Pro-Max [9].

  • GPT-5.5 Pro лидирует в Humanity’s Last Exam с инструментами: 57.2% против 54.7% у Claude Opus 4.7, 52.2% у GPT-5.5 и 48.2% у DeepSeek-V4-Pro-Max [9].

  • GPT-5.5 заметно впереди в Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7, 67.9% у DeepSeek-V4-Pro-Max и 66.7% у Kimi K2.6 [9][15].

  • Kimi K2.6 выглядит очень сильной открытой/доступной по весам моделью для coding-бенчмарков: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro, 76.7 на SWE-Bench Multilingual и 66.7 на Terminal-Bench 2.0 [15].

  • DeepSeek-V4-Pro-Max в найденной таблице стабильно ниже GPT-5.5 и Claude Opus 4.7 по GPQA, HLE и Terminal-Bench 2.0, но остаётся близко к Claude в Terminal-Bench 2.0: 67.9% против 69.4% [9].

Сводная таблица

БенчмаркGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek-V4-Pro-MaxKimi K2.6Кто впереди
GPQA Diamond93.6% [9]н/д94.2% [9]90.1% [9]н/дClaude Opus 4.7
Humanity’s Last Exam, без инструментов41.4% [9]43.1% [9]46.9% [9]37.7% [9]н/дClaude Opus 4.7
Humanity’s Last Exam, с инструментами52.2% [9]57.2% [9]54.7% [9]48.2% [9]н/дGPT-5.5 Pro
Terminal-Bench 2.082.7% [9]н/д69.4% [9]67.9% [9]66.7 [15]GPT-5.5
SWE-Bench Verifiedн/дн/дн/дн/д80.2 [15]недостаточно данных
SWE-Bench Proн/дн/дн/дн/д58.6 [15]недостаточно данных
SWE-Bench Multilingualн/дн/дн/дн/д76.7 [15]недостаточно данных

По моделям

GPT-5.5

  • GPT-5.5 показывает лучший найденный результат в Terminal-Bench 2.0 среди сопоставленных моделей: 82.7% [9].

  • GPT-5.5 уступает Claude Opus 4.7 в GPQA Diamond: 93.6% против 94.2% [9].

  • GPT-5.5 уступает Claude Opus 4.7 в Humanity’s Last Exam без инструментов: 41.4% против 46.9% [9].

  • GPT-5.5 Pro, отдельный более сильный режим/вариант в найденной таблице, выходит на первое место в HLE с инструментами: 57.2% [9].

Claude Opus 4.7

  • Claude Opus 4.7 — лидер по GPQA Diamond среди моделей в найденной таблице: 94.2% [9].

  • Claude Opus 4.7 — лидер по HLE без инструментов: 46.9% [9].

  • Claude Opus 4.7 занимает второе место в HLE с инструментами после GPT-5.5 Pro: 54.7% против 57.2% [9].

  • В Terminal-Bench 2.0 Claude Opus 4.7 значительно уступает GPT-5.5: 69.4% против 82.7% [9].

Kimi K2.6

  • Kimi K2.6 имеет сильный профиль в coding-задачах: 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro и 76.7 на SWE-Bench Multilingual [15].

  • Kimi K2.6 набирает 66.7 в Terminal-Bench 2.0, что близко к DeepSeek-V4-Pro-Max 67.9 и Claude Opus 4.7 69.4, но заметно ниже GPT-5.5 82.7 [9][15].

  • Kimi K2.6 в найденных источниках описывается как новая сильная open-weights модель, а её карточка модели приводит отдельную таблицу результатов по coding и agentic-бенчмаркам [14][15].

DeepSeek V4

  • В найденной сопоставимой таблице указана именно версия DeepSeek-V4-Pro-Max, поэтому выводы по DeepSeek V4 лучше читать как выводы по этой конкретной версии, а не обязательно по всей линейке V4 [9].

  • DeepSeek-V4-Pro-Max показывает 90.1% на GPQA Diamond, что ниже GPT-5.5 93.6% и Claude Opus 4.7 94.2% [9].

  • DeepSeek-V4-Pro-Max показывает 37.7% на HLE без инструментов и 48.2% на HLE с инструментами, что ниже GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 в той же таблице [9].

  • В Terminal-Bench 2.0 DeepSeek-V4-Pro-Max набирает 67.9%, что почти на уровне Claude Opus 4.7 69.4%, но существенно ниже GPT-5.5 82.7% [9].

Evidence notes

  • Самая полезная найденная таблица сравнивает DeepSeek-V4-Pro-Max, GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 по GPQA Diamond, HLE и Terminal-Bench 2.0 [9].

  • Для Kimi K2.6 наиболее конкретные найденные цифры идут из карточки модели: Terminal-Bench 2.0 — 66.7, SWE-Bench Pro — 58.6, SWE-Bench Multilingual — 76.7, SWE-Bench Verified — 80.2 и OSWorld-Verified — 73.1 [15].

  • Источник по GPT-5.5 и Claude Opus 4.7 также указывает даты релиза: GPT-5.5 — 23 апреля 2026 года, Claude Opus 4.7 — 16 апреля 2026 года [10].

Limitations / uncertainty

  • Insufficient evidence для полностью строгого сравнения всех четырёх моделей в одном независимом прогоне с одинаковыми настройками, потому что Kimi K2.6 не присутствует в основной найденной таблице вместе с GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max [9][15].

  • Insufficient evidence для уверенного сравнения всех четырёх моделей по SWE-Bench Verified, потому что найденные конкретные SWE-Bench-цифры относятся к Kimi K2.6, а сопоставимые значения для GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max в доступных фрагментах не были полно представлены [15].

  • Результаты по DeepSeek относятся к варианту DeepSeek-V4-Pro-Max, поэтому их не следует автоматически переносить на все версии DeepSeek V4 [9].

Summary

Если смотреть только на найденные сопоставимые бенчмарки, Claude Opus 4.7 сильнее в GPQA и HLE без инструментов, GPT-5.5/GPT-5.5 Pro сильнее в Terminal-Bench 2.0 и HLE с инструментами, а DeepSeek-V4-Pro-Max держится близко к Claude в Terminal-Bench, но уступает в reasoning-тестах [9]. Kimi K2.6 выглядит особенно интересной для coding-сценариев благодаря 80.2 на SWE-Bench Verified и 58.6 на SWE-Bench Pro, но её нельзя строго ранжировать против всех трёх остальных моделей без единого общего тестового прогона [15].

Источники

  • [6] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...

  • [7] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...

  • [14] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [15] DeepSeek V4 Preview: The Complete 2026 Guide - o-mega | AIo-mega.ai

    7. Head-to-Head: DeepSeek V4 vs Claude Opus 4.7 Claude Opus 4.7, released just eight days before DeepSeek V4 on April 16, represents Anthropic's most capable model and the current leader in agentic coding tasks. The comparison with V4-Pro reveals a more nua...

  • [19] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com

    DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...

  • [25] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co

    OSWorld-Verified 73.1 75.0 72.7 63.3 Coding Terminal-Bench 2.0 (Terminus-2) 66.7 65.4 65.4 68.5 50.8 SWE-Bench Pro 58.6 57.7 53.4 54.2 50.7 SWE-Bench Multilingual 76.7 77.8 76.9 73.0 SWE-Bench Verified 80.2 80.8 80.6 76.8 SciCode 52.2 56.6 51.9 58.9 48.7 OJ...

  • [33] Terminal-Bench 2.0 Leaderboardllm-stats.com

    Model Score Size Context Cost License --- --- --- 1 Anthropic Claude Mythos Preview Anthropic 0.820 — — $25.00 / $125.00 2 OpenAI GPT-5.3 Codex OpenAI 0.773 — 400K $1.75 / $14.00 3 OpenAI GPT-5.4 OpenAI 0.751 — 1.0M $2.50 / $15.00 4 Anthropic Claude Opus 4....

  • [37] .eval_results/swe_bench_verified.yaml · moonshotai/Kimi-K2.6 at mainhuggingface.co

    Hugging Face's logo moonshotai / Kimi-K2.6 like 1.04k Follow Moonshot AI 9.2k bigeagle's picture --- - dataset: id: SWE-bench/SWE-bench\ Verified task\ id: swe\ bench\ %\ resolved value: 80.2 date: '2026-04-20' source: url: name: Model Card user: SaylorTwift