ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20269 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6, dan DeepSeek V4: peta kekuatan benchmark

Tidak ada pemenang tunggal: GPT 5.5 memimpin ARC AGI 2 dengan 85% vs 75,8% untuk Claude, dan Terminal Bench 2.0 dengan 82,7%; Claude Opus 4.7 lebih kuat di HLE dan SWE Bench Pro.[1][3][9] Kimi K2.6 paling tepat dibaca sebagai kandidat coding dan agentic yang kuat: skornya 54 di Artificial Analysis dan 87 di benchmar...

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

18K0

Сравнение четырёх AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 на фоне графиков бенчмарков — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахСравнение бенчмарков показывает не одного абсолютного лидера, а разные сильные стороны моделей.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro; вывод ограничен тем, что источники сравнивают разные режим.... Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.
openai.com

Membandingkan GPT-5.5, Claude Opus 4.7, Kimi K2.6, dan DeepSeek V4 tidak bisa disederhanakan menjadi satu papan peringkat. Benchmark yang tersedia memakai tugas, mode model, dan sumber yang berbeda. Namun polanya cukup jelas: GPT-5.5 paling menonjol di ARC dan tugas terminal bergaya agen, Claude Opus 4.7 kuat di HLE dan SWE-Bench Pro, Kimi K2.6 kompetitif untuk coding dan skenario open-weight, sedangkan DeepSeek V4 bukan pemimpin skor tertinggi tetapi sangat menarik dari sisi biaya API.^[1]^[2]^[3]^[4]^[6]^[8]^[9]^[13]

Jawaban cepat: pilih berdasarkan pekerjaan, bukan gengsi model

GPT-5.5 layak diuji lebih dulu untuk tugas ARC, visual reasoning, dan agen berbasis terminal. DocsBot mencatat 85% pada ARC-AGI-2 untuk GPT-5.5, dibanding 75,8% untuk Claude Opus 4.7; VentureBeat mencatat 82,7% pada Terminal-Bench 2.0 untuk GPT-5.5, dibanding 69,4% untuk Claude dan 67,9% untuk DeepSeek.^[1]^[3]
Claude Opus 4.7 terlihat paling kuat di beberapa benchmark penalaran berat dan software engineering. VentureBeat menempatkan Claude di atas GPT-5.5 dan DeepSeek pada Humanity’s Last Exam, baik tanpa alat maupun dengan alat, sementara DataCamp mencatat 64,3% pada SWE-Bench Pro, di atas 58,6% untuk GPT-5.5 dan 55,4% untuk DeepSeek V4 Pro.^[3]^[9]
Kimi K2.6 adalah kandidat kuat untuk coding dan agentic workload, tetapi lebih sedikit muncul dalam tabel yang benar-benar sejajar dengan tiga model lain. Di Artificial Analysis, Kimi K2.6 mendapat skor 54, di bawah GPT-5.5 medium dengan 57 tetapi di atas Claude Opus 4.7 non-reasoning high dengan 52.^[13]
DeepSeek V4 lebih tepat dibaca sebagai opsi price-performance. Mashable mencatat harganya US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, lebih rendah daripada GPT-5.5 di US$5/US$30 dan Claude Opus 4.7 di US$5/US$25.^[2]

Tabel perbandingan benchmark

Tanda — berarti sumber yang tersedia tidak memberikan angka yang benar-benar sebanding untuk model tersebut.

Benchmark / sumber	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Makna praktis
ARC-AGI-2, DocsBot	85%	75,8%	—	—	GPT-5.5 unggul 9,2 poin persentase atas Claude.^[1]
ARC-AGI-1, DocsBot	95%	93,5%	—	—	GPT-5.5 sedikit di atas Claude.^[1]
Leaderboard Artificial Analysis	57, GPT-5.5 medium	52, Claude Opus 4.7 non-reasoning high	54	—	Pada irisan ini, GPT-5.5 di atas Kimi dan mode Claude yang tercantum; DeepSeek V4 tidak muncul di cuplikan yang tersedia.^[13]
Humanity’s Last Exam tanpa alat, VentureBeat	41,4%	46,9%	—	37,7%	Claude memimpin di baris dasar yang ditampilkan.^[3]
Humanity’s Last Exam dengan alat, VentureBeat	52,2%; GPT-5.5 Pro 57,2%	54,7%	—	48,2%	Claude di atas GPT-5.5 dasar, tetapi baris GPT-5.5 Pro berada di atas Claude.^[3]
Terminal-Bench 2.0, VentureBeat	82,7%	69,4%	—	67,9%	Ini salah satu kemenangan paling jelas untuk GPT-5.5.^[3]
SWE-Bench Pro, DataCamp	58,6%	64,3%	—	55,4%, DeepSeek V4 Pro	Claude unggul atas GPT-5.5 dan DeepSeek V4 Pro.^[9]
SWE-Bench Verified, Verdent	—	87,6%	80,2%	—	Claude di atas Kimi pada irisan coding ini.^[6]
Benchmark coding, AkitaOnRails	96, GPT-5.5 xHigh/Codex	97	87	78, V4 Flash; 69, V4 Pro	Claude dan GPT-5.5 hampir setara; Kimi di atas dua baris DeepSeek V4.^[8]

Mengapa tidak ada juara mutlak

Masalah utamanya bukan kurangnya angka, melainkan tidak semua angka mengukur hal yang sama. Artificial Analysis membandingkan GPT-5.5 medium, Kimi K2.6, dan Claude Opus 4.7 non-reasoning high. AkitaOnRails memakai GPT-5.5 xHigh/Codex serta membedakan DeepSeek V4 Flash dan DeepSeek V4 Pro. VentureBeat bahkan memisahkan baris GPT-5.5 dan GPT-5.5 Pro.^[13]^[8]^[3]

Karena itu, angka tertinggi di satu tabel tidak otomatis berarti model terbaik untuk semua pekerjaan. LLM Stats menulis bahwa dari 10 benchmark yang dilaporkan oleh kedua penyedia, Claude Opus 4.7 unggul pada 6 benchmark, sementara GPT-5.5 unggul pada 4. Kemenangan Claude terkonsentrasi pada tes reasoning-heavy dan review-grade, sedangkan kemenangan GPT-5.5 terkonsentrasi pada long-running tool-use dan tugas shell-driven.^[4]

Area yang paling kuat untuk GPT-5.5

Sinyal paling jelas untuk GPT-5.5 datang dari ARC dan Terminal-Bench. Pada ARC-AGI-2, GPT-5.5 mencatat 85% dibanding 75,8% untuk Claude Opus 4.7; pada ARC-AGI-1, GPT-5.5 mencatat 95% dibanding 93,5% untuk Claude.^[1]

Di Terminal-Bench 2.0, GPT-5.5 mencapai 82,7%, jauh di atas Claude Opus 4.7 dengan 69,4% dan DeepSeek dengan 67,9%.^[3] Untuk tim yang banyak menguji agen berbasis terminal, pemakaian alat, atau alur kerja shell, angka ini lebih relevan daripada benchmark umum yang tidak menyentuh cara kerja tersebut.

Artificial Analysis juga menempatkan GPT-5.5 medium di atas dua pesaing yang muncul pada cuplikan yang sama: skor 57 untuk GPT-5.5 medium, 54 untuk Kimi K2.6, dan 52 untuk Claude Opus 4.7 non-reasoning high.^[13] Namun ini bukan peringkat universal untuk semua mode model; LLM Stats tetap menunjukkan Claude unggul di sebagian tes reasoning dan software engineering.^[4]

Area yang paling kuat untuk Claude Opus 4.7

Claude Opus 4.7 terlihat paling meyakinkan saat tugasnya menuntut penalaran berat dan pemeriksaan kode yang rumit. Pada Humanity’s Last Exam tanpa alat, VentureBeat mencatat Claude di 46,9%, GPT-5.5 di 41,4%, dan DeepSeek di 37,7%. Dengan alat diaktifkan, Claude berada di 54,7%, GPT-5.5 di 52,2%, dan DeepSeek di 48,2%.^[3]

Pada SWE-Bench Pro, DataCamp mencatat 64,3% untuk Claude Opus 4.7, 58,6% untuk GPT-5.5, dan 55,4% untuk DeepSeek V4 Pro.^[9] Ini sejalan dengan ringkasan LLM Stats, yang menyebut Claude memimpin GPT-5.5 pada GPQA, HLE tanpa alat, HLE dengan alat, SWE-Bench Pro, MCP Atlas, dan FinanceAgent v1.1.^[4]

Cara membaca Kimi K2.6

Kimi K2.6 sulit dimasukkan ke satu ranking penuh bersama GPT-5.5, Claude Opus 4.7, dan DeepSeek V4 karena ia tidak selalu muncul di tabel yang sama. Dalam cuplikan Artificial Analysis, Kimi K2.6 mencatat skor 54, di bawah GPT-5.5 medium dengan 57, tetapi di atas Claude Opus 4.7 non-reasoning high dengan 52.^[13]

Pada benchmark coding AkitaOnRails, Kimi K2.6 mencatat skor 87. Angka itu di bawah Claude Opus 4.7 dengan 97 dan GPT-5.5 xHigh/Codex dengan 96, tetapi di atas DeepSeek V4 Flash dengan 78 dan DeepSeek V4 Pro dengan 69.^[8] Dalam perbandingan Verdent untuk SWE-Bench Verified, Claude Opus 4.7 tercatat 87,6%, sedangkan Kimi K2.6 80,2%.^[6]

Nilai pembeda Kimi adalah jalur open-weight. Verdent menulis bahwa bobot K2.6 tersedia di Hugging Face dan dapat dijalankan melalui vLLM, SGLang, atau KTransformers; sumber yang sama menyebut konfigurasi minimal yang layak adalah 4× H100 untuk varian INT4 dengan konteks yang dikurangi.^[6] README di Hugging Face juga mencantumkan metrik agentic untuk Kimi K2.6 seperti HLE-Full dengan alat 54,0, BrowseComp 83,2, DeepSearchQA f1-score 92,5, Toolathlon 50,0, dan MCPMark 55,9, tetapi tabel itu terutama membandingkan Kimi dengan GPT-5.4, Claude Opus 4.6, dan Gemini 3.1 Pro, bukan dengan seluruh model dalam ulasan ini.^[25]

Cara membaca DeepSeek V4

Dalam sumber yang tersedia, DeepSeek V4 lebih sering terlihat sebagai model value daripada pemimpin raw score. VentureBeat menempatkan DeepSeek di bawah GPT-5.5 dan Claude Opus 4.7 pada HLE tanpa alat, HLE dengan alat, dan Terminal-Bench 2.0.^[3] DataCamp mencatat DeepSeek V4 Pro di 55,4% pada SWE-Bench Pro, di bawah GPT-5.5 dengan 58,6% dan Claude Opus 4.7 dengan 64,3%.^[9]

Gambarannya serupa di AkitaOnRails: DeepSeek V4 Flash mendapat skor 78 dan DeepSeek V4 Pro 69, lebih rendah daripada Kimi K2.6, GPT-5.5 xHigh/Codex, dan Claude Opus 4.7 dalam tabel yang sama.^[8]

Tetapi harga mengubah cara menilai produk. Mashable mencatat DeepSeek V4 berbiaya US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, sementara GPT-5.5 tercatat US$5/US$30 dan Claude Opus 4.7 US$5/US$25.^[2] Jadi, DeepSeek V4 bukan pemenang benchmark tertinggi dalam data ini, tetapi tetap pantas diuji ketika biaya per percobaan lebih penting daripada mengejar skor maksimum.

Model mana yang sebaiknya diuji lebih dulu?

ARC, visual reasoning, dan puzzle abstrak: mulai dari GPT-5.5, karena ia lebih tinggi daripada Claude Opus 4.7 pada ARC-AGI-2 dan ARC-AGI-1 dalam perbandingan DocsBot.^[1]
Hard reasoning dan tugas bergaya HLE: mulai dari Claude Opus 4.7 jika membandingkan baris model dasar; namun perhatikan bahwa VentureBeat menampilkan GPT-5.5 Pro di atas Claude pada HLE dengan alat.^[3]
Agen terminal, shell-driven workflow, dan tool-use: mulai dari GPT-5.5, karena Terminal-Bench 2.0 adalah salah satu hasil langsung terkuatnya dalam sumber yang tersedia.^[3]^[4]
SWE-Bench Pro dan software engineering yang berat di review: mulai dari Claude Opus 4.7, karena DataCamp dan LLM Stats sama-sama menunjukkan keunggulan Claude di SWE-Bench Pro.^[9]^[4]
Open-weight atau self-hosted coding/agentic scenario: uji Kimi K2.6 jika kemampuan menjalankan bobot melalui Hugging Face, vLLM, SGLang, atau KTransformers lebih penting daripada akses API saja.^[6]
Eksperimen volume tinggi dengan anggaran ketat: pertimbangkan DeepSeek V4 jika biaya per token lebih menentukan daripada raw benchmark score tertinggi.^[2]^[3]^[9]

Kesimpulan

Jika hanya melihat peta benchmark yang tersedia, dua model teratas adalah GPT-5.5 dan Claude Opus 4.7, tetapi kekuatan mereka berbeda. GPT-5.5 lebih menonjol di ARC dan Terminal-Bench, sedangkan Claude Opus 4.7 lebih kuat di HLE dan SWE-Bench Pro.^[1]^[3]^[4]^[9]

Kimi K2.6 tetap menarik sebagai kandidat coding dan agentic, terutama ketika jalur open-weight atau self-hosted menjadi kebutuhan, meski perbandingan langsung lintas empat model masih lebih terbatas.^[6]^[8]^[13] DeepSeek V4 lebih rendah pada banyak raw score yang tercantum, tetapi harga API-nya membuatnya relevan untuk pilot price-performance dan eksperimen berskala besar.^[2]^[3]^[9]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Tidak ada pemenang tunggal: GPT 5.5 memimpin ARC AGI 2 dengan 85% vs 75,8% untuk Claude, dan Terminal Bench 2.0 dengan 82,7%; Claude Opus 4.7 lebih kuat di HLE dan SWE Bench Pro.[1][3][9]
Kimi K2.6 paling tepat dibaca sebagai kandidat coding dan agentic yang kuat: skornya 54 di Artificial Analysis dan 87 di benchmark coding AkitaOnRails, tetapi perbandingan langsung dengan semua pesaing masih lebih ter...
DeepSeek V4 lebih sering kalah di raw score pada data yang tersedia, tetapi harga API nya jauh lebih rendah: US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, dibanding US$5/US$30 untuk GPT 5.5 dan U...

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5, Claude Opus 4.7, Kimi K2.6, dan DeepSeek V4: peta kekuatan benchmark»?

Tidak ada pemenang tunggal: GPT 5.5 memimpin ARC AGI 2 dengan 85% vs 75,8% untuk Claude, dan Terminal Bench 2.0 dengan 82,7%; Claude Opus 4.7 lebih kuat di HLE dan SWE Bench Pro.[1][3][9]

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

DeepSeek V4 lebih sering kalah di raw score pada data yang tersedia, tetapi harga API nya jauh lebih rendah: US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, dibanding US$5/US$30 untuk GPT 5.5 dan U...

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Northwest и Southeast timber: почему ответ — «larger; larger»».

Открыть связанную страницу

Продолжайте свое исследование

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года

Claude Opus 4.7 против GPT-5.5, DeepSeek V4 и Kimi K2.6: кто сильнее по бенчмаркам

Northwest и Southeast timber: почему ответ — «larger; larger»

Почему при большей заменяемости Northwest и Southeast timber обе эластичности становятся larger

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek против OpenAI, Claude, Gemini и Grok: решат цена и доверие, а не рейтинги

Сможет ли DeepSeek обойти OpenAI, Claude, Gemini и Grok?

Illustration of an AI coding agent connected to cloud database and backup systems

Инцидент PocketOS: что на самом деле показывает история с Claude, Cursor и удалённой базой

Удаление базы PocketOS: урок не в том, что «ИИ сошёл с ума»

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI26 апр. 202627 источники

Цитируемый ответ

По доступным фрагментам доказательств полноценное сравнение всех четырёх моделей “один к одному” сделать нельзя: есть частичные данные для GPT-5.5, Claude Opus 4.7 и Kimi K2.6, но в предоставленных источниках нет сопоставимых бенчмарков для DeepSeek V4. В имеющихся данных GPT-5.5 выглядит сильнее Claude Opus 4.7 на ARC-AGI-2 и немного выше Kimi K2.6 в общем рейтинге Artificial Analysis, а Kimi K2.6 имеет сильные отдельные результаты на агентных и coding-бенчмарках.

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Если опираться только на предоставленные данные, GPT-5.5 выглядит лидером в имеющихся прямых сравнениях: он выше Claude Opus 4.7 на ARC-AGI-2 и выше Kimi K2.6 в фрагменте Artificial Analysis ^[5]^[6]. Kimi K2.6 имеет сильные подтверждённые результаты на агентных и coding-бенчмарках, включая SWE-bench Verified 65.8 ^[3]. Для DeepSeek V4 в предоставленных данных недостаточно benchmark-информации, поэтому корректно сравнить его с остальными по бенчмаркам невозможно ^[7].

Источники

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...

Популярное в «Открыть»

ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20269 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6, dan DeepSeek V4: peta kekuatan benchmark

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

18K0