Строгого общего рейтинга для всех четырех моделей сейчас не получается: в одной таблице OpenAI Claude Opus 4.7 выше GPT 5.5 на SWE Bench Pro — 64,3% против 58,6%, зато GPT 5.5 выше на Terminal Bench 2.0 — 82...
Kimi K2.6 особенно выделяется в задачах программирования: MLQ.ai приводит 58,6 на SWE Bench Pro и 65,8% pass@1 на SWE bench Verified, но независимые оценки пока предварительные [8][9].
Kimi K2.6 — главный кандидат для первого теста в высокообъёмных coding agent сценариях: OpenRouter указывает 262 144 токена контекста и $0,75/$3,50 за 1 млн входных/выходных токенов, а effective pricing — $0...
Единого честного рейтинга пока нет: числа собраны из разных источников и при разных условиях.
Claude Opus 4.7 выглядит лучшим первым кандидатом, если важнее всего качество: в сопоставимых данных он впереди GPT 5.5 и DeepSeek V4 на HLE, а CodeRouter даёт ему 64,3% на SWE Bench Pro [3][16].
В кодинге публичная таблица DeepSeek показывает преимущество DS V4 Pro Max: LiveCodeBench Pass@1 — 93,5 против 89,6 у Kimi K2.6 Thinking [18][35].
Официально для GPT 5.5 подтверждены 82,7% на Terminal Bench 2.0 и 58,6% на SWE Bench Pro; для DeepSeek V4 официально подтверждена прежде всего доступность V4 Pro и V4 Flash в API [24][25].
Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro.
Для практического кодирования и правки репозиториев первым кандидатом выглядит Kimi K2.6: в LLM Coding Benchmark от AkitaOnRails модель набрала 87 баллов и попала в Tier A, тогда как DeepSeek V4 Flash получи...
Честного рейтинга 1–4 пока нет: Artificial Analysis дает Claude Opus 4.7 57 баллов, GPT 5.5 xhigh — 60, а LLM Stats показывает, что Claude и GPT 5.5 выигрывают разные наборы тестов [12][14][15].
Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond (94.2%) и HLE без инструментов (46.9%), GPT 5.5 — в Terminal Bench 2.0 (82.7%), а GPT 5.5 Pro — в HLE с инструментами (57.2%) и BrowseComp (90....
В прямых таблицах GPT 5.5 заметно сильнее в Terminal Bench 2.0: 82,7% против 69,4% у Claude Opus 4.7, а Claude лидирует в SWE Bench Pro Public: 64,3% против 58,6% [5].