Kimi K2.6 можно использовать через Cloudflare Workers AI и Kimi API, но эти источники подтверждают прежде всего доступность модели, а не улучшение качества.[1][2]
Главный сигнал — код: BenchLM ставит Kimi 2.6 на 13 е место из 110 в предварительном общем рейтинге с 83/100, а в coding/programming — на 6 е из 110 со средним 89,8; сам рейтинг помечен как provisional.[3]
Проверяемые числа сейчас идут от BenchLM: Kimi 2.6 — 13 из 110 в общем предварительном рейтинге с 83/100 и 6 из 110 в coding/programming со средним баллом 89,8.[4]
По опубликованным данным OpenAI, GPT 5.5 набирает 84,9 % в GDPval против 83,0 % у GPT 5.4 — это заметный, но скорее инкрементальный прирост.[14][12]
Не стоит читать эти данные как окончательный рейтинг «лучшей модели»: настройки вывода, даты оценки и методики у источников различаются.
Строгого общего рейтинга для всех четырех моделей сейчас не получается: в одной таблице OpenAI Claude Opus 4.7 выше GPT 5.5 на SWE Bench Pro — 64,3% против 58,6%, зато GPT 5.5 выше на Terminal Bench 2.0 — 82...
Публичные данные не дают полного очного матча: Opus 4.7 лидирует в GDPval AA с 1 753 Elo, а GPT 5.5 имеет 59, 51 и 41 балл в Intelligence Index для high, low и non reasoning, плюс интеграцию с ChatGPT и Code...
Claude Opus 4.7 сейчас выглядит более готовым вариантом для корпоративного API пилота: Anthropic указывает API, многооблачные каналы, цену $5/$25 за 1 млн входных/выходных токенов, окно 1 млн токенов и крупн...
Самый устойчиво подтверждённый показатель Claude Opus 4.7 в доступных источниках — 87,6 % на SWE bench Verified.
Claude Opus 4.7 выглядит лучшим первым кандидатом, если важнее всего качество: в сопоставимых данных он впереди GPT 5.5 и DeepSeek V4 на HLE, а CodeRouter даёт ему 64,3% на SWE Bench Pro [3][16].
LLM Stats: Claude Opus 4.7 ведёт в 6 из 10 общих бенчмарков, GPT 5.5 — в 4; BenchLM предупреждает, что данных пока недостаточно для честного score level сравнения.[1][3]
Единого победителя нет: Claude Opus 4.7 впереди на SWE Bench Pro — 64,3% против 58,6%, а GPT 5.5 лидирует на Terminal Bench 2.0 — 82,7% против 69,4%; эти цифры полезны для первичного отбора, но не заменяют в...