| GPQA | 94,2 % | Значение явно указано у LLM-Stats, но в доступном фрагменте страницы Anthropic сама таблица бенчмарков не видна. |
| SWE-bench Multilingual | 80,5 % | Отдельный источник приводит этот результат и сравнивает его с 77,8 % у Opus 4.6; из-за более тонкой источниковой базы показатель лучше считать предварительным ориентиром. |
Эта таблица намеренно консервативна: в неё включены только цифры, которые прямо встречаются в предоставленных публичных источниках. Для закупки, миграции или выбора модели под продакшн она не заменяет собственные тесты на реальных задачах.
Показатель 87,6 % на SWE-bench Verified — наиболее надёжно подтверждённая цифра для Claude Opus 4.7 в доступной источниковой базе: её называют и материал о миграции и бенчмарках, и LLM-Stats.
LLM-Stats также описывает этот результат как прирост на 6,8 процентного пункта по сравнению с Opus 4.6. ALM Corp, в свою очередь, пишет, что Opus 4.7 усиливает производительность на сложных задачах кодинга и агентных рабочих процессах.
Практический вывод для инженерных команд простой: если нужен внешний ориентир по задачам разработки, начинать логично с SWE-bench Verified. Но это только стартовая точка. Важнее проверить, как модель работает именно с вашим репозиторием, вашей цепочкой инструментов и вашими критериями приёмки.
Значение 94,2 % на GPQA явно указано у LLM-Stats. При этом официальный материал Anthropic важен как первичный источник о релизе, но в доступном фрагменте он подтверждает прежде всего то, что разработчики могут использовать
claude-opus-4-7 через Claude API; полностью цитируемая таблица бенчмарков в предоставленной выдержке не видна.
Поэтому GPQA здесь стоит воспринимать как значимый дополнительный сигнал, но не как столь же устойчивый ориентир, как SWE-bench Verified. Если GPQA — важный критерий для покупки или миграции, показатель лучше перепроверить по первичным материалам или на собственном наборе задач.
Для команд, работающих с многоязычными стеками и международными кодовыми базами, интересен показатель 80,5 % на SWE-bench Multilingual. Один из источников указывает именно это значение и сравнивает его с 77,8 % для Opus 4.6.
Ограничение здесь существенное: этот результат встречается в доступных источниках не так широко, как SWE-bench Verified. Его можно использовать как подсказку, но не как окончательное доказательство преимущества модели в ваших условиях.
Claude Opus 4.7 позиционируется не только через проценты. VentureBeat описывает релиз как выпуск самой мощной на тот момент публично доступной большой языковой модели Anthropic. ALM Corp называет Opus 4.7 общедоступной моделью Opus для сложного кодинга, агентных задач, работы с документами, Vision-сценариев и профессиональных процессов.
При реальном выборе модели могут оказаться не менее важны характеристики, которые в лидерборде легко потерять:
xhigh. Последний пункт особенно важен для продакшена: если токенизация меняется, могут измениться расчёты стоимости, лимитов и задержек. Поэтому перед миграцией стоит проверять не только качество ответов, но и фактический расход токенов на типичных запросах.
Для кодинга. Берите SWE-bench Verified как основной публичный ориентир: 87,6 % — самый хорошо подтверждённый показатель в этой подборке.
Для агентных сценариев. Смотрите не только на SWE-bench, но и на заявленное усиление сложных coding- и agentic-workflows, а также на режим xhigh.
Для общего reasoning. GPQA выглядит важным индикатором, но конкретное значение 94,2 % в этой подборке подтверждено менее широко, чем SWE-bench Verified.
Для многоязычных кодовых баз. SWE-bench Multilingual на уровне 80,5 % — полезная зацепка, но из-за более узкой источниковой базы её стоит перепроверять.
Для миграции в продакшене. Тестируйте не только задачи, похожие на бенчмарки. Проверьте длинный контекст, использование инструментов, Vision-кейсы, токенизацию, задержки и стоимость на реальных рабочих процессах. Характеристики вроде контекстного окна, Vision-обработки, xhigh и нового токенизатора могут повлиять на итоговый опыт не меньше, чем один высокий процент в таблице.
Сжатая и аккуратная оценка такая: Claude Opus 4.7 публично фигурирует с 87,6 % на SWE-bench Verified, 94,2 % на GPQA и 80,5 % на SWE-bench Multilingual. Самый прочный ориентир — SWE-bench Verified, потому что этот результат подтверждается несколькими источниками.
GPQA и SWE-bench Multilingual добавляют важный контекст, но в доступной подборке источников подтверждены менее широко. Поэтому публичные бенчмарки лучше использовать как фильтр для предварительного отбора, а не как замену собственной оценке на реальных задачах.
Comments
0 comments