Anthropic также сохранила цены Opus 4.8 на уровне Opus 4.7 — без какого-либо повышения, несмотря на значительный рост производительности . Для сравнения, GPT-5.5 вдвое увеличила стоимость API по сравнению с предшественницей GPT-5.4, хотя в OpenAI утверждают, что повышение эффективности токенов делает реальный рост затрат ближе к 20%
.
Все три модели поддерживают кеширование запросов с экономией около 90% на кешированных входных токенах и предлагают пакетную обработку со скидкой 50% .
У GPT-5.5 также есть уровень Pro по цене $30/$180 за миллион токенов, ориентированный на задачи исследовательского уровня . У Claude Opus аналогов этому уровню нет.
Прямое сравнение моделей осложняется разными версиями бенчмарков и протоколами тестирования. Там, где можно сопоставить результаты одного и того же теста, Opus 4.8 опережает GPT-5.5 в наиболее важных для разработчиков областях.
| Бенчмарк | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Verified (кодинг) | 88.6% | 87.6% | Прямое сравнение невозможно |
| SWE-bench Pro (автономный кодинг) | 69.2% | 64.3% | 58.6% |
| Terminal-Bench 2.1 | 74.6% | — | — |
| Terminal-Bench 2.0 | — | 69.4% | 82.7% |
| Мультидисциплинарное мышление (с инструментами) | 57.9% | 54.7% | Прямое сравнение невозможно |
| Мультидисциплинарное мышление (без инструментов) | ~62.1% | — | — |
| GPQA Diamond (научные задачи) | 93.6% | 94.2% | — |
| MMLU (общие знания) | — | 91.3% | — |
| AIME 2024 (мат. олимпиада) | — | 99.8% | — |
| CursorBench | Наивысший | Базовый | — |
| GDPval-AA (интеллект. работа) | 1890 | 1753 | 1769 |
| Super-Agent (полное выполнение) | 100% | — | Не 100% |
| Автономное управление ПК | 83.4% | 82.8% | 78.7% |
SWE-bench Pro — самый авторитетный бенчмарк для задач реальной программной инженерии, и Opus 4.8 набирает 69.2% против 58.6% у GPT-5.5 — преимущество в 10,6 процентных пункта . Предыдущая версия Opus 4.7 уже была впереди с результатом 64.3%, а Opus 4.8 лишь увеличивает этот отрыв. В анонсе Anthropic отмечается более быстрое выполнение задач и в 4 раза меньше ошибок в коде по сравнению с предыдущими моделями
.
Этот бенчмарк требует внимательного прочтения. GPT-5.5 показала 82.7% на Terminal-Bench 2.0 , в то время как 74.6% у Opus 4.8 были измерены на Terminal-Bench 2.1, более новой версии
. Прямое сравнение здесь некорректно. Более того, заявление OpenAI о 82.7% подверглось критике; в тот же день таблица лидеров от создателей бенчмарка показывала результат 82.0% ± 2.2
. Opus 4.7 набрал 69.4% на Terminal-Bench 2.0
, а независимые тесты иногда показывали, что GPT-5.5 уступает GPT-5.4 по этому показателю
.
В тесте GDPval-AA, оценивающем интеллектуальную работу, Opus 4.8 достигает рейтинга Эло в 1890 баллов по сравнению с 1769 у GPT-5.5 — преимущество примерно в 7% . Opus 4.8 также стала первой моделью, показавшей 100% выполнение в бенчмарке Super-Agent от Anthropic. Это значит, что она успешно справилась со всеми сквозными автономными задачами в тестовом наборе
. GPT-5.5 не достигла 100%.
В тесте на автономное управление компьютером (OSWorld-Verified) результаты близки: Opus 4.8 — 83.4%, GPT-5.5 — 78.7%, Opus 4.7 — 82.8% . Это улучшения в пределах нескольких процентных пунктов, а не революционный скачок.
Освещение бенчмарков у GPT-5.5 слабее по тем тестам, которые Anthropic опубликовала с Opus 4.8, отчасти потому, что OpenAI фокусируется на других метриках. В тесте GPQA Diamond (научное мышление уровня аспирантуры) Opus 4.7 показал 94.2% , в то время как более ранние сравнения демонстрировали небольшое преимущество GPT-5.4 над Opus 4.7 в чисто математическом мышлении и некоторых тестах на запоминание
. Прямого сравнения GPQA между Opus 4.8 и GPT-5.5 пока нет, хотя результат Opus 4.8 заявлен на уровне 93.6%
.
OpenAI также утверждает, что GPT-5.5 использует примерно на 40% меньше выходных токенов на одну задачу по кодингу, что может частично компенсировать более высокую цену за токен при определенных сценариях использования .
| Характеристика | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| Контекстное окно | 1M токенов | 1M токенов | 1M токенов |
| Быстрый режим | Ускорение в 2,5× ($10/$50) | Ускорение в 2,5× ($10/$50) | Н/Д |
| Дата выхода | 28 мая 2026 | 16 апр. 2026 | 23 апр. 2026 |
| Скидка за пакетную обработку | 50% | 50% | 50% (Flex) |
| Кеширование запросов | Да (до 90% скидки) | Да (до 90% скидки) | Да (90% скидки) |
Все три модели сходятся на контекстном окне в 1 миллион токенов, хотя Anthropic указывает максимальный вывод Opus 4.8 в 128К токенов за запрос . Максимальный вывод GPT-5.5 составляет 32К токенов
.
Быстрый режим Claude является опциональным и работает с ускорением примерно в 2,5 раза. В Anthropic говорят, что быстрый режим для Opus 4.8 в три раза дешевле быстрой обработки предыдущих поколений Opus . У GPT-5.5 аналогичного тарифа с повышенной скоростью нет.
К результатам независимых бенчмарков следует относиться с пониманием их ограничений:
Выбирайте Claude Opus 4.8, если: в вашей работе преобладают задачи на автономное программирование, управление компьютером, интеллектуальный анализ или операции с большими объемами текста. Модель лидирует по всем общим бенчмаркам, где возможно сравнение, и стоит столько же, сколько и Opus 4.7.
Выбирайте GPT-5.5, если: вы глубоко интегрированы в экосистему OpenAI, вам важнее всего чисто математическое мышление, или вы рассчитываете, что экономия токенов компенсирует более высокую цену за токен в ваших конкретных задачах.
Оставайтесь на Opus 4.7, если: вам нужен передовой автономный кодинг (64.3% в SWE-bench Pro все еще значительно опережает GPT-5.5), а специфические улучшения Opus 4.8 не критичны — но, учитывая идентичную цену, причин не обновляться практически нет.
Для разработчиков, запускающих агентов с большим объемом вывода или анализирующих длинные документы, более низкая на 17% стоимость вывода у Claude Opus и фиксированные тарифы на длинный контекст создают ощутимую разницу в ежемесячных счетах за API.
Comments
0 comments