| Нагрузка, чувствительная к стоимости | DeepSeek V4-Pro | DataCamp приводит цену $1,74 за 1 млн входных токенов и $3,48 за 1 млн выходных токенов у DeepSeek V4-Pro против $5 и $25 у Claude Opus 4.7 |
| Длинный контекст | Почти паритет по имеющимся данным | Anthropic описывает Claude Opus 4.7 как модель с контекстом 1 млн токенов; OpenRouter указывает 1,05 млн токенов для DeepSeek V4 Pro |
| Сводные лидерборды | Claude Opus 4.7 | BenchLM даёт Claude Opus 4.7 общий score 97/100, а DeepSeek V4 Pro High — 83 в той же системе |
DeepSeek V4 — это не одна-единственная конфигурация. В официальных материалах DeepSeek упоминаются DeepSeek-V4-Pro и DeepSeek-V4-Flash, а также отдельно отмечено, что deepseek-chat и deepseek-reasoner сейчас route’ятся на deepseek-v4-flash .
Именно поэтому числа V4-Pro нельзя автоматически переносить на V4-Flash или на endpoint, который провайдер маршрутизирует иначе. Для разработчика это не академическая мелочь: в продакшене важна не только строка в leaderboard, но и то, какая модель реально отвечает на запросы .
Если главный KPI — не «написать красивый фрагмент кода», а закрыть issue в настоящем кодовом репозитории, SWE-bench важнее большинства общих coding-бенчмарков. Он ближе к задачам, где нужно понять существующий проект, внести патч и пройти тесты.
По стороннему сравнению Claude Opus 4.7 набирает 87,6% на SWE-bench Verified и 64,3% на SWE-bench Pro. У DeepSeek V4-Pro в тех же пунктах указаны 80,6% и 55,4% . Разрыв не означает, что Claude всегда напишет лучший код, но для сценариев «почини репозиторий и доведи до passing tests» это сильный аргумент в пользу Opus 4.7.
Позиционирование Anthropic тоже идёт в эту сторону: Claude Opus 4.7 описывается как hybrid reasoning model для coding и AI agents с контекстным окном 1 млн токенов . Anthropic также заявляет, что Opus 4.7 улучшил результат на 13% относительно Opus 4.6 на внутреннем coding-бенчмарке из 93 задач
. Но это именно внутренний тест Anthropic, поэтому его лучше воспринимать как продуктовый сигнал, а не как независимое доказательство абсолютного превосходства над DeepSeek
.
В соревновательном программировании картина другая. В том же сравнении DeepSeek V4-Pro получает 93,5 на LiveCodeBench против 88,8 у Claude Opus 4.7; для V4-Pro также указан рейтинг Codeforces 3206 .
LiveCodeBench и Codeforces лучше отражают задачи вроде алгоритмических контестов, генерации самостоятельных решений и обучения программированию. Но их не стоит подменять SWE-bench: решение олимпиадной задачи и аккуратный патч в большом проекте — разные навыки, даже если оба выглядят как «coding» .
Практический вывод простой: если вы строите продукт для разбора алгоритмов, генерации contest-решений или тренировки разработчиков на задачах, DeepSeek V4-Pro должен быть очень высоко в shortlist .
Для агентных систем Claude Opus 4.7 имеет конкретную продуктовую функцию — task budgets. Anthropic описывает её как способ задать примерный бюджет токенов на полный агентный цикл: reasoning, вызовы инструментов, результаты инструментов и финальный ответ. Модель видит обратный отсчёт и использует его, чтобы расставлять приоритеты и завершать задачу аккуратнее по мере расходования бюджета .
У DeepSeek V4 тоже есть позитивные сигналы в агентном направлении, но в доступных источниках они больше похожи на аналитическую оценку, чем на столь же подробно описанный механизм управления. CNBC приводит комментарий аналитика Counterpoint: профиль бенчмарков V4 предполагает «отличные агентные возможности при значительно более низкой стоимости» . Это важно для систем, где одновременно работает много агентов, но не заменяет документацию уровня Claude task budgets
.
Если вам нужно контролировать tool calls, расход токенов и поведение агента на длинной задаче, Claude Opus 4.7 выглядит более предсказуемым выбором по документации . Если же главный ограничитель — стоимость токенов, DeepSeek V4-Pro стоит тестировать на реальных агентных сценариях, а не отбрасывать только из-за более низкого места в сводных рейтингах
.
Стоимость — самый очевидный козырь DeepSeek V4-Pro. DataCamp указывает для него $1,74 за 1 млн входных токенов и $3,48 за 1 млн выходных токенов. Для Claude Opus 4.7 в той же таблице указаны $5 за 1 млн входных токенов и $25 за 1 млн выходных токенов . Yahoo/TechCrunch также приводит цену Claude Opus 4.7 на уровне $5 за 1 млн input-токенов и $25 за 1 млн output-токенов
.
Если считать по этим данным, Claude Opus 4.7 примерно в 2,9 раза дороже на входе и примерно в 7,2 раза дороже на выходе, чем DeepSeek V4-Pro . Для batch-кодинга, массовой генерации ответов и многошаговых агентных workflow это может быстро стать решающим фактором.
Но итоговая стоимость продакшена — не только прайс за токен. В реальном сравнении нужно учитывать cache, batch pricing, latency, долю retry, ограничения контекста, качество ответов и количество повторных вызовов, которое требуется до приемлемого результата.
По длине контекста модели находятся в одной зоне. Anthropic описывает Claude Opus 4.7 как модель с контекстным окном 1 млн токенов . OpenRouter указывает для DeepSeek V4 Pro 1,05 млн токенов и описывает его как Mixture-of-Experts-модель с 1,6 трлн total parameters и 49 млрд activated parameters
.
Разница — в уровне раскрытой информации. Artificial Analysis отмечает, что Claude Opus 4.7 является proprietary-моделью, а Anthropic не раскрыла её размер или число параметров . Это не доказывает, что DeepSeek «открыт» во всех юридических или инфраструктурных смыслах, но по имеющимся источникам о V4-Pro опубликовано больше конкретики по архитектуре
.
BenchLM ставит Claude Opus 4.7 на общий score 97/100, с позицией #2 provisional и #2 verified в своём leaderboard . Для DeepSeek V4 Pro High BenchLM указывает общий score 83 и позицию #15 provisional
.
Такие таблицы полезны как быстрый градусник рынка, но они не должны быть единственным критерием выбора. Вес разных бенчмарков может не совпадать с вашим workload: модель с более высоким средним score может оказаться не лучшей для contest-задач, русского языка, long-context retrieval или конкретного pipeline с инструментами.
Claude Opus 4.7 выглядит более логичным выбором, если для вас важнее всего:
DeepSeek V4-Pro особенно интересен, если ваш приоритет — это:
По имеющимся источникам рано уверенно говорить, какая модель лучше по safety, hallucination rate, русскому языку, multimodal-сценариям, GPQA, long-context retrieval или production tool-use во всех окружениях. Anthropic официально заявляет, что Opus 4.7 стал сильнее в coding, vision и сложных многошаговых задачах, но это не полноценное независимое head-to-head сравнение с DeepSeek V4-Pro на одном и том же harness .
По DeepSeek отдельно нужно помнить статус V4 Preview и маршрутизацию некоторых endpoint’ов на V4-Flash . По Claude — что Anthropic, согласно Artificial Analysis, не раскрыла размер модели и число параметров Opus 4.7
.
Самый безопасный способ выбора — A/B-тест на ваших собственных задачах. Для coding-сценариев возьмите реальные issue, реальные репозитории, настоящую test suite и заранее определите метрики: pass/fail, доля валидных патчей, число исправлений после ревью, latency, token cost и retry rate.
Для агентных workflow сравнение должно идти на одинаковом наборе инструментов, с одинаковым system prompt, одинаковыми лимитами времени и сопоставимыми бюджетами токенов. Иначе вы будете измерять не модель, а различия в обвязке.
Итог: Claude Opus 4.7 сейчас выглядит сильнее для software engineering и агентных сценариев с хорошо описанным управлением, а DeepSeek V4-Pro — для competitive coding и задач, где цена токенов критична. Публичные бенчмарки дают хороший старт, но решение для продакшена должно опираться на тесты именно вашего workload .
Comments
0 comments