studioglobal
Популярное в «Открыть»
ОтветыОпубликовано7 источники

Бенчмарки Claude Mythos Preview: главные цифры и их ограничения

Главный показатель Claude Mythos Preview — 93,9 % на SWE bench Verified, но сама Anthropic описывает модель как закрытый Research Preview в рамках Project Glasswing, доступный только по приглашению. Среди других обсуждаемых результатов: 87,3 % на SWE bench Multilingual, 59,0 % во внутренней мультимодальной оценке, 0...

17K0
Abstrakte KI-Benchmark-Grafik zu Claude Mythos Preview mit Code- und Score-Elementen
Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahinterstecktSymbolbild: Die Debatte um Claude Mythos dreht sich weniger um einen einzelnen Score als um die Vergleichbarkeit der Evaluationsbedingungen.
Промпт ИИ

Create a landscape editorial hero image for this Studio Global article: Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahintersteckt. Article summary: Claude Mythos Preview wird vor allem durch 93,9 % auf SWE bench Verified auffällig; weitere berichtete Werte sind 87,3 % auf SWE bench Multilingual und 59,0 % in einer internen multimodalen Evaluation.. Topic tags: ai, anthropic, claude, benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on ..." Reference image 2: visual subject "A score of 93.9% means Claude Mythos correctly resolved approximately 470 of those 500 real-world GitH

openai.com

Claude Mythos Preview — не просто очередная модель Claude, которую можно поставить рядом с другими в открытой таблице лидеров. В документации Claude API Anthropic отдельно описывает её как исследовательскую preview-модель для защитных сценариев кибербезопасности в рамках Project Glasswing: доступ — только по приглашению, самостоятельной регистрации нет.[13]

Поэтому бенчмарки Mythos действительно интересны, но читать их нужно аккуратнее, чем оценки массово доступной модели. Это скорее сигнал о возможностях в контролируемом исследовательском контуре, чем готовый публично воспроизводимый рейтинг.

Основные опубликованные оценки

Конкретные численные значения в доступной подборке источников в основном видны через сторонние публикации, которые ссылаются на данные Anthropic, system card или собственные сводки.[6][9][25][27]

НаправлениеБенчмаркРезультат Claude Mythos PreviewКак это читать
КодингSWE-bench Verified93,9 %Weights & Biases приводит для Claude Opus 4.6 показатель 80,8 %.[6]
Многоязычный кодингSWE-bench Multilingual87,3 %У W&B для Claude Opus 4.6 указан результат 77,8 %.[6]
МультимодальностьВнутренняя мультимодальная оценка59,0 %W&B описывает это как внутреннюю оценку и сравнивает с 27,1 % у Claude Opus 4.6.[6]
КибербезопасностьCybenchpass@1 = 1,00Authmind описывает Cybench как публичный бенчмарк из 40 CTF-задач и приводит 0,89 для Claude Opus 4.6.[27]
КибербезопасностьCyberGym0,83Authmind описывает CyberGym как проверку воспроизведения уязвимостей на 1 507 реальных open-source задачах и приводит 0,67 для Claude Opus 4.6.[27]
РассуждениеGPQA Diamond94,6 %llm-stats указывает 91,3 % для Claude Opus 4.6.[25]
РассуждениеHumanity’s Last Exam, без инструментов / с инструментами56,8 % / 64,7 %llm-stats приводит для Claude Opus 4.6 40,0 % без инструментов и 53,1 % с инструментами.[25]
Терминальные агентыКонфигурация Terminal-Bench92,1 %llm-stats связывает результат с Terminus-2 harness, максимальным adaptive thinking, бюджетом 1M токенов на задачу, расширенными 4-часовыми тайм-аутами и обновлениями Terminal-Bench 2.1.[25]
Многозадачные знанияMMMLU92,7R&D World пишет, что этот результат пересекается с указанным диапазоном Gemini 3.1 Pro — 92,6–93,6 — и был единственным исключением в заявлении о лидерстве Mythos в 17 из 18 бенчмарков.[9]

Что официально подтверждает Anthropic

Самая надёжно подтверждённая часть — статус модели. В документации Anthropic Claude Mythos Preview указана как отдельная research preview-модель для защитных киберsecurity-сценариев Project Glasswing, доступная только по приглашению и без self-serve-доступа.[13]

На странице Project Glasswing Anthropic также называет Claude Mythos Preview моделью общего назначения frontier-класса и своей самой сильной моделью для кодинга и агентных задач. Там же компания объясняет кибербезопасностные возможности Mythos более широкой способностью глубоко понимать и изменять сложное ПО, а значит — находить и исправлять уязвимости.[16]

System card описывает Claude Mythos Preview как новую большую языковую модель, или frontier-модель, с возможностями в software engineering, reasoning, computer use, knowledge work и исследовательской помощи.[18] Иными словами, официальные источники хорошо подтверждают позиционирование модели. Но точные score-значения в этой подборке в основном доступны через сторонние источники.[6][9][25][27]

Почему 93,9 % на SWE-bench стали главным числом

Самая заметная оценка — 93,9 % на SWE-bench Verified. W&B приводит этот результат для Claude Mythos Preview и сравнивает его с 80,8 % у Claude Opus 4.6.[6] Для команд, которые смотрят на ИИ как на помощника в разработке, это естественный headline-score: SWE-bench ближе к практическому вопросу, сможет ли модель разбираться в кодовой базе и исправлять задачи, а не просто писать небольшие фрагменты кода.

Сильным выглядит и многоязычный показатель: на SWE-bench Multilingual W&B указывает 87,3 % для Mythos Preview против 77,8 % для Opus 4.6.[6] Это важно, потому что речь идёт не только об одном англоязычном сценарии кодинга.

Но даже высокий SWE-bench не означает, что модель так же сработает в любом репозитории, с любым стеком, CI, внутренними правилами ревью и ограничениями безопасности. В случае Mythos есть ещё один практический барьер: внешняя команда не может просто зарегистрироваться и проверить модель у себя, поскольку Anthropic описывает доступ как invitation-only.[13]

Кибербезопасность: впечатляющие цифры, но специфический контекст

Кибербезопасностные результаты тоже выглядят очень сильными. Authmind сообщает, что Claude Mythos Preview получил идеальный результат pass@1 = 1,00 на Cybench; сам Cybench там описан как публичный бенчмарк из 40 CTF-задач.[27] На CyberGym, по данным Authmind, Mythos Preview набрал 0,83; эта оценка описана как проверка AI-агентов на целевое воспроизведение уязвимостей в 1 507 реальных open-source задачах.[27]

Это хорошо совпадает с официальным позиционированием: в документации Claude API Mythos Preview прямо связан с defensive cybersecurity workflows в рамках Project Glasswing.[13] А на странице Project Glasswing Anthropic объясняет силу модели в кибербезопасности её общей способностью понимать, изменять и анализировать сложное программное обеспечение.[16]

Но формат задач имеет значение. CTF-челленджи и воспроизведение уязвимостей — это конкретные тестовые режимы, пусть и очень полезные для оценки security-навыков.[27] Они не заменяют проверку в условиях конкретной организации: с её инструментами, журналированием, политиками доступа, юридическими рамками и ответственностью за результат.

Reasoning, мультимодальность и терминальные агенты

Помимо кодинга и кибербезопасности, для Mythos Preview приводятся сильные reasoning-показатели. llm-stats указывает 94,6 % на GPQA Diamond, а также 56,8 % на Humanity’s Last Exam без инструментов и 64,7 % с инструментами.[25] Разделение HLE на режимы «с инструментами» и «без инструментов» принципиально: доступ к инструментам может заметно менять итоговую оценку и её сравнимость.

С Terminal-Bench особенно важна конфигурация. llm-stats приводит результат 92,1 %, но одновременно уточняет, что он связан с Terminus-2 harness, максимальным adaptive thinking, бюджетом 1M токенов на задачу, расширенными 4-часовыми тайм-аутами и обновлениями Terminal-Bench 2.1.[25] Это не мелкий технический шрифт, а часть результата: агентные бенчмарки часто сильно зависят от того, сколько времени, контекста, инструментов и вычислительного бюджета получает модель.

Мультимодальный показатель тоже стоит читать с осторожностью. W&B сообщает о 59,0 % во внутренней мультимодальной оценке Mythos Preview против 27,1 % у Opus 4.6.[6] При этом llm-stats отдельно отмечает, что SWE-bench Multimodal использует внутреннюю реализацию, поэтому такие оценки нельзя напрямую сравнивать с результатами публичных лидербордов.[25]

Почему эти scores не работают как обычный лидерборд

Главных ограничений четыре.

  1. Ограниченный доступ. Anthropic описывает Claude Mythos Preview как research preview с доступом только по приглашению и без самостоятельной регистрации.[13] Это затрудняет независимую проверку для обычных разработчиков и исследовательских команд.

  2. Смешанная источниковая база. Официальные источники в этой подборке подтверждают прежде всего статус модели, её позиционирование и области возможностей.[13][16][18] Многие точные численные оценки видны через сторонние публикации.[6][9][25][27]

  3. Внутренние и специальные конфигурации. Мультимодальный результат описан как внутренняя оценка.[6] Terminal-Bench, в свою очередь, указан вместе с конкретным harness, максимальным thinking, крупным токен-бюджетом и увеличенными тайм-аутами.[25]

  4. Узкая привязка к типам задач. Cybench, по описанию Authmind, включает 40 CTF-задач, а CyberGym — 1 507 реальных open-source задач на воспроизведение уязвимостей.[27] Это сильные сигналы, но они не покрывают весь спектр промышленной разработки и безопасности.

Итог

По опубликованным оценкам Claude Mythos Preview выглядит чрезвычайно сильной моделью: 93,9 % на SWE-bench Verified, 87,3 % на SWE-bench Multilingual, 59,0 % во внутренней мультимодальной оценке, 0,83 на CyberGym и pass@1 = 1,00 на Cybench.[6][27]

Но главная оговорка не менее важна, чем сами цифры. Claude Mythos Preview, по описанию Anthropic, — это invitation-only research preview в рамках Project Glasswing, а не свободно доступная стандартная модель.[13] Поэтому её бенчмарки лучше воспринимать как сильный сигнал возможностей в кодинге, агентных задачах и защитной кибербезопасности — но не как полностью публично воспроизводимую таблицу мест.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

  • Главный показатель Claude Mythos Preview — 93,9 % на SWE bench Verified, но сама Anthropic описывает модель как закрытый Research Preview в рамках Project Glasswing, доступный только по приглашению.
  • Среди других обсуждаемых результатов: 87,3 % на SWE bench Multilingual, 59,0 % во внутренней мультимодальной оценке, 0,83 на CyberGym и pass@1 = 1,00 на Cybench.
  • Цифры выглядят сильным сигналом для кодинга, агентных сценариев и защитной кибербезопасности, но из за ограниченного доступа, сторонних источников и специальных конфигураций их трудно сравнивать с обычными публичными...

Люди также спрашивают

Каков краткий ответ на вопрос «Бенчмарки Claude Mythos Preview: главные цифры и их ограничения»?

Главный показатель Claude Mythos Preview — 93,9 % на SWE bench Verified, но сама Anthropic описывает модель как закрытый Research Preview в рамках Project Glasswing, доступный только по приглашению.

Какие ключевые моменты необходимо проверить в первую очередь?

Главный показатель Claude Mythos Preview — 93,9 % на SWE bench Verified, но сама Anthropic описывает модель как закрытый Research Preview в рамках Project Glasswing, доступный только по приглашению. Среди других обсуждаемых результатов: 87,3 % на SWE bench Multilingual, 59,0 % во внутренней мультимодальной оценке, 0,83 на CyberGym и pass@1 = 1,00 на Cybench.

Что мне делать дальше на практике?

Цифры выглядят сильным сигналом для кодинга, агентных сценариев и защитной кибербезопасности, но из за ограниченного доступа, сторонних источников и специальных конфигураций их трудно сравнивать с обычными публичными...

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Security: как Anthropic ищет уязвимости в корпоративном коде с помощью ИИ», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI».

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы

Вопрос исследования

Was sind die Benchmarks von Claude Mythos?

Studio Global AI30 источники

Цитируемый ответ

Claude Mythos hat laut den vorliegenden Belegen vor allem öffentlich diskutierte Benchmark-Werte für Coding-, multimodale und mehrsprachige Aufgaben. Die belastbarste Information ist jedoch eingeschränkt: Anthropic beschreibt Claude Mythos Preview als ein separates Research-Preview-Modell für defensive Cybersecurity-Workflows mit Einladungspflicht, nicht als allgemein verfügbares Standardmodell.[1]

Verfügbare Benchmark-Angaben

  • SWE-bench: 93,9% werden in mehreren Drittquellen als Benchmark-Wert für Claude Mythos genannt.[3][5]

  • Multimodal: 59,0% werden als interner multimodaler Evaluationswert für Mythos Preview genannt, gegenüber 27,1% für Opus 4.6.[4]

  • SWE-bench Multilingual: 87,3% werden für Mythos Preview genannt.[4]

  • Terminal-Bench 2.0: Eine Drittquelle erwähnt, dass Terminal-Bench 2.0 mit Terminus-2-Harness, maximalem adaptivem Thinking und einem 1M-Token-Budget pro Aufgabe ausgeführt wurde, nennt im vorliegenden Ausschnitt aber keinen konkreten Score.[7]

Einordnung und Unsicherheit

  • Anthropic selbst bestätigt in den verfügbaren Belegen die Existenz und den eingeschränkten Zugang von Claude Mythos Preview, aber der bereitgestellte offizielle Ausschnitt enthält keine konkreten Benchmark-Zahlen.[1]

  • Die konkreten Scores stammen in den vorliegenden Belegen überwiegend aus Drittquellen oder Snippets, nicht aus vollständig zitierbaren offiziellen Benchmark-Tabellen.[3][4][5]

  • Daher gilt: Insufficient evidence für eine vollständig verifizierte, offizielle Benchmark-Liste von Claude Mythos anhand der bereitgestellten Quellen.

Источники

  • [6] Claude Mythos Benchmark Scores | ml-news – Weights & Biases - Wandbwandb.ai

    Image 66 Multimodal and multilingual capabilities The model’s improvements extend to multimodal and multilingual tasks. Internal multimodal evaluations show Mythos Preview scoring 59.0% compared to Opus 4.6’s 27.1%, indicating superior handling of diverse i...

  • [9] Claude Mythos leads 17 of 18 benchmarks Anthropic ... - R&D Worldrdworldonline.com

    Research & Development World Claude Mythos leads 17 of 18 benchmarks Anthropic measured. Muse Spark put Meta back in the frontier club, and OpenAI’s ‘Spud’ model is reportedly near launch By Brian Buntz Anthropic is not planning on publicly releasing it, bu...

  • [13] Models overview - Claude API Docsdocs.anthropic.com

    Models overview - Claude API Docs . Claude Mythos Preview is offered separately as a research preview model for defensive cybersecurity workflows as part of Project Glasswing. Access is invitation-only and there is no self-serve sign-up. Models with the sam...

  • [16] Project Glasswing - Anthropicanthropic.com

    01 /08 Claude Mythos Preview Claude Mythos Preview is a general-purpose frontier model from Anthropic, our most capable yet for coding and agentic tasks. Its strength in cybersecurity is a direct result of that broader capability: a model that can deeply un...

  • [18] [PDF] Claude Mythos Preview System Card - Anthropicwww-cdn.anthropic.com

    Red Teaming benchmark for tool use​ 232 8.3.2.2 Robustness against adaptive attackers across surfaces​ 233 8.3.2.2.1 Coding​ 233 8.3.2.2.2 Computer use​ 234 8.3.2.2.3 Browser use​ 235 8.4 Per-question automated welfare interview results​ 236 8.5 Blocklist u...

  • [25] Claude Mythos Preview: Benchmarks, Pricing & Project Glasswingllm-stats.com

    \SWE-bench Multimodal uses an internal implementation; scores are not directly comparable to public leaderboard results. Terminal-Bench 2.0 was run with the Terminus-2 harness, adaptive thinking at maximum effort, and a 1M token budget per task. With extend...

  • [27] When a Lab Withholds Its Best Model: What the Claude Mythos System Card Signals for Cybersecurityauthmind.com

    On Cybench (a public benchmark drawing from 40 CTF challenges across four major competitions), Claude Mythos Preview achieved a perfect pass@1 score of 1.00. Claude Opus 4.6, the prior generation, scored 0.89. On CyberGym, which evaluates AI agents on targe...