ОтветыОпубликовано28 апр. 2026Last edited 6 мая 202610 источники

GPT-5.5 vs Claude Opus 4.7: какие benchmarks важны для кодинга, агентов и reasoning

Абсолютного победителя нет: GPT 5.5 явно ведёт в Terminal Bench 2.0 — 82,7% против 69,4%, а Claude Opus 4.7 сильнее в SWE Bench Pro — 64,3% против 58,6%. В reasoning разделе разрыв на GPQA Diamond минимален: Claude Opus 4.7 набирает 94,2%, GPT 5.5 — 93,6%, поэтому одного этого теста мало для выбора модели.

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

17K0

Minh họa so sánh benchmark GPT-5.5 và Claude Opus 4.7 cho coding, agent và reasoning — GPT-5.5 vs Claude Opus 4.7: benchmark nào đáng tin cho coding, agent và reasoningCác benchmark GPT-5.5 vs Claude Opus 4.7 nên được đọc theo workload: terminal agents, sửa issue phần mềm, tool orchestration và reasoning.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7: benchmark nào đáng tin cho coding, agent và reasoning?. Article summary: Không có người thắng tuyệt đối: GPT 5.5 nổi bật ở terminal/agentic coding với Terminal Bench 2.0 đạt 82,7% so với 69,4%, còn Claude Opus 4.7 dẫn SWE Bench Pro với 64,3% so với 58,6%; các số này nên dùng làm điểm lọc,.... Topic tags: ai, openai, anthropic, claude, chatgpt. Reference image context from search candidates: Reference image 1: visual subject "# So sánh GPT-5.5 với Claude Opus 4.7. GPT-5.5 và Claude Opus 4.7 là hai model AI hàng đầu ra mắt cách nhau chỉ một tuần tháng 4/2026, không có winner rõ ràng khi benchmarks chia t" source context "So sánh GPT-5.5 với Claude Opus 4.7 | Viết bởi vninfinity" Reference image 2: visual subject "# So sánh GPT-5.5 với Claude Opus 4.7. GPT-5.5 và Claude Opus 4.7 là hai model
openai.com

Короткий ответ: по открытым бенчмаркам нельзя честно сказать, что GPT-5.5 во всём лучше Claude Opus 4.7 — или наоборот. Картина сильно зависит от workload. GPT-5.5 заметнее в задачах с терминалом, browsing и частью агентных сценариев; Claude Opus 4.7 сильнее выглядит на SWE-Bench Pro, MCP Atlas и ряде reasoning/tooling-тестов по сводным таблицам ^[5]^[6]^[11].

Но к таблицам стоит относиться как к фильтру для шорт-листа, а не как к финальному вердикту. Многие оценки приходят из публикаций поставщиков или агрегаторов. LLM Stats отдельно помечает, что часть данных по GPT-5.5 может быть self-reported и не обязательно независимо проверена ^[8]. Для продакшена решающим всё равно будет ваш внутренний eval.

Быстрая карта бенчмарков

Benchmark	GPT-5.5	Claude Opus 4.7	Как читать результат
Terminal-Bench 2.0	82,7%	69,4%	Сильный плюс GPT-5.5 для workflow в командной строке. OpenAI описывает Terminal-Bench 2.0 как тест сложных command-line задач, где нужны planning, итерации и координация инструментов ^[5]^[11]^[23].
SWE-Bench Pro	58,6%	64,3%	Claude Opus 4.7 ведёт в сложном тесте на исправление реальных GitHub-issue; OpenAI также публикует для GPT-5.5 результат 58,6% на этом тесте ^[5]^[11]^[23].
GPQA Diamond	93,6%	94,2%	Claude чуть впереди, но разрыв всего 0,6 процентного пункта — этого мало, чтобы объявлять победителя для всех reasoning-задач ^[5]^[11].
BrowseComp	84,4%	79,3%	GPT-5.5 ведёт в таблицах Vellum и Mashable ^[5]^[11].
GDPval	84,9%	80,3%	GPT-5.5 ведёт в сводке Vellum ^[5].
OSWorld-Verified	78,7%	78,0%	GPT-5.5 лишь немного впереди; такой разрыв лучше перепроверять на собственных сценариях ^[5].
MCP Atlas	75,3%	79,1%	Claude Opus 4.7 ведёт в этом тесте на orchestration инструментов по таблице Vellum ^[5].
FrontierMath T1–3	51,7%	43,8%	GPT-5.5 ведёт в таблице Vellum ^[5].
FinanceAgent v1.1	Нет полной пары чисел в предоставленных источниках	64,4% в DataCamp	LLM Stats относит лидерство к Claude Opus 4.7, но без полной сопоставимой пары чисел здесь лучше быть осторожнее ^[3]^[6].
Humanity’s Last Exam	Данные расходятся	Данные расходятся	Не лучший tie-breaker без повторного запуска в одинаковых условиях: LLM Stats, Mashable и o-mega дают разные сигналы ^[6]^[9]^[11].

Если смотреть на агрегированную картину LLM Stats, Claude Opus 4.7 ведёт в 6 из 10 бенчмарков, по которым оба поставщика дают результаты, а GPT-5.5 — в 4. Там же вывод формулируется так: сильные стороны Claude чаще лежат в reasoning-heavy и review-grade тестах, а GPT-5.5 — в долгом tool-use и shell-driven задачах ^[6]. Это полезная рамка, но она не снимает проблему спорных строк вроде Humanity’s Last Exam ^[6]^[9]^[11].

Кодинг: Terminal-Bench и SWE-Bench измеряют разные навыки

Если ваш сценарий — агентный кодинг через терминал, GPT-5.5 выглядит более сильным кандидатом по текущим публичным данным. В Terminal-Bench 2.0 он набирает 82,7% против 69,4% у Claude Opus 4.7 ^[5]^[11]. OpenAI объясняет, что этот тест проверяет сложные command-line workflow: модель должна планировать, запускать команды, анализировать результат, повторять попытки и координировать инструменты ^[23].

Это важно для CLI-copilot, DevOps-ассистента или coding agent, который должен сам запускать тесты, читать ошибки, править файлы и повторять цикл. Для такого класса задач Terminal-Bench 2.0 полезнее, чем общий тест на абстрактное reasoning.

Но если задача ближе к исправлению реальных issues в репозитории, Claude Opus 4.7 получает преимущество. На SWE-Bench Pro он показывает 64,3% против 58,6% у GPT-5.5 ^[5]^[11]. OpenAI описывает SWE-Bench Pro как оценку способности решать реальные GitHub-issue ^[23]. Поэтому для bug fixing, изменений в больших repo и review-grade software tasks Claude Opus 4.7 стоит включать в первый раунд тестирования.

С SWE-Bench Verified картина менее чистая. MindStudio указывает для Claude Opus 4.7 результат 82,4%, тогда как APIyi и DataCamp приводят 87,6%; в предоставленных источниках нет стабильной пары GPT-5.5 vs Claude Opus 4.7 для одной и той же строки этого теста ^[1]^[2]^[3].

Агенты и workflow: у GPT-5.5 много сильных сигналов, но Claude не стоит списывать

В агентных сценариях GPT-5.5 часто выглядит убедительно. В таблице Vellum он ведёт на BrowseComp — 84,4% против 79,3%, на GDPval — 84,9% против 80,3%, и на OSWorld-Verified — 78,7% против 78,0% ^[5]. Mashable также приводит для BrowseComp ту же пару результатов: 84,4% у GPT-5.5 и 79,3% у Claude Opus 4.7 ^[11]. LLM Stats добавляет, что GPT-5.5 ведёт в CyberGym, хотя в доступном фрагменте не показаны проценты ^[6].

У Claude Opus 4.7 есть свои сильные зоны. В Vellum он опережает GPT-5.5 на MCP Atlas: 79,1% против 75,3% ^[5]. LLM Stats относит к Claude лидерство в FinanceAgent v1.1, а DataCamp указывает для Claude Opus 4.7 результат 64,4% на этом тесте ^[3]^[6]. Anthropic также описывает Claude Opus 4.7 как новую версию Opus с усилением в coding, agents, vision и многошаговых задачах ^[28].

Практический вывод простой: если ваш workflow завязан на shell, browsing или автоматизацию в стиле работы с ОС, GPT-5.5 логично тестировать первым. Если важнее структурированная orchestration инструментов, MCP-сценарии или финансовые agent-workflow, Claude Opus 4.7 не стоит отсеивать по одной общей таблице.

Reasoning: GPQA почти вровень, HLE лучше не использовать как решающий тест

На GPQA Diamond Claude Opus 4.7 набирает 94,2%, GPT-5.5 — 93,6% ^[5]^[11]. Это плюс в пользу Claude, но разрыв в 0,6 процентного пункта слишком мал, чтобы переносить его на любые научные, аналитические или экспертные задачи. Для реального выбора лучше прогнать обе модели на собственном наборе вопросов и кейсов.

С Humanity’s Last Exam ситуация ещё менее удобная. LLM Stats пишет, что Claude Opus 4.7 ведёт и в HLE без tools, и в HLE with tools ^[6]. Mashable, наоборот, приводит 40,6% у GPT-5.5 против 31,2% у Opus 4.7 в HLE без tools, но 54,7% у Claude против 52,2% у GPT-5.5 в версии with tools ^[11]. o-mega добавляет ещё один набор чисел по HLE ^[9]. Пока условия запуска не выровнены, HLE не стоит использовать как решающий аргумент.

Что выбрать: GPT-5.5 или Claude Opus 4.7

Начните с GPT-5.5, если главное — агент, который долго работает в терминале, запускает команды, чинит ошибки по логам, проходит test loop или автоматизирует многошаговые shell-сценарии. Terminal-Bench 2.0 здесь заметно склоняется в сторону GPT-5.5 ^[5]^[11]^[23]. GPT-5.5 также выглядит хорошим первым кандидатом для browsing/search-style workflow, GDPval, OSWorld-Verified и FrontierMath T1–3 по таблицам Vellum и Mashable ^[5]^[11].

Начните с Claude Opus 4.7, если задача похожа на SWE-Bench Pro: исправление сложных issue, работа с реальным repo, оценка качества изменений и архитектурные правки. В этом тесте Claude опережает GPT-5.5 ^[5]^[11]. Claude также стоит держать в shortlist для GPQA-style scientific reasoning, MCP/tool orchestration и finance-agent задач — по GPQA Diamond, MCP Atlas, FinanceAgent v1.1 и сводке LLM Stats ^[3]^[5]^[6]^[11].

Самый безопасный подход — не выбирать модель по одному лидерборду. Разбейте свои сценарии на четыре корзины: кодинг внутри repo, terminal/agent automation, reasoning без tools и workflow с tools. Для каждой корзины запускайте одинаковые prompt, одинаковый доступ к инструментам, одинаковые sampling-настройки, одинаковый reasoning effort и одинаковые критерии оценки. Публичные бенчмарки помогают понять, с кого начать; внутренний eval показывает, кого действительно стоит пускать в продукт, особенно когда часть публичных оценок может быть self-reported или не подтверждена независимой проверкой ^[8].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Абсолютного победителя нет: GPT 5.5 явно ведёт в Terminal Bench 2.0 — 82,7% против 69,4%, а Claude Opus 4.7 сильнее в SWE Bench Pro — 64,3% против 58,6%.
В reasoning разделе разрыв на GPQA Diamond минимален: Claude Opus 4.7 набирает 94,2%, GPT 5.5 — 93,6%, поэтому одного этого теста мало для выбора модели.
Часть публичных цифр основана на данных поставщиков или агрегаторов, а по SWE Bench Verified и Humanity’s Last Exam источники дают не полностью согласованные результаты.

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5 vs Claude Opus 4.7: какие benchmarks важны для кодинга, агентов и reasoning»?

Абсолютного победителя нет: GPT 5.5 явно ведёт в Terminal Bench 2.0 — 82,7% против 69,4%, а Claude Opus 4.7 сильнее в SWE Bench Pro — 64,3% против 58,6%.

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Часть публичных цифр основана на данных поставщиков или агрегаторов, а по SWE Bench Verified и Humanity’s Last Exam источники дают не полностью согласованные результаты.

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Security: как Anthropic ищет уязвимости в корпоративном коде с помощью ИИ», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI».

Открыть связанную страницу

Продолжайте свое исследование

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security: как Anthropic ищет уязвимости в корпоративном коде с помощью ИИ

Claude Security: что умеет бета-сканер кода от Anthropic

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI

Grok 4.3 API: как 1M context и цена $1,25/$2,50 меняют конкуренцию моделей

For the part of factors contributing to the issue, please use Logical synthesis of factors And using leadership frameworks, and gap analysis

Почему уход из жизни «на месте» в домах престарелых Гонконга остаётся трудной задачей

Почему в гонконгских RCHE сложно обеспечить достойный уход из жизни в привычной среде

Metas KI-Altersprüfung: Neue Regeln für Jugendliche in EU, USA und Brasilien

Meta будет проверять возраст с помощью ИИ: что изменится в Instagram и Facebook

Meta усиливает ИИ-проверку возраста: новые правила для подростков в ЕС, США и Бразилии

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

So sánh một cách toàn diện benchmarks của GPT-5.5 vs Claude Opus 4.7

Studio Global AI26 апр. 202636 источники

Цитируемый ответ

GPT-5.5 và Claude Opus 4.7 không có một bộ benchmark “chuẩn hóa, độc lập, cùng điều kiện” được công bố đầy đủ, nên so sánh dưới đây nên xem là tổng hợp có điều kiện. Nhìn chung: GPT-5.5 mạnh hơn ở tác vụ terminal/agentic thao tác môi trường, duyệt web, OS và một số benchmark kinh tế; Claude Opus 4.7 nhỉnh hơn ở coding dạng SWE-Bench Pro, reasoning nặng và agent tài chính theo các bảng tổng hợp hiện có ^[8]^[11].

Lưu ý về độ tin cậy

Nguồn chính thức của Anthropic có trang Claude Opus 4.7 và nói mô hình này cải thiện rõ ở tool calls, planning và agent decision-making, nhưng snippet công khai không cho đủ toàn bộ bảng số để đối chiếu trực tiếp với GPT-5.5 ^[3].
Nguồn OpenAI tìm được gồm GPT-5.5 System Card và tài liệu benchmark riêng như GeneBench, nhưng không thấy một trang chính thức duy nhất công bố toàn bộ bảng đối đầu GPT-5.5 vs Claude Opus 4.7 theo cùng format ^[1]^[9].
Vì vậy, các con số so sánh trực tiếp bên dưới chủ yếu dựa trên các nguồn tổng hợp/benchmark aggregator và bài phân tích bên thứ ba; cần coi là “tự báo cáo hoặc tổng hợp”, không phải kết quả kiểm định độc lập hoàn toàn ^[11]^[13].

Bảng benchmark chính

Nhóm benchmark	GPT-5.5	Claude Opus 4.7	Mô hình nhỉnh hơn	Nhận xét
Terminal-Bench 2.0	82.7%	69.4%	GPT-5.5	GPT-5.5 dẫn khá xa ở tác vụ terminal/agentic trong môi trường dòng lệnh ^[8].
SWE-Bench Pro	58.6%	64.3%	Claude Opus 4.7	Claude Opus 4.7 nhỉnh hơn ở benchmark sửa lỗi/phát triển phần mềm thực tế dạng khó ^[8].
SWE-Bench Verified	Không đủ số nhất quán từ nguồn đối chiếu	82.4% hoặc 87.6% tùy nguồn	Không kết luận chắc	Có mâu thuẫn giữa nguồn bên thứ ba: một nguồn ghi Opus 4.7 đạt 82.4%, nguồn khác ghi 87.6% ^[4]^[6].
GPQA Diamond	93.6%	94.2%	Claude Opus 4.7, rất sát	Chênh lệch nhỏ; một nguồn nhận định các frontier model gần như đã hội tụ trên GPQA Diamond ^[7]^[14].
GDPval	84.9%	80.3%	GPT-5.5	GPT-5.5 nhỉnh hơn ở đánh giá tác vụ kinh tế/công việc văn phòng theo bảng tổng hợp ^[8].
OSWorld-Verified	Có lợi thế theo tổng hợp	Thấp hơn GPT-5.5	GPT-5.5	Nguồn tổng hợp nói GPT-5.5 dẫn ở OSWorld-Verified, nhưng snippet không hiển thị đầy đủ số ^[11].
CyberGym	Có lợi thế theo tổng hợp	Thấp hơn GPT-5.5	GPT-5.5	Nguồn tổng hợp nói GPT-5.5 dẫn ở CyberGym, nhưng snippet không hiển thị đầy đủ số ^[11].
FinanceAgent v1.1	Thấp hơn Opus 4.7 theo tổng hợp	Cao hơn GPT-5.5	Claude Opus 4.7	Nguồn tổng hợp nói Opus 4.7 dẫn ở FinanceAgent v1.1 ^[11].
MCP Atlas	Thấp hơn Opus 4.7 theo tổng hợp	Cao hơn GPT-5.5	Claude Opus 4.7	Nguồn tổng hợp nói Opus 4.7 dẫn ở MCP Atlas ^[11].
BrowseComp	Cao hơn Opus 4.7 theo tổng hợp	Thấp hơn GPT-5.5	GPT-5.5	Nguồn tổng hợp nói GPT-5.5 dẫn ở BrowseComp ^[11].
Humanity’s Last Exam	Nguồn mâu thuẫn	Nguồn mâu thuẫn	Không kết luận chắc	LLM Stats nói Opus 4.7 dẫn HLE có và không có tools, trong khi một bài khác ghi GPT-5.5 cao hơn ở HLE và HLE with tools; đây là điểm không nên kết luận nếu chưa có bảng chính thức cùng điều kiện ^[11].

Kết luận theo từng loại tác vụ

Coding thực chiến: Claude Opus 4.7 có lợi thế trên SWE-Bench Pro với 64.3% so với GPT-5.5 là 58.6% ^[8]. Tuy nhiên GPT-5.5 lại vượt rõ ở Terminal-Bench 2.0 với 82.7% so với 69.4%, nên nếu tác vụ là agent thao tác terminal, chạy lệnh, điều hướng môi trường và tự động hóa, GPT-5.5 có vẻ mạnh hơn ^[8].
Reasoning khoa học/tri thức khó: Claude Opus 4.7 nhỉnh hơn trên GPQA Diamond với 94.2% so với GPT-5.5 khoảng 93.6%, nhưng mức chênh này nhỏ và có thể không đáng kể trong thực tế ^[7]^[14].
Agent và workflow công việc: GPT-5.5 dẫn ở GDPval với 84.9% so với Claude Opus 4.7 là 80.3%, đồng thời được tổng hợp là dẫn ở BrowseComp, OSWorld-Verified và CyberGym ^[8]^[11]. Claude Opus 4.7 được tổng hợp là dẫn ở MCP Atlas và FinanceAgent v1.1, tức có lợi thế ở một số workflow agent tài chính/điều phối công cụ ^[11].
Độ chắc chắn của so sánh: Chưa có đủ bằng chứng độc lập, cùng prompt, cùng sampling, cùng tool setup để nói mô hình nào “toàn diện hơn” một cách tuyệt đối. Kết luận thực dụng là GPT-5.5 có vẻ tốt hơn cho terminal agents, browsing/OS/cyber và một số workflow năng suất; Claude Opus 4.7 có vẻ tốt hơn cho SWE-Bench Pro, reasoning sát ngưỡng cao và một số agent tài chính ^[8]^[11].

Chọn mô hình nào?

Chọn GPT-5.5 nếu bạn ưu tiên:
- Agent chạy terminal, automation, shell/tool execution ^[8].
- Tác vụ OS, browsing, cyber hoặc workflow năng suất tổng quát ^[11].
- Benchmark GDPval/công việc tri thức tổng quát ^[8].
Chọn Claude Opus 4.7 nếu bạn ưu tiên:
- Coding kiểu sửa issue phức tạp trên repo thật, nhất là SWE-Bench Pro ^[8].
- Reasoning khoa học khó, dù lợi thế trên GPQA Diamond là nhỏ ^[7]^[14].
- Agent tài chính hoặc orchestration theo các benchmark như FinanceAgent v1.1 và MCP Atlas ^[11].
Nếu dùng cho sản phẩm thật, nên chạy eval nội bộ trên dữ liệu của bạn; benchmark công khai hiện tại chưa đủ đồng nhất để thay thế A/B test thực tế.

Источники

[1] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[2] Claude Opus 4.7 Benchmark Full Analysis: Empirical Data Leading ...help.apiyi.com
Q1: What is Claude Opus 4.7? Claude Opus 4.7 is the flagship Large Language Model released by Anthropic on April 16, 2026. It leads in multiple benchmarks, including coding (SWE-bench Verified 87.6%), Agent tool invocation, and scientific reasoning (GPQA Di...
[3] Claude Opus 4.7 Benchmark: Memory & Effort Levels Testeddatacamp.com
Note: Pricing is $5 per million input tokens and $25 per million output tokens which is identical to Opus 4.6. If you want to explore this model in depth, this article by DataCamp team is a good read. A few numbers worth knowing before we test it: Benchmark...
[5] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[6] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[8] GPT-5.5: Pricing, Benchmarks & Performance - LLM Statsllm-stats.com
Show 18 more Self-reported by the model provider. Score may not be independently verified. Similar Models How GPT-5.5 compares to models with the closest performance across key benchmarks. GPT-5.5GPT-5.4Gemini 3.1 ProClaude Opus 4.7GPT-5.2 ProClaude Mythos...
[9] GPT-5.5: The Complete Guide (2026) - o-mega | AIo-mega.ai
Reasoning, Math, and Science Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- MMLU 92.4% - - GPQA Diamond 93.6% 92.8% 94.2% 94.3% ARC-AGI-2 85.0% 73.3% 77.1% ARC-AGI-1 95.0% 93.7% - FrontierMath T1-3 51.7% 52.4% 47.6% 43.8% F...
[11] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[23] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[28] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...

Популярное в «Открыть»

ОтветыОпубликовано28 апр. 2026Last edited 6 мая 202610 источники

GPT-5.5 vs Claude Opus 4.7: какие benchmarks важны для кодинга, агентов и reasoning

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

17K0

Быстрая карта бенчмарков

Benchmark	GPT-5.5	Claude Opus 4.7	Как читать результат
Terminal-Bench 2.0	82,7%	69,4%	Сильный плюс GPT-5.5 для workflow в командной строке. OpenAI описывает Terminal-Bench 2.0 как тест сложных command-line задач, где нужны planning, итерации и координация инструментов ^[5]^[11]^[23].
SWE-Bench Pro	58,6%	64,3%	Claude Opus 4.7 ведёт в сложном тесте на исправление реальных GitHub-issue; OpenAI также публикует для GPT-5.5 результат 58,6% на этом тесте ^[5]^[11]^[23].
GPQA Diamond	93,6%	94,2%	Claude чуть впереди, но разрыв всего 0,6 процентного пункта — этого мало, чтобы объявлять победителя для всех reasoning-задач ^[5]^[11].
BrowseComp	84,4%	79,3%	GPT-5.5 ведёт в таблицах Vellum и Mashable ^[5]^[11].
GDPval	84,9%	80,3%	GPT-5.5 ведёт в сводке Vellum ^[5].
OSWorld-Verified	78,7%	78,0%	GPT-5.5 лишь немного впереди; такой разрыв лучше перепроверять на собственных сценариях ^[5].
MCP Atlas	75,3%	79,1%	Claude Opus 4.7 ведёт в этом тесте на orchestration инструментов по таблице Vellum ^[5].
FrontierMath T1–3	51,7%	43,8%	GPT-5.5 ведёт в таблице Vellum ^[5].
FinanceAgent v1.1	Нет полной пары чисел в предоставленных источниках	64,4% в DataCamp	LLM Stats относит лидерство к Claude Opus 4.7, но без полной сопоставимой пары чисел здесь лучше быть осторожнее ^[3]^[6].
Humanity’s Last Exam	Данные расходятся	Данные расходятся	Не лучший tie-breaker без повторного запуска в одинаковых условиях: LLM Stats, Mashable и o-mega дают разные сигналы ^[6]^[9]^[11].

Кодинг: Terminal-Bench и SWE-Bench измеряют разные навыки

Агенты и workflow: у GPT-5.5 много сильных сигналов, но Claude не стоит списывать

Reasoning: GPQA почти вровень, HLE лучше не использовать как решающий тест

Что выбрать: GPT-5.5 или Claude Opus 4.7

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Абсолютного победителя нет: GPT 5.5 явно ведёт в Terminal Bench 2.0 — 82,7% против 69,4%, а Claude Opus 4.7 сильнее в SWE Bench Pro — 64,3% против 58,6%.
В reasoning разделе разрыв на GPQA Diamond минимален: Claude Opus 4.7 набирает 94,2%, GPT 5.5 — 93,6%, поэтому одного этого теста мало для выбора модели.
Часть публичных цифр основана на данных поставщиков или агрегаторов, а по SWE Bench Verified и Humanity’s Last Exam источники дают не полностью согласованные результаты.

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5 vs Claude Opus 4.7: какие benchmarks важны для кодинга, агентов и reasoning»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI».

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

So sánh một cách toàn diện benchmarks của GPT-5.5 vs Claude Opus 4.7

Studio Global AI26 апр. 202636 источники

Цитируемый ответ

Lưu ý về độ tin cậy

Nguồn chính thức của Anthropic có trang Claude Opus 4.7 và nói mô hình này cải thiện rõ ở tool calls, planning và agent decision-making, nhưng snippet công khai không cho đủ toàn bộ bảng số để đối chiếu trực tiếp với GPT-5.5 ^[3].
Nguồn OpenAI tìm được gồm GPT-5.5 System Card và tài liệu benchmark riêng như GeneBench, nhưng không thấy một trang chính thức duy nhất công bố toàn bộ bảng đối đầu GPT-5.5 vs Claude Opus 4.7 theo cùng format ^[1]^[9].
Vì vậy, các con số so sánh trực tiếp bên dưới chủ yếu dựa trên các nguồn tổng hợp/benchmark aggregator và bài phân tích bên thứ ba; cần coi là “tự báo cáo hoặc tổng hợp”, không phải kết quả kiểm định độc lập hoàn toàn ^[11]^[13].

Bảng benchmark chính

Nhóm benchmark	GPT-5.5	Claude Opus 4.7	Mô hình nhỉnh hơn	Nhận xét
Terminal-Bench 2.0	82.7%	69.4%	GPT-5.5	GPT-5.5 dẫn khá xa ở tác vụ terminal/agentic trong môi trường dòng lệnh ^[8].
SWE-Bench Pro	58.6%	64.3%	Claude Opus 4.7	Claude Opus 4.7 nhỉnh hơn ở benchmark sửa lỗi/phát triển phần mềm thực tế dạng khó ^[8].
SWE-Bench Verified	Không đủ số nhất quán từ nguồn đối chiếu	82.4% hoặc 87.6% tùy nguồn	Không kết luận chắc	Có mâu thuẫn giữa nguồn bên thứ ba: một nguồn ghi Opus 4.7 đạt 82.4%, nguồn khác ghi 87.6% ^[4]^[6].
GPQA Diamond	93.6%	94.2%	Claude Opus 4.7, rất sát	Chênh lệch nhỏ; một nguồn nhận định các frontier model gần như đã hội tụ trên GPQA Diamond ^[7]^[14].
GDPval	84.9%	80.3%	GPT-5.5	GPT-5.5 nhỉnh hơn ở đánh giá tác vụ kinh tế/công việc văn phòng theo bảng tổng hợp ^[8].
OSWorld-Verified	Có lợi thế theo tổng hợp	Thấp hơn GPT-5.5	GPT-5.5	Nguồn tổng hợp nói GPT-5.5 dẫn ở OSWorld-Verified, nhưng snippet không hiển thị đầy đủ số ^[11].
CyberGym	Có lợi thế theo tổng hợp	Thấp hơn GPT-5.5	GPT-5.5	Nguồn tổng hợp nói GPT-5.5 dẫn ở CyberGym, nhưng snippet không hiển thị đầy đủ số ^[11].
FinanceAgent v1.1	Thấp hơn Opus 4.7 theo tổng hợp	Cao hơn GPT-5.5	Claude Opus 4.7	Nguồn tổng hợp nói Opus 4.7 dẫn ở FinanceAgent v1.1 ^[11].
MCP Atlas	Thấp hơn Opus 4.7 theo tổng hợp	Cao hơn GPT-5.5	Claude Opus 4.7	Nguồn tổng hợp nói Opus 4.7 dẫn ở MCP Atlas ^[11].
BrowseComp	Cao hơn Opus 4.7 theo tổng hợp	Thấp hơn GPT-5.5	GPT-5.5	Nguồn tổng hợp nói GPT-5.5 dẫn ở BrowseComp ^[11].
Humanity’s Last Exam	Nguồn mâu thuẫn	Nguồn mâu thuẫn	Không kết luận chắc	LLM Stats nói Opus 4.7 dẫn HLE có và không có tools, trong khi một bài khác ghi GPT-5.5 cao hơn ở HLE và HLE with tools; đây là điểm không nên kết luận nếu chưa có bảng chính thức cùng điều kiện ^[11].

Kết luận theo từng loại tác vụ

Coding thực chiến: Claude Opus 4.7 có lợi thế trên SWE-Bench Pro với 64.3% so với GPT-5.5 là 58.6% ^[8]. Tuy nhiên GPT-5.5 lại vượt rõ ở Terminal-Bench 2.0 với 82.7% so với 69.4%, nên nếu tác vụ là agent thao tác terminal, chạy lệnh, điều hướng môi trường và tự động hóa, GPT-5.5 có vẻ mạnh hơn ^[8].
Reasoning khoa học/tri thức khó: Claude Opus 4.7 nhỉnh hơn trên GPQA Diamond với 94.2% so với GPT-5.5 khoảng 93.6%, nhưng mức chênh này nhỏ và có thể không đáng kể trong thực tế ^[7]^[14].
Agent và workflow công việc: GPT-5.5 dẫn ở GDPval với 84.9% so với Claude Opus 4.7 là 80.3%, đồng thời được tổng hợp là dẫn ở BrowseComp, OSWorld-Verified và CyberGym ^[8]^[11]. Claude Opus 4.7 được tổng hợp là dẫn ở MCP Atlas và FinanceAgent v1.1, tức có lợi thế ở một số workflow agent tài chính/điều phối công cụ ^[11].
Độ chắc chắn của so sánh: Chưa có đủ bằng chứng độc lập, cùng prompt, cùng sampling, cùng tool setup để nói mô hình nào “toàn diện hơn” một cách tuyệt đối. Kết luận thực dụng là GPT-5.5 có vẻ tốt hơn cho terminal agents, browsing/OS/cyber và một số workflow năng suất; Claude Opus 4.7 có vẻ tốt hơn cho SWE-Bench Pro, reasoning sát ngưỡng cao và một số agent tài chính ^[8]^[11].

Chọn mô hình nào?

Chọn GPT-5.5 nếu bạn ưu tiên:
- Agent chạy terminal, automation, shell/tool execution ^[8].
- Tác vụ OS, browsing, cyber hoặc workflow năng suất tổng quát ^[11].
- Benchmark GDPval/công việc tri thức tổng quát ^[8].
Chọn Claude Opus 4.7 nếu bạn ưu tiên:
- Coding kiểu sửa issue phức tạp trên repo thật, nhất là SWE-Bench Pro ^[8].
- Reasoning khoa học khó, dù lợi thế trên GPQA Diamond là nhỏ ^[7]^[14].
- Agent tài chính hoặc orchestration theo các benchmark như FinanceAgent v1.1 và MCP Atlas ^[11].
Nếu dùng cho sản phẩm thật, nên chạy eval nội bộ trên dữ liệu của bạn; benchmark công khai hiện tại chưa đủ đồng nhất để thay thế A/B test thực tế.

Источники

[1] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[2] Claude Opus 4.7 Benchmark Full Analysis: Empirical Data Leading ...help.apiyi.com
Q1: What is Claude Opus 4.7? Claude Opus 4.7 is the flagship Large Language Model released by Anthropic on April 16, 2026. It leads in multiple benchmarks, including coding (SWE-bench Verified 87.6%), Agent tool invocation, and scientific reasoning (GPQA Di...
[3] Claude Opus 4.7 Benchmark: Memory & Effort Levels Testeddatacamp.com
Note: Pricing is $5 per million input tokens and $25 per million output tokens which is identical to Opus 4.6. If you want to explore this model in depth, this article by DataCamp team is a good read. A few numbers worth knowing before we test it: Benchmark...
[5] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[6] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[8] GPT-5.5: Pricing, Benchmarks & Performance - LLM Statsllm-stats.com
Show 18 more Self-reported by the model provider. Score may not be independently verified. Similar Models How GPT-5.5 compares to models with the closest performance across key benchmarks. GPT-5.5GPT-5.4Gemini 3.1 ProClaude Opus 4.7GPT-5.2 ProClaude Mythos...
[9] GPT-5.5: The Complete Guide (2026) - o-mega | AIo-mega.ai
Reasoning, Math, and Science Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- MMLU 92.4% - - GPQA Diamond 93.6% 92.8% 94.2% 94.3% ARC-AGI-2 85.0% 73.3% 77.1% ARC-AGI-1 95.0% 93.7% - FrontierMath T1-3 51.7% 52.4% 47.6% 43.8% F...
[11] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[23] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[28] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...

Популярное в «Открыть»

ОтветыОпубликовано28 апр. 2026Last edited 6 мая 202610 источники

GPT-5.5 vs Claude Opus 4.7: какие benchmarks важны для кодинга, агентов и reasoning

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

17K0

Быстрая карта бенчмарков

Benchmark	GPT-5.5	Claude Opus 4.7	Как читать результат
Terminal-Bench 2.0	82,7%	69,4%	Сильный плюс GPT-5.5 для workflow в командной строке. OpenAI описывает Terminal-Bench 2.0 как тест сложных command-line задач, где нужны planning, итерации и координация инструментов ^[5]^[11]^[23].
SWE-Bench Pro	58,6%	64,3%	Claude Opus 4.7 ведёт в сложном тесте на исправление реальных GitHub-issue; OpenAI также публикует для GPT-5.5 результат 58,6% на этом тесте ^[5]^[11]^[23].
GPQA Diamond	93,6%	94,2%	Claude чуть впереди, но разрыв всего 0,6 процентного пункта — этого мало, чтобы объявлять победителя для всех reasoning-задач ^[5]^[11].
BrowseComp	84,4%	79,3%	GPT-5.5 ведёт в таблицах Vellum и Mashable ^[5]^[11].
GDPval	84,9%	80,3%	GPT-5.5 ведёт в сводке Vellum ^[5].
OSWorld-Verified	78,7%	78,0%	GPT-5.5 лишь немного впереди; такой разрыв лучше перепроверять на собственных сценариях ^[5].
MCP Atlas	75,3%	79,1%	Claude Opus 4.7 ведёт в этом тесте на orchestration инструментов по таблице Vellum ^[5].
FrontierMath T1–3	51,7%	43,8%	GPT-5.5 ведёт в таблице Vellum ^[5].
FinanceAgent v1.1	Нет полной пары чисел в предоставленных источниках	64,4% в DataCamp	LLM Stats относит лидерство к Claude Opus 4.7, но без полной сопоставимой пары чисел здесь лучше быть осторожнее ^[3]^[6].
Humanity’s Last Exam	Данные расходятся	Данные расходятся	Не лучший tie-breaker без повторного запуска в одинаковых условиях: LLM Stats, Mashable и o-mega дают разные сигналы ^[6]^[9]^[11].

Кодинг: Terminal-Bench и SWE-Bench измеряют разные навыки

Агенты и workflow: у GPT-5.5 много сильных сигналов, но Claude не стоит списывать

Reasoning: GPQA почти вровень, HLE лучше не использовать как решающий тест

Что выбрать: GPT-5.5 или Claude Opus 4.7

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Абсолютного победителя нет: GPT 5.5 явно ведёт в Terminal Bench 2.0 — 82,7% против 69,4%, а Claude Opus 4.7 сильнее в SWE Bench Pro — 64,3% против 58,6%.
В reasoning разделе разрыв на GPQA Diamond минимален: Claude Opus 4.7 набирает 94,2%, GPT 5.5 — 93,6%, поэтому одного этого теста мало для выбора модели.
Часть публичных цифр основана на данных поставщиков или агрегаторов, а по SWE Bench Verified и Humanity’s Last Exam источники дают не полностью согласованные результаты.

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5 vs Claude Opus 4.7: какие benchmarks важны для кодинга, агентов и reasoning»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI».

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

So sánh một cách toàn diện benchmarks của GPT-5.5 vs Claude Opus 4.7

Studio Global AI26 апр. 202636 источники

Цитируемый ответ

Lưu ý về độ tin cậy

Nguồn chính thức của Anthropic có trang Claude Opus 4.7 và nói mô hình này cải thiện rõ ở tool calls, planning và agent decision-making, nhưng snippet công khai không cho đủ toàn bộ bảng số để đối chiếu trực tiếp với GPT-5.5 ^[3].
Nguồn OpenAI tìm được gồm GPT-5.5 System Card và tài liệu benchmark riêng như GeneBench, nhưng không thấy một trang chính thức duy nhất công bố toàn bộ bảng đối đầu GPT-5.5 vs Claude Opus 4.7 theo cùng format ^[1]^[9].
Vì vậy, các con số so sánh trực tiếp bên dưới chủ yếu dựa trên các nguồn tổng hợp/benchmark aggregator và bài phân tích bên thứ ba; cần coi là “tự báo cáo hoặc tổng hợp”, không phải kết quả kiểm định độc lập hoàn toàn ^[11]^[13].

Bảng benchmark chính

Nhóm benchmark	GPT-5.5	Claude Opus 4.7	Mô hình nhỉnh hơn	Nhận xét
Terminal-Bench 2.0	82.7%	69.4%	GPT-5.5	GPT-5.5 dẫn khá xa ở tác vụ terminal/agentic trong môi trường dòng lệnh ^[8].
SWE-Bench Pro	58.6%	64.3%	Claude Opus 4.7	Claude Opus 4.7 nhỉnh hơn ở benchmark sửa lỗi/phát triển phần mềm thực tế dạng khó ^[8].
SWE-Bench Verified	Không đủ số nhất quán từ nguồn đối chiếu	82.4% hoặc 87.6% tùy nguồn	Không kết luận chắc	Có mâu thuẫn giữa nguồn bên thứ ba: một nguồn ghi Opus 4.7 đạt 82.4%, nguồn khác ghi 87.6% ^[4]^[6].
GPQA Diamond	93.6%	94.2%	Claude Opus 4.7, rất sát	Chênh lệch nhỏ; một nguồn nhận định các frontier model gần như đã hội tụ trên GPQA Diamond ^[7]^[14].
GDPval	84.9%	80.3%	GPT-5.5	GPT-5.5 nhỉnh hơn ở đánh giá tác vụ kinh tế/công việc văn phòng theo bảng tổng hợp ^[8].
OSWorld-Verified	Có lợi thế theo tổng hợp	Thấp hơn GPT-5.5	GPT-5.5	Nguồn tổng hợp nói GPT-5.5 dẫn ở OSWorld-Verified, nhưng snippet không hiển thị đầy đủ số ^[11].
CyberGym	Có lợi thế theo tổng hợp	Thấp hơn GPT-5.5	GPT-5.5	Nguồn tổng hợp nói GPT-5.5 dẫn ở CyberGym, nhưng snippet không hiển thị đầy đủ số ^[11].
FinanceAgent v1.1	Thấp hơn Opus 4.7 theo tổng hợp	Cao hơn GPT-5.5	Claude Opus 4.7	Nguồn tổng hợp nói Opus 4.7 dẫn ở FinanceAgent v1.1 ^[11].
MCP Atlas	Thấp hơn Opus 4.7 theo tổng hợp	Cao hơn GPT-5.5	Claude Opus 4.7	Nguồn tổng hợp nói Opus 4.7 dẫn ở MCP Atlas ^[11].
BrowseComp	Cao hơn Opus 4.7 theo tổng hợp	Thấp hơn GPT-5.5	GPT-5.5	Nguồn tổng hợp nói GPT-5.5 dẫn ở BrowseComp ^[11].
Humanity’s Last Exam	Nguồn mâu thuẫn	Nguồn mâu thuẫn	Không kết luận chắc	LLM Stats nói Opus 4.7 dẫn HLE có và không có tools, trong khi một bài khác ghi GPT-5.5 cao hơn ở HLE và HLE with tools; đây là điểm không nên kết luận nếu chưa có bảng chính thức cùng điều kiện ^[11].

Kết luận theo từng loại tác vụ

Coding thực chiến: Claude Opus 4.7 có lợi thế trên SWE-Bench Pro với 64.3% so với GPT-5.5 là 58.6% ^[8]. Tuy nhiên GPT-5.5 lại vượt rõ ở Terminal-Bench 2.0 với 82.7% so với 69.4%, nên nếu tác vụ là agent thao tác terminal, chạy lệnh, điều hướng môi trường và tự động hóa, GPT-5.5 có vẻ mạnh hơn ^[8].
Reasoning khoa học/tri thức khó: Claude Opus 4.7 nhỉnh hơn trên GPQA Diamond với 94.2% so với GPT-5.5 khoảng 93.6%, nhưng mức chênh này nhỏ và có thể không đáng kể trong thực tế ^[7]^[14].
Agent và workflow công việc: GPT-5.5 dẫn ở GDPval với 84.9% so với Claude Opus 4.7 là 80.3%, đồng thời được tổng hợp là dẫn ở BrowseComp, OSWorld-Verified và CyberGym ^[8]^[11]. Claude Opus 4.7 được tổng hợp là dẫn ở MCP Atlas và FinanceAgent v1.1, tức có lợi thế ở một số workflow agent tài chính/điều phối công cụ ^[11].
Độ chắc chắn của so sánh: Chưa có đủ bằng chứng độc lập, cùng prompt, cùng sampling, cùng tool setup để nói mô hình nào “toàn diện hơn” một cách tuyệt đối. Kết luận thực dụng là GPT-5.5 có vẻ tốt hơn cho terminal agents, browsing/OS/cyber và một số workflow năng suất; Claude Opus 4.7 có vẻ tốt hơn cho SWE-Bench Pro, reasoning sát ngưỡng cao và một số agent tài chính ^[8]^[11].

Chọn mô hình nào?

Chọn GPT-5.5 nếu bạn ưu tiên:
- Agent chạy terminal, automation, shell/tool execution ^[8].
- Tác vụ OS, browsing, cyber hoặc workflow năng suất tổng quát ^[11].
- Benchmark GDPval/công việc tri thức tổng quát ^[8].
Chọn Claude Opus 4.7 nếu bạn ưu tiên:
- Coding kiểu sửa issue phức tạp trên repo thật, nhất là SWE-Bench Pro ^[8].
- Reasoning khoa học khó, dù lợi thế trên GPQA Diamond là nhỏ ^[7]^[14].
- Agent tài chính hoặc orchestration theo các benchmark như FinanceAgent v1.1 và MCP Atlas ^[11].
Nếu dùng cho sản phẩm thật, nên chạy eval nội bộ trên dữ liệu của bạn; benchmark công khai hiện tại chưa đủ đồng nhất để thay thế A/B test thực tế.

Источники

[1] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[2] Claude Opus 4.7 Benchmark Full Analysis: Empirical Data Leading ...help.apiyi.com
Q1: What is Claude Opus 4.7? Claude Opus 4.7 is the flagship Large Language Model released by Anthropic on April 16, 2026. It leads in multiple benchmarks, including coding (SWE-bench Verified 87.6%), Agent tool invocation, and scientific reasoning (GPQA Di...
[3] Claude Opus 4.7 Benchmark: Memory & Effort Levels Testeddatacamp.com
Note: Pricing is $5 per million input tokens and $25 per million output tokens which is identical to Opus 4.6. If you want to explore this model in depth, this article by DataCamp team is a good read. A few numbers worth knowing before we test it: Benchmark...
[5] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[6] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[8] GPT-5.5: Pricing, Benchmarks & Performance - LLM Statsllm-stats.com
Show 18 more Self-reported by the model provider. Score may not be independently verified. Similar Models How GPT-5.5 compares to models with the closest performance across key benchmarks. GPT-5.5GPT-5.4Gemini 3.1 ProClaude Opus 4.7GPT-5.2 ProClaude Mythos...
[9] GPT-5.5: The Complete Guide (2026) - o-mega | AIo-mega.ai
Reasoning, Math, and Science Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- MMLU 92.4% - - GPQA Diamond 93.6% 92.8% 94.2% 94.3% ARC-AGI-2 85.0% 73.3% 77.1% ARC-AGI-1 95.0% 93.7% - FrontierMath T1-3 51.7% 52.4% 47.6% 43.8% F...
[11] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[23] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[28] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...