Câu trả lờiĐã xuất bản28 thg 4 2026Last edited 6 thg 5 202610 nguồn

GPT-5.5 vs Claude Opus 4.7: benchmark mana yang layak dipercaya?

Tidak ada pemenang mutlak: GPT 5.5 unggul jelas di Terminal Bench 2.0 dengan 82,7% vs 69,4%, sementara Claude Opus 4.7 memimpin SWE Bench Pro dengan 64,3% vs 58,6%. Untuk reasoning sains, Claude Opus 4.7 hanya unggul tipis di GPQA Diamond, 94,2% vs 93,6%, sehingga selisih ini belum cukup untuk menggantikan evaluasi...

Tìm kiếm và kiểm chứng sự thật với Studio Global AI Duyệt thêm từ Khám phá

17K0

Minh họa so sánh benchmark GPT-5.5 và Claude Opus 4.7 cho coding, agent và reasoning — GPT-5.5 vs Claude Opus 4.7: benchmark nào đáng tin cho coding, agent và reasoningCác benchmark GPT-5.5 vs Claude Opus 4.7 nên được đọc theo workload: terminal agents, sửa issue phần mềm, tool orchestration và reasoning.
Prompt AI
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7: benchmark nào đáng tin cho coding, agent và reasoning?. Article summary: Không có người thắng tuyệt đối: GPT 5.5 nổi bật ở terminal/agentic coding với Terminal Bench 2.0 đạt 82,7% so với 69,4%, còn Claude Opus 4.7 dẫn SWE Bench Pro với 64,3% so với 58,6%; các số này nên dùng làm điểm lọc,.... Topic tags: ai, openai, anthropic, claude, chatgpt. Reference image context from search candidates: Reference image 1: visual subject "# So sánh GPT-5.5 với Claude Opus 4.7. GPT-5.5 và Claude Opus 4.7 là hai model AI hàng đầu ra mắt cách nhau chỉ một tuần tháng 4/2026, không có winner rõ ràng khi benchmarks chia t" source context "So sánh GPT-5.5 với Claude Opus 4.7 | Viết bởi vninfinity" Reference image 2: visual subject "# So sánh GPT-5.5 với Claude Opus 4.7. GPT-5.5 và Claude Opus 4.7 là hai model
openai.com

Benchmark publik saat ini tidak mendukung kesimpulan sederhana seperti GPT-5.5 pasti lebih baik daripada Claude Opus 4.7, atau sebaliknya. Polanya lebih masuk akal jika dibaca per jenis kerja: GPT-5.5 tampak lebih kuat untuk terminal, browsing, dan beberapa workflow agent; Claude Opus 4.7 lebih menonjol di SWE-Bench Pro, MCP Atlas, dan sebagian benchmark reasoning atau tooling menurut tabel komparatif yang tersedia ^[5]^[6]^[11].

Catatan penting: banyak angka berasal dari rilis vendor atau agregator benchmark. LLM Stats juga memberi catatan bahwa skor GPT-5.5 dapat bersifat self-reported dan belum tentu diverifikasi secara independen ^[8]. Jadi, gunakan benchmark publik untuk menyusun shortlist, bukan untuk langsung mengunci model produksi.

Ringkasan cepat benchmark utama

Benchmark	GPT-5.5	Claude Opus 4.7	Cara membacanya
Terminal-Bench 2.0	82,7%	69,4%	Keunggulan jelas untuk GPT-5.5 pada workflow command-line. OpenAI menjelaskan benchmark ini menguji tugas terminal kompleks yang membutuhkan planning, iterasi, dan koordinasi tool ^[5]^[11]^[23].
SWE-Bench Pro	58,6%	64,3%	Claude Opus 4.7 unggul pada benchmark perbaikan issue GitHub nyata yang lebih sulit; OpenAI juga menyebut GPT-5.5 mencapai 58,6% di benchmark ini ^[5]^[11]^[23].
GPQA Diamond	93,6%	94,2%	Claude sedikit unggul, tetapi selisihnya hanya 0,6 poin persentase. Jangan jadikan ini satu-satunya dasar memilih model reasoning ^[5]^[11].
BrowseComp	84,4%	79,3%	GPT-5.5 memimpin dalam tabel Vellum dan Mashable ^[5]^[11].
GDPval	84,9%	80,3%	GPT-5.5 memimpin dalam tabel Vellum ^[5].
OSWorld-Verified	78,7%	78,0%	GPT-5.5 hanya unggul tipis, jadi perlu diuji lagi pada workflow nyata ^[5].
MCP Atlas	75,3%	79,1%	Claude Opus 4.7 unggul pada benchmark tool orchestration ini dalam tabel Vellum ^[5].
FrontierMath T1–3	51,7%	43,8%	GPT-5.5 memimpin dalam tabel Vellum ^[5].
FinanceAgent v1.1	Tidak ada angka pembanding lengkap dalam sumber yang tersedia	64,4% dalam DataCamp	LLM Stats menempatkan Claude sebagai pemimpin FinanceAgent v1.1, tetapi klaim ini perlu dibaca hati-hati karena pasangan angka lengkap tidak tersedia dalam sumber yang dikutip di sini ^[3]^[6].
Humanity’s Last Exam	Tidak konsisten antar-sumber	Tidak konsisten antar-sumber	Sebaiknya tidak dipakai sebagai tie-breaker sebelum Anda mengontrol kondisi pengujian yang sama; LLM Stats, Mashable, dan o-mega memberi sinyal yang berbeda ^[6]^[9]^[11].

Jika mengikuti ringkasan LLM Stats, Claude Opus 4.7 memimpin 6 dari 10 benchmark yang menurut sumber tersebut dilaporkan oleh kedua penyedia, sedangkan GPT-5.5 memimpin 4. LLM Stats juga merangkum bahwa keunggulan Claude terkonsentrasi pada tes reasoning-heavy dan review-grade, sementara keunggulan GPT-5.5 lebih banyak muncul pada tool-use panjang dan tugas berbasis shell ^[6]. Ringkasan seperti ini berguna sebagai peta awal, tetapi tidak menyelesaikan kasus yang datanya saling bertentangan, seperti Humanity’s Last Exam ^[6]^[9]^[11].

Coding: Terminal-Bench dan SWE-Bench mengukur hal yang berbeda

Untuk agentic coding yang banyak berjalan di terminal, GPT-5.5 adalah kandidat awal yang kuat. Model ini mencapai 82,7% di Terminal-Bench 2.0, jauh di atas Claude Opus 4.7 yang berada di 69,4% dalam tabel perbandingan publik ^[5]^[11]. Menurut OpenAI, Terminal-Bench 2.0 menguji workflow command-line kompleks yang membutuhkan perencanaan, iterasi, dan koordinasi tool ^[23].

Artinya, jika produk Anda mirip CLI copilot, asisten DevOps, atau coding agent yang harus menjalankan test, membaca error, mengubah file, lalu mengulang prosesnya, Terminal-Bench 2.0 lebih relevan daripada benchmark reasoning umum.

Namun untuk perbaikan issue software nyata, Claude Opus 4.7 memimpin di SWE-Bench Pro: 64,3% dibanding 58,6% untuk GPT-5.5 ^[5]^[11]. OpenAI menggambarkan SWE-Bench Pro sebagai evaluasi kemampuan menyelesaikan issue GitHub dunia nyata ^[23]. Jika workload Anda lebih dekat ke bug fixing, perubahan kode dalam repo sungguhan, atau software task yang membutuhkan kualitas review tinggi, Claude Opus 4.7 sebaiknya masuk putaran uji pertama.

SWE-Bench Verified sendiri belum cukup bersih untuk menentukan pemenang dari sumber yang tersedia. MindStudio mencatat Claude Opus 4.7 di 82,4%, sementara APIyi dan DataCamp mencatat 87,6%; sumber yang disediakan tidak memberi pasangan angka GPT-5.5 vs Claude Opus 4.7 yang stabil untuk baris yang sama ^[1]^[2]^[3].

Agent dan workflow: GPT-5.5 sering unggul, tetapi Claude punya area kuat

Pada kelompok workflow agent, GPT-5.5 punya beberapa sinyal positif. Dalam tabel Vellum, GPT-5.5 memimpin BrowseComp dengan 84,4% vs 79,3%, GDPval dengan 84,9% vs 80,3%, dan OSWorld-Verified dengan 78,7% vs 78,0% ^[5]. Mashable juga mencatat GPT-5.5 memimpin BrowseComp dengan pasangan skor yang sama, 84,4% vs 79,3% ^[11]. LLM Stats menambahkan bahwa GPT-5.5 memimpin CyberGym, meski snippet sumber yang dikutip tidak menampilkan persentasenya ^[6].

Claude Opus 4.7 tetap punya wilayah yang perlu diperhatikan. Dalam tabel Vellum, Claude memimpin MCP Atlas dengan 79,1% vs 75,3% untuk GPT-5.5 ^[5]. LLM Stats juga menempatkan Claude sebagai pemimpin FinanceAgent v1.1, sementara DataCamp mencatat Claude Opus 4.7 mencapai 64,4% pada FinanceAgent v1.1 ^[3]^[6]. Anthropic sendiri memposisikan Claude Opus 4.7 sebagai model Opus baru yang lebih kuat untuk coding, agents, vision, dan tugas multi-langkah ^[28].

Jadi, jika workflow Anda banyak berurusan dengan shell, browsing, atau otomatisasi bergaya sistem operasi, GPT-5.5 punya modal awal yang kuat. Jika bebannya lebih condong ke orchestration terstruktur, MCP, atau workflow bertema finansial, Claude Opus 4.7 tetap layak diuji langsung, bukan dieliminasi dari awal.

Reasoning: GPQA rapat, HLE belum stabil

Di GPQA Diamond, Claude Opus 4.7 mencetak 94,2%, sedangkan GPT-5.5 mencetak 93,6% dalam tabel perbandingan ^[5]^[11]. Ini memang keunggulan untuk Claude, tetapi selisih 0,6 poin persentase terlalu kecil untuk dijadikan keputusan final bagi semua use case reasoning. Untuk tanya-jawab sains, analisis ahli, atau reasoning panjang, pilihan yang lebih aman adalah menjalankan kedua model pada kumpulan soal nyata milik Anda.

Humanity’s Last Exam adalah bagian yang paling perlu dibaca dengan kacamata kritis. LLM Stats menyebut Claude Opus 4.7 memimpin HLE tanpa tools dan HLE dengan tools ^[6]. Mashable justru mencatat GPT-5.5 di 40,6% vs Opus 4.7 di 31,2% untuk HLE tanpa tools, sementara Claude unggul 54,7% vs 52,2% untuk HLE dengan tools ^[11]. o-mega menampilkan lagi set angka HLE yang berbeda ^[9]. Saat sumber tidak sepakat, HLE sebaiknya tidak dipakai sebagai penentu akhir kecuali Anda menjalankan ulang evaluasi dengan setup yang sama.

Jadi, pilih GPT-5.5 atau Claude Opus 4.7?

Uji GPT-5.5 lebih dulu jika prioritas Anda adalah agent yang berjalan di terminal, workflow shell, loop menjalankan test, atau otomatisasi multi-langkah. Alasannya sederhana: Terminal-Bench 2.0 condong kuat ke GPT-5.5 ^[5]^[11]^[23]. GPT-5.5 juga layak dicoba lebih awal untuk workflow browsing atau search-style, GDPval, OSWorld-Verified, dan FrontierMath T1–3 menurut tabel Vellum ^[5]^[11].

Uji Claude Opus 4.7 lebih dulu jika prioritas Anda adalah perbaikan issue software ala SWE-Bench Pro, tempat Claude unggul atas GPT-5.5 ^[5]^[11]. Claude juga sebaiknya masuk shortlist untuk reasoning ilmiah gaya GPQA, MCP atau tool orchestration, dan workflow finance-agent, berdasarkan GPQA Diamond, MCP Atlas, FinanceAgent v1.1, serta ringkasan LLM Stats ^[3]^[5]^[6]^[11].

Cara paling aman adalah tidak memilih hanya dari leaderboard. Pecah workload Anda menjadi empat kelompok: coding dalam repo, otomatisasi terminal atau agent, reasoning tanpa tool, dan workflow dengan tool. Untuk tiap kelompok, jalankan prompt yang sama, akses tool yang sama, sampling yang sama, reasoning effort yang sama, serta kriteria penilaian yang sama. Benchmark publik membantu menentukan titik awal; eval internal yang menentukan model mana yang pantas masuk produk, apalagi ketika sebagian skor publik mungkin self-reported atau belum diverifikasi independen ^[8].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

Tidak ada pemenang mutlak: GPT 5.5 unggul jelas di Terminal Bench 2.0 dengan 82,7% vs 69,4%, sementara Claude Opus 4.7 memimpin SWE Bench Pro dengan 64,3% vs 58,6%.
Untuk reasoning sains, Claude Opus 4.7 hanya unggul tipis di GPQA Diamond, 94,2% vs 93,6%, sehingga selisih ini belum cukup untuk menggantikan evaluasi internal.
Beberapa angka publik masih perlu dibaca hati hati: SWE Bench Verified dan Humanity’s Last Exam menunjukkan data yang tidak konsisten, dan sebagian skor bisa bersifat self reported.

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "GPT-5.5 vs Claude Opus 4.7: benchmark mana yang layak dipercaya?" là gì?

Tidak ada pemenang mutlak: GPT 5.5 unggul jelas di Terminal Bench 2.0 dengan 82,7% vs 69,4%, sementara Claude Opus 4.7 memimpin SWE Bench Pro dengan 64,3% vs 58,6%.

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Beberapa angka publik masih perlu dibaca hati hati: SWE Bench Verified dan Humanity’s Last Exam menunjukkan data yang tidak konsisten, dan sebagian skor bisa bersifat self reported.

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Phân tích nghiên cứu: Trẻ học từ nhờ nghe nhiều hơn hay xử lý từ nhanh hơn?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "Trẻ học nói không chỉ nhờ nghe nhiều: cách người lớn đáp lời có liên quan ra sao?".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Phân tích nghiên cứu: Trẻ học từ nhờ nghe nhiều hơn hay xử lý từ nhanh hơn?

Ngôn ngữ đầu vào hay tốc độ xử lý từ: điều gì dự báo vốn từ của trẻ?

Trẻ học nói không chỉ nhờ nghe nhiều: cách người lớn đáp lời có liên quan ra sao?

Cách người lớn đáp lời trẻ có liên quan gì đến phát triển ngôn ngữ?

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security beta: Anthropic dùng AI để quét lỗ hổng mã nguồn doanh nghiệp

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API: 1 triệu token, giá thấp và tham vọng voice agent của xAI

Trao đổi nghiên cứu

Bạn26 thg 4 2026

Câu hỏi nghiên cứu

So sánh một cách toàn diện benchmarks của GPT-5.5 vs Claude Opus 4.7

Studio Global AI26 thg 4 202636 nguồn

Câu trả lời được trích dẫn

GPT-5.5 và Claude Opus 4.7 không có một bộ benchmark “chuẩn hóa, độc lập, cùng điều kiện” được công bố đầy đủ, nên so sánh dưới đây nên xem là tổng hợp có điều kiện. Nhìn chung: GPT-5.5 mạnh hơn ở tác vụ terminal/agentic thao tác môi trường, duyệt web, OS và một số benchmark kinh tế; Claude Opus 4.7 nhỉnh hơn ở coding dạng SWE-Bench Pro, reasoning nặng và agent tài chính theo các bảng tổng hợp hiện có ^[8]^[11].

Lưu ý về độ tin cậy

Nguồn chính thức của Anthropic có trang Claude Opus 4.7 và nói mô hình này cải thiện rõ ở tool calls, planning và agent decision-making, nhưng snippet công khai không cho đủ toàn bộ bảng số để đối chiếu trực tiếp với GPT-5.5 ^[3].
Nguồn OpenAI tìm được gồm GPT-5.5 System Card và tài liệu benchmark riêng như GeneBench, nhưng không thấy một trang chính thức duy nhất công bố toàn bộ bảng đối đầu GPT-5.5 vs Claude Opus 4.7 theo cùng format ^[1]^[9].
Vì vậy, các con số so sánh trực tiếp bên dưới chủ yếu dựa trên các nguồn tổng hợp/benchmark aggregator và bài phân tích bên thứ ba; cần coi là “tự báo cáo hoặc tổng hợp”, không phải kết quả kiểm định độc lập hoàn toàn ^[11]^[13].

Bảng benchmark chính

Nhóm benchmark	GPT-5.5	Claude Opus 4.7	Mô hình nhỉnh hơn	Nhận xét
Terminal-Bench 2.0	82.7%	69.4%	GPT-5.5	GPT-5.5 dẫn khá xa ở tác vụ terminal/agentic trong môi trường dòng lệnh ^[8].
SWE-Bench Pro	58.6%	64.3%	Claude Opus 4.7	Claude Opus 4.7 nhỉnh hơn ở benchmark sửa lỗi/phát triển phần mềm thực tế dạng khó ^[8].
SWE-Bench Verified	Không đủ số nhất quán từ nguồn đối chiếu	82.4% hoặc 87.6% tùy nguồn	Không kết luận chắc	Có mâu thuẫn giữa nguồn bên thứ ba: một nguồn ghi Opus 4.7 đạt 82.4%, nguồn khác ghi 87.6% ^[4]^[6].
GPQA Diamond	93.6%	94.2%	Claude Opus 4.7, rất sát	Chênh lệch nhỏ; một nguồn nhận định các frontier model gần như đã hội tụ trên GPQA Diamond ^[7]^[14].
GDPval	84.9%	80.3%	GPT-5.5	GPT-5.5 nhỉnh hơn ở đánh giá tác vụ kinh tế/công việc văn phòng theo bảng tổng hợp ^[8].
OSWorld-Verified	Có lợi thế theo tổng hợp	Thấp hơn GPT-5.5	GPT-5.5	Nguồn tổng hợp nói GPT-5.5 dẫn ở OSWorld-Verified, nhưng snippet không hiển thị đầy đủ số ^[11].
CyberGym	Có lợi thế theo tổng hợp	Thấp hơn GPT-5.5	GPT-5.5	Nguồn tổng hợp nói GPT-5.5 dẫn ở CyberGym, nhưng snippet không hiển thị đầy đủ số ^[11].
FinanceAgent v1.1	Thấp hơn Opus 4.7 theo tổng hợp	Cao hơn GPT-5.5	Claude Opus 4.7	Nguồn tổng hợp nói Opus 4.7 dẫn ở FinanceAgent v1.1 ^[11].
MCP Atlas	Thấp hơn Opus 4.7 theo tổng hợp	Cao hơn GPT-5.5	Claude Opus 4.7	Nguồn tổng hợp nói Opus 4.7 dẫn ở MCP Atlas ^[11].
BrowseComp	Cao hơn Opus 4.7 theo tổng hợp	Thấp hơn GPT-5.5	GPT-5.5	Nguồn tổng hợp nói GPT-5.5 dẫn ở BrowseComp ^[11].
Humanity’s Last Exam	Nguồn mâu thuẫn	Nguồn mâu thuẫn	Không kết luận chắc	LLM Stats nói Opus 4.7 dẫn HLE có và không có tools, trong khi một bài khác ghi GPT-5.5 cao hơn ở HLE và HLE with tools; đây là điểm không nên kết luận nếu chưa có bảng chính thức cùng điều kiện ^[11].

Kết luận theo từng loại tác vụ

Coding thực chiến: Claude Opus 4.7 có lợi thế trên SWE-Bench Pro với 64.3% so với GPT-5.5 là 58.6% ^[8]. Tuy nhiên GPT-5.5 lại vượt rõ ở Terminal-Bench 2.0 với 82.7% so với 69.4%, nên nếu tác vụ là agent thao tác terminal, chạy lệnh, điều hướng môi trường và tự động hóa, GPT-5.5 có vẻ mạnh hơn ^[8].
Reasoning khoa học/tri thức khó: Claude Opus 4.7 nhỉnh hơn trên GPQA Diamond với 94.2% so với GPT-5.5 khoảng 93.6%, nhưng mức chênh này nhỏ và có thể không đáng kể trong thực tế ^[7]^[14].
Agent và workflow công việc: GPT-5.5 dẫn ở GDPval với 84.9% so với Claude Opus 4.7 là 80.3%, đồng thời được tổng hợp là dẫn ở BrowseComp, OSWorld-Verified và CyberGym ^[8]^[11]. Claude Opus 4.7 được tổng hợp là dẫn ở MCP Atlas và FinanceAgent v1.1, tức có lợi thế ở một số workflow agent tài chính/điều phối công cụ ^[11].
Độ chắc chắn của so sánh: Chưa có đủ bằng chứng độc lập, cùng prompt, cùng sampling, cùng tool setup để nói mô hình nào “toàn diện hơn” một cách tuyệt đối. Kết luận thực dụng là GPT-5.5 có vẻ tốt hơn cho terminal agents, browsing/OS/cyber và một số workflow năng suất; Claude Opus 4.7 có vẻ tốt hơn cho SWE-Bench Pro, reasoning sát ngưỡng cao và một số agent tài chính ^[8]^[11].

Chọn mô hình nào?

Chọn GPT-5.5 nếu bạn ưu tiên:
- Agent chạy terminal, automation, shell/tool execution ^[8].
- Tác vụ OS, browsing, cyber hoặc workflow năng suất tổng quát ^[11].
- Benchmark GDPval/công việc tri thức tổng quát ^[8].
Chọn Claude Opus 4.7 nếu bạn ưu tiên:
- Coding kiểu sửa issue phức tạp trên repo thật, nhất là SWE-Bench Pro ^[8].
- Reasoning khoa học khó, dù lợi thế trên GPQA Diamond là nhỏ ^[7]^[14].
- Agent tài chính hoặc orchestration theo các benchmark như FinanceAgent v1.1 và MCP Atlas ^[11].
Nếu dùng cho sản phẩm thật, nên chạy eval nội bộ trên dữ liệu của bạn; benchmark công khai hiện tại chưa đủ đồng nhất để thay thế A/B test thực tế.

Nguồn

[1] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[2] Claude Opus 4.7 Benchmark Full Analysis: Empirical Data Leading ...help.apiyi.com
Q1: What is Claude Opus 4.7? Claude Opus 4.7 is the flagship Large Language Model released by Anthropic on April 16, 2026. It leads in multiple benchmarks, including coding (SWE-bench Verified 87.6%), Agent tool invocation, and scientific reasoning (GPQA Di...
[3] Claude Opus 4.7 Benchmark: Memory & Effort Levels Testeddatacamp.com
Note: Pricing is $5 per million input tokens and $25 per million output tokens which is identical to Opus 4.6. If you want to explore this model in depth, this article by DataCamp team is a good read. A few numbers worth knowing before we test it: Benchmark...
[5] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[6] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[8] GPT-5.5: Pricing, Benchmarks & Performance - LLM Statsllm-stats.com
Show 18 more Self-reported by the model provider. Score may not be independently verified. Similar Models How GPT-5.5 compares to models with the closest performance across key benchmarks. GPT-5.5GPT-5.4Gemini 3.1 ProClaude Opus 4.7GPT-5.2 ProClaude Mythos...
[9] GPT-5.5: The Complete Guide (2026) - o-mega | AIo-mega.ai
Reasoning, Math, and Science Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- MMLU 92.4% - - GPQA Diamond 93.6% 92.8% 94.2% 94.3% ARC-AGI-2 85.0% 73.3% 77.1% ARC-AGI-1 95.0% 93.7% - FrontierMath T1-3 51.7% 52.4% 47.6% 43.8% F...
[11] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[23] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[28] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...

Khám phá xu hướng

Câu trả lờiĐã xuất bản28 thg 4 2026Last edited 6 thg 5 202610 nguồn

GPT-5.5 vs Claude Opus 4.7: benchmark mana yang layak dipercaya?

Tìm kiếm và kiểm chứng sự thật với Studio Global AI Duyệt thêm từ Khám phá

17K0

Ringkasan cepat benchmark utama

Benchmark	GPT-5.5	Claude Opus 4.7	Cara membacanya
Terminal-Bench 2.0	82,7%	69,4%	Keunggulan jelas untuk GPT-5.5 pada workflow command-line. OpenAI menjelaskan benchmark ini menguji tugas terminal kompleks yang membutuhkan planning, iterasi, dan koordinasi tool ^[5]^[11]^[23].
SWE-Bench Pro	58,6%	64,3%	Claude Opus 4.7 unggul pada benchmark perbaikan issue GitHub nyata yang lebih sulit; OpenAI juga menyebut GPT-5.5 mencapai 58,6% di benchmark ini ^[5]^[11]^[23].
GPQA Diamond	93,6%	94,2%	Claude sedikit unggul, tetapi selisihnya hanya 0,6 poin persentase. Jangan jadikan ini satu-satunya dasar memilih model reasoning ^[5]^[11].
BrowseComp	84,4%	79,3%	GPT-5.5 memimpin dalam tabel Vellum dan Mashable ^[5]^[11].
GDPval	84,9%	80,3%	GPT-5.5 memimpin dalam tabel Vellum ^[5].
OSWorld-Verified	78,7%	78,0%	GPT-5.5 hanya unggul tipis, jadi perlu diuji lagi pada workflow nyata ^[5].
MCP Atlas	75,3%	79,1%	Claude Opus 4.7 unggul pada benchmark tool orchestration ini dalam tabel Vellum ^[5].
FrontierMath T1–3	51,7%	43,8%	GPT-5.5 memimpin dalam tabel Vellum ^[5].
FinanceAgent v1.1	Tidak ada angka pembanding lengkap dalam sumber yang tersedia	64,4% dalam DataCamp	LLM Stats menempatkan Claude sebagai pemimpin FinanceAgent v1.1, tetapi klaim ini perlu dibaca hati-hati karena pasangan angka lengkap tidak tersedia dalam sumber yang dikutip di sini ^[3]^[6].
Humanity’s Last Exam	Tidak konsisten antar-sumber	Tidak konsisten antar-sumber	Sebaiknya tidak dipakai sebagai tie-breaker sebelum Anda mengontrol kondisi pengujian yang sama; LLM Stats, Mashable, dan o-mega memberi sinyal yang berbeda ^[6]^[9]^[11].

Coding: Terminal-Bench dan SWE-Bench mengukur hal yang berbeda

Agent dan workflow: GPT-5.5 sering unggul, tetapi Claude punya area kuat

Reasoning: GPQA rapat, HLE belum stabil

Jadi, pilih GPT-5.5 atau Claude Opus 4.7?

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

Tidak ada pemenang mutlak: GPT 5.5 unggul jelas di Terminal Bench 2.0 dengan 82,7% vs 69,4%, sementara Claude Opus 4.7 memimpin SWE Bench Pro dengan 64,3% vs 58,6%.
Untuk reasoning sains, Claude Opus 4.7 hanya unggul tipis di GPQA Diamond, 94,2% vs 93,6%, sehingga selisih ini belum cukup untuk menggantikan evaluasi internal.
Beberapa angka publik masih perlu dibaca hati hati: SWE Bench Verified dan Humanity’s Last Exam menunjukkan data yang tidak konsisten, dan sebagian skor bisa bersifat self reported.

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "GPT-5.5 vs Claude Opus 4.7: benchmark mana yang layak dipercaya?" là gì?

Tidak ada pemenang mutlak: GPT 5.5 unggul jelas di Terminal Bench 2.0 dengan 82,7% vs 69,4%, sementara Claude Opus 4.7 memimpin SWE Bench Pro dengan 64,3% vs 58,6%.

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Beberapa angka publik masih perlu dibaca hati hati: SWE Bench Verified dan Humanity’s Last Exam menunjukkan data yang tidak konsisten, dan sebagian skor bisa bersifat self reported.

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Phân tích nghiên cứu: Trẻ học từ nhờ nghe nhiều hơn hay xử lý từ nhanh hơn?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "Trẻ học nói không chỉ nhờ nghe nhiều: cách người lớn đáp lời có liên quan ra sao?".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Phân tích nghiên cứu: Trẻ học từ nhờ nghe nhiều hơn hay xử lý từ nhanh hơn?

Ngôn ngữ đầu vào hay tốc độ xử lý từ: điều gì dự báo vốn từ của trẻ?

Trẻ học nói không chỉ nhờ nghe nhiều: cách người lớn đáp lời có liên quan ra sao?

Cách người lớn đáp lời trẻ có liên quan gì đến phát triển ngôn ngữ?

Claude Security beta: Anthropic dùng AI để quét lỗ hổng mã nguồn doanh nghiệp

Grok 4.3 API: 1 triệu token, giá thấp và tham vọng voice agent của xAI

Trao đổi nghiên cứu

Bạn26 thg 4 2026

Câu hỏi nghiên cứu

So sánh một cách toàn diện benchmarks của GPT-5.5 vs Claude Opus 4.7

Studio Global AI26 thg 4 202636 nguồn

Câu trả lời được trích dẫn

Lưu ý về độ tin cậy

Nguồn chính thức của Anthropic có trang Claude Opus 4.7 và nói mô hình này cải thiện rõ ở tool calls, planning và agent decision-making, nhưng snippet công khai không cho đủ toàn bộ bảng số để đối chiếu trực tiếp với GPT-5.5 ^[3].
Nguồn OpenAI tìm được gồm GPT-5.5 System Card và tài liệu benchmark riêng như GeneBench, nhưng không thấy một trang chính thức duy nhất công bố toàn bộ bảng đối đầu GPT-5.5 vs Claude Opus 4.7 theo cùng format ^[1]^[9].
Vì vậy, các con số so sánh trực tiếp bên dưới chủ yếu dựa trên các nguồn tổng hợp/benchmark aggregator và bài phân tích bên thứ ba; cần coi là “tự báo cáo hoặc tổng hợp”, không phải kết quả kiểm định độc lập hoàn toàn ^[11]^[13].

Bảng benchmark chính

Nhóm benchmark	GPT-5.5	Claude Opus 4.7	Mô hình nhỉnh hơn	Nhận xét
Terminal-Bench 2.0	82.7%	69.4%	GPT-5.5	GPT-5.5 dẫn khá xa ở tác vụ terminal/agentic trong môi trường dòng lệnh ^[8].
SWE-Bench Pro	58.6%	64.3%	Claude Opus 4.7	Claude Opus 4.7 nhỉnh hơn ở benchmark sửa lỗi/phát triển phần mềm thực tế dạng khó ^[8].
SWE-Bench Verified	Không đủ số nhất quán từ nguồn đối chiếu	82.4% hoặc 87.6% tùy nguồn	Không kết luận chắc	Có mâu thuẫn giữa nguồn bên thứ ba: một nguồn ghi Opus 4.7 đạt 82.4%, nguồn khác ghi 87.6% ^[4]^[6].
GPQA Diamond	93.6%	94.2%	Claude Opus 4.7, rất sát	Chênh lệch nhỏ; một nguồn nhận định các frontier model gần như đã hội tụ trên GPQA Diamond ^[7]^[14].
GDPval	84.9%	80.3%	GPT-5.5	GPT-5.5 nhỉnh hơn ở đánh giá tác vụ kinh tế/công việc văn phòng theo bảng tổng hợp ^[8].
OSWorld-Verified	Có lợi thế theo tổng hợp	Thấp hơn GPT-5.5	GPT-5.5	Nguồn tổng hợp nói GPT-5.5 dẫn ở OSWorld-Verified, nhưng snippet không hiển thị đầy đủ số ^[11].
CyberGym	Có lợi thế theo tổng hợp	Thấp hơn GPT-5.5	GPT-5.5	Nguồn tổng hợp nói GPT-5.5 dẫn ở CyberGym, nhưng snippet không hiển thị đầy đủ số ^[11].
FinanceAgent v1.1	Thấp hơn Opus 4.7 theo tổng hợp	Cao hơn GPT-5.5	Claude Opus 4.7	Nguồn tổng hợp nói Opus 4.7 dẫn ở FinanceAgent v1.1 ^[11].
MCP Atlas	Thấp hơn Opus 4.7 theo tổng hợp	Cao hơn GPT-5.5	Claude Opus 4.7	Nguồn tổng hợp nói Opus 4.7 dẫn ở MCP Atlas ^[11].
BrowseComp	Cao hơn Opus 4.7 theo tổng hợp	Thấp hơn GPT-5.5	GPT-5.5	Nguồn tổng hợp nói GPT-5.5 dẫn ở BrowseComp ^[11].
Humanity’s Last Exam	Nguồn mâu thuẫn	Nguồn mâu thuẫn	Không kết luận chắc	LLM Stats nói Opus 4.7 dẫn HLE có và không có tools, trong khi một bài khác ghi GPT-5.5 cao hơn ở HLE và HLE with tools; đây là điểm không nên kết luận nếu chưa có bảng chính thức cùng điều kiện ^[11].

Kết luận theo từng loại tác vụ

Coding thực chiến: Claude Opus 4.7 có lợi thế trên SWE-Bench Pro với 64.3% so với GPT-5.5 là 58.6% ^[8]. Tuy nhiên GPT-5.5 lại vượt rõ ở Terminal-Bench 2.0 với 82.7% so với 69.4%, nên nếu tác vụ là agent thao tác terminal, chạy lệnh, điều hướng môi trường và tự động hóa, GPT-5.5 có vẻ mạnh hơn ^[8].
Reasoning khoa học/tri thức khó: Claude Opus 4.7 nhỉnh hơn trên GPQA Diamond với 94.2% so với GPT-5.5 khoảng 93.6%, nhưng mức chênh này nhỏ và có thể không đáng kể trong thực tế ^[7]^[14].
Agent và workflow công việc: GPT-5.5 dẫn ở GDPval với 84.9% so với Claude Opus 4.7 là 80.3%, đồng thời được tổng hợp là dẫn ở BrowseComp, OSWorld-Verified và CyberGym ^[8]^[11]. Claude Opus 4.7 được tổng hợp là dẫn ở MCP Atlas và FinanceAgent v1.1, tức có lợi thế ở một số workflow agent tài chính/điều phối công cụ ^[11].
Độ chắc chắn của so sánh: Chưa có đủ bằng chứng độc lập, cùng prompt, cùng sampling, cùng tool setup để nói mô hình nào “toàn diện hơn” một cách tuyệt đối. Kết luận thực dụng là GPT-5.5 có vẻ tốt hơn cho terminal agents, browsing/OS/cyber và một số workflow năng suất; Claude Opus 4.7 có vẻ tốt hơn cho SWE-Bench Pro, reasoning sát ngưỡng cao và một số agent tài chính ^[8]^[11].

Chọn mô hình nào?

Chọn GPT-5.5 nếu bạn ưu tiên:
- Agent chạy terminal, automation, shell/tool execution ^[8].
- Tác vụ OS, browsing, cyber hoặc workflow năng suất tổng quát ^[11].
- Benchmark GDPval/công việc tri thức tổng quát ^[8].
Chọn Claude Opus 4.7 nếu bạn ưu tiên:
- Coding kiểu sửa issue phức tạp trên repo thật, nhất là SWE-Bench Pro ^[8].
- Reasoning khoa học khó, dù lợi thế trên GPQA Diamond là nhỏ ^[7]^[14].
- Agent tài chính hoặc orchestration theo các benchmark như FinanceAgent v1.1 và MCP Atlas ^[11].
Nếu dùng cho sản phẩm thật, nên chạy eval nội bộ trên dữ liệu của bạn; benchmark công khai hiện tại chưa đủ đồng nhất để thay thế A/B test thực tế.

Nguồn

[1] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[2] Claude Opus 4.7 Benchmark Full Analysis: Empirical Data Leading ...help.apiyi.com
Q1: What is Claude Opus 4.7? Claude Opus 4.7 is the flagship Large Language Model released by Anthropic on April 16, 2026. It leads in multiple benchmarks, including coding (SWE-bench Verified 87.6%), Agent tool invocation, and scientific reasoning (GPQA Di...
[3] Claude Opus 4.7 Benchmark: Memory & Effort Levels Testeddatacamp.com
Note: Pricing is $5 per million input tokens and $25 per million output tokens which is identical to Opus 4.6. If you want to explore this model in depth, this article by DataCamp team is a good read. A few numbers worth knowing before we test it: Benchmark...
[5] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[6] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[8] GPT-5.5: Pricing, Benchmarks & Performance - LLM Statsllm-stats.com
Show 18 more Self-reported by the model provider. Score may not be independently verified. Similar Models How GPT-5.5 compares to models with the closest performance across key benchmarks. GPT-5.5GPT-5.4Gemini 3.1 ProClaude Opus 4.7GPT-5.2 ProClaude Mythos...
[9] GPT-5.5: The Complete Guide (2026) - o-mega | AIo-mega.ai
Reasoning, Math, and Science Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- MMLU 92.4% - - GPQA Diamond 93.6% 92.8% 94.2% 94.3% ARC-AGI-2 85.0% 73.3% 77.1% ARC-AGI-1 95.0% 93.7% - FrontierMath T1-3 51.7% 52.4% 47.6% 43.8% F...
[11] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[23] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[28] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...

Khám phá xu hướng

Câu trả lờiĐã xuất bản28 thg 4 2026Last edited 6 thg 5 202610 nguồn

GPT-5.5 vs Claude Opus 4.7: benchmark mana yang layak dipercaya?

Tìm kiếm và kiểm chứng sự thật với Studio Global AI Duyệt thêm từ Khám phá

17K0

Ringkasan cepat benchmark utama

Benchmark	GPT-5.5	Claude Opus 4.7	Cara membacanya
Terminal-Bench 2.0	82,7%	69,4%	Keunggulan jelas untuk GPT-5.5 pada workflow command-line. OpenAI menjelaskan benchmark ini menguji tugas terminal kompleks yang membutuhkan planning, iterasi, dan koordinasi tool ^[5]^[11]^[23].
SWE-Bench Pro	58,6%	64,3%	Claude Opus 4.7 unggul pada benchmark perbaikan issue GitHub nyata yang lebih sulit; OpenAI juga menyebut GPT-5.5 mencapai 58,6% di benchmark ini ^[5]^[11]^[23].
GPQA Diamond	93,6%	94,2%	Claude sedikit unggul, tetapi selisihnya hanya 0,6 poin persentase. Jangan jadikan ini satu-satunya dasar memilih model reasoning ^[5]^[11].
BrowseComp	84,4%	79,3%	GPT-5.5 memimpin dalam tabel Vellum dan Mashable ^[5]^[11].
GDPval	84,9%	80,3%	GPT-5.5 memimpin dalam tabel Vellum ^[5].
OSWorld-Verified	78,7%	78,0%	GPT-5.5 hanya unggul tipis, jadi perlu diuji lagi pada workflow nyata ^[5].
MCP Atlas	75,3%	79,1%	Claude Opus 4.7 unggul pada benchmark tool orchestration ini dalam tabel Vellum ^[5].
FrontierMath T1–3	51,7%	43,8%	GPT-5.5 memimpin dalam tabel Vellum ^[5].
FinanceAgent v1.1	Tidak ada angka pembanding lengkap dalam sumber yang tersedia	64,4% dalam DataCamp	LLM Stats menempatkan Claude sebagai pemimpin FinanceAgent v1.1, tetapi klaim ini perlu dibaca hati-hati karena pasangan angka lengkap tidak tersedia dalam sumber yang dikutip di sini ^[3]^[6].
Humanity’s Last Exam	Tidak konsisten antar-sumber	Tidak konsisten antar-sumber	Sebaiknya tidak dipakai sebagai tie-breaker sebelum Anda mengontrol kondisi pengujian yang sama; LLM Stats, Mashable, dan o-mega memberi sinyal yang berbeda ^[6]^[9]^[11].

Coding: Terminal-Bench dan SWE-Bench mengukur hal yang berbeda

Agent dan workflow: GPT-5.5 sering unggul, tetapi Claude punya area kuat

Reasoning: GPQA rapat, HLE belum stabil

Jadi, pilih GPT-5.5 atau Claude Opus 4.7?

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

Tidak ada pemenang mutlak: GPT 5.5 unggul jelas di Terminal Bench 2.0 dengan 82,7% vs 69,4%, sementara Claude Opus 4.7 memimpin SWE Bench Pro dengan 64,3% vs 58,6%.
Untuk reasoning sains, Claude Opus 4.7 hanya unggul tipis di GPQA Diamond, 94,2% vs 93,6%, sehingga selisih ini belum cukup untuk menggantikan evaluasi internal.
Beberapa angka publik masih perlu dibaca hati hati: SWE Bench Verified dan Humanity’s Last Exam menunjukkan data yang tidak konsisten, dan sebagian skor bisa bersifat self reported.

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "GPT-5.5 vs Claude Opus 4.7: benchmark mana yang layak dipercaya?" là gì?

Tidak ada pemenang mutlak: GPT 5.5 unggul jelas di Terminal Bench 2.0 dengan 82,7% vs 69,4%, sementara Claude Opus 4.7 memimpin SWE Bench Pro dengan 64,3% vs 58,6%.

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Beberapa angka publik masih perlu dibaca hati hati: SWE Bench Verified dan Humanity’s Last Exam menunjukkan data yang tidak konsisten, dan sebagian skor bisa bersifat self reported.

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Phân tích nghiên cứu: Trẻ học từ nhờ nghe nhiều hơn hay xử lý từ nhanh hơn?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "Trẻ học nói không chỉ nhờ nghe nhiều: cách người lớn đáp lời có liên quan ra sao?".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Trao đổi nghiên cứu

Bạn26 thg 4 2026

Câu hỏi nghiên cứu

So sánh một cách toàn diện benchmarks của GPT-5.5 vs Claude Opus 4.7

Studio Global AI26 thg 4 202636 nguồn

Câu trả lời được trích dẫn

Lưu ý về độ tin cậy

Nguồn chính thức của Anthropic có trang Claude Opus 4.7 và nói mô hình này cải thiện rõ ở tool calls, planning và agent decision-making, nhưng snippet công khai không cho đủ toàn bộ bảng số để đối chiếu trực tiếp với GPT-5.5 ^[3].
Nguồn OpenAI tìm được gồm GPT-5.5 System Card và tài liệu benchmark riêng như GeneBench, nhưng không thấy một trang chính thức duy nhất công bố toàn bộ bảng đối đầu GPT-5.5 vs Claude Opus 4.7 theo cùng format ^[1]^[9].
Vì vậy, các con số so sánh trực tiếp bên dưới chủ yếu dựa trên các nguồn tổng hợp/benchmark aggregator và bài phân tích bên thứ ba; cần coi là “tự báo cáo hoặc tổng hợp”, không phải kết quả kiểm định độc lập hoàn toàn ^[11]^[13].

Bảng benchmark chính

Nhóm benchmark	GPT-5.5	Claude Opus 4.7	Mô hình nhỉnh hơn	Nhận xét
Terminal-Bench 2.0	82.7%	69.4%	GPT-5.5	GPT-5.5 dẫn khá xa ở tác vụ terminal/agentic trong môi trường dòng lệnh ^[8].
SWE-Bench Pro	58.6%	64.3%	Claude Opus 4.7	Claude Opus 4.7 nhỉnh hơn ở benchmark sửa lỗi/phát triển phần mềm thực tế dạng khó ^[8].
SWE-Bench Verified	Không đủ số nhất quán từ nguồn đối chiếu	82.4% hoặc 87.6% tùy nguồn	Không kết luận chắc	Có mâu thuẫn giữa nguồn bên thứ ba: một nguồn ghi Opus 4.7 đạt 82.4%, nguồn khác ghi 87.6% ^[4]^[6].
GPQA Diamond	93.6%	94.2%	Claude Opus 4.7, rất sát	Chênh lệch nhỏ; một nguồn nhận định các frontier model gần như đã hội tụ trên GPQA Diamond ^[7]^[14].
GDPval	84.9%	80.3%	GPT-5.5	GPT-5.5 nhỉnh hơn ở đánh giá tác vụ kinh tế/công việc văn phòng theo bảng tổng hợp ^[8].
OSWorld-Verified	Có lợi thế theo tổng hợp	Thấp hơn GPT-5.5	GPT-5.5	Nguồn tổng hợp nói GPT-5.5 dẫn ở OSWorld-Verified, nhưng snippet không hiển thị đầy đủ số ^[11].
CyberGym	Có lợi thế theo tổng hợp	Thấp hơn GPT-5.5	GPT-5.5	Nguồn tổng hợp nói GPT-5.5 dẫn ở CyberGym, nhưng snippet không hiển thị đầy đủ số ^[11].
FinanceAgent v1.1	Thấp hơn Opus 4.7 theo tổng hợp	Cao hơn GPT-5.5	Claude Opus 4.7	Nguồn tổng hợp nói Opus 4.7 dẫn ở FinanceAgent v1.1 ^[11].
MCP Atlas	Thấp hơn Opus 4.7 theo tổng hợp	Cao hơn GPT-5.5	Claude Opus 4.7	Nguồn tổng hợp nói Opus 4.7 dẫn ở MCP Atlas ^[11].
BrowseComp	Cao hơn Opus 4.7 theo tổng hợp	Thấp hơn GPT-5.5	GPT-5.5	Nguồn tổng hợp nói GPT-5.5 dẫn ở BrowseComp ^[11].
Humanity’s Last Exam	Nguồn mâu thuẫn	Nguồn mâu thuẫn	Không kết luận chắc	LLM Stats nói Opus 4.7 dẫn HLE có và không có tools, trong khi một bài khác ghi GPT-5.5 cao hơn ở HLE và HLE with tools; đây là điểm không nên kết luận nếu chưa có bảng chính thức cùng điều kiện ^[11].

Kết luận theo từng loại tác vụ

Coding thực chiến: Claude Opus 4.7 có lợi thế trên SWE-Bench Pro với 64.3% so với GPT-5.5 là 58.6% ^[8]. Tuy nhiên GPT-5.5 lại vượt rõ ở Terminal-Bench 2.0 với 82.7% so với 69.4%, nên nếu tác vụ là agent thao tác terminal, chạy lệnh, điều hướng môi trường và tự động hóa, GPT-5.5 có vẻ mạnh hơn ^[8].
Reasoning khoa học/tri thức khó: Claude Opus 4.7 nhỉnh hơn trên GPQA Diamond với 94.2% so với GPT-5.5 khoảng 93.6%, nhưng mức chênh này nhỏ và có thể không đáng kể trong thực tế ^[7]^[14].
Agent và workflow công việc: GPT-5.5 dẫn ở GDPval với 84.9% so với Claude Opus 4.7 là 80.3%, đồng thời được tổng hợp là dẫn ở BrowseComp, OSWorld-Verified và CyberGym ^[8]^[11]. Claude Opus 4.7 được tổng hợp là dẫn ở MCP Atlas và FinanceAgent v1.1, tức có lợi thế ở một số workflow agent tài chính/điều phối công cụ ^[11].
Độ chắc chắn của so sánh: Chưa có đủ bằng chứng độc lập, cùng prompt, cùng sampling, cùng tool setup để nói mô hình nào “toàn diện hơn” một cách tuyệt đối. Kết luận thực dụng là GPT-5.5 có vẻ tốt hơn cho terminal agents, browsing/OS/cyber và một số workflow năng suất; Claude Opus 4.7 có vẻ tốt hơn cho SWE-Bench Pro, reasoning sát ngưỡng cao và một số agent tài chính ^[8]^[11].

Chọn mô hình nào?

Chọn GPT-5.5 nếu bạn ưu tiên:
- Agent chạy terminal, automation, shell/tool execution ^[8].
- Tác vụ OS, browsing, cyber hoặc workflow năng suất tổng quát ^[11].
- Benchmark GDPval/công việc tri thức tổng quát ^[8].
Chọn Claude Opus 4.7 nếu bạn ưu tiên:
- Coding kiểu sửa issue phức tạp trên repo thật, nhất là SWE-Bench Pro ^[8].
- Reasoning khoa học khó, dù lợi thế trên GPQA Diamond là nhỏ ^[7]^[14].
- Agent tài chính hoặc orchestration theo các benchmark như FinanceAgent v1.1 và MCP Atlas ^[11].
Nếu dùng cho sản phẩm thật, nên chạy eval nội bộ trên dữ liệu của bạn; benchmark công khai hiện tại chưa đủ đồng nhất để thay thế A/B test thực tế.

Nguồn

[1] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[2] Claude Opus 4.7 Benchmark Full Analysis: Empirical Data Leading ...help.apiyi.com
Q1: What is Claude Opus 4.7? Claude Opus 4.7 is the flagship Large Language Model released by Anthropic on April 16, 2026. It leads in multiple benchmarks, including coding (SWE-bench Verified 87.6%), Agent tool invocation, and scientific reasoning (GPQA Di...
[3] Claude Opus 4.7 Benchmark: Memory & Effort Levels Testeddatacamp.com
Note: Pricing is $5 per million input tokens and $25 per million output tokens which is identical to Opus 4.6. If you want to explore this model in depth, this article by DataCamp team is a good read. A few numbers worth knowing before we test it: Benchmark...
[5] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[6] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[8] GPT-5.5: Pricing, Benchmarks & Performance - LLM Statsllm-stats.com
Show 18 more Self-reported by the model provider. Score may not be independently verified. Similar Models How GPT-5.5 compares to models with the closest performance across key benchmarks. GPT-5.5GPT-5.4Gemini 3.1 ProClaude Opus 4.7GPT-5.2 ProClaude Mythos...
[9] GPT-5.5: The Complete Guide (2026) - o-mega | AIo-mega.ai
Reasoning, Math, and Science Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- MMLU 92.4% - - GPQA Diamond 93.6% 92.8% 94.2% 94.3% ARC-AGI-2 85.0% 73.3% 77.1% ARC-AGI-1 95.0% 93.7% - FrontierMath T1-3 51.7% 52.4% 47.6% 43.8% F...
[11] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[23] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[28] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...