studioglobal
热门发现
报告已发布7 来源

GPT-5.5 vs Claude Opus 4.7: tidak ada juara mutlak di benchmark

Tidak ada pemenang mutlak: Claude Opus 4.7 unggul di SWE Bench Pro dengan 64,3% berbanding 58,6%, sementara GPT 5.5 memimpin di Terminal Bench 2.0 dengan 82,7% berbanding 69,4%; angka ini berguna untuk penyaringan awa... Untuk perbaikan kode tingkat repositori, issue nyata, dan patch kompleks, Claude Opus 4.7 layak...

16K0
GPT-5.5 与 Claude Opus 4.7 在基准测试图表前对比的抽象插画
GPT-5.5 vs Claude Opus 4.7:基准测试显示没有绝对赢家AI 生成示意图:GPT-5.5 与 Claude Opus 4.7 的基准测试对比。
AI 提示

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7:基准测试显示没有绝对赢家. Article summary: 公开基准没有给出绝对赢家:Claude Opus 4.7 在 SWE Bench Pro 以 64.3% 对 58.6% 领先,GPT 5.5 在 Terminal Bench 2.0 以 82.7% 对 69.4% 领先;这些主要来自第三方同表汇总,适合初筛而非上线结论。[14]. Topic tags: ai, openai, anthropic, gpt 5 5, claude opus. Reference image context from search candidates: Reference image 1: visual subject "# GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks. I compared GPT-5.5 against Claude Opus 4.7 on every shared benchmark. Opus 4.7 leads on 6 of 10, GPT-5.5 on 4, with margin" source context "GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Stats" Reference image 2: visual subject "# GPT-5.5 vs Claude Opus 4.7 for Coding (Benchmarks + When to Use Which). gpt-5.5 vs opus 4.7gpt-5.5 codinggpt-5.5 swe-benchgpt-5.5 pricinggpt-5.5 terminal-benchclaude opus 4.7 cod" sour

openai.com

Menanyakan GPT-5.5 dan Claude Opus 4.7 “mana yang lebih kuat” bisa menghasilkan jawaban yang terlalu sederhana. Dari skor publik side-by-side, Claude Opus 4.7 terlihat lebih kuat pada perbaikan software engineering seperti SWE-Bench Pro; GPT-5.5 lebih sering memimpin di Terminal-Bench 2.0, GDPval, BrowseComp, OSWorld-Verified, dan FrontierMath T1–3.[14] Namun angka-angka ini terutama berasal dari rangkuman pihak ketiga, bukan satu tabel evaluasi resmi yang diterbitkan bersama oleh OpenAI dan Anthropic; gunanya untuk menyaring kandidat, bukan mengganti pengujian di beban kerja nyata Anda.[14][6][19][23][36]

Pisahkan klaim resmi dari skor head-to-head

Dokumentasi OpenAI API menyebut GPT-5.5 sebagai model frontier terbaru untuk pekerjaan profesional paling kompleks, dan menampilkan dukungan pengaturan reasoning.effort.[23] Sementara itu, laman peluncuran Claude Opus 4.7 dari Anthropic menonjolkan peningkatan pada pemanggilan alat, perencanaan, dan software engineering; contoh yang dikutip di sana mencakup lonjakan dua digit pada akurasi tool call dan planning di Hebbia, serta 3 kali lebih banyak tugas produksi yang terselesaikan di Rakuten-SWE-Bench dibanding Opus 4.6.[36]

Klaim resmi tersebut membantu membaca arah produk masing-masing. Untuk perbandingan langsung GPT-5.5 vs Claude Opus 4.7, artikel ini terutama memakai ringkasan side-by-side dari Vellum, Kingy AI, dan Mashable.[14][6][19]

Ringkasan benchmark: siapa unggul di mana

Angka utama di bawah ini terutama berasal dari ringkasan Vellum tentang GPT-5.5; urutan GPQA Diamond juga terlihat di leaderboard Vellum.[14][12]

BenchmarkGPT-5.5Claude Opus 4.7Skor lebih tinggi
SWE-Bench Pro58,6%64,3%Claude Opus 4.7, +5,7 poin persentase [14]
Terminal-Bench 2.082,7%69,4%GPT-5.5, +13,3 poin persentase [14]
GDPval84,9%80,3%GPT-5.5, +4,6 poin persentase [14]
OSWorld-Verified78,7%78,0%GPT-5.5, +0,7 poin persentase [14]
BrowseComp84,4%79,3%GPT-5.5, +5,1 poin persentase [14]
MCP Atlas75,3%79,1%Claude Opus 4.7, +3,8 poin persentase [14]
GPQA Diamond93,6%94,2%Claude Opus 4.7, +0,6 poin persentase [14][12]
FrontierMath T1–351,7%43,8%GPT-5.5, +7,9 poin persentase [14]

Untuk perbaikan kode, Claude Opus 4.7 lebih layak dites dulu

Kemenangan Claude yang paling jelas ada di SWE-Bench Pro: Claude Opus 4.7 mencatat 64,3%, sedangkan GPT-5.5 berada di 58,6%, selisih 5,7 poin persentase.[14] Jadi, bila pekerjaan utama Anda adalah memperbaiki issue nyata, membuat patch, memahami dependensi lintas file, atau meninjau pull request yang kompleks, Claude Opus 4.7 pantas masuk gelombang uji pertama.

SWE-bench Verified juga relevan sebagai sinyal tambahan. BenchLM menggambarkannya sebagai subset SWE-bench yang diverifikasi manusia untuk menguji kemampuan model menyelesaikan issue GitHub nyata, dan mencantumkan Claude Opus 4.7 Adaptive pada 87,6%.[9] Namun sumber itu tidak memberi skor GPT-5.5 dengan metodologi yang sama, sehingga angka tersebut tidak cukup untuk menyimpulkan Claude pasti mengalahkan GPT-5.5 di SWE-bench Verified. Bacaan yang lebih aman: Claude Opus 4.7 adalah kandidat yang sangat kuat untuk tugas perbaikan software engineering nyata.[9]

Untuk terminal, browsing, dan eksekusi agen, GPT-5.5 lebih sering unggul

Keunggulan publik terbesar GPT-5.5 muncul di Terminal-Bench 2.0: 82,7% berbanding 69,4%, atau unggul 13,3 poin persentase atas Claude Opus 4.7.[14] GPT-5.5 juga memimpin di BrowseComp, GDPval, dan OSWorld-Verified, masing-masing 84,4% berbanding 79,3%, 84,9% berbanding 80,3%, dan 78,7% berbanding 78,0%.[14]

Artinya, jika produk Anda bergantung pada shell, browser, sistem berkas, operasi OS, atau otomasi multi-langkah, GPT-5.5 adalah kandidat awal yang masuk akal. Namun jangan menyederhanakannya menjadi “semua tugas agen pilih GPT”. Pada MCP Atlas, Claude Opus 4.7 mencatat 79,1%, lebih tinggi daripada GPT-5.5 yang berada di 75,3%; Anthropic juga secara resmi menekankan peningkatan Claude Opus 4.7 pada skenario tool call dan planning.[14][36]

Tugas profesional, reasoning, dan matematika: hasilnya bercampur

Di tugas profesional atau bisnis, hasilnya juga tidak satu arah. Ringkasan Vellum menunjukkan GPT-5.5 unggul di GDPval dengan 84,9% berbanding 80,3%.[14] Namun rangkuman Kingy AI menunjukkan Claude Opus 4.7 unggul di FinanceAgent v1.1 dengan 64,4% berbanding 60,0%, sementara GPT-5.5 unggul di OfficeQA Pro dengan 54,1% berbanding 43,6%.[6]

Untuk reasoning dan matematika, jenis soal sangat menentukan. Di GPQA Diamond, Claude Opus 4.7 berada di 94,2% dan GPT-5.5 di 93,6%, sehingga Claude hanya unggul 0,6 poin persentase.[14][12] Tetapi di FrontierMath T1–3, GPT-5.5 mencatat 51,7%, sedangkan Claude Opus 4.7 43,8%, membuat GPT-5.5 unggul 7,9 poin persentase.[14]

Humanity’s Last Exam justru menunjukkan kenapa ringkasan pihak ketiga perlu dibaca hati-hati. Kingy AI mencatat versi tanpa alat sebagai GPT-5.5 41,4% dan Claude Opus 4.7 46,9%; Mashable mencatat versi tanpa alat sebagai GPT-5.5 40,6% dan Claude Opus 4.7 31,2%.[6][19] Karena ada perbedaan arah yang cukup jelas di ringkasan publik, artikel ini tidak menjadikan benchmark tersebut sebagai dasar utama pemilihan model.

Cara memilih: mulai dari alur kerja, bukan gelar juara umum

Jika prioritas Anda adalah perbaikan kode tingkat repositori, issue GitHub nyata, pull request kompleks, atau pembuatan patch, uji Claude Opus 4.7 lebih dulu. SWE-Bench Pro dan sinyal dari SWE-bench Verified sama-sama mendukung bahwa model ini sangat kuat di skenario perbaikan software engineering.[14][9]

Jika prioritas Anda adalah eksekusi terminal, browsing, operasi OS, otomasi agen, atau tugas profesional yang tercakup GDPval, uji GPT-5.5 lebih dulu. Model ini punya keunggulan publik side-by-side di Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, dan GDPval.[14]

Jika alur kerja Anda mencampur coding, tool call, perencanaan panjang, analisis dokumen, dan pembuatan laporan, jangan hanya memilih “pemenang leaderboard”. GPT-5.5 unggul di banyak benchmark eksekusi, sementara Claude Opus 4.7 lebih menonjol di SWE-Bench Pro, MCP Atlas, dan narasi resmi Anthropic soal tool planning; keduanya layak masuk shortlist.[14][36]

Checklist sebelum dipakai di produksi

Benchmark publik membantu mempersempit kandidat. Untuk keputusan produksi, siapkan kumpulan tugas nyata, sembunyikan nama model, lalu samakan prompt, izin tool, jatah konteks, batas waktu, dan rubrik penilaian. Jika Anda menguji GPT-5.5, kunci juga pengaturan seperti reasoning.effort, karena dokumentasi OpenAI API menunjukkan model ini mendukung kontrol tersebut.[23]

Saat menilai hasil, jangan hanya melihat rata-rata skor. Minimal catat empat hal: apakah tugas selesai, apakah jawaban bisa diverifikasi, berapa biaya koreksi manusia, serta bagaimana latensi dan biaya pemanggilannya. Untuk sistem produksi, model yang stabil dan jarang gagal pada tugas kritis sering lebih bernilai daripada model yang unggul beberapa poin di benchmark yang tidak relevan. Kesimpulan dari benchmark publik saat ini cukup jelas: GPT-5.5 dan Claude Opus 4.7 tidak punya pemenang mutlak; yang ada adalah model yang lebih cocok untuk jenis alur kerja tertentu.[14][6][19]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

  • Tidak ada pemenang mutlak: Claude Opus 4.7 unggul di SWE Bench Pro dengan 64,3% berbanding 58,6%, sementara GPT 5.5 memimpin di Terminal Bench 2.0 dengan 82,7% berbanding 69,4%; angka ini berguna untuk penyaringan awa...
  • Untuk perbaikan kode tingkat repositori, issue nyata, dan patch kompleks, Claude Opus 4.7 layak diuji lebih dulu; untuk terminal, browsing, operasi OS, dan otomasi agen, GPT 5.5 lebih natural masuk daftar awal.[14][9]
  • Hasil reasoning juga terbelah: Claude hanya unggul 0,6 poin persentase di GPQA Diamond, sedangkan GPT 5.5 unggul 7,9 poin persentase di FrontierMath T1–3, jadi uji ulang sesuai jenis soal Anda.[14][12]

人们还问

“GPT-5.5 vs Claude Opus 4.7: tidak ada juara mutlak di benchmark”的简短答案是什么?

Tidak ada pemenang mutlak: Claude Opus 4.7 unggul di SWE Bench Pro dengan 64,3% berbanding 58,6%, sementara GPT 5.5 memimpin di Terminal Bench 2.0 dengan 82,7% berbanding 69,4%; angka ini berguna untuk penyaringan awa...

首先要验证的关键点是什么?

Tidak ada pemenang mutlak: Claude Opus 4.7 unggul di SWE Bench Pro dengan 64,3% berbanding 58,6%, sementara GPT 5.5 memimpin di Terminal Bench 2.0 dengan 82,7% berbanding 69,4%; angka ini berguna untuk penyaringan awa... Untuk perbaikan kode tingkat repositori, issue nyata, dan patch kompleks, Claude Opus 4.7 layak diuji lebih dulu; untuk terminal, browsing, operasi OS, dan otomasi agen, GPT 5.5 lebih natural masuk daftar awal.[14][9]

接下来在实践中我应该做什么?

Hasil reasoning juga terbelah: Claude hanya unggul 0,6 poin persentase di GPQA Diamond, sedangkan GPT 5.5 unggul 7,9 poin persentase di FrontierMath T1–3, jadi uji ulang sesuai jenis soal Anda.[14][12]

接下来我应该探索哪个相关主题?

继续“Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6:2026 基准对比与选型结论”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较?

对照“DeepSeek V4 工程解析:1M 上下文、MoE 与 API 迁移要点”交叉检查此答案。

打开相关页面

继续你的研究

研究对话

研究问题

我想研究 GPT-5.5 与 Claude Opus 4.7 的基准测试表现,看看哪个模型更占优势。

Studio Global AI40 来源

引用的答案

我建议先把结论定为:没有绝对赢家;按公开可见的基准摘要看,Claude Opus 4.7 更偏强于真实软件工程修复类任务,GPT-5.5 更偏强于终端/代理执行和部分商业任务基准。若你的核心场景是代码库级修 Bug,Claude Opus 4.7 更占优;若是自动化任务、工具调用、终端操作或通用专业工作流,GPT-5.5 更值得优先测试。

Key findings

  • GPT-5.5 是 OpenAI 当前面向复杂专业工作的前沿模型,OpenAI API 文档将其描述为“newest frontier model for the most complex professional work”,并支持多档 reasoning effort 设置。[1]

  • Claude Opus 4.7 有 Anthropic 官方发布页,第三方发布与评测摘要普遍将其定位为 Anthropic 的新旗舰/高端模型。[6][9]

  • 在 SWE-Bench Pro 上,公开侧边比较显示 GPT-5.5 为 58.6%,Claude Opus 4.7 为 64.3%,Claude Opus 4.7 领先约 5.7 个百分点。[12][13]

  • 在 Terminal-Bench 2.0 上,公开比较显示 GPT-5.5 为 82.7%,Claude Opus 4.7 为 69.4%,GPT-5.5 领先约 13.3 个百分点。[12]

  • 在 GDPval 上,公开比较显示 GPT-5.5 为 84.9%,Claude Opus 4.7 为 80.3%,GPT-5.5 领先约 4.6 个百分点。[12]

  • Claude Opus 4.7 的单模型发布摘要显示其在 SWE-bench Verified 为 87.6%、GPQA 为 94.2%,这支持“Claude 在代码修复与高难推理基准上很强”的判断,但该摘要没有同时给出 GPT-5.5 的同口径分数。[10]

  • BenchLM 的 Claude Opus 4.7 页面称其在 provisional leaderboard 中排名第 2、总分 97/100,但这不是与 GPT-5.5 的直接同表对照,因此只能作为“Claude 处于顶级梯队”的辅助证据。[6]

Evidence notes

维度GPT-5.5Claude Opus 4.7暂时领先
SWE-Bench Pro58.6%64.3%Claude Opus 4.7 [12][13]
Terminal-Bench 2.082.7%69.4%GPT-5.5 [12]
GDPval84.9%80.3%GPT-5.5 [12]
SWE-bench Verified未在当前同表摘要中确认87.6%证据不足以同口径比较 [10]
GPQA未在当前同表摘要中确认94.2%证据不足以同口径比较 [10]

Limitations / uncertainty

  • Insufficient evidence:我没有在当前可用结果中找到一个同时由 OpenAI 与 Anthropic 官方共同确认的、完全同口径的 GPT-5.5 vs Claude Opus 4.7 全基准表。

  • 目前最有用的 side-by-side 数字主要来自第三方汇总或评测文章,而不是完整官方模型卡的统一评测报告。[12][13]

  • 基准测试容易受提示词、工具权限、上下文长度、采样参数、是否允许代理循环、是否使用专用 harness 等因素影响,所以这些分数更适合做初筛,不适合替代你自己的任务集评测。

Summary

如果只看公开摘要中的胜负面,GPT-5.5 在 Terminal-Bench 2.0 和 GDPval 上更占优势,Claude Opus 4.7 在 SWE-Bench Pro 上更占优势。[12][13]

我的建议是:代码库修复、复杂 PR、真实 GitHub issue 类任务优先试 Claude Opus 4.7;终端操作、工具调用、自动化代理、商业工作流类任务优先试 GPT-5.5。最稳妥的做法是拿你自己的 20–50 个真实任务做小型 blind eval,再结合成本、延迟和失败模式决定主模型。

来源

  • [6] GPT‑5.5 vs. Claude Opus 4.7: A Benchmark-by-Benchmark Field Guide to the New Frontier - Kingy AIkingy.ai

    Benchmark GPT‑5.5 Claude Opus 4.7 Edge --- --- SWE‑Bench Pro 58.6% 64.3% Opus 4.7 Terminal‑Bench 2.0 82.7% 69.4% GPT‑5.5 GDPval 84.9% 80.3% GPT‑5.5 FinanceAgent v1.1 60.0% 64.4% Opus 4.7 OfficeQA Pro 54.1% 43.6% GPT‑5.5 OSWorld‑Verified 78.7% 78.0% GPT‑5.5...

  • [9] SWE-bench Verified Benchmark 2026: 35 LLM scores | BenchLM.aibenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Software Engineering Benchmark Verified (SWE-bench Verified) A curated, human-verified subset of SWE-bench that tests models on resolving real GitHub issues from popular open-so...

  • [12] LLM Leaderboard 2026 — Compare Top AI Models - Vellumvellum.ai

    93.6% GPT-5.5 92.4% GPT 5.2 91.9% Gemini 3 Pro Best in Reasoning (GPQA Diamond) Model Score --- Claude 3 Opus 95.4% Claude Opus 4.7 94.2% GPT-5.5 93.6% GPT 5.2 92.4% Gemini 3 Pro 91.9% Best in High School Math (AIME 2025) 100%96%93%89%86% 100% Gemini 3 Pro...

  • [14] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [19] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [23] GPT-5.5 Model | OpenAI APIdevelopers.openai.com

    GPT-5.5 is our newest frontier model for the most complex professional work. Learn more in our latest model guide. Reasoning.effort supports: none, low, ... 3 hours ago

  • [36] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...