Benchmark publik saat ini tidak mendukung kesimpulan sederhana seperti GPT-5.5 pasti lebih baik daripada Claude Opus 4.7, atau sebaliknya. Polanya lebih masuk akal jika dibaca per jenis kerja: GPT-5.5 tampak lebih kuat untuk terminal, browsing, dan beberapa workflow agent; Claude Opus 4.7 lebih menonjol di SWE-Bench Pro, MCP Atlas, dan sebagian benchmark reasoning atau tooling menurut tabel komparatif yang tersedia [5][
6][
11].
Catatan penting: banyak angka berasal dari rilis vendor atau agregator benchmark. LLM Stats juga memberi catatan bahwa skor GPT-5.5 dapat bersifat self-reported dan belum tentu diverifikasi secara independen [8]. Jadi, gunakan benchmark publik untuk menyusun shortlist, bukan untuk langsung mengunci model produksi.
Ringkasan cepat benchmark utama
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Cara membacanya |
|---|---|---|---|
| Terminal-Bench 2.0 | 82,7% | 69,4% | Keunggulan jelas untuk GPT-5.5 pada workflow command-line. OpenAI menjelaskan benchmark ini menguji tugas terminal kompleks yang membutuhkan planning, iterasi, dan koordinasi tool [ |
| SWE-Bench Pro | 58,6% | 64,3% | Claude Opus 4.7 unggul pada benchmark perbaikan issue GitHub nyata yang lebih sulit; OpenAI juga menyebut GPT-5.5 mencapai 58,6% di benchmark ini [ |
| GPQA Diamond | 93,6% | 94,2% | Claude sedikit unggul, tetapi selisihnya hanya 0,6 poin persentase. Jangan jadikan ini satu-satunya dasar memilih model reasoning [ |
| BrowseComp | 84,4% | 79,3% | GPT-5.5 memimpin dalam tabel Vellum dan Mashable [ |
| GDPval | 84,9% | 80,3% | GPT-5.5 memimpin dalam tabel Vellum [ |
| OSWorld-Verified | 78,7% | 78,0% | GPT-5.5 hanya unggul tipis, jadi perlu diuji lagi pada workflow nyata [ |
| MCP Atlas | 75,3% | 79,1% | Claude Opus 4.7 unggul pada benchmark tool orchestration ini dalam tabel Vellum [ |
| FrontierMath T1–3 | 51,7% | 43,8% | GPT-5.5 memimpin dalam tabel Vellum [ |
| FinanceAgent v1.1 | Tidak ada angka pembanding lengkap dalam sumber yang tersedia | 64,4% dalam DataCamp | LLM Stats menempatkan Claude sebagai pemimpin FinanceAgent v1.1, tetapi klaim ini perlu dibaca hati-hati karena pasangan angka lengkap tidak tersedia dalam sumber yang dikutip di sini [ |
| Humanity’s Last Exam | Tidak konsisten antar-sumber | Tidak konsisten antar-sumber | Sebaiknya tidak dipakai sebagai tie-breaker sebelum Anda mengontrol kondisi pengujian yang sama; LLM Stats, Mashable, dan o-mega memberi sinyal yang berbeda [ |
Jika mengikuti ringkasan LLM Stats, Claude Opus 4.7 memimpin 6 dari 10 benchmark yang menurut sumber tersebut dilaporkan oleh kedua penyedia, sedangkan GPT-5.5 memimpin 4. LLM Stats juga merangkum bahwa keunggulan Claude terkonsentrasi pada tes reasoning-heavy dan review-grade, sementara keunggulan GPT-5.5 lebih banyak muncul pada tool-use panjang dan tugas berbasis shell [6]. Ringkasan seperti ini berguna sebagai peta awal, tetapi tidak menyelesaikan kasus yang datanya saling bertentangan, seperti Humanity’s Last Exam [
6][
9][
11].
Coding: Terminal-Bench dan SWE-Bench mengukur hal yang berbeda
Untuk agentic coding yang banyak berjalan di terminal, GPT-5.5 adalah kandidat awal yang kuat. Model ini mencapai 82,7% di Terminal-Bench 2.0, jauh di atas Claude Opus 4.7 yang berada di 69,4% dalam tabel perbandingan publik [5][
11]. Menurut OpenAI, Terminal-Bench 2.0 menguji workflow command-line kompleks yang membutuhkan perencanaan, iterasi, dan koordinasi tool [
23].
Artinya, jika produk Anda mirip CLI copilot, asisten DevOps, atau coding agent yang harus menjalankan test, membaca error, mengubah file, lalu mengulang prosesnya, Terminal-Bench 2.0 lebih relevan daripada benchmark reasoning umum.
Namun untuk perbaikan issue software nyata, Claude Opus 4.7 memimpin di SWE-Bench Pro: 64,3% dibanding 58,6% untuk GPT-5.5 [5][
11]. OpenAI menggambarkan SWE-Bench Pro sebagai evaluasi kemampuan menyelesaikan issue GitHub dunia nyata [
23]. Jika workload Anda lebih dekat ke bug fixing, perubahan kode dalam repo sungguhan, atau software task yang membutuhkan kualitas review tinggi, Claude Opus 4.7 sebaiknya masuk putaran uji pertama.
SWE-Bench Verified sendiri belum cukup bersih untuk menentukan pemenang dari sumber yang tersedia. MindStudio mencatat Claude Opus 4.7 di 82,4%, sementara APIyi dan DataCamp mencatat 87,6%; sumber yang disediakan tidak memberi pasangan angka GPT-5.5 vs Claude Opus 4.7 yang stabil untuk baris yang sama [1][
2][
3].
Agent dan workflow: GPT-5.5 sering unggul, tetapi Claude punya area kuat
Pada kelompok workflow agent, GPT-5.5 punya beberapa sinyal positif. Dalam tabel Vellum, GPT-5.5 memimpin BrowseComp dengan 84,4% vs 79,3%, GDPval dengan 84,9% vs 80,3%, dan OSWorld-Verified dengan 78,7% vs 78,0% [5]. Mashable juga mencatat GPT-5.5 memimpin BrowseComp dengan pasangan skor yang sama, 84,4% vs 79,3% [
11]. LLM Stats menambahkan bahwa GPT-5.5 memimpin CyberGym, meski snippet sumber yang dikutip tidak menampilkan persentasenya [
6].
Claude Opus 4.7 tetap punya wilayah yang perlu diperhatikan. Dalam tabel Vellum, Claude memimpin MCP Atlas dengan 79,1% vs 75,3% untuk GPT-5.5 [5]. LLM Stats juga menempatkan Claude sebagai pemimpin FinanceAgent v1.1, sementara DataCamp mencatat Claude Opus 4.7 mencapai 64,4% pada FinanceAgent v1.1 [
3][
6]. Anthropic sendiri memposisikan Claude Opus 4.7 sebagai model Opus baru yang lebih kuat untuk coding, agents, vision, dan tugas multi-langkah [
28].
Jadi, jika workflow Anda banyak berurusan dengan shell, browsing, atau otomatisasi bergaya sistem operasi, GPT-5.5 punya modal awal yang kuat. Jika bebannya lebih condong ke orchestration terstruktur, MCP, atau workflow bertema finansial, Claude Opus 4.7 tetap layak diuji langsung, bukan dieliminasi dari awal.
Reasoning: GPQA rapat, HLE belum stabil
Di GPQA Diamond, Claude Opus 4.7 mencetak 94,2%, sedangkan GPT-5.5 mencetak 93,6% dalam tabel perbandingan [5][
11]. Ini memang keunggulan untuk Claude, tetapi selisih 0,6 poin persentase terlalu kecil untuk dijadikan keputusan final bagi semua use case reasoning. Untuk tanya-jawab sains, analisis ahli, atau reasoning panjang, pilihan yang lebih aman adalah menjalankan kedua model pada kumpulan soal nyata milik Anda.
Humanity’s Last Exam adalah bagian yang paling perlu dibaca dengan kacamata kritis. LLM Stats menyebut Claude Opus 4.7 memimpin HLE tanpa tools dan HLE dengan tools [6]. Mashable justru mencatat GPT-5.5 di 40,6% vs Opus 4.7 di 31,2% untuk HLE tanpa tools, sementara Claude unggul 54,7% vs 52,2% untuk HLE dengan tools [
11]. o-mega menampilkan lagi set angka HLE yang berbeda [
9]. Saat sumber tidak sepakat, HLE sebaiknya tidak dipakai sebagai penentu akhir kecuali Anda menjalankan ulang evaluasi dengan setup yang sama.
Jadi, pilih GPT-5.5 atau Claude Opus 4.7?
Uji GPT-5.5 lebih dulu jika prioritas Anda adalah agent yang berjalan di terminal, workflow shell, loop menjalankan test, atau otomatisasi multi-langkah. Alasannya sederhana: Terminal-Bench 2.0 condong kuat ke GPT-5.5 [5][
11][
23]. GPT-5.5 juga layak dicoba lebih awal untuk workflow browsing atau search-style, GDPval, OSWorld-Verified, dan FrontierMath T1–3 menurut tabel Vellum [
5][
11].
Uji Claude Opus 4.7 lebih dulu jika prioritas Anda adalah perbaikan issue software ala SWE-Bench Pro, tempat Claude unggul atas GPT-5.5 [5][
11]. Claude juga sebaiknya masuk shortlist untuk reasoning ilmiah gaya GPQA, MCP atau tool orchestration, dan workflow finance-agent, berdasarkan GPQA Diamond, MCP Atlas, FinanceAgent v1.1, serta ringkasan LLM Stats [
3][
5][
6][
11].
Cara paling aman adalah tidak memilih hanya dari leaderboard. Pecah workload Anda menjadi empat kelompok: coding dalam repo, otomatisasi terminal atau agent, reasoning tanpa tool, dan workflow dengan tool. Untuk tiap kelompok, jalankan prompt yang sama, akses tool yang sama, sampling yang sama, reasoning effort yang sama, serta kriteria penilaian yang sama. Benchmark publik membantu menentukan titik awal; eval internal yang menentukan model mana yang pantas masuk produk, apalagi ketika sebagian skor publik mungkin self-reported atau belum diverifikasi independen [8].




