Menanyakan GPT-5.5 dan Claude Opus 4.7 “mana yang lebih kuat” bisa menghasilkan jawaban yang terlalu sederhana. Dari skor publik side-by-side, Claude Opus 4.7 terlihat lebih kuat pada perbaikan software engineering seperti SWE-Bench Pro; GPT-5.5 lebih sering memimpin di Terminal-Bench 2.0, GDPval, BrowseComp, OSWorld-Verified, dan FrontierMath T1–3.[14] Namun angka-angka ini terutama berasal dari rangkuman pihak ketiga, bukan satu tabel evaluasi resmi yang diterbitkan bersama oleh OpenAI dan Anthropic; gunanya untuk menyaring kandidat, bukan mengganti pengujian di beban kerja nyata Anda.[
14][
6][
19][
23][
36]
Pisahkan klaim resmi dari skor head-to-head
Dokumentasi OpenAI API menyebut GPT-5.5 sebagai model frontier terbaru untuk pekerjaan profesional paling kompleks, dan menampilkan dukungan pengaturan reasoning.effort.[23] Sementara itu, laman peluncuran Claude Opus 4.7 dari Anthropic menonjolkan peningkatan pada pemanggilan alat, perencanaan, dan software engineering; contoh yang dikutip di sana mencakup lonjakan dua digit pada akurasi tool call dan planning di Hebbia, serta 3 kali lebih banyak tugas produksi yang terselesaikan di Rakuten-SWE-Bench dibanding Opus 4.6.[
36]
Klaim resmi tersebut membantu membaca arah produk masing-masing. Untuk perbandingan langsung GPT-5.5 vs Claude Opus 4.7, artikel ini terutama memakai ringkasan side-by-side dari Vellum, Kingy AI, dan Mashable.[14][
6][
19]
Ringkasan benchmark: siapa unggul di mana
Angka utama di bawah ini terutama berasal dari ringkasan Vellum tentang GPT-5.5; urutan GPQA Diamond juga terlihat di leaderboard Vellum.[14][
12]
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Skor lebih tinggi |
|---|---|---|---|
| SWE-Bench Pro | 58,6% | 64,3% | Claude Opus 4.7, +5,7 poin persentase [ |
| Terminal-Bench 2.0 | 82,7% | 69,4% | GPT-5.5, +13,3 poin persentase [ |
| GDPval | 84,9% | 80,3% | GPT-5.5, +4,6 poin persentase [ |
| OSWorld-Verified | 78,7% | 78,0% | GPT-5.5, +0,7 poin persentase [ |
| BrowseComp | 84,4% | 79,3% | GPT-5.5, +5,1 poin persentase [ |
| MCP Atlas | 75,3% | 79,1% | Claude Opus 4.7, +3,8 poin persentase [ |
| GPQA Diamond | 93,6% | 94,2% | Claude Opus 4.7, +0,6 poin persentase [ |
| FrontierMath T1–3 | 51,7% | 43,8% | GPT-5.5, +7,9 poin persentase [ |
Untuk perbaikan kode, Claude Opus 4.7 lebih layak dites dulu
Kemenangan Claude yang paling jelas ada di SWE-Bench Pro: Claude Opus 4.7 mencatat 64,3%, sedangkan GPT-5.5 berada di 58,6%, selisih 5,7 poin persentase.[14] Jadi, bila pekerjaan utama Anda adalah memperbaiki issue nyata, membuat patch, memahami dependensi lintas file, atau meninjau pull request yang kompleks, Claude Opus 4.7 pantas masuk gelombang uji pertama.
SWE-bench Verified juga relevan sebagai sinyal tambahan. BenchLM menggambarkannya sebagai subset SWE-bench yang diverifikasi manusia untuk menguji kemampuan model menyelesaikan issue GitHub nyata, dan mencantumkan Claude Opus 4.7 Adaptive pada 87,6%.[9] Namun sumber itu tidak memberi skor GPT-5.5 dengan metodologi yang sama, sehingga angka tersebut tidak cukup untuk menyimpulkan Claude pasti mengalahkan GPT-5.5 di SWE-bench Verified. Bacaan yang lebih aman: Claude Opus 4.7 adalah kandidat yang sangat kuat untuk tugas perbaikan software engineering nyata.[
9]
Untuk terminal, browsing, dan eksekusi agen, GPT-5.5 lebih sering unggul
Keunggulan publik terbesar GPT-5.5 muncul di Terminal-Bench 2.0: 82,7% berbanding 69,4%, atau unggul 13,3 poin persentase atas Claude Opus 4.7.[14] GPT-5.5 juga memimpin di BrowseComp, GDPval, dan OSWorld-Verified, masing-masing 84,4% berbanding 79,3%, 84,9% berbanding 80,3%, dan 78,7% berbanding 78,0%.[
14]
Artinya, jika produk Anda bergantung pada shell, browser, sistem berkas, operasi OS, atau otomasi multi-langkah, GPT-5.5 adalah kandidat awal yang masuk akal. Namun jangan menyederhanakannya menjadi “semua tugas agen pilih GPT”. Pada MCP Atlas, Claude Opus 4.7 mencatat 79,1%, lebih tinggi daripada GPT-5.5 yang berada di 75,3%; Anthropic juga secara resmi menekankan peningkatan Claude Opus 4.7 pada skenario tool call dan planning.[14][
36]
Tugas profesional, reasoning, dan matematika: hasilnya bercampur
Di tugas profesional atau bisnis, hasilnya juga tidak satu arah. Ringkasan Vellum menunjukkan GPT-5.5 unggul di GDPval dengan 84,9% berbanding 80,3%.[14] Namun rangkuman Kingy AI menunjukkan Claude Opus 4.7 unggul di FinanceAgent v1.1 dengan 64,4% berbanding 60,0%, sementara GPT-5.5 unggul di OfficeQA Pro dengan 54,1% berbanding 43,6%.[
6]
Untuk reasoning dan matematika, jenis soal sangat menentukan. Di GPQA Diamond, Claude Opus 4.7 berada di 94,2% dan GPT-5.5 di 93,6%, sehingga Claude hanya unggul 0,6 poin persentase.[14][
12] Tetapi di FrontierMath T1–3, GPT-5.5 mencatat 51,7%, sedangkan Claude Opus 4.7 43,8%, membuat GPT-5.5 unggul 7,9 poin persentase.[
14]
Humanity’s Last Exam justru menunjukkan kenapa ringkasan pihak ketiga perlu dibaca hati-hati. Kingy AI mencatat versi tanpa alat sebagai GPT-5.5 41,4% dan Claude Opus 4.7 46,9%; Mashable mencatat versi tanpa alat sebagai GPT-5.5 40,6% dan Claude Opus 4.7 31,2%.[6][
19] Karena ada perbedaan arah yang cukup jelas di ringkasan publik, artikel ini tidak menjadikan benchmark tersebut sebagai dasar utama pemilihan model.
Cara memilih: mulai dari alur kerja, bukan gelar juara umum
Jika prioritas Anda adalah perbaikan kode tingkat repositori, issue GitHub nyata, pull request kompleks, atau pembuatan patch, uji Claude Opus 4.7 lebih dulu. SWE-Bench Pro dan sinyal dari SWE-bench Verified sama-sama mendukung bahwa model ini sangat kuat di skenario perbaikan software engineering.[14][
9]
Jika prioritas Anda adalah eksekusi terminal, browsing, operasi OS, otomasi agen, atau tugas profesional yang tercakup GDPval, uji GPT-5.5 lebih dulu. Model ini punya keunggulan publik side-by-side di Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, dan GDPval.[14]
Jika alur kerja Anda mencampur coding, tool call, perencanaan panjang, analisis dokumen, dan pembuatan laporan, jangan hanya memilih “pemenang leaderboard”. GPT-5.5 unggul di banyak benchmark eksekusi, sementara Claude Opus 4.7 lebih menonjol di SWE-Bench Pro, MCP Atlas, dan narasi resmi Anthropic soal tool planning; keduanya layak masuk shortlist.[14][
36]
Checklist sebelum dipakai di produksi
Benchmark publik membantu mempersempit kandidat. Untuk keputusan produksi, siapkan kumpulan tugas nyata, sembunyikan nama model, lalu samakan prompt, izin tool, jatah konteks, batas waktu, dan rubrik penilaian. Jika Anda menguji GPT-5.5, kunci juga pengaturan seperti reasoning.effort, karena dokumentasi OpenAI API menunjukkan model ini mendukung kontrol tersebut.[23]
Saat menilai hasil, jangan hanya melihat rata-rata skor. Minimal catat empat hal: apakah tugas selesai, apakah jawaban bisa diverifikasi, berapa biaya koreksi manusia, serta bagaimana latensi dan biaya pemanggilannya. Untuk sistem produksi, model yang stabil dan jarang gagal pada tugas kritis sering lebih bernilai daripada model yang unggul beberapa poin di benchmark yang tidak relevan. Kesimpulan dari benchmark publik saat ini cukup jelas: GPT-5.5 dan Claude Opus 4.7 tidak punya pemenang mutlak; yang ada adalah model yang lebih cocok untuk jenis alur kerja tertentu.[14][
6][
19]




