Jika Anda sedang memilih model untuk produk, riset, atau workflow developer, pertanyaannya bukan sekadar mana yang paling pintar. Dari benchmark publik, jawabannya lebih mirip: mana yang paling cocok untuk pekerjaan Anda. Claude Opus 4.7 terlihat kuat di SWE-bench Pro, GPQA Diamond, dan MCP Atlas; GPT-5.5 lebih menonjol di Terminal-Bench 2.0, OSWorld-Verified, BrowseComp, dan FrontierMath [6][
14][
15][
29][
34].
Namun angka mentah perlu dibaca hati-hati. Artificial Analysis membandingkan GPT-5.5 dalam kondisi xhigh dengan Claude Opus 4.7 pada kondisi Non-reasoning, High Effort, sementara LLM Stats menyimpulkan bahwa benchmark kedua model ini lebih menunjuk jenis beban kerja daripada satu pemenang universal [3][
4].
Ringkasan skor yang paling berguna
| Area | Benchmark | Claude Opus 4.7 | GPT-5.5 | Cara membaca |
|---|---|---|---|---|
| Coding | SWE-bench Pro | 64,3% | 58,6% | Untuk penyelesaian isu GitHub nyata, angka publik lebih condong ke Claude [ |
| Kerja terminal | Terminal-Bench 2.0 | 69,4% | 82,7% | Untuk CLI, manipulasi file, dan eksekusi skrip, GPT-5.5 unggul jauh [ |
| Penggunaan komputer | OSWorld-Verified | 78,0% | 78,7% | Hampir seri, tetapi angka publik menempatkan GPT-5.5 sedikit di depan [ |
| Browsing dan pencarian | BrowseComp | 79,3% | 84,4% | Untuk agen pencarian dan browsing, GPT-5.5 lebih kuat; GPT-5.5 Pro dilaporkan 90,1% [ |
| Penggunaan tool | MCP Atlas | 79,1% | 75,3% | Tidak semua tool-use dimenangi GPT-5.5; di benchmark ini Claude lebih tinggi [ |
| Sains dan pengetahuan ahli | GPQA Diamond | 94,2–94,3% | 93,6% | Selisih kecil, tetapi data yang tersedia sedikit condong ke Claude [ |
| Matematika | FrontierMath T1-3 / T4 | 43,8% / 22,9% | 51,7% / 35,4% | Untuk matematika sulit, GPT-5.5 unggul lebih jelas [ |
| Penalaran umum | HLE, tanpa tool | 31,2% atau 46,9% | 40,6% atau 41,4% | Sumber berbeda memberi hasil yang bertentangan, jadi jangan dijadikan pemutus tunggal [ |
| Penalaran dengan tool | HLE, dengan tool | 54,7% | 52,2% | Dalam kondisi memakai tool, Claude dilaporkan unggul tipis [ |
Coding: bedakan memperbaiki kode dan mengoperasikan terminal
Untuk coding, Claude Opus 4.7 punya sinyal kuat di SWE-bench Pro. Skor yang dilaporkan adalah 64,3% untuk Claude Opus 4.7 dan 58,6% untuk GPT-5.5, dan Vellum menafsirkan selisih ini sebagai keunggulan Claude pada penyelesaian isu GitHub nyata [6][
34]. Jadi, bila pekerjaan Anda banyak berisi bug fixing lintas file, memahami basis kode besar, atau menyusun patch yang rapi, Claude layak diuji lebih dulu.
Tetapi begitu pekerjaannya bergeser ke terminal, hasilnya berbalik. Terminal-Bench 2.0 dijelaskan sebagai benchmark untuk workflow CLI nyata, termasuk manipulasi file, eksekusi skrip, dan langkah-langkah terminal berurutan; di sini GPT-5.5 mencatat 82,7%, jauh di atas Claude Opus 4.7 yang 69,4% [6][
14][
23]. Untuk otomasi berbasis shell, eksplorasi struktur proyek, atau agen yang harus banyak menjalankan perintah, GPT-5.5 punya alasan kuat untuk masuk daftar uji pertama.
Penilaian kualitatif dari Mindstudio juga mengarah ke pola yang sama: GPT-5.5 disebut sedikit lebih kuat pada masalah yang membutuhkan penggunaan tool presisi dan navigasi file, sementara Claude Opus 4.7 lebih baik untuk penalaran arsitektur pada codebase besar [5]. Dengan kata lain, jangan menyatukan semua pekerjaan coding dalam satu keranjang.
SWE-bench Verified perlu dibaca lebih hati-hati. APIYI dan LLM Stats melaporkan Claude Opus 4.7 di 87,6%, tetapi dari bahan yang tersedia belum ada angka GPT-5.5 dengan kondisi yang benar-benar sepadan [8][
30]. Nama benchmark yang sama pun bisa menghasilkan perbandingan berbeda jika mode model, harness, atau kebijakan retry-nya tidak sama [
3][
23].
Agen AI dan penggunaan tool: GPT-5.5 luas, tetapi tidak menyapu bersih
Dalam OSWorld-Verified, benchmark yang mengukur penggunaan komputer, OpenAI melaporkan GPT-5.5 di 78,7% dan Claude Opus 4.7 di 78,0% [15]. Selisihnya hanya 0,7 poin persentase, jadi untuk praktik nyata ini lebih aman dibaca sebagai persaingan sangat dekat, bukan kemenangan telak.
BrowseComp memberi jarak yang lebih jelas. Pada benchmark pencarian dan browsing, GPT-5.5 dilaporkan 84,4%, GPT-5.5 Pro 90,1%, dan Claude Opus 4.7 79,3% [15]. Jika produk Anda bergantung pada agen yang mencari informasi, membuka halaman, lalu menyusun jawaban dari banyak sumber, keluarga GPT-5.5 lebih pantas diuji lebih awal.
Namun penggunaan tool tidak otomatis berarti GPT-5.5 selalu menang. Di MCP Atlas, Claude Opus 4.7 mencapai 79,1%, sedangkan GPT-5.5 berada di 75,3% [15]. Karena itu, evaluasi agen sebaiknya dipisahkan: browsing, penggunaan GUI komputer, pemanggilan tool bergaya MCP, dan otomasi terminal jangan dicampur menjadi satu skor rata-rata.
Penalaran: sains tipis ke Claude, matematika ke GPT-5.5
Untuk GPQA Diamond, benchmark yang sering dipakai untuk pertanyaan sains dan pengetahuan ahli, Claude Opus 4.7 dilaporkan di kisaran 94,2–94,3%, sementara GPT-5.5 berada di 93,6% [14][
29]. Selisihnya kecil, tetapi berdasarkan data yang tersedia, Claude Opus 4.7 sedikit lebih unggul di area ini.
Untuk matematika, arah kesimpulannya berbeda. Pada FrontierMath T1-3, GPT-5.5 dilaporkan 51,7%, sedangkan Claude Opus 4.7 43,8%; pada FrontierMath T4 yang lebih sulit, GPT-5.5 mencapai 35,4% dan Claude Opus 4.7 22,9% [14]. Bila pekerjaan Anda menuntut pembuktian, perhitungan berlapis, atau pengecekan matematis yang ketat, GPT-5.5 adalah kandidat awal yang lebih masuk akal.
HLE belum layak jadi penentu akhir
Humanity’s Last Exam atau HLE adalah bagian paling rumit dari perbandingan ini. Mashable melaporkan kondisi tanpa tool dengan GPT-5.5 di 40,6% dan Claude Opus 4.7 di 31,2%, sehingga tampak seperti kemenangan GPT-5.5 [6]. Namun o-mega dan RDWorld melaporkan kondisi tanpa tool dengan GPT-5.5 di 41,4% dan Claude Opus 4.7 di 46,9%, yang justru mengarah ke Claude [
14][
23].
Dalam kondisi memakai tool, Mashable dan RDWorld sama-sama menempatkan Claude sedikit lebih tinggi: GPT-5.5 52,2% dan Claude Opus 4.7 54,7% [6][
23]. Karena hasil tanpa tool bertentangan antar-sumber, HLE sebaiknya dipakai sebagai sinyal tambahan, bukan tie-breaker utama.
Konteks panjang, biaya, dan leaderboard: penting, tetapi bukan jawaban akhir
Konteks panjang kedua model juga dilaporkan dengan istilah berbeda. Artificial Analysis menampilkan GPT-5.5 dengan 922k token dan Claude Opus 4.7 dengan 1.000k token [3]. LLM Stats, di sisi lain, menyebut keduanya sama-sama hadir dengan konteks 1M token dan berada pada harga input yang sama [
4]. Untuk penggunaan nyata, anggap keduanya sebagai model konteks sangat panjang, lalu cek lagi batas, harga, mode reasoning, dan biaya tool call di API atau paket produk yang Anda pakai.
Leaderboard agregat berguna sebagai petunjuk, tetapi bukan pengganti uji internal. BenchLM menempatkan Claude Opus 4.7 di peringkat 2 dari 110 model pada provisional leaderboard dan peringkat 2 dari 14 model pada verified leaderboard [1]. Untuk GPT-5.5, sumber yang sama menempatkannya di peringkat 5 dari 112 model pada provisional leaderboard dan peringkat 2 dari 16 model pada verified leaderboard [
17]. Artinya, keduanya berada di papan atas; pilihan akhir akan lebih banyak ditentukan oleh jenis kegagalan, latensi, biaya, dan stabilitas pemanggilan tool di workflow Anda.
Model mana yang sebaiknya diuji lebih dulu?
Uji Claude Opus 4.7 lebih dulu jika kebutuhan utama Anda adalah:
- Menyelesaikan isu coding yang mirip SWE-bench Pro atau perbaikan bug pada repositori nyata [
6][
34].
- Memahami arsitektur codebase besar, melakukan refactoring, atau meningkatkan kualitas code review [
5].
- Menjawab pertanyaan sains dan pengetahuan ahli yang mirip GPQA Diamond [
14][
29].
- Mengandalkan pola pemanggilan tool yang lebih dekat dengan MCP Atlas [
15].
Uji GPT-5.5 lebih dulu jika kebutuhan utama Anda adalah:
- Otomasi terminal, workflow CLI, manipulasi file, dan eksekusi skrip [
6][
14][
23].
- Agen yang harus memakai komputer atau lingkungan GUI seperti yang diukur OSWorld-Verified [
15].
- Agen pencarian dan browsing yang mirip BrowseComp [
15].
- Penalaran matematika sulit seperti FrontierMath [
14].
Kesimpulan
Claude Opus 4.7 adalah pilihan kuat untuk SWE-bench Pro, GPQA Diamond, dan MCP Atlas [6][
14][
15][
29][
34]. GPT-5.5 lebih menonjol di Terminal-Bench 2.0, OSWorld-Verified, BrowseComp, dan FrontierMath [
6][
14][
15][
23].
Jadi, keputusan paling sehat bukan memilih satu model sebagai pemenang mutlak, melainkan membuat matriks uji sesuai pekerjaan. Untuk perbaikan kode kompleks dan pertanyaan sains, mulai dari Claude Opus 4.7. Untuk otomasi terminal, browsing, penggunaan komputer, dan matematika sulit, mulai dari GPT-5.5.




