Memilih antara GPT-5.5 dan Claude Opus 4.7 bukan sekadar mencari model yang “paling pintar”. Untuk tim engineering, produk, atau founder yang menghitung biaya API, pertanyaan yang lebih berguna adalah: di pekerjaan apa model ini paling kecil risikonya membuat kita bolak-balik memperbaiki hasil?
OpenAI menggambarkan GPT-5.5 sebagai model untuk pekerjaan kompleks dunia nyata, termasuk menulis kode, riset online, analisis informasi, membuat dokumen dan spreadsheet, serta berpindah antar-tool untuk menyelesaikan tugas.[16] Anthropic, sementara itu, memperkenalkan Claude Opus 4.7 sebagai model umum publiknya yang paling kuat untuk penalaran kompleks dan agentic coding.[
26]
Jika diringkas dari data publik yang tersedia, GPT-5.5 memberi sinyal kuat untuk pekerjaan terminal dan otomasi berbasis tool, sedangkan Claude Opus 4.7 lebih menarik untuk penyelesaian isu GitHub nyata, pembuatan UI-first, dan biaya output standar.[1][
4][
8][
23][
28]
Ringkasan cepat
- Otomasi terminal dan agentic workflow: mulai uji dari GPT-5.5. RDWorld mencatat skor Terminal-Bench 2.0 GPT-5.5 sebesar 82,7%, dibanding Claude Opus 4.7 sebesar 69,4%; tetapi tabel yang sama memberi catatan bahwa harness evaluasinya berbeda.[
8]
- Bug fixing dan issue di repo nyata: Claude Opus 4.7 wajib dibandingkan. SWE-Bench Pro dilaporkan memberi Claude Opus 4.7 skor 64,3%, sementara GPT-5.5 58,6%; Yahoo Tech menjelaskan benchmark ini menilai penyelesaian isu GitHub dunia nyata.[
4]
- Draf UI, landing page, dashboard: Claude Opus 4.7 tampak lebih menjanjikan. Appwrite menilai Claude menghasilkan hierarki layout yang lebih jelas, tipografi lebih rapat, dan grid kartu yang tidak terlalu repetitif.[
1]
- Harga API standar: input keduanya sama-sama di kisaran US$5 per 1 juta token, tetapi output Claude Opus 4.7 mulai US$25 per 1 juta token, lebih rendah daripada GPT-5.5 yang diumumkan US$30 per 1 juta token.[
23][
28]
Tabel perbandingan utama
| Kriteria | GPT-5.5 | Claude Opus 4.7 | Makna praktis |
|---|---|---|---|
| Posisi model | Didesain untuk menulis kode, riset online, analisis informasi, dokumen, spreadsheet, dan penggunaan berbagai tool.[ | Diposisikan sebagai model Anthropic paling kuat yang tersedia umum untuk penalaran kompleks dan agentic coding.[ | Keduanya model premium untuk pekerjaan berat, tetapi penekanannya berbeda. |
| Terminal-Bench 2.0 | 82,7%.[ | 69,4%.[ | Sinyal lebih kuat untuk GPT-5.5 pada pekerjaan terminal, dengan catatan perbedaan harness.[ |
| SWE-Bench Pro | 58,6%.[ | 64,3%.[ | Claude Opus 4.7 lebih kuat pada benchmark penyelesaian isu GitHub nyata.[ |
| GPQA Diamond | 93,6%.[ | 94,2%.[ | Selisih kecil; RDWorld menandai kategori ini sudah mendekati saturasi.[ |
| HLE, tanpa tool | 41,4%.[ | 46,9%.[ | Claude Opus 4.7 lebih tinggi pada evaluasi sulit tanpa bantuan tool.[ |
| BrowseComp | 84,4%.[ | 79,3%.[ | GPT-5.5 lebih tinggi, tetapi ada catatan contamination flagged.[ |
| UI-first | Appwrite menyebut GPT-5.5 cenderung kembali ke grid kartu repetitif jika prompt tidak eksplisit.[ | Appwrite menilai Claude membuat hierarki lebih jelas, tipografi lebih rapi, dan grid kartu yang kurang repetitif.[ | Untuk draf antarmuka awal, Claude layak diuji lebih dulu. |
| Harga API standar | Input US$5 dan output US$30 per 1 juta token, dengan context window 1 juta token.[ | Input mulai US$5 dan output mulai US$25 per 1 juta token.[ | Input mirip; output standar Claude lebih murah.[ |
Coding: pisahkan antara otomasi terminal dan issue GitHub
Untuk coding, satu angka benchmark tidak cukup. Jenis pekerjaannya sangat menentukan.
Pada Terminal-Bench 2.0, GPT-5.5 mencatat 82,7%, lebih tinggi daripada Claude Opus 4.7 di 69,4%.[8] VentureBeat juga menulis bahwa GPT-5.5 mengungguli model Anthropic dalam konteks Terminal-Bench 2.0, tetapi menekankan bahwa itu hanya satu benchmark.[
6]
Namun gambarnya berubah saat masuk ke SWE-Bench Pro. Di sana Claude Opus 4.7 dilaporkan mencapai 64,3%, sedangkan GPT-5.5 58,6%.[4] Yahoo Tech menjelaskan SWE-Bench Pro sebagai benchmark yang menilai penyelesaian isu GitHub dunia nyata.[
4]
Artinya, jika tugas Anda banyak berisi perintah shell, menjalankan test, berpindah tool, dan merangkai langkah otomasi, GPT-5.5 layak diuji lebih dulu.[8] Tetapi jika tugas utamanya memperbaiki bug di codebase yang sudah ada, memahami issue, lalu membuat patch sampai test lolos, Claude Opus 4.7 tidak boleh dilewatkan.[
4]
Tetap ada catatan penting. Yahoo Tech melaporkan bahwa OpenAI menyebut kemungkinan memorization pada sebagian problem terkait skor Claude di SWE-Bench Pro, dan tabel RDWorld juga memberi catatan memorization concern untuk benchmark itu.[4][
8] Karena itu, jangan menjadikan skor publik sebagai vonis akhir. Uji keduanya di repo, prompt, test suite, dan batas waktu yang sama.
UI dan front-end: Claude lebih kuat untuk draf awal
Untuk tim produk, benchmark coding belum tentu menjawab kebutuhan desain antarmuka. Landing page, dashboard SaaS, atau layar aplikasi membutuhkan hierarki informasi, ritme visual, pilihan komponen, dan tipografi yang tidak asal tersusun.
Di area ini, Appwrite menilai Claude Opus 4.7 masih lebih kuat untuk pekerjaan UI-first.[1] Penilaiannya: Claude membuat layout dengan hierarki lebih jelas, tipografi lebih ketat, dan lebih jarang jatuh ke pola grid kartu yang repetitif.[
1]
Ini bukan benchmark kuantitatif seperti Terminal-Bench atau SWE-Bench Pro; ini evaluasi pihak ketiga terhadap hasil UI.[1] Meski begitu, sinyalnya berguna. Jika Anda ingin membuat draf antarmuka dari nol, Claude Opus 4.7 pantas dicoba lebih dulu. Jika memakai GPT-5.5 untuk tugas serupa, prompt sebaiknya lebih eksplisit: jelaskan struktur layout, gaya visual, prioritas informasi, komponen, state, dan batasan desain yang diinginkan.[
1]
Penalaran dan browsing: hasilnya campuran
Pada benchmark penalaran, tidak ada gambaran bahwa satu model menang telak di semua sisi.
RDWorld mencatat GPQA Diamond GPT-5.5 di 93,6% dan Claude Opus 4.7 di 94,2%, dengan catatan bahwa kategori ini sudah mendekati saturasi.[8] Pada HLE tanpa tool, GPT-5.5 berada di 41,4%, sedangkan Claude Opus 4.7 lebih tinggi di 46,9%.[
8]
Untuk BrowseComp, GPT-5.5 tercatat 84,4%, lebih tinggi daripada Claude Opus 4.7 di 79,3%.[8] Namun tabel yang sama memberi catatan contamination flagged, sehingga angka ini sebaiknya tidak dibaca sebagai bukti mutlak bahwa GPT-5.5 selalu lebih unggul untuk semua riset web.[
8]
Harga: perhatikan output, bukan hanya input
Dalam API, biaya biasanya dihitung berdasarkan token. Praktisnya, semakin panjang prompt dan jawaban model, semakin banyak token yang dipakai. Karena itu, biaya output bisa menjadi penentu, terutama untuk tugas seperti membuat kode panjang, menulis dokumentasi, atau menjelaskan refactor.
OpenAI menyatakan GPT-5.5 akan tersedia untuk developer API melalui Responses API dan Chat Completions API dengan harga US$5 per 1 juta token input dan US$30 per 1 juta token output, serta context window 1 juta token.[23] OpenAI juga menyebut Batch dan Flex tersedia dengan setengah tarif API standar, sementara Priority processing memakai tarif 2,5 kali standar.[
23]
Anthropic menyatakan harga Claude Opus 4.7 mulai dari US$5 per 1 juta token input dan US$25 per 1 juta token output.[28] Anthropic juga menyebut prompt caching dapat menghemat biaya hingga 90%, sementara batch processing dapat menghemat 50%.[
28]
Jika hanya melihat harga standar, input keduanya mirip, tetapi output Claude Opus 4.7 lebih murah US$5 per 1 juta token dibanding GPT-5.5.[23][
28] Untuk workload yang banyak menghasilkan teks atau kode panjang, Claude bisa lebih menarik secara biaya. Namun biaya akhir tetap bergantung pada panjang output, jumlah percobaan ulang, cache hit rate, dan apakah batch processing digunakan.[
23][
28]
OpenAI memang menyatakan GPT-5.5 lebih cerdas dan lebih efisien token dibanding GPT-5.4, tetapi pernyataan itu bukan perbandingan biaya langsung terhadap Claude Opus 4.7.[23]
Integrasi: ekosistem yang sudah dipakai bisa lebih menentukan
Di dunia nyata, model terbaik belum tentu yang paling mudah diadopsi. Tooling, pipeline, billing, permission, dan kebiasaan tim sering ikut menentukan.
OpenAI mengumumkan GPT-5.5 tersedia di Codex dan ChatGPT, serta menyatakan akses API akan hadir melalui Responses dan Chat Completions API.[14][
23] Jika tim Anda sudah banyak memakai ChatGPT, Codex, atau workflow berbasis OpenAI API, menguji GPT-5.5 bisa lebih sederhana.[
14][
23]
Claude Opus 4.7 tersedia melalui Claude API dengan nama model claude-opus-4-7.[28] Namun Anthropic juga menyatakan Opus 4.7 membawa API breaking changes dibanding Opus 4.6, sehingga tim yang sudah memakai Claude perlu memeriksa migrasi sebelum upgrade.[
26]
Kualitas hasil juga bisa dipengaruhi lapisan produk di atas model. Dalam postmortem terkait laporan kualitas Claude Code, Anthropic mengatakan perubahan system prompt menyebabkan penurunan 3% pada satu evaluasi untuk Opus 4.6 dan Opus 4.7, lalu perubahan itu dikembalikan pada rilis 20 April.[27] Dengan kata lain, model yang sama bisa terasa berbeda tergantung system prompt, wrapper produk, dan tool chain yang mengelilinginya.[
27]
Rekomendasi routing berdasarkan pekerjaan
| Prioritas kerja | Model yang diuji lebih dulu | Alasan |
|---|---|---|
| Perintah terminal, otomasi, agentic workflow | GPT-5.5 | Terminal-Bench 2.0 mencatat GPT-5.5 di 82,7%, lebih tinggi daripada Claude Opus 4.7 di 69,4%.[ |
| Penyelesaian issue di repo nyata, bug fixing, test passing | Claude Opus 4.7 | SWE-Bench Pro melaporkan Claude Opus 4.7 di 64,3% dan GPT-5.5 di 58,6%.[ |
| Landing page, dashboard, layar aplikasi | Claude Opus 4.7 | Appwrite menilai Claude lebih kuat untuk UI-first work.[ |
| Pembuatan kode atau dokumen dengan output panjang | Claude Opus 4.7 | Harga output standar Claude mulai US$25 per 1 juta token, dibanding GPT-5.5 di US$30 per 1 juta token.[ |
| Workflow berbasis ChatGPT dan Codex | GPT-5.5 | OpenAI mengumumkan GPT-5.5 tersedia di Codex dan ChatGPT.[ |
| Upgrade dari integrasi Claude yang sudah ada | Claude Opus 4.7, dengan pengecekan migrasi | Anthropic menyediakan claude-opus-4-7, tetapi juga mencatat breaking changes dibanding Opus 4.6.[ |
Kesimpulan
Tidak ada dasar publik yang cukup kuat untuk menyatakan GPT-5.5 mengalahkan Claude Opus 4.7 di semua hal. GPT-5.5 terlihat kuat pada pekerjaan terminal dan agentic automation, terutama dari Terminal-Bench 2.0.[8] Claude Opus 4.7, di sisi lain, punya sinyal kuat pada penyelesaian issue GitHub nyata, UI-first generation, dan harga output API standar.[
1][
4][
23][
28]
Pendekatan paling aman adalah routing, bukan fanatisme model. Untuk otomasi terminal dan workflow OpenAI, mulai dari GPT-5.5. Untuk bug fixing di repo nyata, draf UI, dan output panjang yang sensitif biaya, mulai dari Claude Opus 4.7. Setelah itu, jalankan uji internal dengan data, repo, prompt, dan metrik yang benar-benar mencerminkan pekerjaan Anda sendiri.[1][
4][
8][
14][
23][
28]




