Untuk Grok 4.3 dan DeepSeek V4, posisi relatifnya lebih sulit ditentukan karena transparansi evaluasi dan metodologi benchmark yang berbeda.
Performa coding adalah salah satu area yang paling jelas menunjukkan perbedaan antar model frontier.
Claude Opus 4.7 memiliki sinyal publik terkuat di sini. Skor 64,3% pada SWE‑Bench Pro merupakan peningkatan besar dibanding model sebelumnya dan menunjukkan kemampuan kuat dalam menyelesaikan masalah GitHub nyata di berbagai bahasa pemrograman.
GPT‑5.5 sedikit lebih rendah pada benchmark tersebut dengan 58,6%, tetapi tampil sangat kuat pada tugas engineering yang lebih luas seperti workflow berbasis terminal. Misalnya, Terminal‑Bench 2.0 mengukur otomatisasi command‑line kompleks dan koordinasi berbagai tool—di mana GPT‑5.5 memimpin dengan 82,7%.
Gemini 3.5 Flash mencatat 55,1% pada SWE‑Bench Pro. Walau lebih rendah dari Opus 4.7, angka ini tetap impresif untuk model yang dirancang dengan fokus kecepatan.
Untuk Grok 4.3, benchmark coding yang dipublikasikan tidak sepenuhnya standar. Beberapa metrik yang dilaporkan termasuk 81% pada IFBench dan 98% pada τ²‑Bench untuk tugas telekomunikasi, namun benchmark tersebut mengukur kemampuan yang lebih spesifik dan tidak langsung sebanding dengan SWE‑Bench atau Terminal‑Bench.
Pada DeepSeek V4, benchmark coding yang diverifikasi publik masih sangat terbatas. Sebagian klaim berasal dari pengujian internal atau kebocoran data dan belum direproduksi secara independen, sehingga perbandingan yang benar‑benar akurat masih sulit dilakukan.
Benchmark modern semakin fokus pada kemampuan model untuk menggunakan alat eksternal dan menjalankan tugas multi‑langkah.
Menurut laporan Google, Gemini 3.5 Flash memimpin beberapa evaluasi tool‑use, termasuk 83,6% pada MCP Atlas dan 56,5% pada Toolathlon—benchmark yang dirancang untuk mengukur orkestrasi multi‑tool dan workflow dunia nyata.
GPT‑5.5 juga menunjukkan performa kuat dalam kategori ini melalui benchmark seperti GDPval, yang mengukur tugas pekerjaan pengetahuan di berbagai profesi. Model ini mencatat 84,9% kemenangan atau seri melawan model lain dalam evaluasi tersebut.
Claude Opus 4.7 juga tampil baik pada benchmark penggunaan komputer. Skor 78,0% pada OSWorld‑Verified menunjukkan kemampuan kuat dalam mengoperasikan antarmuka desktop dan berinteraksi dengan software.
Benchmark tidak selalu mencerminkan karakteristik penting saat model digunakan di produksi.
Grok 4.3 menekankan kemampuan long‑context processing dan efisiensi biaya. Dokumentasi xAI mencantumkan context window hingga 1 juta token, dengan harga sekitar $1,25 per juta token input dan $2,50 per juta token output, menjadikannya opsi yang relatif murah untuk analisis dokumen besar.
Gemini 3.5 Flash dirancang sebagai model dengan inferensi sangat cepat, sering digambarkan jauh lebih cepat daripada model frontier sambil tetap kompetitif pada beberapa benchmark agentic.
Model DeepSeek biasanya menekankan strategi deployment open‑weight atau biaya rendah, sehingga menarik bagi organisasi yang ingin menjalankan model AI kuat di infrastruktur sendiri.
Penilaian independen paling kredibel terhadap DeepSeek V4 berasal dari program CAISI milik National Institute of Standards and Technology (NIST) di Amerika Serikat.
Menurut evaluasi tersebut, DeepSeek V4 adalah model AI Tiongkok paling kuat yang diuji di berbagai domain seperti rekayasa perangkat lunak, tugas keamanan siber, dan matematika.
Namun laporan yang sama menyebut model ini tertinggal sekitar delapan bulan dari model frontier terdepan dalam hal kemampuan.
NIST juga mencatat bahwa hasil benchmark internal DeepSeek terlihat lebih tinggi dibanding hasil pengujian independen CAISI, menegaskan pentingnya evaluasi netral ketika membandingkan model dari berbagai perusahaan.
Meskipun angka benchmark tersedia, membandingkan model secara langsung tetap tidak sempurna karena beberapa alasan:
Karena itu, membuat ranking absolut dari model‑model ini harus dilakukan dengan hati‑hati.
Berdasarkan data benchmark publik terkuat saat ini:
Pada akhirnya, model “terbaik” sangat bergantung pada kebutuhan. Agen coding, asisten riset, analisis dokumen panjang, atau deployment berbiaya rendah bisa menghasilkan pilihan model yang berbeda meskipun headline benchmark terlihat mirip.
Comments
0 comments