Pada benchmark pekerjaan pengetahuan, GDPval menguji tugas di puluhan profesi—termasuk hukum, keuangan, dan manajemen produk—di mana GPT‑5.5 mampu menyamai atau mengalahkan profesional manusia pada sekitar 84,9% perbandingan.
Hasil ini menunjukkan GPT‑5.5 sangat kuat dalam tugas multi‑langkah yang otonom dan workflow agentic.
Claude Opus 4.7 dari Anthropic secara luas dianggap sebagai salah satu model terbaik untuk tugas rekayasa perangkat lunak.
Benchmark utamanya antara lain:
SWE‑bench menguji apakah model dapat memperbaiki bug nyata dalam repositori open‑source. Kemampuan Opus 4.7 menyelesaikan 87,6% tugas SWE‑bench Verified menunjukkan peningkatan signifikan dibanding versi sebelumnya.
Walau skor Terminal‑Bench‑nya lebih rendah dibanding GPT‑5.5, performa pada benchmark yang berfokus pada coding tetap termasuk yang paling kuat dalam perbandingan publik.
Model Gemini 3.5 Flash dari Google menarik karena diposisikan sebagai model cepat dan efisien biaya—bukan flagship—namun tetap menunjukkan performa kompetitif pada beberapa benchmark penting.
Beberapa hasil yang dilaporkan:
Google menyatakan model ini dapat berjalan sekitar empat kali lebih cepat dibanding model frontier lain sambil tetap mengungguli Gemini 3.1 Pro pada beberapa benchmark coding dan agentic.
Dalam praktiknya, kekuatan utama Gemini 3.5 Flash adalah rasio kecepatan terhadap kemampuan, sehingga cocok untuk sistem produksi yang membutuhkan latensi rendah.
DeepSeek V4 menonjol karena merupakan salah satu model frontier open‑weight paling kuat yang dirilis sejauh ini.
Keluarga model ini terdiri dari:
Menurut laporan teknis dan ringkasan benchmarknya, V4‑Pro dalam mode reasoning maksimum mencapai:
Hasil ini menempatkannya cukup dekat dengan model proprietary terdepan pada beberapa benchmark coding.
Namun evaluasi independen dari program CAISI milik National Institute of Standards and Technology (NIST) di AS menemukan bahwa kemampuan model ini masih tertinggal sekitar delapan bulan dari frontier AI terbaru.
Model Grok 4.3 dari xAI menunjukkan peningkatan signifikan dibanding generasi Grok sebelumnya, terutama pada tugas berbasis agen.
Beberapa angka yang dipublikasikan meliputi:
Lonjakan lebih dari 300 Elo pada GDPval‑AA dibanding versi Grok sebelumnya menunjukkan peningkatan besar dalam otomatisasi tugas dunia nyata.
Meski begitu, analisis pihak ketiga biasanya masih menempatkan Grok 4.3 di bawah sistem terbaru dari OpenAI dan Anthropic dalam benchmark kemampuan keseluruhan.
Jika melihat berbagai evaluasi ini secara keseluruhan, pola yang relatif konsisten muncul:
Namun kesimpulan ini harus dianggap sebagai indikasi umum, bukan peringkat final, karena setiap vendor menyoroti benchmark yang berbeda.
Perbandingan benchmark AI modern semakin kompleks karena beberapa alasan:
Karena faktor‑faktor ini, peringkat sebenarnya sering baru terlihat jelas setelah beberapa bulan evaluasi independen.
Bukti benchmark terbaru tidak menunjukkan satu model yang mendominasi semua kategori.
Sebaliknya, frontier AI saat ini tampak semakin terspesialisasi:
Seiring makin banyak benchmark independen dan pengujian yang benar‑benar setara, urutan pasti model‑model ini kemungkinan masih akan terus berubah.
Comments
0 comments