Claude Opus 4.6 dan Grok 4 memimpin dengan skor sekitar 75%, diikuti GPT-5.5 yang tidak jauh tertinggal .
Gemini 3.1 Pro mencetak 77,1%—skor tertinggi di benchmark ini yang menguji kemampuan pemecahan masalah baru yang tidak bisa dihafal oleh model .
Claude Sonnet mendapat skor 9,8/10 dalam tes yang melibatkan 125 tugas nyata, mengevaluasi kualitas dan nada komunikasi yang terasa alami. Model ini menjadi yang paling "enak dipakai" untuk percakapan dan tulisan umum .
Jarak performa antar model frontier (GPT-5, Claude Opus 4.x, Gemini 3.x, Grok 4) kini sangat tipis—seringkali hanya berselisih beberapa poin persen . Laporan AI Index 2026 dari Stanford menemukan bahwa performa 15 model teratas hanya terpaut sekitar 3 poin persen di setiap benchmark
.
'Akurasi' sangat bergantung pada tugas: model coding terbaik belum tentu menjadi model nalar terbaik, dan model yang paling akurat di benchmark belum tentu yang terbaik untuk alur kerja spesifik Anda. Pilihan yang tepat tergantung pada kebutuhan utama Anda .
Comments
0 comments