Gemini 3.1 Pro mencatat 77.1%, skor terkemuka pada penanda aras ini yang menguji penyelesaian masalah sebenar yang tidak boleh dihafal oleh model .
Claude Sonnet mendapat skor 9.8/10 dalam ujian 125 tugas sebenar yang menilai kualiti dan nada manusia, menjadikannya model yang terasa terbaik untuk digunakan untuk perbualan umum dan penulisan .
Jurang antara model sempadan (GPT-5, Claude Opus 4.x, Gemini 3.x, Grok 4) kini sangat sempit — selalunya hanya beberapa mata peratusan berbeza . Laporan Indeks AI Stanford 2026 mendapati prestasi 15 model teratas dipisahkan oleh hanya 3 mata peratusan pada setiap penanda aras
.
'Ketepatan' sangat bergantung pada tugas: model pengekodan terbaik bukanlah model penaakulan terbaik, dan model paling tepat pada penanda aras mungkin bukan yang terbaik untuk aliran kerja khusus anda. Pilihan yang tepat bergantung pada kes penggunaan utama anda .
Comments
0 comments