GPT-5.2 bu alanda %100'lük mükemmel bir puan alarak zirveye oturdu. Onu %94 ile GPT-5.1 ve %92 ile Gemini 3.1 Pro takip ediyor .
Claude Opus 4.6 ve Grok 4, yaklaşık %75'lik puanlarla kodlama alanında başı çekiyor. GPT-5.5 ise onları yakından takip ediyor .
Gemini 3.1 Pro, modellerin ezber yaparak geçemeyeceği, gerçek problem çözme becerisini ölçen bu benchmark'ta %77.1'lik lider bir puan elde etti .
Claude Sonnet, 125 gerçek görev üzerinden kalite ve insanî tonu değerlendiren bir testte 10 üzerinden 9.8 puan alarak genel sohbet ve yazma için en iyi hissettiren model oldu .
Öncü modeller (GPT-5, Claude Opus 4.x, Gemini 3.x, Grok 4) arasındaki fark artık oldukça daraldı — genellikle sadece birkaç puanlık farklar söz konusu . Stanford'un 2026 AI Index Raporu, ilk 15 modelin performansının her bir benchmark'ta sadece 3 puan kadar ayrıldığını ortaya koydu
.
'Doğruluk' büyük ölçüde göreve bağlıdır: En iyi kodlama modeli, en iyi akıl yürütme modeli değildir ve benchmark'larda en doğru olan model, sizin özel iş akışınız için en iyisi olmayabilir. Doğru seçim tamamen sizin birincil kullanım amacınıza bağlıdır .
Comments
0 comments