| 58.6% |
| ~21.4%* |
| ~19.4%* |
| ~18.1%* |
| SWE-Bench Verified (कोड सुधार) | ~83% (अनुमानित) | 87.6% | 85.0% | 82.1% | 81.0% | 80.6% |
| Terminal-Bench 2.0/2.1 (टर्मिनल कोडिंग) | 74.6% | 66.1–69.4% | 78.2–82.7% | 76.2% | 68.5% | 65.0% |
| OSWorld-Verified (कंप्यूटर का स्वतंत्र इस्तेमाल) | 83.4% | 82.8% | 78.7% | 75.0% | 72.1% | 70.5% |
| GDPval-AA (ज्ञान कार्य / एजेंटिक Elo) | 1890 | 1753 | 1620–1769 | 1656 | 1500–1570 | 1550 |
| Humanity's Last Exam (उपकरणों के साथ) | 57.9% | 54.7% | — | — | — | — |
| Humanity's Last Exam (बिना उपकरणों के) | 49.8% | — | — | — | — | — |
| GPQA Diamond (स्नातकोत्तर स्तर का विज्ञान) | ~94% (अनुमानित) | 94.2% | 96.0% | 92.4% | 90.1–91.5% | 95.1% |
| ARC-AGI-2 (अमूर्त दृश्य तर्कशक्ति) | ~80% (अनुमानित) | 80.2% | 85.0% | 75.8% | 76.1% | 74.0% |
| MCP Atlas (टूल-यूज़ की विश्वसनीयता) | — | 77.3% | 79.1% | 83.6% | 74.2% | 71.5% |
| AA Intelligence Index (v4.0) | ~59–60 (अनुमानित) | 59 | 60 | 57 | 53 | 55 |
| Finance Agent v2 (वित्तीय विश्लेषण) | 53.9% | 51.5% | — | — | — | — |
| LiveCodeBench (Pass@1) | — | — | ~91–92% (अनुमानित) | — | — | 93.5% |
| Codeforces ELO (प्रतियोगी प्रोग्रामिंग) | — | ~3050 (अनुमानित) | 3168 | — | — | 3206 |
| FrontierMath Tier 1–3 | — | 43.8% | 51.7% | — | — | — |
| MMLU-Pro | — | — | — | — | — | 87.5% |
| AIME 2025 (गणित) | — | — | 95.2% | — | — | — |
| BrowseComp | — | 79.3% | 84.4% | — | — | — |
* Gemini 3.5 Flash, Grok 4.3, और DeepSeek V4 Pro के लिए SWE-Bench Pro स्कोर एक ही तृतीय-पक्ष परीक्षण से लिए गए हैं — गूगल के अपने मॉडल कार्ड में अलग आंकड़े दिखते हैं (नीचे नोट्स देखें).
टिप्पणी: भारतीय रुपये (₹) में अनुमानित कीमतें 1 USD = ₹83.6 के भाव से दी गई हैं और ये केवल तुलनात्मक समझ के लिए हैं।
Comments
0 comments