| SWE-Bench Verified (단일 이슈 해결 중심 코딩) | ~83% (추정) | 87.6% | 85.0% | 82.1% | 81.0% | 80.6% |
| Terminal-Bench 2.0/2.1 (CLI 환경 에이전트 작업) | 74.6% | 66.1–69.4% | 78.2–82.7% | 76.2% | 68.5% | 65.0% |
| OSWorld-Verified (컴퓨터 사용 에이전트) | 83.4% | 82.8% | 78.7% | 75.0% | 72.1% | 70.5% |
| GDPval-AA (지식 노동 / 에이전트 Elo) | 1890 | 1753 | 1620–1769 | 1656 | 1500–1570 | 1550 |
| Humanity's Last Exam w/ tools (도구 활용 다학제 추론) | 57.9% | 54.7% | — | — | — | — |
| Humanity's Last Exam no tools (순수 추론) | 49.8% | — | — | — | — | — |
| GPQA Diamond (대학원 수준 과학 추론) | ~94% (추정) | 94.2% | 96.0% | 92.4% | 90.1–91.5% | 95.1% |
| ARC-AGI-2 (추상 시각 추론) | ~80% (추정) | 80.2% | 85.0% | 75.8% | 76.1% | 74.0% |
| MCP Atlas (도구 사용 신뢰성) | — | 77.3% | 79.1% | 83.6% | 74.2% | 71.5% |
| AA Intelligence Index v4.0 (종합 지능 지표) | ~59–60 (추정) | 59 | 60 | 57 | 53 | 55 |
| Finance Agent v2 (금융 에이전트) | 53.9% | 51.5% | — | — | — | — |
| LiveCodeBench Pass@1 (코딩 대회형 문제) | — | — | ~91–92% (추정) | — | — | 93.5% |
| Codeforces ELO (경쟁 프로그래밍 레이팅) | — | ~3050 (추정) | 3168 | — | — | 3206 |
| FrontierMath Tier 1–3 (최고 난이도 수학) | — | 43.8% | 51.7% | — | — | — |
| MMLU-Pro (12개 분야 학부~대학원 지식) | — | — | — | — | — | 87.5% |
| AIME 2025 (미국 수학 경시대회) | — | — | 95.2% | — | — | — |
| BrowseComp (웹 기반 정보 검색·비교) | — | 79.3% | 84.4% | — | — | — |
* 제미나이 3.5 플래시, 그록 4.3, 딥시크 V4 Pro의 SWE-Bench Pro 점수는 단일 서드파티 테스트 기준입니다. 구글이 자체 모델 카드에서 제시한 값과는 차이가 있을 수 있습니다.
**에이전트 코딩(SWE-Bench Pro)**에서 69.2%, 지식 노동(GDPval-AA) Elo 1890, 컴퓨터 사용(OSWorld) 83.4%, 다학제 추론(Humanity's Last Exam), 금융 분석(Finance Agent v2) 등에서 1위를 기록했다. BenchLM 임시 리더보드에서 종합 93/100점으로 전체 2위를 기록하며, 출시 직후 가장 강력한 올라운드 모델임을 입증했다 .
**터미널 코딩(Terminal-Bench 2.0/2.1)**에서 78.2~82.7%, ARC-AGI-2 85.0%, GPQA Diamond 96.0%, FrontierMath Tier 1~3 51.7%, AIME 2025 95.2%로, 추론과 명령줄 기반 작업에서 강세를 보인다. AA Intelligence Index에서도 최고 점수인 60을 기록했다 .
**MCP Atlas(도구 조합 능력)**에서 83.6%로 1위를 차지했으며, 출력 속도는 약 289 토큰/초로 경쟁 모델 대비 4배 가까이 빠르다. 입력 가격은 100만 토큰당 1.50달러에 불과해, 비용 대비 최고의 효율을 원하는 사용자에게 적합하다 .
LiveCodeBench 93.5%, Codeforces ELO 3206로 경쟁 코딩 부문에서 독보적이다. SWE-bench Verified에서도 80.6%로 클로드 오푸스 4.7(80.8%)에 근접하며, 비용은 추정치 기준 극히 낮은 수준이다. 코딩 대회 준비나 알고리즘 문제 풀이에 특화되어 있다 .
AA Intelligence Index 53, GPQA Diamond 90.1%로 중상위권에 위치한다. 출력 속도(159~207 tps)와 저렴한 가격(입력 $1.25)이 장점이지만, 에이전트 코딩이나 복잡한 작업에서는 선두 모델에 뒤처진다 .
Comments
0 comments