| Kimi K2.6 | $0.60–$0.95 | $3.00–$4.00 | $0.10 | 26만 2천 토큰 |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | 100만 토큰 |
| Grok 4.3 | $1.25 | $2.50 | $0.30 | 100만 토큰 |
| DeepSeek V4-Flash | $0.14 | $0.28 | $0.0028 | 100만 토큰 |
| DeepSeek V4-Pro | $0.435 (영구 할인) | $0.87 (영구 할인) | $0.0036 | 100만 토큰 |
가격 분석 핵심 포인트:
$0.435/$0.87로 제공됩니다 $0.14/$0.28라는 초저가를 자랑합니다 $5/$25로 동결했습니다 $10/$50에 제공하며, 기존 고속 모드보다 3배 저렴해졌습니다 $30/$180로 극도로 복잡한 추론 작업만을 위한 별도의 리그에 있습니다 $1.50/$9.00의 가격은 이전 세대 Flash보다 3배나 비싸져, 이제는 전용 추론 모델들과 어깨를 나란히 합니다 벤치마크 점수는 맥락 없이는 큰 의미가 없습니다. 단순 평균 점수 대신, 이 모델이 실제로 무엇을 잘하는지에 따라 결과를 재구성했습니다.
순수 지식, 수학, 과학 추론 능력을 측정합니다.
Claude Opus 4.8은 종합 지능에서 GPT-5.5를 근소한 차이로 제치고 선두에 섰습니다. 특히 수학(USAMO) 성능이 이전 모델보다 27.4포인트나 급등한 점이 인상적입니다 . 중국 모델 중에서는 Qwen3.7-Max가 대학원 수준의 과학 추론(GPQA Diamond)에서 선두권과 대등한 성적을 내며 두각을 나타냈습니다
.
개발자에게 가장 중요한 지표입니다.
| 벤치마크 | DeepSeek V4-Pro | Kimi K2.6 | GPT-5.5 | Claude Opus 4.8 | Qwen3.7-Max |
|---|---|---|---|---|---|
| SWE-bench Verified | 80.6% | 80.2% | 88.7% | 88.6% | 72.5% |
| SWE-bench Pro | ~58% | 58.6% | 58.6% | 69.2% | 60.6% |
| LiveCodeBench v6 | 93.5% | 89.6% | — | — | — |
코딩 성능은 명확한 계층을 형성합니다. Claude Opus 4.8과 GPT-5.5는 일반적인 버그 수정(SWE-bench Verified)에서 최상위권에 공동으로 자리했지만, 훨씬 어려운 Pro 세트에서는 Claude가 10포인트 이상 앞서나갑니다 . 그러나 가격 대비 코딩 효율만 놓고 보면 DeepSeek V4-Pro는 타의 추종을 불허합니다. GPT-5.4 수준의 코딩 성능을 1/30 가격에 제공합니다
.
실제 환경에서 모델이 독립적으로 일을 처리하는 능력입니다.
| 벤치마크 | GPT-5.5 | Gemini 3.5 Flash | Claude Opus 4.8 | Qwen3.7-Max | Grok 4.3 |
|---|---|---|---|---|---|
| GDPval-AA Elo | 1769 | 1656 | 1890 | — | 1500 |
| Terminal-Bench 2.0/2.1 | 82.7% | 76.2% | 74.6% | 69.7% | — |
| τ²-Bench (지시 이행) | — | — | — | — | 98% |
GPT-5.5는 터미널 환경에서의 개방형 에이전트 작업(Terminal-Bench)에서 여전히 최고 강자 자리를 지키고 있습니다. 하지만 Claude Opus 4.8은 실제 업무를 평가하는 GDPval-AA Elo에서 압도적인 1위를 차지하며, 비즈니스 환경에 가장 믿음직한 파트너임을 입증했습니다 . Grok 4.3은 높은 처리량의 지시 이행 작업에 매력적인 가성비 옵션입니다
.
중국 모델들이 처음으로 '가격'뿐만 아니라 '성능'으로도 경쟁하기 시작했습니다. Qwen3.7-Max는 SWE-bench Pro 에이전트 코딩 벤치마크에서 **60.6%**로 모든 모델을 제쳤습니다 . Kimi K2.6은 같은 테스트에서 GPT-5.5와 동급의 성능을 보여주고, '인류의 마지막 시험(HLE)'에서는 도구 사용 기준 **54.0%**로 다른 모든 모델을 앞서며
미국의 최전선 모델들에 근본적인 도전장을 내밀었습니다.
7개 모델을 완벽하게 '동등 비교'하는 것은 현실적으로 불가능합니다. 각 업체가 유리한 벤치마크만 선별해 공개하기 때문입니다 . 단순한 숫자 비교보다 더 중요한 몇 가지 변수가 있습니다.
$1,551.60이 들어, 토큰 단가는 더 비싸지만 더 강력한 Gemini 3.1 Pro Preview($892.28)보다 총비용이 더 많이 나올 수 있습니다 당신의 최우선 목표가 무엇이냐에 따라 선택은 완전히 달라집니다.
$1.25/$2.50의 가격으로 주요 미국 공급자의 완전한 기능을 갖춘 최전선 모델 중 가장 저렴합니다 중요: 어떤 중요한 제품에 모델을 적용하기 전에, 반드시 실제 서비스와 가장 유사한 여러분만의 환경과 데이터로 테스트하세요. 업체가 제공하는 벤치마크는 유용한 출발점일 뿐, 정답은 아닙니다.
Comments
0 comments