| SWE-Bench Pro | 60.6 | 55.4 | 58.6 |
| SWE-Bench Multilingual | 78.3 | — | 76.7 |
| Terminal-Bench 2.0-Terminus | 69.7 | 67.9 | 66.7 |
| LiveCodeBench (Pass@1) | — | 93.5 | 89.6 |
| Codeforces Rating | — | 3206 | — |
| SciCode | 53.5 | — | — |
| MCP-Mark | 60.8 | — | — |
순수 추론 능력에서는 각 모델의 강점이 엇갈립니다. 수학과 과학에 강한 모델이 있는가 하면, 도구를 활용한 복잡한 문제 해결에 특화된 모델도 있습니다.
성능만큼 중요한 것이 바로 비용입니다. 특히 대규모 서비스나 에이전트 워크플로우를 운영할 때는 토큰당 가격이 전체 예산을 좌우합니다. 아래는 공식 API 기준 가격입니다.
DeepSeek 가격 관련 참고 사항: DeepSeek는 2026년 5월 31일까지 V4 Pro 모델에 75% 할인 프로모션을 적용하여 입력 $0.435, 출력 $0.87로 제공했습니다. 이후 프로모션이 영구화되어 이 가격이 공식 표준 요금으로 유지되고 있습니다
. 위 표는 이 영구화된 할인 가격을 반영한 것입니다.
2026년 5월, 미국 국립표준기술연구소(NIST) 산하 CAISI의 평가에 따르면, DeepSeek V4 Pro의 자체 보고 점수는 실제 독립적 비공개 평가보다 다소 높게 측정되었습니다. CAISI의 평가는 DeepSeek V4 Pro의 실제 성능이 GPT-5.4나 Claude Opus 4.6이 아닌, 약 8개월 전 출시된 GPT-5 수준에 가깝다고 분석했습니다 . 이는 벤치마크 점수를 해석할 때 참고해야 할 중요한 맥락입니다.
Comments
0 comments