공개 벤치마크를 그대로 줄 세우면 오히려 판단이 어려워집니다. 네 모델은 같은 경기장에서 뛴다기보다 각자 유리한 종목이 다릅니다. 오류 비용이 큰 고난도 작업은 Claude Opus 4.7, 터미널·에이전트 작업과 ChatGPT/Codex 연속성이 중요하면 GPT-5.5, 저렴한 코딩 성능을 원하면 Kimi K2.6, 대량 호출과 긴 컨텍스트가 필요하면 DeepSeek V4부터 시험하는 구도가 더 현실적입니다 [3][
4][
7][
16].
다만 숫자를 절대 순위처럼 읽으면 안 됩니다. 일부 결과는 도구 사용 여부, ‘high effort’나 ‘max effort’ 같은 추론 설정, 모델 변형이 서로 섞여 있습니다 [3][
6][
14][
16]. 실제 도입 전에는 같은 프롬프트, 같은 데이터, 같은 비용 조건으로 다시 테스트하는 것이 안전합니다.
먼저 보는 선택표
| 우선순위 | 먼저 시험할 모델 | 핵심 근거 |
|---|---|---|
| 어려운 문제에서 품질 최우선 | Claude Opus 4.7 | VentureBeat 표의 HLE 비교에서 GPT-5.5와 DeepSeek V4보다 앞서고, CodeRouter는 SWE-Bench Pro에서 64.3%로 1위를 제시합니다 [ |
| 터미널, 에이전트, OpenAI 흐름 | GPT-5.5 | Terminal-Bench 2.0에서 82.7%로 Claude Opus 4.7의 69.4%, DeepSeek V4의 67.9%보다 높게 보고됐습니다 [ |
| 저렴한 코딩 성능 | Kimi K2.6 | CodeRouter는 Kimi K2.6을 SWE-Bench Pro 58.6%로 GPT-5.5와 동률로 제시하고, 가격은 100만 입력/출력 토큰당 $0.60/$4.00로 보고합니다 [ |
| 많은 호출과 긴 컨텍스트 | DeepSeek V4-Pro 또는 V4 Flash | V4-Pro는 100만 입력/출력 토큰당 $1.74/$3.48 및 1M 컨텍스트, V4 Flash는 $0.14/$0.28 및 1M 컨텍스트로 제시됩니다. 단, Flash는 별도 변형입니다 [ |
| 자체 호스팅 경로 | Kimi K2.6 | Verdent는 K2.6 가중치가 Hugging Face에 있고 vLLM, SGLang, KTransformers에서 실행 가능하다고 설명합니다 [ |
벤치마크가 실제로 말하는 것
HLE, 즉 Humanity’s Last Exam은 수학, 인문학, 자연과학을 아우르는 2,500개 문항의 멀티모달 학술 벤치마크로, 검증 가능한 답을 통해 최전선 모델의 능력을 보려는 시험입니다 [15]. SWE-Bench Pro는 실제 GitHub 이슈를 바탕으로 다국어 소프트웨어 엔지니어링 능력을 평가하는 벤치마크로 설명됩니다 [
18]. Terminal-Bench 2.0은 VentureBeat가 에이전트 및 소프트웨어 엔지니어링 결과 맥락에서 제시한 지표입니다 [
3].
| 벤치마크 | 읽는 법 | 공개 수치 |
|---|---|---|
| HLE, 도구 없음 | 같은 표 안에서는 Claude Opus 4.7이 가장 강합니다. | Claude Opus 4.7 46.9%, GPT-5.5 41.4%, DeepSeek V4 37.7%입니다. Kimi K2.6은 이 동일 비교 표에 없습니다 [ |
| HLE, 도구 사용 | Claude가 GPT-5.5와 DeepSeek보다 앞섭니다. Kimi도 경쟁적인 수치가 있지만 다른 출처의 표입니다. | VentureBeat 기준 Claude Opus 4.7 54.7%, GPT-5.5 52.2%, DeepSeek V4 48.2%입니다. CodeRouter는 Kimi K2.6을 HLE 도구 사용 54.0으로 제시하지만 같은 표에서 나온 직접 비교는 아닙니다 [ |
| SWE-Bench Pro | Claude가 선두, GPT-5.5와 Kimi가 두 번째 그룹, DeepSeek가 그 뒤를 잇는 그림입니다. | CodeRouter는 Claude Opus 4.7 64.3%, GPT-5.5와 Kimi K2.6 각각 58.6%, DeepSeek V4-Pro 약 55%를 제시합니다. VentureBeat는 DeepSeek 수치를 55.4%로 인용합니다 [ |
| Terminal-Bench 2.0 | GPT-5.5의 가장 뚜렷한 강점입니다. | GPT-5.5 82.7%, Claude Opus 4.7 69.4%, DeepSeek V4 67.9%입니다. 제공된 발췌에는 Kimi K2.6 수치가 없습니다 [ |
요약하면, 비교 가능한 수치에서 Claude Opus 4.7은 전반 품질, GPT-5.5는 터미널 작업, Kimi K2.6은 코딩 성능 대비 가격, DeepSeek V4는 저렴한 긴 컨텍스트 호출에 강점이 있습니다 [3][
4][
16].
가격과 컨텍스트: 벤치마크가 청구서를 대신 내주지는 않는다
토큰은 모델이 읽고 쓰는 텍스트 조각이며, 대부분의 API 과금 단위입니다. 에이전트가 여러 번 생각하고, 도구를 부르고, 코드를 고치는 흐름에서는 작은 성능 차이보다 토큰 단가가 더 크게 체감될 수 있습니다.
| 모델 또는 변형 | 보고된 가격 | 보고된 컨텍스트 | 주의할 점 |
|---|---|---|---|
| Claude Opus 4.7 | Artificial Analysis 기준 100만 입력/출력 토큰당 $5/$25 [ | 1M 토큰, 최대 출력 128K 토큰 [ | Artificial Analysis는 Claude Opus 4.7을 지능 면에서 선도 모델 중 하나로 보지만, 비싸고 느리며 장황한 편이라고 평가합니다 [ |
| GPT-5.5 | CodeRouter 기준 100만 입력/출력 토큰당 $5/$30 [ | 1M 토큰 [ | Terminal-Bench 2.0 수치가 중요하거나 ChatGPT/Codex 흐름을 유지하려는 경우에 잘 맞습니다 [ |
| Kimi K2.6 | CodeRouter 기준 100만 입력/출력 토큰당 $0.60/$4.00 [ | 256K 토큰 [ | Artificial Analysis 비교에서도 Kimi K2.6의 컨텍스트는 256K, Claude Opus 4.7은 1000K로 제시됩니다 [ |
| DeepSeek V4-Pro | CodeRouter 기준 100만 입력/출력 토큰당 $1.74/$3.48 [ | 1M 토큰 [ | 가격과 컨텍스트 조합은 좋지만, 제공된 HLE와 SWE-Bench Pro 수치에서는 선두가 아닙니다 [ |
| DeepSeek V4 Flash | CodeRouter 기준 100만 입력/출력 토큰당 $0.14/$0.28 [ | 1M 토큰 [ | V4-Pro와 다른 변형입니다. V4-Pro나 V4-Pro-Max 벤치마크를 Flash에 그대로 옮겨 읽으면 안 됩니다 [ |
Claude Opus 4.7은 출처별 가격·컨텍스트 표기가 다르게 보이는 지점도 있습니다. Artificial Analysis의 별도 안내는 $5/$25와 1M 컨텍스트를 제시하지만, CodeRouter의 Kimi 비교표에는 Claude 관련 값이 다르게 실려 있습니다 [16][
19]. 실제 예산을 잡을 때는 반드시 현재 공급자 가격표와 계약 조건을 확인해야 합니다.
용도별 추천
오류 하나가 비싸다면 Claude Opus 4.7
복잡한 코드 리뷰, 긴 문서 분석, 숨어 있는 결함을 찾아야 하는 작업이라면 Claude Opus 4.7을 먼저 시험할 만합니다. HLE에서 GPT-5.5와 DeepSeek V4보다 앞선 수치가 있고, CodeRouter의 SWE-Bench Pro에서도 64.3%로 가장 높게 제시됩니다 [3][
16]. Artificial Analysis 역시 Claude Opus 4.7을 지능 면에서 선도 모델 중 하나로 평가하지만, 비용·속도·장황함은 단점으로 봅니다 [
14]. 또한 Anthropic API, Amazon Bedrock, Microsoft Azure, Google Vertex에서 이용 가능하다고 안내됩니다 [
19].
터미널과 OpenAI 워크플로가 중요하면 GPT-5.5
GPT-5.5는 VentureBeat의 HLE 수치에서는 Claude Opus 4.7을 넘지 못하지만, Terminal-Bench 2.0에서는 82.7%로 가장 높은 결과가 보고됐습니다 [3]. 이미 ChatGPT나 Codex를 중심으로 개발·분석 흐름을 짜고 있다면, 다른 제공자로 전면 이동하기 전에 GPT-5.5를 먼저 검증하는 선택이 자연스럽습니다 [
7].
비용을 낮추면서 코딩 성능을 원하면 Kimi K2.6
Kimi K2.6은 가격 대비 성능이 가장 눈에 띄는 후보입니다. CodeRouter는 Kimi K2.6을 SWE-Bench Pro 58.6%로 GPT-5.5와 동률로 제시하고, 가격은 100만 입력/출력 토큰당 $0.60/$4.00로 보고합니다 [16]. 컨텍스트 창은 256K로 GPT-5.5나 DeepSeek V4-Pro의 1M보다 작지만, 코드베이스와 작업 단위가 그 안에 들어온다면 비용 면에서 매력적입니다 [
16]. 자체 운영이 필요하다면 Verdent가 K2.6 가중치의 Hugging Face 제공과 vLLM, SGLang, KTransformers 실행 경로를 언급하며, 축소 컨텍스트 INT4 변형 기준 최소 4× H100 구성을 제시합니다 [
5].
호출량과 긴 컨텍스트가 병목이면 DeepSeek V4
DeepSeek V4 Pro/Pro-Max는 VentureBeat가 제시한 HLE, Terminal-Bench 2.0, SWE-Bench Pro 수치에서는 Claude Opus 4.7과 GPT-5.5보다 뒤에 있습니다 [3]. 그러나 V4-Pro의 100만 입력/출력 토큰당 $1.74/$3.48, 1M 컨텍스트 조합은 대량 파이프라인에서 충분히 검토할 만합니다 [
16]. 비용을 더 낮추는 것이 목표라면 V4 Flash도 후보가 될 수 있지만, Flash는 V4-Pro와 별도 변형으로 취급해야 합니다 [
4][
16].
갈아타기 전에 확인할 네 가지
- 같은 조건의 숫자가 아닐 수 있습니다. HLE는 도구 사용 여부에 따라 나뉘고, 다른 비교에는 high effort, max effort, thinking 같은 설정이 섞입니다 [
3][
6][
14][
16].
- 모델 변형을 섞으면 안 됩니다. GPT-5.5와 GPT-5.5 Pro는 다르고, DeepSeek V4-Pro, V4-Pro-Max, V4 Flash도 같은 모델처럼 취급하면 곤란합니다 [
3][
4][
16].
- 가격표와 리더보드는 빨리 낡습니다. Verdent는 연속적인 모델 출시 환경에서 이런 수치가 빠르게 오래된 정보가 될 수 있다고 지적합니다 [
5].
- 최종 판단은 내 업무로 해야 합니다. 실무 가이드는 가장 시끄러운 출시 소식만 보고 고르지 말고, 같은 작업을 직접 돌려 본 뒤 선택하라고 권합니다 [
7].
결론
최고 품질만 보면 Claude Opus 4.7부터 시작하는 것이 합리적입니다. 터미널 작업, 에이전트, ChatGPT/Codex 연속성이 중요하면 GPT-5.5가 강합니다. 코딩 성능을 유지하면서 비용을 낮추고 싶다면 Kimi K2.6을 먼저 검증할 만합니다. 호출량이 많고 긴 컨텍스트가 필요하다면 DeepSeek V4-Pro 또는 V4 Flash를 시험하되, 벤치마크 선두 모델은 아니라는 점과 변형 차이를 함께 봐야 합니다 [3][
4][
7][
16][
19].




