아래 표에서 **—**는 제공된 출처 조각 안에 같은 조건으로 비교할 수 있는 수치가 없다는 뜻입니다. 서로 다른 벤치마크를 단순 평균 내기보다는, 내가 맡길 작업과 가까운 줄을 먼저 보는 편이 안전합니다.
가장 큰 이유는 같은 이름의 모델이라도 실행 모드가 다르고, 벤치마크마다 측정하는 능력이 다르기 때문입니다. Artificial Analysis의 한 조각은 GPT-5.5 medium, Kimi K2.6, Claude Opus 4.7 non-reasoning high를 나란히 보여줍니다. 반면 AkitaOnRails 코딩 벤치마크는 GPT-5.5 xHigh/Codex, DeepSeek V4 Flash, DeepSeek V4 Pro처럼 코딩 환경에 가까운 행을 사용합니다.
VentureBeat는 GPT-5.5와 GPT-5.5 Pro를 별도 행으로 제시합니다.
GPT-5.5와 Claude Opus 4.7만 놓고 봐도 결론은 단순하지 않습니다. LLM Stats는 두 제공자가 모두 보고한 10개 벤치마크에서 Claude Opus 4.7이 6개, GPT-5.5가 4개에서 앞선다고 정리합니다. Claude의 우위는 reasoning-heavy 및 review-grade 테스트에, GPT-5.5의 우위는 long-running tool-use와 shell-driven 작업에 모여 있다는 설명입니다.
GPT-5.5가 가장 설득력 있게 앞서는 영역은 ARC와 Terminal-Bench입니다. ARC-AGI-2에서는 85%로 Claude Opus 4.7의 75.8%보다 높고, ARC-AGI-1에서도 95%로 Claude의 93.5%보다 높습니다. Terminal-Bench 2.0에서는 82.7%로 Claude Opus 4.7의 69.4%, DeepSeek의 67.9%를 크게 앞섭니다.
Artificial Analysis에서도 GPT-5.5 medium은 57점으로 Kimi K2.6의 54점과 Claude Opus 4.7 non-reasoning high의 52점보다 높게 제시됩니다. 다만 이것을 모든 모드와 모든 작업에서의 종합 1위로 읽으면 곤란합니다. LLM Stats의 정리처럼 Claude Opus 4.7이 reasoning 및 소프트웨어 엔지니어링 계열 일부 테스트에서 GPT-5.5를 앞서는 구간도 있습니다.
Claude Opus 4.7은 HLE와 SWE-Bench Pro에서 특히 강하게 보입니다. VentureBeat가 제시한 Humanity’s Last Exam 도구 없음 행에서는 Claude가 46.9%, GPT-5.5가 41.4%, DeepSeek가 37.7%였습니다. 도구 사용 행에서도 Claude는 54.7%로 기본 GPT-5.5의 52.2%, DeepSeek의 48.2%보다 높습니다. 다만 별도 행인 GPT-5.5 Pro는 도구 사용 HLE에서 57.2%로 Claude보다 높게 제시됐습니다.
소프트웨어 엔지니어링 평가에서도 Claude 쪽 신호가 강합니다. DataCamp는 SWE-Bench Pro에서 Claude Opus 4.7 64.3%, GPT-5.5 58.6%, DeepSeek V4 Pro 55.4%를 제시했습니다. LLM Stats 역시 GPQA, HLE 도구 없음, HLE 도구 사용, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1에서 Claude Opus 4.7이 GPT-5.5를 앞선다고 정리합니다.
Kimi K2.6은 GPT-5.5, Claude Opus 4.7, DeepSeek V4와 완전히 같은 표에서 비교된 사례가 상대적으로 적습니다. 그래서 단일 순위보다, 어떤 배포 방식과 업무에 맞는지를 보는 편이 좋습니다. Artificial Analysis에서는 54점으로 GPT-5.5 medium 57점보다 낮지만 Claude Opus 4.7 non-reasoning high 52점보다 높습니다.
AkitaOnRails 코딩 벤치마크에서는 Kimi K2.6이 87점을 받아 Claude Opus 4.7의 97점과 GPT-5.5 xHigh/Codex의 96점보다는 낮지만, DeepSeek V4 Flash 78점과 DeepSeek V4 Pro 69점보다는 높습니다. Verdent의 SWE-Bench Verified 비교에서는 Claude Opus 4.7이 87.6%, Kimi K2.6이 80.2%로 제시됐습니다.
Kimi의 실무상 차별점은 open-weight 경로입니다. Verdent는 K2.6 가중치가 Hugging Face에 있고 vLLM, SGLang, KTransformers로 실행할 수 있으며, 축소된 컨텍스트의 INT4 변형 기준 최소 실행 구성으로 4× H100을 언급합니다. Hugging Face README에는 Kimi K2.6의 에이전트 지표로 HLE-Full 도구 사용 54.0, BrowseComp 83.2, DeepSearchQA f1-score 92.5, Toolathlon 50.0, MCPMark 55.9가 제시돼 있습니다. 다만 이 표는 주로 GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro와 비교하므로 이 글의 네 모델 전체를 직접 줄 세운 결과는 아닙니다.
제공된 자료에서 DeepSeek V4는 대체로 최고 점수 모델이라기보다 value, 즉 가격 대비 성능 후보에 가깝게 보입니다. VentureBeat의 HLE 도구 없음, HLE 도구 사용, Terminal-Bench 2.0 행에서 DeepSeek는 GPT-5.5와 Claude Opus 4.7보다 낮게 제시됐습니다. DataCamp의 SWE-Bench Pro에서도 DeepSeek V4 Pro는 55.4%로 GPT-5.5 58.6%, Claude Opus 4.7 64.3%보다 낮습니다.
AkitaOnRails 코딩 벤치마크에서도 DeepSeek V4 Flash 78점, DeepSeek V4 Pro 69점은 같은 표의 Kimi K2.6, GPT-5.5 xHigh/Codex, Claude Opus 4.7보다 낮습니다.
하지만 비용을 넣으면 판단이 달라집니다. Mashable은 DeepSeek V4의 API 가격을 100만 input tokens당 $1.74, 100만 output tokens당 $3.48로 제시했습니다. 같은 기준에서 GPT-5.5는 $5/$30, Claude Opus 4.7은 $5/$25입니다. 이 숫자가 DeepSeek를 벤치마크 우승자로 만들지는 않지만, 대량 초안 생성, 저위험 내부 실험, 반복 평가처럼 시도 횟수와 단가가 중요한 작업에서는 먼저 시험해볼 이유가 됩니다.
벤치마크만 놓고 보면 상위권 경쟁의 중심은 GPT-5.5와 Claude Opus 4.7입니다. 다만 GPT-5.5는 ARC와 Terminal-Bench에서, Claude Opus 4.7은 HLE와 SWE-Bench Pro에서 더 강하게 나타납니다. Kimi K2.6은 직접 비교 표본은 적지만 코딩·에이전트 작업과 open-weight 경로가 장점이고,
DeepSeek V4는 순수 점수보다 낮은 API 가격을 앞세운 price-performance 후보로 보는 편이 정확합니다.
Comments
0 comments