아래 표에서 ‘—’는 해당 모델의 점수를 인용 자료에서 찾지 못했다는 뜻이다. 0점이라는 의미가 아니다. GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7, DeepSeek-V4-Pro-Max는 주로 하나의 공동 비교에서 가져왔고, Kimi K2.6 수치는 별도 Kimi 자료에서 가져왔다 .
OpenAI는 GPT-5.5를 코딩, 리서치, 데이터 분석 같은 복잡한 작업을 위해 만든 모델로 설명한다 . 공동 비교에서 GPT-5.5는 Terminal-Bench 2.0 82.7%를 기록해 Claude Opus 4.7의 69.4%, DeepSeek-V4-Pro-Max의 67.9%를 앞선다
. 같은 표에서는 GPQA Diamond 93.6%, SWE-Bench Pro 58.6%, BrowseComp 84.4%도 제시된다
.
다만 GPT-5.5 Pro를 기본 GPT-5.5와 섞어 보면 안 된다. 같은 공동 비교에서 GPT-5.5 Pro는 BrowseComp 90.1%, 도구 사용 Humanity’s Last Exam 57.2%를 기록하지만, 이는 기본 GPT-5.5의 결과가 아니다 . 실제 도입을 검토할 때는 품질뿐 아니라 비용, 지연 시간, 추론 강도 설정을 같은 조건으로 맞춰 비교해야 한다.
구매·도입 관점에서는 BenchLM이 GPT-5.5를 1M 토큰 컨텍스트 모델로 제시하고, 한 가격 보고서는 GPT-5.5를 입력 100만 토큰당 $5, 출력 100만 토큰당 $30으로 소개한다 . 다만 가격은 변동될 수 있으므로 예산을 잡기 전에는 최신 공급자 가격표로 재확인하는 편이 안전하다.
Claude Opus 4.7은 이 비교군에서 소프트웨어 수리 벤치마크 신호가 가장 강하다. LLM Stats는 Claude Opus 4.7의 SWE-Bench Verified를 87.6%로 제시하고, 공동 비교는 SWE-Bench Pro 64.3%를 제시한다 . 또한 공동 비교에서 GPQA Diamond 94.2%, 도구 없는 Humanity’s Last Exam 46.9%, MCP Atlas 79.1%로 앞선다
.
LLM Stats는 Claude Opus 4.7에 대해 1M 토큰 컨텍스트와 100만 토큰당 $5/$25 가격을 보고한다 . 단, 비교 가능성에는 주의가 필요하다. Anthropic은 일부 벤치마크 결과가 내부 구현이나 업데이트된 하네스 파라미터를 사용했으며, 일부 점수는 공개 리더보드 점수와 직접 비교하기 어렵다고 설명한다
.
Kimi K2.6는 인용 자료에서 가장 뚜렷한 오픈웨이트 후보다. 출시 관련 자료는 Kimi K2.6를 1T 파라미터 MoE, 32B 활성 파라미터, 384개 전문가, 네이티브 멀티모달, INT4 양자화, 256K 컨텍스트를 갖춘 오픈웨이트 모델로 설명한다 . Hugging Face 모델 카드는 SWE-Bench Verified 80.2%, SWE-Bench Pro 58.6%, Terminal-Bench 2.0 66.7%, LiveCodeBench v6 89.6을 제시한다
.
같은 출시 관련 자료는 Kimi K2.6가 도구 사용 Humanity’s Last Exam에서 54.0, BrowseComp에서 83.2를 기록했다고 보고한다 . LLM Stats는 Kimi K2.6를 262K 컨텍스트, $0.95/$4.00 가격 열, Open Source 라벨과 함께 제시한다
. 다만 Kimi 수치는 GPT-5.5, Claude Opus 4.7, DeepSeek-V4-Pro-Max가 들어간 같은 공동 표에서 나온 것이 아니다. 근소한 점수 차이는 승패 판정이 아니라 자체 테스트 후보를 추리는 신호로 보는 것이 좋다
.
DeepSeek-V4-Pro-Max는 전반적 1위라기보다 가격 대비 성능 후보에 가깝다. LLM Stats는 DeepSeek-V4-Pro-Max에 대해 1.6T 규모, 1M 컨텍스트, SWE-Bench Verified 80.6%, $1.74/$3.48 비용 열을 제시한다 . 공동 비교에서는 GPQA Diamond 90.1%, 도구 없는 Humanity’s Last Exam 37.7%, 도구 사용 Humanity’s Last Exam 48.2%, Terminal-Bench 2.0 67.9%, SWE-Bench Pro 55.4%, BrowseComp 83.4%, MCP Atlas 73.6%로 나온다
.
이 수치만 놓고 보면 DeepSeek-V4-Pro-Max는 비용이 중요한 워크로드에서 시험해 볼 만하다. 그러나 같은 공동 표에서 대부분의 항목은 GPT-5.5, GPT-5.5 Pro 또는 Claude Opus 4.7이 앞선다. 따라서 프리미엄 모델을 바로 대체하기보다는 실제 업무 데이터와 도구 환경에서 품질이 버티는지 먼저 검증해야 한다 .
가격과 컨텍스트 창은 항상 같은 출처, 같은 조건으로 보고되지 않는다. 아래 내용은 조달·검토의 출발점이지 최종 견적이 아니다.
벤치마크마다 재는 능력이 다르다. GPQA Diamond와 Humanity’s Last Exam은 어려운 추론을, Terminal-Bench 2.0과 SWE-Bench 계열은 코딩 및 에이전트형 소프트웨어 작업을, BrowseComp는 브라우징형 검색·탐색 성능을 본다 . 어떤 모델이 한 항목에서 앞서고 다른 항목에서 밀리는 것은 자연스러운 일이다.
같은 이름의 벤치마크라도 구현에 따라 결과가 달라질 수 있다. 예를 들어 LLM Stats는 Claude Opus 4.7의 SWE-Bench Verified를 87.6%로 제시하지만, LMCouncil은 자체 설정에서 83.5% ± 1.7로 제시한다 . Anthropic도 일부 결과가 내부 구현이나 업데이트된 하네스 파라미터를 사용해 공개 리더보드와 직접 비교하기 어렵다고 밝힌다
.
따라서 1~2%포인트 차이만으로 운영 모델을 결정하는 것은 위험하다. 공개 벤치마크는 후보를 좁히는 데 쓰고, 최종 결정은 자체 평가로 내려야 한다.
최상위 폐쇄형 모델을 우선 검토한다면 GPT-5.5와 Claude Opus 4.7을 나란히 시험하는 것이 출발점이다. GPT-5.5는 인용된 Terminal-Bench 2.0에서 가장 강하고, Claude Opus 4.7은 인용된 SWE-Bench Pro와 SWE-Bench Verified에서 가장 강하다 . 오픈웨이트가 필요하면 Kimi K2.6부터 보자
. 비용이 가장 큰 제약이라면 DeepSeek-V4-Pro-Max를 포함하되, 프리미엄 모델의 즉시 대체재로 보기 전 실제 워크로드에서 반드시 검증해야 한다
.
Comments
0 comments