네 모델을 고를 때 가장 흔한 실수는 ‘누가 제일 강한가’만 묻는 것이다. 공개 자료가 더 분명하게 말해주는 답은 따로 있다. GPT-5.5는 고성능 기본 선택지에 가깝고, Claude Opus 4.7은 장문 문서와 다단계 분석처럼 출력의 규율이 중요한 일에 강하다. DeepSeek V4는 비용 효율이 핵심이고, Kimi K2.6은 오픈 웨이트, 긴 컨텍스트, 이미지·비디오 입력이 필요한 경우 눈여겨볼 후보다.[4][
6][
7][
9]
먼저 이렇게 고르자: 30초 선택표
| 우선순위 | 먼저 평가할 모델 | 이유 |
|---|---|---|
| 종합 성능, 복잡한 에이전트 워크플로, 터미널 기반 코딩 | GPT-5.5 | Artificial Analysis는 GPT-5.5 xHigh를 60점, GPT-5.5 High를 59점으로 제시해 Claude Opus 4.7의 57점보다 높게 평가했다. VentureBeat가 정리한 Terminal-Bench 2.0에서도 GPT-5.5는 82.7%를 기록했다.[ |
| 긴 문서 연구, 다단계 분석, 금융·문서 처리 | Claude Opus 4.7 | Anthropic은 Opus 4.7이 내부 연구 에이전트 벤치마크에서 전체 0.715점을 기록했고, General Finance 모듈에서는 0.813점으로 Opus 4.6의 0.767점을 웃돌았다고 밝혔다.[ |
| 높은 처리량, 예산 제약, 프런티어급 성능에 가까우면서 낮은 단가 | DeepSeek V4 | Mashable은 DeepSeek V4 API 가격을 백만 입력 토큰당 1.74달러, 백만 출력 토큰당 3.48달러로 정리했다. 같은 표의 GPT-5.5와 Claude Opus 4.7보다 낮다.[ |
| 오픈 웨이트 생태계, 이미지·비디오 입력, 256K 긴 컨텍스트 | Kimi K2.6 | Artificial Analysis는 Kimi K2.6을 새로운 선두권 오픈 웨이트 모델로 평가했고, 이미지·비디오 입력과 256K 최대 컨텍스트를 지원한다고 설명했다.[ |
왜 단일 순위표만 보면 안 되나
현재 공개 자료에는 네 모델을 같은 평가 기관, 같은 시점, 같은 추론 예산, 같은 도구 권한으로 완전히 비교한 표가 없다. 쓸 수 있는 근거는 업체 발표, 제3자 리더보드, 언론 요약, API 문서, 모델 라우팅 페이지, 개인 실험이 섞여 있으며 평가 방식도 서로 다르다.[4][
5][
6][
7][
8][
9][
16][
34][
35]
이 차이는 순위를 바로 바꾼다. Artificial Analysis는 GPT-5.5 xHigh, GPT-5.5 High, Claude Opus 4.7 Adaptive Reasoning Max Effort처럼 추론 설정을 구분한다. OpenAI API 문서도 GPT-5.5의 reasoning effort가 none, low, medium, high, xhigh로 조정된다고 설명한다.[4][
35] 따라서 어떤 모델이 한 벤치마크에서 앞섰다는 사실이 곧바로 여러분의 프롬프트, 도구 체인, 지연시간 예산, 검수 절차에서도 앞선다는 뜻은 아니다.
공개 벤치마크 핵심 숫자
| 지표 | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 / V4 Pro | Kimi K2.6 | 읽는 법 |
|---|---|---|---|---|---|
| Artificial Analysis Intelligence Index | xHigh 60, High 59 [ | 57 [ | 이번 자료에서는 같은 표의 정확한 점수 확인 어려움 | OpenRouter가 정리한 AA Intelligence 53.9 [ | 종합 리더보드에서는 GPT-5.5가 앞선다. Kimi K2.6은 오픈 웨이트 진영의 상위 후보다. |
| Terminal-Bench 2.0 | 82.7% [ | 69.4% [ | 67.9% [ | 같은 출처의 공개 점수 확인 어려움 | 터미널을 다루는 에이전트형 작업에서는 GPT-5.5의 우위가 가장 뚜렷하다. |
| SWE-Bench Pro | 58.6% [ | 검증 가능한 같은 출처 수치 확인 어려움 | 55.4% [ | 일부 Kimi 자료는 주로 GPT-5.4나 Opus 4.6과 비교하므로 네 모델 직접 비교로 해석하기 어렵다.[ | GPT-5.5와 DeepSeek V4는 같은 언론 요약 안에서 비교 가능하지만, Kimi는 교차 출처 해석에 주의해야 한다. |
| Humanity’s Last Exam, 도구 없음 | 41.4%, GPT-5.5 Pro 43.1% [ | 46.9% [ | 37.7% [ | 같은 출처의 공개 점수 확인 어려움 | 이 설정에서는 Claude Opus 4.7이 앞선다. |
| Humanity’s Last Exam, 도구 사용 | 52.2%, GPT-5.5 Pro 57.2% [ | 54.7% [ | 48.2% [ | 같은 출처의 공개 점수 확인 어려움 | Claude는 GPT-5.5 기본 모델보다 높지만 GPT-5.5 Pro보다는 낮다. |
| BrowseComp | 84.4% [ | 같은 출처의 공개 점수 확인 어려움 | V4 Pro-Max 83.4% [ | 83.2% [ | 웹 탐색·이해 작업에서는 GPT-5.5, DeepSeek V4 Pro-Max, Kimi K2.6의 공개 요약 점수가 가깝다. |
| Kimi K2.6 AA 세부 항목 | 해당 없음 | 해당 없음 | 해당 없음 | Intelligence 53.9, Coding 47.1, Agentic 66.0 [ | Kimi의 에이전트 성능은 주목할 만하지만, 실제 도구 체인에서 재평가해야 한다. |
GPT-5.5: 복잡한 실무와 에이전트 작업의 강한 기본값
OpenAI 발표 페이지에 따르면 GPT-5.5와 GPT-5.5 Pro는 2026년 4월 24일 사용 가능 상태로 업데이트됐다. OpenAI API 문서는 gpt-5.5를 코딩과 전문 업무를 위한 모델로 설명하며, 100만 토큰 컨텍스트, 최대 128K 출력, 함수 호출, 웹 검색, 파일 검색, 컴퓨터 사용 기능을 제시한다.[25][
35]
공개 벤치마크만 보면 GPT-5.5는 가장 무난한 고성능 기준선이다. Artificial Analysis의 종합 순위에서 GPT-5.5 xHigh는 60점, High는 59점이고, VentureBeat 요약의 Terminal-Bench 2.0에서는 82.7%로 Claude Opus 4.7의 69.4%, DeepSeek V4의 67.9%보다 높다.[4][
6]
대신 비용 부담이 있다. OpenAI API 문서는 GPT-5.5 가격을 백만 입력 토큰당 5달러, 백만 출력 토큰당 30달러로 제시한다. 긴 보고서 생성, 여러 차례의 에이전트 루프, 출력이 많은 업무에서는 출력 토큰 비용이 핵심 변수가 된다.[35]
먼저 테스트할 만한 경우: 복잡한 코딩 에이전트, 터미널 자동화, 여러 도구를 오가는 리서치, 함수 호출·웹 검색·파일 검색을 함께 쓰는 전문 워크플로.[35]
Claude Opus 4.7: 장문, 다단계, 문서 규율이 중요한 작업
Claude Opus 4.7의 공개 포지셔닝은 긴 흐름의 작업과 신중한 출력에 가깝다. Anthropic은 Opus 4.7이 내부 연구 에이전트 벤치마크에서 전체 0.715점을 기록해 공동 최상위였고, 테스트한 모델 중 긴 컨텍스트 성능이 가장 일관적이었다고 설명했다. General Finance 모듈에서는 0.813점으로 Opus 4.6의 0.767점을 웃돌았고, 근거 공개와 데이터 규율도 강점으로 언급됐다.[7]
VentureBeat가 정리한 Humanity’s Last Exam에서는 Claude Opus 4.7이 도구 없는 설정에서 46.9%를 기록해 GPT-5.5의 41.4%, DeepSeek V4의 37.7%보다 높았다. 도구를 사용할 때는 Claude가 54.7%로 GPT-5.5 기본 모델의 52.2%보다 높지만 GPT-5.5 Pro의 57.2%보다는 낮다.[6]
다만 모든 지표에서 GPT-5.5를 앞서는 것은 아니다. Terminal-Bench 2.0에서는 GPT-5.5가 82.7%로 Claude Opus 4.7의 69.4%보다 크게 높다.[6] 또 일부 제3자 자료는 Opus 4.7이 SWE-bench Verified에서 82.4%를 기록했다고 설명하지만, 이는 네 모델을 같은 조건에서 비교한 자료가 아니므로 SWE-Bench Pro나 다른 리더보드 점수와 하나의 총점처럼 섞어 읽으면 안 된다.[
1][
6]
먼저 테스트할 만한 경우: 긴 문서 리서치, 금융 자료 처리, 근거와 수치 관리가 중요한 분석, 다단계 추론과 검수 기준이 까다로운 워크플로.[7]
DeepSeek V4: 비용 효율은 강하지만, 전면 1위는 아니다
DeepSeek V4의 가장 분명한 강점은 가격이다. Mashable은 DeepSeek V4 API 가격을 백만 입력 토큰당 1.74달러, 백만 출력 토큰당 3.48달러로 정리했다. 같은 요약에서 GPT-5.5는 5달러/30달러, Claude Opus 4.7은 5달러/25달러다.[3]
성능은 프런티어 모델에 근접하지만, 공개 요약에서 전면적으로 앞서지는 않는다. VentureBeat 요약에 따르면 DeepSeek V4는 Humanity’s Last Exam에서 도구 없음 37.7%, 도구 사용 48.2%로 GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7의 해당 점수보다 낮다. Terminal-Bench 2.0에서는 67.9%로 Claude의 69.4%와 가깝지만 GPT-5.5의 82.7%보다는 낮다.[6]
따라서 DeepSeek V4는 모든 폐쇄형 프런티어 모델의 무조건적 대체재라기보다, 비용 민감한 운영 시스템에서 가장 먼저 비용-품질 곡선을 확인할 후보에 가깝다. 실제 질문은 단순하다. 여러분의 업무에서 품질 기준을 넘기는지, 낮은 단가가 재시도·인간 검수·지연시간 비용까지 상쇄하는지다.[3][
6]
먼저 테스트할 만한 경우: 배치 처리, 고처리량 추론, 낮은 마진의 서비스, 일정 수준의 검수를 전제로 토큰 비용을 크게 낮춰야 하는 시스템.[3]
Kimi K2.6: 오픈 웨이트와 긴 컨텍스트가 필요한 팀의 후보
Kimi K2.6의 관전 포인트는 오픈 웨이트, 멀티모달 입력, 긴 컨텍스트다. Artificial Analysis는 Kimi K2.6을 새로운 선두 오픈 웨이트 모델로 평가했고, 이미지와 비디오 입력을 네이티브로 지원하며 텍스트를 출력하고 최대 컨텍스트 길이는 256K라고 설명했다.[9]
OpenRouter 페이지는 Kimi K2.6의 Artificial Analysis Intelligence를 53.9, Coding을 47.1, Agentic을 66.0으로 제시한다. 또한 최대 토큰을 256K, 최대 출력을 66K로 표시한다.[5]
웹 리서치 계열 지표에서는 DocsBot 요약상 Kimi K2.6의 BrowseComp가 83.2%, GPT-5.5가 84.4%다.[8] 이 수치만 보면 Kimi가 GPT-5.5에 근접하지만, 주의할 점이 있다. Kimi K2.6 관련 자료 중 일부는 주로 GPT-5.4나 Claude Opus 4.6과 비교하고 있어, GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6의 완전한 같은 출처 비교로 보기 어렵다.[
14][
15]
먼저 테스트할 만한 경우: 오픈 웨이트 생태계, 배포 자율성이 중요한 팀, 긴 컨텍스트 처리, 이미지·비디오 입력, 비용과 통제 가능성 사이의 균형을 찾는 워크플로.[5][
9]
비용·컨텍스트·배포 조건: 점수표 밖의 변수가 더 중요할 때
| 모델 | 공개 가격·용량 정보 | 선택에 주는 의미 |
|---|---|---|
| GPT-5.5 | 백만 입력 토큰당 5달러, 백만 출력 토큰당 30달러. 100만 토큰 컨텍스트, 최대 128K 출력, 함수 호출·웹 검색·파일 검색·컴퓨터 사용 지원.[ | 고가치 복잡 업무에 적합하지만, 출력이 길거나 에이전트 반복이 많으면 비용 압력이 커진다. |
| Claude Opus 4.7 | Mashable은 백만 입력 토큰당 5달러, 백만 출력 토큰당 25달러와 100만 토큰 컨텍스트로 정리했다.[ | 출력 단가는 GPT-5.5보다 낮다. 장기 일관성과 문서 규율을 중시하는 작업에 어울린다.[ |
| DeepSeek V4 | Mashable은 백만 입력 토큰당 1.74달러, 백만 출력 토큰당 3.48달러와 100만 토큰 컨텍스트로 정리했다.[ | 고처리량, 배치 처리, 예산 민감형 서비스에서 가장 먼저 테스트할 만하다. |
| Kimi K2.6 | OpenRouter 페이지의 한 라우트는 백만 입력 토큰당 0.7448달러, 백만 출력 토큰당 4.655달러를 제시한다. 최대 토큰은 256K, 최대 출력은 66K로 표시된다.[ | 오픈 웨이트, 긴 컨텍스트, 멀티모달 입력을 평가할 때 유력하다. 다만 라우터 가격을 모든 공급자의 공식 단가처럼 일반화하면 안 된다.[ |
API 단가는 총비용의 일부일 뿐이다. OpenAI의 GPT-5.5 API 가이드는 도구를 많이 쓰거나 오래 실행되는 워크플로에서 정확도, 토큰 소비, 엔드투엔드 지연시간을 다른 모델과 비교하라고 권한다. OpenAI 모델 문서는 GPT-5.5의 reasoning effort를 none부터 xhigh까지 조정할 수 있다고 설명한다.[34][
35]
실제 업무에서는 이렇게 테스트하라
공개 벤치마크는 후보를 줄이는 데 유용하지만, 사내 평가를 대체하지 못한다. 모델 도입이나 구매를 검토한다면 최소한 네 가지를 기록해야 한다. 첫째, 작업 성공률. 둘째, 실패 유형. 셋째, 엔드투엔드 지연시간. 넷째, 토큰·재시도·검수까지 포함한 비용이다. OpenAI 문서도 도구가 많거나 오래 실행되는 워크플로에서는 정확도, 토큰 소비, 엔드투엔드 지연시간을 함께 비교하라고 명시한다.[34]
개인 실험은 보조 신호로 볼 수 있지만, 표준 리더보드처럼 취급하면 곤란하다. AkitaOnRails의 2026년 4월 코딩 테스트에서는 Claude Opus 4.7이 97점, GPT-5.5 xHigh Codex가 96점, Kimi K2.6이 87점, DeepSeek V4 Pro가 69점을 기록했다. 같은 표에는 추정 비용도 함께 적혀 있는데, Claude Opus 4.7은 약 1.10달러, GPT-5.5 xHigh Codex는 약 10달러, Kimi K2.6은 약 0.30달러, DeepSeek V4 Pro는 약 0.50달러였다.[16]
이런 결과가 주는 교훈은 명확하다. 최종 선택은 실제 코드베이스, 실제 도구 권한, 프롬프트 흐름, 검수 기준, 실패 후 재시도 비용에 달려 있다. 고립된 점수 하나로 운영 환경의 승자를 정하기는 어렵다.[16][
34]
결론: 공개 벤치마크는 출발점, 최종 답은 내 업무 데이터
하나만 먼저 평가해야 한다면 GPT-5.5부터 시작하는 편이 안전하다. Artificial Analysis 종합 순위와 VentureBeat가 정리한 Terminal-Bench 2.0에서 모두 강한 신호를 보인다.[4][
6]
업무가 긴 문서 연구, 금융 자료 처리, 복잡한 다단계 분석, 근거와 데이터 규율이 중요한 보고서 작성에 가깝다면 Claude Opus 4.7도 1순위 후보군에 넣어야 한다. Anthropic의 내부 연구 에이전트 데이터와 VentureBeat의 HLE 요약은 이 방향에서의 경쟁력을 뒷받침한다.[6][
7]
가장 큰 제약이 호출량과 예산이라면 DeepSeek V4를 우선 평가하자. 공개 가격 요약상 입력·출력 단가가 GPT-5.5와 Claude Opus 4.7보다 크게 낮다.[3]
오픈 웨이트 생태계, 멀티모달 입력, 256K 컨텍스트가 필요하다면 Kimi K2.6이 중요한 후보다. 다만 GPT-5.5, Claude Opus 4.7, DeepSeek V4와의 완전한 같은 출처 비교는 아직 부족하다.[5][
8][
9]
가장 현실적인 결론은 이렇다. 공개 벤치마크로 출발점을 정하고, 실제 업무 데이터로 운영 모델을 결정하라. 순위표는 후보를 좁혀줄 수 있지만, 품질·비용·지연시간의 최종 균형까지 대신 책임져주지는 않는다.[34]




