2026년 4월까지 공개된 자료만 놓고 보면, GPT‑5.5·Claude Opus 4.7·Kimi K2.6·DeepSeek V4 비교는 단순한 순위표가 아닙니다. 실제로는 ‘무엇을 시킬 것인가’에 따라 답이 달라지는 업무별 지도에 가깝습니다. 터미널과 브라우저를 오가며 일하는 에이전트, 운영 코드베이스를 고치는 코딩 모델, 오픈 웨이트 배포, 긴 문서 처리 실험에서 각각 강한 후보가 다릅니다.
가장 먼저 전제부터 잡아야 합니다. 서로 다른 연구소, 도구 접근 권한, 추론 노력도, 평가 하네스에서 나온 점수는 동일 조건 비교가 아닙니다. LM Council도 독립적으로 돌린 벤치마크가 AI 기업의 자체 보고 점수와 맞지 않을 수 있다고 설명합니다. [12]
한눈에 보는 결론
- 컴퓨터 조작, 브라우저 워크플로, 터미널 중심 에이전트: GPT‑5.5의 공개 신호가 가장 강합니다. OpenAI가 공개한 출시 자료에는 Terminal‑Bench 2.0 82.7%, OSWorld‑Verified 78.7%, BrowseComp 84.4%, Toolathlon 55.6%가 포함돼 있습니다. [
5]
- 운영 코드베이스 수정과 SWE‑Bench식 코딩: Claude Opus 4.7을 가장 먼저 검토할 만합니다. 공개 수치로 SWE‑Bench Verified 87.6%, SWE‑Bench Pro 64.3%가 제시돼 있습니다. [
17]
- 오픈 웨이트 코딩 스택: Kimi K2.6이 매우 경쟁력 있는 후보입니다. Kimi 공식 자료에는 Terminal‑Bench 2.0 66.7%, SWE‑Bench Pro 58.6%, SWE‑Bench Verified 80.2%, LiveCodeBench v6 89.6이 제시돼 있습니다. [
29]
- 롱컨텍스트 오픈소스·오픈 웨이트 실험: DeepSeek V4를 평가 목록에 넣을 만하지만, 반드시 정확한 변형을 구분해야 합니다. DeepSeek는 2026년 4월 24일 V4 Preview가 공식 라이브 및 오픈소스로 공개됐다고 밝혔습니다. [
42]
- 과학 추론: Claude Opus 4.7은 GPQA Diamond 94.2%로 보고됐고, Kimi K2.6은 GPQA‑Diamond 90.5%와 AIME 2026 96.4%를 제시하며, DeepSeek V4‑Pro/Pro‑Max 표는 GPQA Diamond 90.1을 보고합니다. [
19][
27][
29][
37]
벤치마크를 읽기 전 꼭 봐야 할 세 가지
- 벤치마크 종류가 곧 질문입니다. Terminal‑Bench, SWE‑Bench, BrowseComp, OSWorld, GPQA, HLE는 서로 다른 능력을 봅니다. 코딩 벤치마크에서 강한 모델이 웹 리서치, 롱컨텍스트 검색, 컴퓨터 조작 작업에서도 항상 최고라는 뜻은 아닙니다. [
5][
17][
29]
- 도구 접근과 추론 노력도가 점수를 바꿉니다. OpenAI 시스템 카드는 GPT‑5.5 Pro를 같은 기반 모델에 병렬 테스트 타임 컴퓨트를 쓰는 설정으로 설명합니다. 따라서 GPT‑5.5와 GPT‑5.5 Pro 점수를 같은 추론 예산의 결과처럼 읽으면 안 됩니다. [
3]
- 공개 벤치마크는 후보 압축용이지 구매 결정서가 아닙니다. 독립 평가와 자체 보고 점수가 달라질 수 있으므로, 실제 제품·업무 환경에서는 내부 평가가 필요합니다. [
12]
모델별 스냅샷
| 모델 | 공개 포지셔닝 | 가장 강한 신호 | 주의할 점 |
|---|---|---|---|
| GPT‑5.5 | OpenAI 출시 자료는 컴퓨터 사용, 도구 사용, 에이전트 워크플로를 강조합니다. [ | Terminal‑Bench 2.0 82.7%, OSWorld‑Verified 78.7%, BrowseComp 84.4%; GPT‑5.5 Pro BrowseComp 90.1. [ | Pro 점수는 일반 GPT‑5.5와 직접 비교하면 곤란합니다. Pro는 병렬 테스트 타임 컴퓨트를 쓰는 설정입니다. [ |
| Claude Opus 4.7 | Anthropic은 코딩과 AI 에이전트에 초점을 둔 1M 컨텍스트 윈도의 하이브리드 추론 모델로 설명합니다. [ | SWE‑Bench Verified 87.6%, SWE‑Bench Pro 64.3%가 보고됐습니다. [ | 1M 컨텍스트 윈도는 매력적이지만, 윈도 크기와 실제 롱컨텍스트 회상 품질은 다릅니다. StationX 요약에는 극단적인 1M 토큰 회상에서의 주의점도 나타납니다. [ |
| Kimi K2.6 | Moonshot/Kimi의 오픈소스·오픈 웨이트 지향 코딩 모델입니다. [ | Terminal‑Bench 2.0 66.7%, SWE‑Bench Pro 58.6%, SWE‑Bench Verified 80.2%, LiveCodeBench v6 89.6. [ | Artificial Analysis에 따르면 Kimi K2.6은 네이티브 이미지·비디오 입력과 256k 최대 컨텍스트 길이를 지원합니다. 실제 성능은 배포 구성에 따라 달라질 수 있습니다. [ |
| DeepSeek V4‑Pro / Pro‑Max | DeepSeek V4 Preview는 공식 문서에서 라이브 및 오픈소스 공개로 설명되며, Hugging Face 카드에서는 V4 계열을 MoE 언어 모델로 제시합니다. [ | SWE Verified 80.6, SWE Pro 55.4, Terminal Bench 2.0 67.9, GPQA Diamond 90.1이 보고됐습니다. [ | DeepSeek V4 이름 아래 변형 차이가 있습니다. Flash, Pro, Pro‑Max식 결과를 한 점수로 섞어 읽지 않아야 합니다. [ |
주요 벤치마크 비교표
| 벤치마크 | GPT‑5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4‑Pro / Pro‑Max | 읽는 법 |
|---|---|---|---|---|---|
| Terminal‑Bench 2.0 | 82.7% [ | 69.4% 보고 [ | 66.7% [ | 67.9% [ | 명령줄과 자율 코딩형 작업에서는 GPT‑5.5의 우위가 가장 선명합니다. |
| SWE‑Bench Pro | 58.6% [ | 64.3% [ | 58.6% [ | 55.4% [ | 난도 높은 소프트웨어 엔지니어링 벤치마크에서는 Claude Opus 4.7이 앞섭니다. |
| SWE‑Bench Verified | 이 자료 묶음에서는 명확한 비교값을 확인하지 못함 | 87.6% [ | 80.2% [ | 80.6% [ | 리포지터리 이슈 해결형 작업에서는 Claude의 공개 신호가 가장 강합니다. |
| OSWorld‑Verified | 78.7% [ | 78.0% [ | 73.1% [ | 비교 가능한 값 확인 못함 | 컴퓨터 조작 작업에서는 GPT‑5.5와 Claude Opus 4.7이 매우 가깝습니다. |
| BrowseComp | 84.4%; GPT‑5.5 Pro 90.1% [ | 79.3% [ | 83.2%; Agent Swarm 86.3% [ | 비교 가능한 값 확인 못함 | 브라우저 에이전트와 웹 리서치 작업에서는 GPT‑5.5 Pro와 Kimi Agent Swarm 모두 강한 신호를 보입니다. |
| GPQA Diamond | 이 자료 묶음에서는 명확한 공식 비교값 확인 못함 | 94.2% [ | 90.5% [ | 90.1% [ | 대학원 수준 과학 추론에서는 Claude의 보고 점수가 가장 높습니다. |
| HLE / 고난도 추론 | 직접 비교값 확인 못함 | HLE no‑tools 46.9%, with‑tools 54.7% [ | HLE‑Full 34.7%; with‑tools 54.0% [ | HLE 37.7% [ | 도구를 붙인 HLE에서는 Claude와 Kimi가 가깝고, DeepSeek의 표기 점수는 더 낮습니다. |
| 롱컨텍스트 | 제공된 출시 발췌에서는 공개 컨텍스트 사양이 명확하지 않음 | 1M 컨텍스트 윈도 [ | 256k 최대 컨텍스트 길이 [ | V4 자료가 롱컨텍스트 포지셔닝을 제시 [ | 롱컨텍스트 배포에서는 Claude와 DeepSeek의 포지셔닝이 더 분명하지만, 실제 회상 품질은 따로 테스트해야 합니다. |
용도별로 어떤 모델을 먼저 볼까
1. 터미널 중심 자율 코딩 에이전트: GPT‑5.5
업무가 터미널 명령, 브라우저·도구 사용, OS 수준 조작, 여러 단계의 에이전트 루프로 구성된다면 GPT‑5.5가 이 자료 묶음에서 가장 강하게 보입니다. OpenAI가 공개한 수치에는 Terminal‑Bench 2.0 82.7%, OSWorld‑Verified 78.7%, BrowseComp 84.4%, Toolathlon 55.6%가 포함돼 있습니다. [5]
다만 GPT‑5.5 Pro의 BrowseComp 90.1%는 일반 GPT‑5.5 점수처럼 읽어서는 안 됩니다. OpenAI 시스템 카드는 Pro를 같은 기반 모델에서 병렬 테스트 타임 컴퓨트를 쓰는 설정으로 설명합니다. [3][
5]
잘 맞는 용도: 코딩 에이전트, 브라우저 리서치 에이전트, 컴퓨터 조작 자동화, 도구 호출이 많은 기업용 어시스턴트.
2. 운영 코드베이스 수정: Claude Opus 4.7
핵심 KPI가 실제 리포지터리의 버그 수정, 풀리퀘스트 초안 작성, 테스트 통과, 대형 코드베이스 이해라면 Claude Opus 4.7이 가장 먼저 볼 후보입니다. SWE‑Bench Verified 87.6%, SWE‑Bench Pro 64.3%는 소프트웨어 엔지니어링 벤치마크에서 강한 위치를 보여줍니다. [17]
Anthropic은 Claude Opus 4.7을 코딩과 AI 에이전트를 위한 1M 컨텍스트 윈도 하이브리드 추론 모델로 소개합니다. 대형 코드베이스 워크플로에서 테스트해볼 이유가 충분합니다. [14]
잘 맞는 용도: 리포지터리 유지보수, 코드 리뷰, 복잡한 리팩터링, 개발자 코파일럿, 엔지니어링 에이전트.
3. 오픈 웨이트 코딩 스택: Kimi K2.6
자체 배포 가능성이나 오픈 웨이트 요구사항이 중요하다면 Kimi K2.6은 강력한 선택지입니다. Kimi 공식 표에는 Terminal‑Bench 2.0 66.7%, SWE‑Bench Pro 58.6%, SWE‑Bench Verified 80.2%, SciCode 52.2%, LiveCodeBench v6 89.6이 제시돼 있습니다. [29]
Kimi K2.6 공개 자료는 에이전트형 검색 작업에서도 강한 신호를 보입니다. BrowseComp 83.2%, Agent Swarm BrowseComp 86.3%가 포함됩니다. [34] Artificial Analysis에 따르면 이 모델은 네이티브 이미지·비디오 입력과 256k 컨텍스트 길이를 지원합니다. [
32]
잘 맞는 용도: 오픈 모델 배포, 코딩 에이전트, 리서치 에이전트, 호스팅 통제권이 더 필요한 팀.
4. 롱컨텍스트 오픈소스 실험: DeepSeek V4
DeepSeek는 DeepSeek V4 Preview가 2026년 4월 24일 공식 라이브 및 오픈소스로 공개됐다고 밝혔습니다. [42] DeepSeek‑V4‑Pro 모델 카드는 V4 계열을 MoE 언어 모델로 제시합니다. [
37]
DeepSeek V4‑Pro/Pro‑Max의 보고 벤치마크에는 Terminal Bench 2.0 67.9, SWE Verified 80.6, SWE Pro 55.4, GPQA Diamond 90.1이 포함됩니다. [37] 이 때문에 오픈소스·오픈 웨이트 실험과 롱컨텍스트 워크로드에서 전략적 후보가 될 수 있습니다. 다만 점수는 항상 정확한 변형 이름과 함께 읽어야 합니다. [
37][
42]
잘 맞는 용도: 롱컨텍스트 애플리케이션, 오픈소스·오픈 웨이트 실험, 호스티드 프런티어 모델과 배포 가능한 대안을 함께 비교하려는 팀.
5. 과학·수학 추론: GPQA에서는 Claude가 앞서지만 그림은 단순하지 않다
공개된 보고 수치에서 Claude Opus 4.7은 GPQA Diamond 94.2%까지 제시됩니다. [19] Kimi K2.6은 GPQA‑Diamond 90.5%, AIME 2026 96.4%를 보고합니다. [
27][
29] DeepSeek V4‑Pro/Pro‑Max는 GPQA Diamond 90.1을 제시합니다. [
37]
따라서 과학 추론에서는 Claude가 강한 후보입니다. 하지만 수학·과학 워크로드를 단일 벤치마크 하나로 결정해서는 안 됩니다. 평가 설정, 도구 접근, 노력도 모드에 따라 결과가 달라질 수 있습니다. [12]
실무 평가 체크리스트
- 공개 벤치마크 하나로 결정하지 마세요. 공개 점수와 자체 보고 점수는 독립 실행 결과와 달라질 수 있습니다. 같은 프롬프트, 같은 도구 예산, 같은 타임아웃, 같은 채점 기준으로 내부 평가를 구성해야 합니다. [
12]
- GPT‑5.5와 GPT‑5.5 Pro는 별도 트랙으로 보세요. Pro 설정은 병렬 테스트 타임 컴퓨트를 사용하므로 일반 모델과 같은 컴퓨트 예산의 결과로 간주하면 안 됩니다. [
3]
- 오픈 웨이트 요구사항을 먼저 정의하세요. 데이터 통제, 자체 호스팅, 모델 커스터마이징 검토가 중요하다면 Kimi K2.6과 DeepSeek V4를 별도 평가 라인에 넣는 편이 좋습니다. [
29][
34][
37][
42]
- 롱컨텍스트는 윈도 크기만 보지 마세요. Claude Opus 4.7은 1M 컨텍스트 포지셔닝이 명확하고, Kimi K2.6은 256k 최대 컨텍스트가 보고됐으며, DeepSeek V4 자료도 롱컨텍스트 포지셔닝을 제시합니다. 그래도 실제 회상, 지시 따르기, 비용은 자신의 문서로 따로 테스트해야 합니다. [
14][
17][
32][
37][
42]
- 코딩 에이전트는 공개 벤치마크와 내부 리포지터리 평가를 함께 돌리세요. SWE‑Bench식 점수는 유용한 신호지만, 실제 운영 리포지터리에는 의존성 설정, 불안정한 테스트, 팀별 코딩 스타일, 리뷰 제약이 따로 존재합니다. [
17]
한계와 주의점
- 이 자료 묶음에서는 네 모델을 같은 독립 연구소, 같은 평가 하네스, 같은 도구 접근, 같은 추론 노력도에서 한 번에 평가한 완전한 공개 비교를 확인하지 못했습니다. LM Council도 독립 벤치마크와 자체 보고 점수가 다를 수 있다고 경고합니다. [
12]
- GPT‑5.5 Pro와 GPT‑5.5를 같은 모델 점수처럼 읽으면 안 됩니다. OpenAI 시스템 카드는 Pro를 같은 기반 모델에 병렬 테스트 타임 컴퓨트를 쓰는 설정으로 설명합니다. [
3]
- DeepSeek V4 점수는 변형별입니다. V4 Preview, V4‑Pro, Pro‑Max식 명칭을 섞어 하나의 DeepSeek V4 점수로 만들면 안 됩니다. [
37][
42]
- Kimi K2.6과 DeepSeek V4 같은 오픈 웨이트 배포에서는 서빙 스택, 하드웨어, 양자화, 컨텍스트 설정이 실제 성능에 영향을 줄 수 있습니다. 공개 벤치마크와 별도로 자신의 배포 평가를 돌려야 합니다. [
29][
34][
37]
최종 정리
GPT‑5.5는 에이전트형 컴퓨터 조작, 브라우징, 도구 오케스트레이션, 터미널 중심 코딩이 핵심일 때 우선 검토할 후보입니다. [5]
Claude Opus 4.7은 제품의 핵심 가치가 리포지터리 수준 버그 수정, 코드베이스 복구, SWE‑Bench식 소프트웨어 엔지니어링일 때 우선순위가 높습니다. [14][
17]
Kimi K2.6은 오픈 웨이트 코딩 모델이 필요하고 SWE‑Bench, Terminal‑Bench, 에이전트형 검색 신호가 모두 중요할 때 평가할 만합니다. [29][
34]
DeepSeek V4‑Pro/Pro‑Max는 롱컨텍스트 오픈소스·오픈 웨이트 실험과 배포 가능성이 핵심 조건일 때 후보에 넣을 만합니다. 다만 정확한 변형과 벤치마크 설정은 반드시 따로 확인해야 합니다. [37][
42]
가장 안전한 의사결정 방식은 공개 벤치마크 표로 후보를 좁힌 뒤, 실제 업무, 지연시간, 비용, 개인정보·보안 조건, 실패 모드 테스트를 기준으로 최종 모델을 고르는 것입니다. [12]




