studioglobal
인기 있는 발견
보고서게시됨14 소스

GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6 중 무엇을 써야 할까

실무 기본값으로는 GPT 5.5를 먼저 테스트할 만하다. 장문 연구와 금융·문서 분석은 Claude Opus 4.7, 대량 호출과 비용 절감은 DeepSeek V4, 오픈 웨이트·멀티모달·256K 컨텍스트는 Kimi K2.6이 우선 후보가 된다.[4][6][7][9] 비용 차이는 결정을 바꿀 만큼 크다.

17K0
GPT-5.5、Claude Opus 4.7、DeepSeek V4 与 Kimi K2.6 的 AI 模型基准和成本对比示意图
GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6:2026 基准、成本与选型结论四个前沿 AI 模型的选型,关键不只是基准分数,还包括成本、上下文、工具能力和部署约束。
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6:2026 基准、成本与选型结论. Article summary: 截至 2026 年 4 月的公开资料,GPT 5.5 是最稳妥的综合默认项:Artificial Analysis 给 GPT 5.5 xHigh 60、High 59,高于 Claude Opus 4.7 的 57;但 Claude 在 HLE 无工具 46.9% 领先,DeepSeek V4 和 Kimi K2.6 分别更适合低成本与开权重场景。[4][6][9][25]. Topic tags: ai, ai benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "# DeepSeek V4 vs GPT-5.5 vs Claude Opus vs GLM: Cost and Benchmark Comparison for AI Agent Fleets. DeepSeek V4, GPT-5.5, Claude Opus, and GLM compared on cost, benchmarks, and self" source context "DeepSeek V4 vs GPT-5.5 vs Claude Opus vs GLM - Flowtivity" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https

openai.com

네 모델을 고를 때 가장 흔한 실수는 ‘누가 제일 강한가’만 묻는 것이다. 공개 자료가 더 분명하게 말해주는 답은 따로 있다. GPT-5.5는 고성능 기본 선택지에 가깝고, Claude Opus 4.7은 장문 문서와 다단계 분석처럼 출력의 규율이 중요한 일에 강하다. DeepSeek V4는 비용 효율이 핵심이고, Kimi K2.6은 오픈 웨이트, 긴 컨텍스트, 이미지·비디오 입력이 필요한 경우 눈여겨볼 후보다.[4][6][7][9]

먼저 이렇게 고르자: 30초 선택표

우선순위먼저 평가할 모델이유
종합 성능, 복잡한 에이전트 워크플로, 터미널 기반 코딩GPT-5.5Artificial Analysis는 GPT-5.5 xHigh를 60점, GPT-5.5 High를 59점으로 제시해 Claude Opus 4.7의 57점보다 높게 평가했다. VentureBeat가 정리한 Terminal-Bench 2.0에서도 GPT-5.5는 82.7%를 기록했다.[4][6]
긴 문서 연구, 다단계 분석, 금융·문서 처리Claude Opus 4.7Anthropic은 Opus 4.7이 내부 연구 에이전트 벤치마크에서 전체 0.715점을 기록했고, General Finance 모듈에서는 0.813점으로 Opus 4.6의 0.767점을 웃돌았다고 밝혔다.[7]
높은 처리량, 예산 제약, 프런티어급 성능에 가까우면서 낮은 단가DeepSeek V4Mashable은 DeepSeek V4 API 가격을 백만 입력 토큰당 1.74달러, 백만 출력 토큰당 3.48달러로 정리했다. 같은 표의 GPT-5.5와 Claude Opus 4.7보다 낮다.[3]
오픈 웨이트 생태계, 이미지·비디오 입력, 256K 긴 컨텍스트Kimi K2.6Artificial Analysis는 Kimi K2.6을 새로운 선두권 오픈 웨이트 모델로 평가했고, 이미지·비디오 입력과 256K 최대 컨텍스트를 지원한다고 설명했다.[9]

왜 단일 순위표만 보면 안 되나

현재 공개 자료에는 네 모델을 같은 평가 기관, 같은 시점, 같은 추론 예산, 같은 도구 권한으로 완전히 비교한 표가 없다. 쓸 수 있는 근거는 업체 발표, 제3자 리더보드, 언론 요약, API 문서, 모델 라우팅 페이지, 개인 실험이 섞여 있으며 평가 방식도 서로 다르다.[4][5][6][7][8][9][16][34][35]

이 차이는 순위를 바로 바꾼다. Artificial Analysis는 GPT-5.5 xHigh, GPT-5.5 High, Claude Opus 4.7 Adaptive Reasoning Max Effort처럼 추론 설정을 구분한다. OpenAI API 문서도 GPT-5.5의 reasoning effort가 none, low, medium, high, xhigh로 조정된다고 설명한다.[4][35] 따라서 어떤 모델이 한 벤치마크에서 앞섰다는 사실이 곧바로 여러분의 프롬프트, 도구 체인, 지연시간 예산, 검수 절차에서도 앞선다는 뜻은 아니다.

공개 벤치마크 핵심 숫자

지표GPT-5.5Claude Opus 4.7DeepSeek V4 / V4 ProKimi K2.6읽는 법
Artificial Analysis Intelligence IndexxHigh 60, High 59 [4]57 [4]이번 자료에서는 같은 표의 정확한 점수 확인 어려움OpenRouter가 정리한 AA Intelligence 53.9 [5]종합 리더보드에서는 GPT-5.5가 앞선다. Kimi K2.6은 오픈 웨이트 진영의 상위 후보다.
Terminal-Bench 2.082.7% [6]69.4% [6]67.9% [6]같은 출처의 공개 점수 확인 어려움터미널을 다루는 에이전트형 작업에서는 GPT-5.5의 우위가 가장 뚜렷하다.
SWE-Bench Pro58.6% [6]검증 가능한 같은 출처 수치 확인 어려움55.4% [6]일부 Kimi 자료는 주로 GPT-5.4나 Opus 4.6과 비교하므로 네 모델 직접 비교로 해석하기 어렵다.[14][15]GPT-5.5와 DeepSeek V4는 같은 언론 요약 안에서 비교 가능하지만, Kimi는 교차 출처 해석에 주의해야 한다.
Humanity’s Last Exam, 도구 없음41.4%, GPT-5.5 Pro 43.1% [6]46.9% [6]37.7% [6]같은 출처의 공개 점수 확인 어려움이 설정에서는 Claude Opus 4.7이 앞선다.
Humanity’s Last Exam, 도구 사용52.2%, GPT-5.5 Pro 57.2% [6]54.7% [6]48.2% [6]같은 출처의 공개 점수 확인 어려움Claude는 GPT-5.5 기본 모델보다 높지만 GPT-5.5 Pro보다는 낮다.
BrowseComp84.4% [8]같은 출처의 공개 점수 확인 어려움V4 Pro-Max 83.4% [6]83.2% [8]웹 탐색·이해 작업에서는 GPT-5.5, DeepSeek V4 Pro-Max, Kimi K2.6의 공개 요약 점수가 가깝다.
Kimi K2.6 AA 세부 항목해당 없음해당 없음해당 없음Intelligence 53.9, Coding 47.1, Agentic 66.0 [5]Kimi의 에이전트 성능은 주목할 만하지만, 실제 도구 체인에서 재평가해야 한다.

GPT-5.5: 복잡한 실무와 에이전트 작업의 강한 기본값

OpenAI 발표 페이지에 따르면 GPT-5.5와 GPT-5.5 Pro는 2026년 4월 24일 사용 가능 상태로 업데이트됐다. OpenAI API 문서는 gpt-5.5를 코딩과 전문 업무를 위한 모델로 설명하며, 100만 토큰 컨텍스트, 최대 128K 출력, 함수 호출, 웹 검색, 파일 검색, 컴퓨터 사용 기능을 제시한다.[25][35]

공개 벤치마크만 보면 GPT-5.5는 가장 무난한 고성능 기준선이다. Artificial Analysis의 종합 순위에서 GPT-5.5 xHigh는 60점, High는 59점이고, VentureBeat 요약의 Terminal-Bench 2.0에서는 82.7%로 Claude Opus 4.7의 69.4%, DeepSeek V4의 67.9%보다 높다.[4][6]

대신 비용 부담이 있다. OpenAI API 문서는 GPT-5.5 가격을 백만 입력 토큰당 5달러, 백만 출력 토큰당 30달러로 제시한다. 긴 보고서 생성, 여러 차례의 에이전트 루프, 출력이 많은 업무에서는 출력 토큰 비용이 핵심 변수가 된다.[35]

먼저 테스트할 만한 경우: 복잡한 코딩 에이전트, 터미널 자동화, 여러 도구를 오가는 리서치, 함수 호출·웹 검색·파일 검색을 함께 쓰는 전문 워크플로.[35]

Claude Opus 4.7: 장문, 다단계, 문서 규율이 중요한 작업

Claude Opus 4.7의 공개 포지셔닝은 긴 흐름의 작업과 신중한 출력에 가깝다. Anthropic은 Opus 4.7이 내부 연구 에이전트 벤치마크에서 전체 0.715점을 기록해 공동 최상위였고, 테스트한 모델 중 긴 컨텍스트 성능이 가장 일관적이었다고 설명했다. General Finance 모듈에서는 0.813점으로 Opus 4.6의 0.767점을 웃돌았고, 근거 공개와 데이터 규율도 강점으로 언급됐다.[7]

VentureBeat가 정리한 Humanity’s Last Exam에서는 Claude Opus 4.7이 도구 없는 설정에서 46.9%를 기록해 GPT-5.5의 41.4%, DeepSeek V4의 37.7%보다 높았다. 도구를 사용할 때는 Claude가 54.7%로 GPT-5.5 기본 모델의 52.2%보다 높지만 GPT-5.5 Pro의 57.2%보다는 낮다.[6]

다만 모든 지표에서 GPT-5.5를 앞서는 것은 아니다. Terminal-Bench 2.0에서는 GPT-5.5가 82.7%로 Claude Opus 4.7의 69.4%보다 크게 높다.[6] 또 일부 제3자 자료는 Opus 4.7이 SWE-bench Verified에서 82.4%를 기록했다고 설명하지만, 이는 네 모델을 같은 조건에서 비교한 자료가 아니므로 SWE-Bench Pro나 다른 리더보드 점수와 하나의 총점처럼 섞어 읽으면 안 된다.[1][6]

먼저 테스트할 만한 경우: 긴 문서 리서치, 금융 자료 처리, 근거와 수치 관리가 중요한 분석, 다단계 추론과 검수 기준이 까다로운 워크플로.[7]

DeepSeek V4: 비용 효율은 강하지만, 전면 1위는 아니다

DeepSeek V4의 가장 분명한 강점은 가격이다. Mashable은 DeepSeek V4 API 가격을 백만 입력 토큰당 1.74달러, 백만 출력 토큰당 3.48달러로 정리했다. 같은 요약에서 GPT-5.5는 5달러/30달러, Claude Opus 4.7은 5달러/25달러다.[3]

성능은 프런티어 모델에 근접하지만, 공개 요약에서 전면적으로 앞서지는 않는다. VentureBeat 요약에 따르면 DeepSeek V4는 Humanity’s Last Exam에서 도구 없음 37.7%, 도구 사용 48.2%로 GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7의 해당 점수보다 낮다. Terminal-Bench 2.0에서는 67.9%로 Claude의 69.4%와 가깝지만 GPT-5.5의 82.7%보다는 낮다.[6]

따라서 DeepSeek V4는 모든 폐쇄형 프런티어 모델의 무조건적 대체재라기보다, 비용 민감한 운영 시스템에서 가장 먼저 비용-품질 곡선을 확인할 후보에 가깝다. 실제 질문은 단순하다. 여러분의 업무에서 품질 기준을 넘기는지, 낮은 단가가 재시도·인간 검수·지연시간 비용까지 상쇄하는지다.[3][6]

먼저 테스트할 만한 경우: 배치 처리, 고처리량 추론, 낮은 마진의 서비스, 일정 수준의 검수를 전제로 토큰 비용을 크게 낮춰야 하는 시스템.[3]

Kimi K2.6: 오픈 웨이트와 긴 컨텍스트가 필요한 팀의 후보

Kimi K2.6의 관전 포인트는 오픈 웨이트, 멀티모달 입력, 긴 컨텍스트다. Artificial Analysis는 Kimi K2.6을 새로운 선두 오픈 웨이트 모델로 평가했고, 이미지와 비디오 입력을 네이티브로 지원하며 텍스트를 출력하고 최대 컨텍스트 길이는 256K라고 설명했다.[9]

OpenRouter 페이지는 Kimi K2.6의 Artificial Analysis Intelligence를 53.9, Coding을 47.1, Agentic을 66.0으로 제시한다. 또한 최대 토큰을 256K, 최대 출력을 66K로 표시한다.[5]

웹 리서치 계열 지표에서는 DocsBot 요약상 Kimi K2.6의 BrowseComp가 83.2%, GPT-5.5가 84.4%다.[8] 이 수치만 보면 Kimi가 GPT-5.5에 근접하지만, 주의할 점이 있다. Kimi K2.6 관련 자료 중 일부는 주로 GPT-5.4나 Claude Opus 4.6과 비교하고 있어, GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6의 완전한 같은 출처 비교로 보기 어렵다.[14][15]

먼저 테스트할 만한 경우: 오픈 웨이트 생태계, 배포 자율성이 중요한 팀, 긴 컨텍스트 처리, 이미지·비디오 입력, 비용과 통제 가능성 사이의 균형을 찾는 워크플로.[5][9]

비용·컨텍스트·배포 조건: 점수표 밖의 변수가 더 중요할 때

모델공개 가격·용량 정보선택에 주는 의미
GPT-5.5백만 입력 토큰당 5달러, 백만 출력 토큰당 30달러. 100만 토큰 컨텍스트, 최대 128K 출력, 함수 호출·웹 검색·파일 검색·컴퓨터 사용 지원.[35]고가치 복잡 업무에 적합하지만, 출력이 길거나 에이전트 반복이 많으면 비용 압력이 커진다.
Claude Opus 4.7Mashable은 백만 입력 토큰당 5달러, 백만 출력 토큰당 25달러와 100만 토큰 컨텍스트로 정리했다.[3]출력 단가는 GPT-5.5보다 낮다. 장기 일관성과 문서 규율을 중시하는 작업에 어울린다.[7]
DeepSeek V4Mashable은 백만 입력 토큰당 1.74달러, 백만 출력 토큰당 3.48달러와 100만 토큰 컨텍스트로 정리했다.[3]고처리량, 배치 처리, 예산 민감형 서비스에서 가장 먼저 테스트할 만하다.
Kimi K2.6OpenRouter 페이지의 한 라우트는 백만 입력 토큰당 0.7448달러, 백만 출력 토큰당 4.655달러를 제시한다. 최대 토큰은 256K, 최대 출력은 66K로 표시된다.[5]오픈 웨이트, 긴 컨텍스트, 멀티모달 입력을 평가할 때 유력하다. 다만 라우터 가격을 모든 공급자의 공식 단가처럼 일반화하면 안 된다.[5][9]

API 단가는 총비용의 일부일 뿐이다. OpenAI의 GPT-5.5 API 가이드는 도구를 많이 쓰거나 오래 실행되는 워크플로에서 정확도, 토큰 소비, 엔드투엔드 지연시간을 다른 모델과 비교하라고 권한다. OpenAI 모델 문서는 GPT-5.5의 reasoning effort를 none부터 xhigh까지 조정할 수 있다고 설명한다.[34][35]

실제 업무에서는 이렇게 테스트하라

공개 벤치마크는 후보를 줄이는 데 유용하지만, 사내 평가를 대체하지 못한다. 모델 도입이나 구매를 검토한다면 최소한 네 가지를 기록해야 한다. 첫째, 작업 성공률. 둘째, 실패 유형. 셋째, 엔드투엔드 지연시간. 넷째, 토큰·재시도·검수까지 포함한 비용이다. OpenAI 문서도 도구가 많거나 오래 실행되는 워크플로에서는 정확도, 토큰 소비, 엔드투엔드 지연시간을 함께 비교하라고 명시한다.[34]

개인 실험은 보조 신호로 볼 수 있지만, 표준 리더보드처럼 취급하면 곤란하다. AkitaOnRails의 2026년 4월 코딩 테스트에서는 Claude Opus 4.7이 97점, GPT-5.5 xHigh Codex가 96점, Kimi K2.6이 87점, DeepSeek V4 Pro가 69점을 기록했다. 같은 표에는 추정 비용도 함께 적혀 있는데, Claude Opus 4.7은 약 1.10달러, GPT-5.5 xHigh Codex는 약 10달러, Kimi K2.6은 약 0.30달러, DeepSeek V4 Pro는 약 0.50달러였다.[16]

이런 결과가 주는 교훈은 명확하다. 최종 선택은 실제 코드베이스, 실제 도구 권한, 프롬프트 흐름, 검수 기준, 실패 후 재시도 비용에 달려 있다. 고립된 점수 하나로 운영 환경의 승자를 정하기는 어렵다.[16][34]

결론: 공개 벤치마크는 출발점, 최종 답은 내 업무 데이터

하나만 먼저 평가해야 한다면 GPT-5.5부터 시작하는 편이 안전하다. Artificial Analysis 종합 순위와 VentureBeat가 정리한 Terminal-Bench 2.0에서 모두 강한 신호를 보인다.[4][6]

업무가 긴 문서 연구, 금융 자료 처리, 복잡한 다단계 분석, 근거와 데이터 규율이 중요한 보고서 작성에 가깝다면 Claude Opus 4.7도 1순위 후보군에 넣어야 한다. Anthropic의 내부 연구 에이전트 데이터와 VentureBeat의 HLE 요약은 이 방향에서의 경쟁력을 뒷받침한다.[6][7]

가장 큰 제약이 호출량과 예산이라면 DeepSeek V4를 우선 평가하자. 공개 가격 요약상 입력·출력 단가가 GPT-5.5와 Claude Opus 4.7보다 크게 낮다.[3]

오픈 웨이트 생태계, 멀티모달 입력, 256K 컨텍스트가 필요하다면 Kimi K2.6이 중요한 후보다. 다만 GPT-5.5, Claude Opus 4.7, DeepSeek V4와의 완전한 같은 출처 비교는 아직 부족하다.[5][8][9]

가장 현실적인 결론은 이렇다. 공개 벤치마크로 출발점을 정하고, 실제 업무 데이터로 운영 모델을 결정하라. 순위표는 후보를 좁혀줄 수 있지만, 품질·비용·지연시간의 최종 균형까지 대신 책임져주지는 않는다.[34]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • 실무 기본값으로는 GPT 5.5를 먼저 테스트할 만하다. 장문 연구와 금융·문서 분석은 Claude Opus 4.7, 대량 호출과 비용 절감은 DeepSeek V4, 오픈 웨이트·멀티모달·256K 컨텍스트는 Kimi K2.6이 우선 후보가 된다.[4][6][7][9]
  • 비용 차이는 결정을 바꿀 만큼 크다. OpenAI 문서는 GPT 5.5를 백만 입력 토큰당 5달러, 백만 출력 토큰당 30달러로 제시하고, Mashable은 DeepSeek V4를 1.74달러/3.48달러, Claude Opus 4.7을 5달러/25달러로 정리했다.[35][3]
  • 서로 다른 벤치마크를 억지로 하나의 총점으로 합치면 위험하다. 추론 강도, 도구 권한, 라우터, 지연시간이 결과를 바꾸므로 실제 업무 데이터로 정확도·토큰 사용량·엔드투엔드 지연시간을 비교해야 한다.[34][35]

사람들은 또한 묻습니다.

"GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6 중 무엇을 써야 할까"에 대한 짧은 대답은 무엇입니까?

실무 기본값으로는 GPT 5.5를 먼저 테스트할 만하다. 장문 연구와 금융·문서 분석은 Claude Opus 4.7, 대량 호출과 비용 절감은 DeepSeek V4, 오픈 웨이트·멀티모달·256K 컨텍스트는 Kimi K2.6이 우선 후보가 된다.[4][6][7][9]

먼저 검증할 핵심 포인트는 무엇인가요?

실무 기본값으로는 GPT 5.5를 먼저 테스트할 만하다. 장문 연구와 금융·문서 분석은 Claude Opus 4.7, 대량 호출과 비용 절감은 DeepSeek V4, 오픈 웨이트·멀티모달·256K 컨텍스트는 Kimi K2.6이 우선 후보가 된다.[4][6][7][9] 비용 차이는 결정을 바꿀 만큼 크다. OpenAI 문서는 GPT 5.5를 백만 입력 토큰당 5달러, 백만 출력 토큰당 30달러로 제시하고, Mashable은 DeepSeek V4를 1.74달러/3.48달러, Claude Opus 4.7을 5달러/25달러로 정리했다.[35][3]

실무에서는 다음으로 무엇을 해야 합니까?

서로 다른 벤치마크를 억지로 하나의 총점으로 합치면 위험하다. 추론 강도, 도구 권한, 라우터, 지연시간이 결과를 바꾸므로 실제 업무 데이터로 정확도·토큰 사용량·엔드투엔드 지연시간을 비교해야 한다.[34][35]

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

研究 Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 的基准测试,并尽可能全面地进行比较。请以研究报告的格式呈现。

Studio Global AI40 소스

인용 답변

截至 2026-04-26,可核查的公开资料显示:GPT-5.5 是四者中综合基准最强的闭源模型,Claude Opus 4.7 在长程编码、数据纪律和多步任务上紧随其后,Kimi K2.6 是目前证据中最强的开权重模型,DeepSeek V4 Pro 的主要优势是接近前沿模型的能力与显著更低的 API 成本。[1][3][4][5][6] 但四者并没有完整、同源、同设置的官方横向评测;尤其 DeepSeek V4 与 Kimi K2.6 的逐项官方对比证据不足,因此部分结论应视为“公开资料下的最佳估计”。[4][5][6][7]

Key findings

  • 综合智能排名上,Artificial Analysis 的公开比较显示 GPT-5.5 xHigh 位列第一,GPT-5.5 High 第二,Claude Opus 4.7 与 Gemini 3.1 Pro Preview 同处 57 分档位,而 Kimi K2.6 在其 Intelligence Index 上为 54 分、位列开权重模型第一梯队。[5][6]

  • 编码与代理任务上,OpenAI 官方表格给出 GPT-5.5 在 Terminal-Bench 2.0 为 82.7%,在 SWE-Bench Pro 为 58.6%,并称其是 OpenAI 当时最强的 agentic coding 模型。[1] Anthropic 官方没有在可抓取文本中给出完整统一表格,但称 Opus 4.7 相比 Opus 4.6 在高级软件工程、复杂长程任务和自我验证方面显著提升,并引用客户 93-task coding benchmark 中 resolution 提升 13%。[3]

  • 推理与数学上,OpenAI 官方表格显示 GPT-5.5 在 FrontierMath Tier 1–3 为 51.7%、Tier 4 为 35.4%,高于表中 Claude Opus 4.7 的 43.8% 与 22.9%。[1] 但 VentureBeat 汇总的 Humanity’s Last Exam 数据显示,在无工具设置下 Claude Opus 4.7 为 46.9%,高于 GPT-5.5 的 41.4% 与 DeepSeek V4 的 37.7%。[4]

  • 浏览与研究型任务上,GPT-5.5 在 OpenAI 表格中的 BrowseComp 为 84.4%,Claude Opus 4.7 为 79.3%。[1] VentureBeat 报道 DeepSeek V4 Pro-Max 在 BrowseComp 为 83.4%,DocsBot 汇总 Kimi K2.6 为 83.2%,因此该项上 GPT-5.5、DeepSeek V4、Kimi K2.6 非常接近,Claude Opus 4.7 落后一些。[4][7]

  • 成本上,OpenAI API 文档列出 GPT-5.5 为 $5 / 百万输入 token、$30 / 百万输出 token,并支持 1M 上下文与 128K 最大输出。[2] Anthropic 官方称 Claude Opus 4.7 价格维持 $5 / 百万输入 token、$25 / 百万输出 token。[3] VentureBeat 引用 DeepSeek API 定价称 DeepSeek V4 Pro 为 $1.74 / 百万输入 token、$3.48 / 百万输出 token,显著低于 GPT-5.5 与 Claude Opus 4.7。[4]

  • 开权重生态上,Kimi K2.6 被 Artificial Analysis 称为“new leading open weights model”,其模型为 1T 总参数、32B 激活参数的 MoE,支持 256K 上下文、图像和视频输入、文本输出。[5] DeepSeek V4 被报道为 1.6T 参数 MoE、MIT License、可在 Hugging Face 与 DeepSeek API 获取,因此在可部署性和成本上更开放、更便宜。[4]

Benchmark comparison

维度 / 基准GPT-5.5Claude Opus 4.7DeepSeek V4 / V4 ProKimi K2.6解读
Artificial Analysis Intelligence IndexxHigh 60;High 59 [6]57 [6]V4 Pro 被列为领先开权重模型之一,但本次资料未给出同表精确分数 [6]54,开权重第一梯队 [5]GPT-5.5 综合领先,Claude 接近,Kimi 是开权重最强代表之一。
Terminal-Bench 2.082.7% [1]68.5% [1]Insufficient evidenceInsufficient evidenceGPT-5.5 在命令行代理工作流上优势明显。
SWE-Bench Pro58.6% [1]Insufficient evidenceInsufficient evidence第三方资料显示可与 GPT-5.4 / Opus 4.6 同档,但缺少同源 GPT-5.5 / Opus 4.7 对比 [5]GPT-5.5 有官方分数;其他模型缺少同设置数据。
GDPval / GDPval-AAGPT-5.5 wins-or-ties 84.9% [1]80.3% [1]Insufficient evidenceGDPval-AA Elo 1520,高于 Kimi K2.5 的 1309 [5]GPT 与 Claude 可在 OpenAI 表中横比;Kimi 的 AA Elo 不应与 OpenAI 的百分比分数直接相加比较。
BrowseComp84.4% [1]79.3% [1]83.4% [4]83.2% [7]GPT-5.5 略高,DeepSeek 与 Kimi 非常接近,Claude 稍弱。
FrontierMath Tier 1–351.7% [1]43.8% [1]Insufficient evidenceInsufficient evidenceGPT-5.5 在该官方表格中领先 Claude。
FrontierMath Tier 435.4% [1]22.9% [1]Insufficient evidenceInsufficient evidence难题数学上 GPT-5.5 与 Claude 差距扩大。
Humanity’s Last Exam,无工具41.4% [4]46.9% [4]37.7% [4]Insufficient evidenceClaude 在该报道的无工具 HLE 设置中最高。
Humanity’s Last Exam,有工具52.2%;GPT-5.5 Pro 为 57.2% [4]54.7% [4]48.2% [4]Insufficient evidence工具设置下 Claude 高于 GPT-5.5 base,但低于 GPT-5.5 Pro。
CyberGym81.8% [1]73.1% [1]Insufficient evidenceInsufficient evidenceGPT-5.5 在 OpenAI 表格中领先。
AA-Omniscience / 幻觉率Insufficient evidence幻觉率 36%,作为对照项出现 [5]Insufficient evidence幻觉率 39%,低于 Kimi K2.5 的 65% [5]Kimi K2.6 的低幻觉率是其明显亮点。
τ²-Bench TelecomInsufficient evidenceInsufficient evidenceInsufficient evidence96% [5]Kimi K2.6 在工具使用 / 电信任务中表现强。

Model-by-model assessment

GPT-5.5

GPT-5.5 的主要优势是综合能力、agentic coding、计算机使用、浏览研究与数学基准的均衡领先。[1][2][6] OpenAI 官方称 GPT-5.5 擅长写代码、调试、在线研究、数据分析、创建文档和表格、操作软件并跨工具完成任务。[1]

GPT-5.5 的主要短板是成本较高,API 文档列出的输出价格为 $30 / 百万 token,高于 Claude Opus 4.7 的 $25 / 百万 token,也远高于 DeepSeek V4 Pro 的 $3.48 / 百万 token。[2][3][4] 如果任务量极大且边际成本敏感,DeepSeek V4 Pro 或 Kimi K2.6 可能在成本效益上更有吸引力。[4][5]

Claude Opus 4.7

Claude Opus 4.7 的优势是长程编码、复杂任务执行、视觉增强、数据纪律和对不确定性的处理。[3] Anthropic 官方称 Opus 4.7 在高级软件工程上明显优于 Opus 4.6,并且在复杂长时间任务中更严谨、更一致、更会验证自己的输出。[3]

Claude Opus 4.7 在部分硬指标上不总是领先 GPT-5.5;例如 OpenAI 表格中 GPT-5.5 在 Terminal-Bench 2.0、BrowseComp、FrontierMath 和 CyberGym 均高于 Claude Opus 4.7。[1] 但在 VentureBeat 汇总的 HLE 无工具数据中,Claude Opus 4.7 为 46.9%,高于 GPT-5.5 的 41.4%。[4]

DeepSeek V4 / V4 Pro

DeepSeek V4 Pro 的核心竞争力是成本、开放可用性和接近前沿模型的能力。[4] VentureBeat 报道 DeepSeek V4 是 1.6T 参数 MoE、MIT License,并通过 Hugging Face 与 DeepSeek API 提供。[4]

DeepSeek V4 Pro 在已见共享基准中通常接近但不全面超过 GPT-5.5 或 Claude Opus 4.7。[4] VentureBeat 的数据称 DeepSeek 在 HLE 无工具为 37.7%、有工具为 48.2%,低于 GPT-5.5、GPT-5.5 Pro 与 Claude Opus 4.7 的对应分数。[4] 但它的 API 成本远低于 GPT-5.5 与 Claude Opus 4.7,因此适合高吞吐、成本敏感、可自托管或开源优先的场景。[4]

Kimi K2.6

Kimi K2.6 的定位是强开权重、多模态、长上下文和低幻觉率。[5] Artificial Analysis 称其为新的领先开权重模型,并给出 Intelligence Index 54、GDPval-AA Elo 1520、τ²-Bench Telecom 96%、幻觉率 39%、256K 上下文、图像和视频输入支持等结果。[5]

Kimi K2.6 与 GPT-5.5 的直接可比官方数据较少,因此不能简单声称它全面超过 GPT-5.5 或 Claude Opus 4.7。[5][7] 在 BrowseComp 上,DocsBot 汇总 Kimi K2.6 为 83.2%,接近 GPT-5.5 的 84.4%,但该数据来自不同汇总源,需谨慎比较。[1][7]

Practical recommendations

  • 如果目标是最高综合智能、agentic coding、浏览研究和工具任务,优先选择 GPT-5.5。[1][2][6]

  • 如果目标是长程工程任务、复杂文档/视觉理解、较强自我校验和比 GPT-5.5 略低的输出价格,优先选择 Claude Opus 4.7。[3]

  • 如果目标是大规模推理、低成本 API、开源许可证或部署灵活性,优先评估 DeepSeek V4 Pro。[4]

  • 如果目标是开权重、多模态输入、256K 长上下文、低幻觉率和强工具使用,优先评估 Kimi K2.6。[5]

  • 如果目标是联网研究或网页检索类任务,GPT-5.5、DeepSeek V4 和 Kimi K2.6 的公开 BrowseComp 分数非常接近,建议用自己的真实工作流做小样本 A/B 测试。[1][4][7]

Evidence notes

本报告主要使用以下编号来源:OpenAI 官方 GPT-5.5 发布页 [1]、OpenAI API 模型文档 [2]、Anthropic 官方 Claude Opus 4.7 发布页 [3]、VentureBeat 对 DeepSeek V4 的报道与基准汇总 [4]、Artificial Analysis 对 Kimi K2.6 的评测 [5]、Artificial Analysis 的 GPT-5.5 / DeepSeek V4 比较页 [6]、DocsBot 的 Kimi K2.6 / GPT-5.5 对比页 [7]、OpenRouter 的 DeepSeek V4 Pro / Kimi K2.6 提供商对比页 [8]、AkitaOnRails 的 2026 年 4 月编码实测 [9]

官方来源的证据权重最高,尤其是 OpenAI 与 Anthropic 自家发布页和 API 文档。[1][2][3] 第三方基准的优势是可横向比较,但常受提示词、工具链、推理强度、温度、样本集和服务商封装影响,因此本报告把 Artificial Analysis、VentureBeat、DocsBot、OpenRouter 和个人实测作为补充证据而非最终裁决。[4][5][6][7][8][9]

Limitations / uncertainty

Insufficient evidence:没有找到四个模型在同一组织、同一时间、同一推理预算、同一工具设置下覆盖所有关键基准的完整公开表格。[1][3][4][5][6][7]

Insufficient evidence:DeepSeek V4 与 Kimi K2.6 的官方逐项基准、尤其是与 GPT-5.5 和 Claude Opus 4.7 的同源对比,在本次可核查材料中不完整。[4][5][6][7]

部分分数来自模型厂商自己的发布页,可能更偏向展示该模型强项。[1][3] 部分分数来自第三方聚合或媒体报道,可能存在模型版本、调用参数、工具权限或供应商路由差异。[4][5][6][7][8]

Summary

综合公开基准看,GPT-5.5 是默认的最高性能选择,Claude Opus 4.7 是最接近的闭源替代并在长程工程与数据纪律上很强,Kimi K2.6 是开权重阵营最强候选,DeepSeek V4 Pro 则是成本效益和开放部署最突出的候选。[1][3][4][5][6]

如果你要做采购或技术选型,不应只看排行榜;建议用自己的 30–100 个真实任务建立私有评测集,并同时记录准确率、失败模式、延迟、token 消耗、可控性、工具调用成功率和总成本。[1][2][4][5]

출처

  • [1] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai

    Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...

  • [3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [4] DeepSeek V4 Pro (Reasoning, High Effort) vs GPT-5.5 (medium)artificialanalysis.ai

    What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...

  • [5] DeepSeek V4 Pro vs Kimi K2.6 - AI Model Comparison | OpenRouteropenrouter.ai

    Ready Output will appear here... Pricing Input$0.7448 / M tokens Output$4.655 / M tokens Images– – Features Input Modalities text, image Output Modalities text Quantization int4 Max Tokens (input + output)256K Max Output Tokens 66K Stream cancellation Suppo...

  • [6] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....

  • [7] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

  • [8] Kimi K2.6 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai

    BrowseComp Evaluates browsing and web comprehension capabilities 83.2% Thinking mode; context management Source 84.4% Source CharXiv Reasoning Evaluates information synthesis from complex charts and scientific visualizations 80.4% RQ; 86.7 with Python Sourc...

  • [9] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai

    ➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...

  • [14] Kimi K2.6 Tested: Does It Beat Claude and GPT-5? | Lorka AIlorka.ai

    Benchmark What it tests Kimi K2.6 GPT-5.4 Opus 4.6 Gemini 3.1 Pro --- --- --- HLE-Full (with tools) Agentic reasoning with tool use 54.0% 52.1% 53.0% 51.4% DeepSearchQA (F1) Research retrieval and synthesis 92.5% 78.6% 91.3% 81.9% SWE-Bench Pro Multi-file c...

  • [15] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...

  • [16] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com

    Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...

  • [25] Introducing GPT-5.5 - OpenAIopenai.com

    Update on April 24, 2026: GPT‑5.5 and GPT‑5.5 Pro are now available ... GPT‑5.5 achieved leading performance among models with published scores. 3 days ago

  • [34] Using GPT-5.5 | OpenAI APIdevelopers.openai.com

    For tool-heavy or long-running workflows, verify that your application handles phase , preambles, and assistant-item replay correctly. Benchmark against other models on accuracy, token consumption, and end-to-end latency. [...] More efficient reasoning: GPT...

  • [35] Models | OpenAI APIdevelopers.openai.com

    GPT-5.5 New A new class of intelligence for coding and professional work. Model ID gpt-5.5 [Reasoning none low medium high xhigh Input price $5 / Input MTok Output price $30 / Output MTok Latency Fast Max output 128K tokens Context window 1M Tools Functions...