studioglobal
인기 있는 발견
답변게시됨11 소스

DeepSeek V4 vs GPT-5.5: 어떤 벤치마크를 믿고 무엇을 골라야 할까

GPT 5.5는 OpenAI API 문서에 model ID, 100만 토큰 컨텍스트, 최대 출력 128K, 100만 토큰당 입력 5달러·출력 30달러, Functions·Web search·File search·Computer use 지원이 명시돼 있어 운영 계획을 세우기 쉽다 [22]. 제3자 자료 한 곳은 SWE bench Verified에서 GPT 5.5가 88.7%, DeepSeek V4 Pro가 80.6%라고 제시했다.

18K0
Minh họa so sánh DeepSeek V4 và GPT-5.5 trên bảng benchmark AI
DeepSeek V4 vs GPT-5.5: benchmark nào đáng tin, nên chọn model nàoMinh họa: so sánh DeepSeek V4 và GPT-5.5 qua benchmark, thông số API và tiêu chí triển khai.
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 vs GPT-5.5: benchmark nào đáng tin, nên chọn model nào?. Article summary: Chưa có bằng chứng công khai đủ để tuyên bố DeepSeek V4 hay GPT 5.5 thắng toàn diện.. Topic tags: ai, deepseek, openai, gpt 5, llm benchmarks. Reference image context from search candidates: Reference image 1: visual subject "DeepSeek V4 vs GPT-5.5 vs Qwen3.6: Which Model Should You Use? DeepSeek V4, GPT-5.5, and Qwen3.6-35B-A3B all look strong on paper, but the harder question for AI application develo" source context "DeepSeek V4 RAG Benchmark with Milvus vs GPT-5.5 and Qwen" Reference image 2: visual subject "Benchmark, giá và so sánh với GPT-5.5 và Claude Opus 4.7. Điểm đáng chú ý nhất của V4 không phải là hiệu suất vượt trội so với các model hàng đầu thế giới, mà là mức giá thấp hơn k" source context "DeepSeek V4 có gì mới? Ben

openai.com

DeepSeek V4와 GPT-5.5를 비교할 때 가장 피해야 할 질문은 ‘어느 모델이 모든 벤치마크에서 이겼나’입니다. 실제로 중요한 것은 우리 팀의 워크로드, 예를 들어 코딩 에이전트, 긴 문서 처리, 툴 호출, 근거 기반 질의응답에서 어떤 데이터가 재현 가능하고 믿을 만하냐입니다.

현재 공개된 자료만 보면 결론은 비교적 분명합니다. API 프로덕션 투입과 공식 툴 지원을 중시한다면 GPT-5.5가 판단하기 쉽습니다. OpenAI는 gpt-5.5의 컨텍스트 윈도 100만 토큰, 최대 출력 128K 토큰, 100만 토큰당 입력 5달러·출력 30달러, Functions·Web search·File search·Computer use 지원을 API 문서에 명시하고 있습니다 [22]. 반면 오픈 웨이트와 자체 인프라 통제가 핵심 조건이라면 DeepSeek V4 Pro를 우선 시험할 이유가 있습니다. Artificial Analysis는 DeepSeek V4 Pro를 오픈 웨이트 모델로 설명하며, 텍스트 입력·출력과 100만 토큰 컨텍스트를 지원한다고 적고 있습니다 [35].

한 줄 결론

  • API 운영, 툴 호출, 비용·출력 한도 예측 가능성이 중요하면 GPT-5.5부터 검증하는 편이 합리적입니다 [22].
  • 오픈 웨이트가 필수 조건이거나 내부 인프라에서 깊게 평가해야 한다면 DeepSeek V4 Pro가 후보가 됩니다 [35]. 다만 오픈 웨이트는 해당 출처가 말한 범위의 표현일 뿐, 학습 데이터·학습 코드·전체 파이프라인이 모두 공개됐다는 뜻으로 확대 해석하면 안 됩니다.
  • 벤치마크 전체 승자를 단정하기에는 아직 공개 자료가 부족합니다. 현재는 SWE-bench의 한 제3자 수치 [2], Artificial Analysis의 일부 비교 지표 [33][41], OpenAI의 API·시스템 카드 자료 [22][24]를 조심스럽게 함께 읽어야 합니다.

공개 자료로 확인되는 핵심 차이

DeepSeek는 공식 API 문서에 2026년 4월 24일자 DeepSeek-V4 Preview Release 페이지를 두고 있습니다 [13]. OpenAI는 2026년 4월 23일 GPT-5.5를 소개했고, 4월 24일 업데이트에서 GPT-5.5와 GPT-5.5 Pro가 API에서 제공된다고 밝혔습니다 [27]. 두 모델은 거의 같은 시기에 공개됐지만, 공개 문서의 성격과 상세도는 다릅니다.

항목GPT-5.5DeepSeek V4 Pro선택할 때의 의미
공개 시점2026년 4월 23일 소개, 4월 24일 API 제공 업데이트 [27]DeepSeek-V4 Preview Release가 2026년 4월 24일자로 게시됨 [13]출시 시점은 거의 비슷합니다.
API 사양gpt-5.5, 컨텍스트 100만 토큰, 최대 출력 128K, 입력 5달러·출력 30달러/100만 토큰, 공식 툴 지원 [22]Artificial Analysis 기준 텍스트 입력·출력, 100만 토큰 컨텍스트 [35]비용, 출력 한도, 툴 호출까지 한 번에 설계하기는 GPT-5.5 쪽이 쉽습니다.
개방성Artificial Analysis는 GPT-5.5 high를 proprietary 모델로 표시 [6]Artificial Analysis는 DeepSeek V4 Pro를 오픈 웨이트 모델로 표시 [35]오픈 웨이트가 필수라면 DeepSeek가 더 맞는 후보입니다.
컨텍스트OpenAI 문서 기준 100만 토큰 [22]Artificial Analysis 기준 100만 토큰 [35]둘 다 장문 컨텍스트를 내세우지만, 출처별 정의 차이를 확인해야 합니다.
이미지 입력Artificial Analysis 비교표에서 GPT-5.5 high는 이미지 입력 지원으로 표시 [41]같은 비교표에서 DeepSeek V4 Pro high는 이미지 입력 미지원으로 표시 [41]멀티모달 입력이 필요하면 현재 공개 자료는 GPT-5.5 쪽에 유리합니다.
툴 지원Functions, Web search, File search, Computer use가 API 문서에 명시 [22]제공된 출처 안에서는 같은 수준의 공식 툴 지원 표를 확인하기 어렵습니다.에이전트형 워크플로에는 GPT-5.5의 문서화된 툴 지원이 강점입니다.

숫자를 읽을 때 특히 주의할 점이 있습니다. OpenAI API 문서는 GPT-5.5의 컨텍스트 윈도를 100만 토큰으로 적고 있지만 [22], Artificial Analysis의 GPT-5.5 high 비교 페이지는 922K 토큰, DeepSeek V4 Pro high는 1000K 토큰으로 표시합니다 [41]. 따라서 서로 다른 표의 숫자를 그대로 섞어 ‘누가 더 길다’고 단정하기보다, 모델 변형, reasoning level, 측정 기준을 먼저 맞춰야 합니다.

벤치마크는 어디까지 믿을 수 있나

1. SWE-bench Verified: 코딩에는 중요한 신호, 그러나 최종 판정은 아님

o-mega의 정리 글은 SWE-bench Verified에서 GPT-5.5가 88.7%, DeepSeek V4-Pro가 80.6%를 기록해 8.1%포인트 차이가 난다고 제시합니다 [2]. 코딩 에이전트를 만들거나 대규모 코드베이스 수정을 자동화하려는 팀에는 눈여겨볼 만한 수치입니다.

하지만 이 한 가지 점수만으로 모든 코딩 성능을 결론내리기는 어렵습니다. 코딩 벤치마크는 프롬프트, reasoning 설정, 툴 접근 권한, 재시도 횟수, 테스트 실행 방식, 패치 포맷, 채점 harness에 따라 결과가 달라질 수 있습니다. 따라서 88.7% 대 80.6%라는 수치는 GPT-5.5를 코딩 평가의 첫 후보로 올릴 근거는 되지만, GPT-5.5가 모든 작업에서 DeepSeek V4 Pro를 이긴다는 증거로 보기는 어렵습니다 [2].

2. OpenAI 시스템 카드: 평가 범위는 넓지만 DeepSeek와의 직접 대결은 아님

OpenAI Deployment Safety Hub는 GPT-5.5의 controllability를 CoT-Control로 측정한다고 설명합니다. 이 평가 묶음은 GPQA, MMLU-Pro, HLE, BFCL, SWE-Bench Verified 같은 기존 벤치마크에서 만든 1만 3000개 이상의 과제를 포함합니다 [24].

이 정보는 GPT-5.5가 어떤 범위의 평가를 거쳤는지 이해하는 데 유용합니다. 그러나 이 자료만으로 GPT-5.5와 DeepSeek V4 Pro의 GPQA, MMLU-Pro, SWE-Bench 결과를 직접 비교했다고 말할 수는 없습니다 [24]. 시스템 카드는 GPT-5.5의 평가 체계를 보여주는 자료이지, DeepSeek와 같은 조건으로 맞붙인 리더보드는 아닙니다.

3. AA-Omniscience: DeepSeek V4의 지식 개선과 환각률 경고

Artificial Analysis는 DeepSeek V4 Pro Max가 AA-Omniscience에서 -10점을 기록해 V3.2 Reasoning의 -21점보다 11점 개선됐다고 설명합니다. DeepSeek V4 Flash Max는 -23점으로 제시됐습니다 [33]. 동시에 같은 자료는 DeepSeek V4 Pro와 V4 Flash의 환각률을 각각 94%, 96%라고 적고 있습니다. 즉 모델이 답을 모를 때도 거의 항상 답을 내놓는다는 의미입니다 [33].

이 대목은 법무, 금융, 의료, 컴플라이언스, 사내 지식검색처럼 사실성이 중요한 제품에서 매우 중요합니다. DeepSeek V4 Pro는 오픈 웨이트와 긴 컨텍스트라는 장점이 있지만 [35], 근거 기반 질의응답에 쓰려면 검색 기반 보강, 인용 검증, 원문 대조, 필요 시 사람 검토를 설계에 넣어야 합니다 [33].

어떤 모델을 먼저 고를까

GPT-5.5를 먼저 시험할 경우

GPT-5.5는 프로덕션 API에 빠르게 연결하고, 비용과 한도를 예측하며, 공식 툴 호출을 활용해야 하는 팀에 더 명확한 선택지입니다. OpenAI 문서에는 모델 ID, 가격, 컨텍스트, 최대 출력, 2025년 12월 1일 지식 컷오프, Functions·Web search·File search·Computer use 지원이 함께 적혀 있습니다 [22].

코딩 에이전트 관점에서도 현재 공개된 SWE-bench Verified 신호는 GPT-5.5 쪽에 유리합니다 [2]. 다만 실제 선택 전에는 공개 리더보드만 보지 말고, 팀의 실제 저장소와 테스트 스위트로 다시 평가해야 합니다.

이미지 입력이나 에이전트형 툴 사용도 GPT-5.5 쪽 근거가 더 분명합니다. Artificial Analysis의 비교표는 GPT-5.5 high가 이미지 입력을 지원하고 DeepSeek V4 Pro high는 지원하지 않는다고 표시하며 [41], OpenAI API 문서는 GPT-5.5의 주요 툴 지원을 명시합니다 [22].

DeepSeek V4 Pro를 먼저 시험할 경우

DeepSeek V4 Pro는 오픈 웨이트가 반드시 필요하거나, 특정 인프라 안에서 모델을 더 깊게 평가해야 하거나, 폐쇄형 API 의존도를 낮추려는 팀에 적합한 후보입니다. Artificial Analysis는 DeepSeek V4 Pro를 2026년 4월 출시된 오픈 웨이트 모델로 설명하고, 텍스트 입력·출력과 100만 토큰 컨텍스트를 지원한다고 적고 있습니다 [35].

단, 사실성 워크로드에서는 신중해야 합니다. AA-Omniscience에서 DeepSeek V4 Pro의 환각률이 94%로 제시된 만큼 [33], 모델 단독 답변을 그대로 사용자에게 내보내기보다 출처 확인과 검증 단계를 붙이는 것이 안전합니다.

자체 벤치마크를 설계할 때 체크할 것

최종 결정은 공개 점수 몇 개를 평균 내는 방식보다, 같은 조건의 내부 평가로 내려야 합니다.

  1. 정확한 모델과 reasoning level을 고정합니다. OpenAI 문서는 GPT-5.5에 none, low, medium, high, xhigh reasoning 수준을 적고 있으며 [22], Artificial Analysis도 low·medium·high 비교 페이지를 따로 둡니다 [3][37][41].
  2. 같은 프롬프트, 같은 데이터, 같은 harness를 씁니다. 한쪽만 최적화된 프롬프트를 쓰면 비교가 의미 없어집니다.
  3. 툴 사용 정책을 맞춥니다. 코딩 에이전트는 테스트 실행 권한, 파일 수정 범위, 재시도 횟수만 달라도 결과가 크게 바뀔 수 있습니다.
  4. 정답률만 보지 말고 운영 지표도 봅니다. 출력 포맷 오류, 지연시간, 토큰 비용, 안정성, 사람 검토 필요 비율을 함께 측정해야 합니다.
  5. 환각 테스트를 별도로 둡니다. DeepSeek V4 Pro와 V4 Flash의 AA-Omniscience 환각률 수치가 매우 높게 제시된 만큼, 사실성 평가는 반드시 분리해 봐야 합니다 [33].
  6. 실제 사용자 언어와 자료를 넣습니다. 한국어 제품이라면 한국어 문서, 한국어 질문, 실제 코드베이스를 내부 평가에 포함하는 것이 좋습니다.

최종 판단

현재 공개 근거만으로는 DeepSeek V4 Pro와 GPT-5.5 중 어느 쪽이 모든 벤치마크에서 더 강하다고 단정하기 어렵습니다. 다만 실무 선택 기준은 세울 수 있습니다.

API 프로덕션, 코딩 에이전트, 공식 툴 호출, 긴 출력 한도와 공개 가격표가 중요하면 GPT-5.5가 더 안전한 출발점입니다 [22]. 오픈 웨이트, 자체 인프라 평가, 배포 통제가 더 중요하면 DeepSeek V4 Pro를 시험해볼 만합니다 [35]. 대신 사실성 워크플로에서는 DeepSeek V4 Pro의 높은 환각률 수치를 고려해 검증 장치를 반드시 붙여야 합니다 [33].

현재 신호는 이렇게 정리됩니다. SWE-bench Verified의 한 제3자 수치는 GPT-5.5에 유리합니다 [2]. API 문서와 툴 지원도 GPT-5.5가 더 명확합니다 [22]. 반면 DeepSeek V4 Pro는 오픈 웨이트와 100만 토큰 컨텍스트라는 강점을 갖고 있습니다 [35]. 결국 ‘누가 이겼나’보다 더 중요한 질문은, 같은 조건에서 우리 제품의 실패 비용을 줄이는 모델이 어느 쪽이냐입니다.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • GPT 5.5는 OpenAI API 문서에 model ID, 100만 토큰 컨텍스트, 최대 출력 128K, 100만 토큰당 입력 5달러·출력 30달러, Functions·Web search·File search·Computer use 지원이 명시돼 있어 운영 계획을 세우기 쉽다 [22].
  • 제3자 자료 한 곳은 SWE bench Verified에서 GPT 5.5가 88.7%, DeepSeek V4 Pro가 80.6%라고 제시했다. 코딩 워크로드의 중요한 신호지만, 실행 harness와 툴 사용 조건을 확인하지 않고 최종 결론으로 삼기는 어렵다 [2].
  • Artificial Analysis는 DeepSeek V4 Pro와 V4 Flash의 AA Omniscience 환각률을 각각 94%, 96%로 적었다.

사람들은 또한 묻습니다.

"DeepSeek V4 vs GPT-5.5: 어떤 벤치마크를 믿고 무엇을 골라야 할까"에 대한 짧은 대답은 무엇입니까?

GPT 5.5는 OpenAI API 문서에 model ID, 100만 토큰 컨텍스트, 최대 출력 128K, 100만 토큰당 입력 5달러·출력 30달러, Functions·Web search·File search·Computer use 지원이 명시돼 있어 운영 계획을 세우기 쉽다 [22].

먼저 검증할 핵심 포인트는 무엇인가요?

GPT 5.5는 OpenAI API 문서에 model ID, 100만 토큰 컨텍스트, 최대 출력 128K, 100만 토큰당 입력 5달러·출력 30달러, Functions·Web search·File search·Computer use 지원이 명시돼 있어 운영 계획을 세우기 쉽다 [22]. 제3자 자료 한 곳은 SWE bench Verified에서 GPT 5.5가 88.7%, DeepSeek V4 Pro가 80.6%라고 제시했다. 코딩 워크로드의 중요한 신호지만, 실행 harness와 툴 사용 조건을 확인하지 않고 최종 결론으로 삼기는 어렵다 [2].

실무에서는 다음으로 무엇을 해야 합니까?

Artificial Analysis는 DeepSeek V4 Pro와 V4 Flash의 AA Omniscience 환각률을 각각 94%, 96%로 적었다.

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

So sánh một cách toàn diện benchmarks của DeepSeek V4 vs GPT-5.5

Studio Global AI40 소스

인용 답변

Hiện chưa có đủ bằng chứng công khai, độc lập và đầy đủ để “so sánh toàn diện” benchmark DeepSeek V4 vs GPT-5.5 theo từng bài test chuẩn như MMLU, GPQA, SWE-bench, AIME, LiveCodeBench với số liệu ngang hàng. Những gì có thể kết luận chắc hơn là: GPT-5.5 có tài liệu chính thức rõ hơn về API/cấu hình, còn DeepSeek V4 mới ở dạng preview và các so sánh bên thứ ba hiện chủ yếu từ Artificial Analysis hoặc bài tổng hợp, chưa đủ để coi là bảng benchmark cuối cùng.

Điểm chắc chắn từ nguồn hiện có

  • DeepSeek có trang “DeepSeek-V4 Preview Release” ngày 2026/04/24 trong tài liệu API chính thức, nhưng kết quả tìm kiếm không hiển thị bảng benchmark chi tiết đầy đủ ngay trong snippet [6].

  • OpenAI API docs liệt kê GPT-5.5 với model ID gpt-5.5, context window 1M tokens, max output 128K tokens, input price $5/1M tokens và output price $30/1M tokens [1].

  • GPT-5.5 được OpenAI mô tả là “a new class of intelligence for coding and professional work” trong tài liệu API [1].

  • Artificial Analysis có các trang so sánh DeepSeek V4 Pro/Flash với GPT-5.5 ở nhiều mức reasoning như low, medium, xhigh, nhưng snippet công khai chủ yếu cho thấy thông tin cấu hình như context window thay vì toàn bộ điểm số benchmark [4][10][11].

  • Artificial Analysis ghi nhận DeepSeek V4 Pro là mô hình “open weights” phát hành tháng 4/2026 [8].

  • DeepSeek V4 Pro và V4 Flash được Artificial Analysis mô tả là có cải thiện về kiến thức nhưng cũng có hallucination rate rất cao trong AA-Omniscience; snippet nêu V4 Pro Max đạt -10, cải thiện 11 điểm so với V3.2 Reasoning, còn V4 Flash Max đạt -23 [3].

So sánh nhanh theo trục quan trọng

Trục so sánhDeepSeek V4GPT-5.5Nhận định
Trạng thái công khaiPreview chính thức từ DeepSeek [6]Có trong OpenAI API docs [1]GPT-5.5 có thông tin API rõ hơn
Mô hình mởArtificial Analysis gọi V4 Pro là open weights [8]Proprietary/đóng theo hệ sinh thái OpenAI [1]DeepSeek lợi thế nếu cần tự host/tùy biến
Context windowCác trang so sánh AA nêu DeepSeek V4 khoảng 1,000k tokens [4][10]OpenAI docs nêu GPT-5.5 context 1M tokens [1]Gần tương đương về ngữ cảnh
Max outputInsufficient evidence từ nguồn chính thức trong kết quả tìm kiếm128K tokens theo OpenAI API docs [1]GPT-5.5 có số chính thức rõ hơn
Coding/pro workInsufficient evidence để kết luận thắng-thua benchmarkOpenAI định vị GPT-5.5 cho coding và professional work [1]Chưa đủ số liệu độc lập để xếp hạng chắc chắn
Hallucination/knowledgeAA nêu V4 Pro cải thiện knowledge nhưng hallucination rate rất cao [3]Insufficient evidence trong kết quả tìm kiếm để so trực tiếp cùng metricCần xem bảng AA đầy đủ hoặc eval độc lập
Giá APIMột số bài/press-release nêu giá DeepSeek thấp, nhưng chưa đủ tin cậy để lấy làm kết luận chuẩn [13]$5 input / $30 output mỗi 1M tokens theo OpenAI API docs [1]GPT-5.5 có giá chính thức; DeepSeek cần xác nhận từ bảng giá DeepSeek

Kết luận thực dụng

  • Nếu bạn cần benchmark “đẹp, ổn định, có hệ sinh thái API, tool calling, file/web/computer use”: GPT-5.5 có lợi thế về tài liệu chính thức và tích hợp API [1].

  • Nếu bạn cần mô hình open-weight, chi phí có khả năng thấp hơn, hoặc triển khai/tùy biến nội bộ: DeepSeek V4 Pro đáng chú ý hơn, nhưng số liệu benchmark công khai hiện chưa đủ để khẳng định vượt GPT-5.5 toàn diện [6][8].

  • Nếu chỉ hỏi “model nào mạnh hơn?”: Insufficient evidence. Các nguồn hiện có chưa cung cấp một bảng benchmark độc lập, đầy đủ, cùng điều kiện chạy cho DeepSeek V4 Pro/Flash và GPT-5.5 trên toàn bộ các bài test quan trọng.

  • Để so sánh nghiêm túc, nên chờ hoặc tự chạy bộ test gồm: GPQA Diamond, MMLU-Pro, AIME 2025/2026, LiveCodeBench, SWE-bench Verified, MMMU, long-context retrieval, tool-use/agentic tasks, multilingual Vietnamese eval, hallucination/factuality và latency/cost trên cùng prompt + cùng mức reasoning.

출처

  • [2] DeepSeek V4 Preview: The Complete 2026 Guide - o-mega | AIo-mega.ai

    6. Head-to-Head: DeepSeek V4 vs GPT-5.5 The comparison between DeepSeek V4-Pro and GPT-5.5 is the headline matchup, and the nuances matter more than the top-line numbers suggest. GPT-5.5 holds clear advantages in certain areas, DeepSeek V4-Pro leads in othe...

  • [3] DeepSeek V4 Pro (Reasoning, High Effort) vs GPT-5.5 (low): Model Comparisonartificialanalysis.ai

    Highlights Model Comparison Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) OpenAI logoGPT-5.5 (low) Analysis --- --- Creator DeepSeek OpenAI Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 922k tokens ( 1383 A4 pages of size...

  • [6] GPT-5.5 (high) - Intelligence, Performance & Price Analysisartificialanalysis.ai

    Artificial Analysis GPT-5.5 (high) logo • Proprietarymodel • Released April 2026 GPT-5.5 (high)Intelligence, Performance & Price Analysis Model summary Intelligence Artificial Analysis Intelligence Index 4 out of 4 units for Intelligence. Output tokens per...

  • [13] DeepSeek V4 Preview Releaseapi-docs.deepseek.com

    Image 8: WeChat QRcode Community Email Discord Twitter More GitHub Copyright © 2026 DeepSeek, Inc. [...] API Reference News DeepSeek-V4 Preview Release 2026/04/24 DeepSeek-V3.2 Release 2025/12/01 DeepSeek-V3.2-Exp Release 2025/09/29 DeepSeek V3.1 Update 202...

  • [22] Models | OpenAI APIdevelopers.openai.com

    GPT-5.5 New A new class of intelligence for coding and professional work. Model ID gpt-5.5 [Reasoning none low medium high xhigh Input price $5 / Input MTok Output price $30 / Output MTok Latency Fast Max output 128K tokens Context window 1M Tools Functions...

  • [24] GPT-5.5 System Card - Deployment Safety Hub - OpenAIdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...

  • [27] Introducing GPT-5.5 - OpenAIopenai.com

    Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...

  • [33] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [35] DeepSeek V4 Pro (Max) - Intelligence, Performance & Price Analysisartificialanalysis.ai

    DeepSeek V4 Pro (Reasoning, Max Effort) logo Open weights model Released April 2026 DeepSeek V4 Pro (Reasoning, Max Effort) Intelligence, Performance & Price Analysis Model summary Intelligence Artificial Analysis Intelligence Index Speed Output tokens per...

  • [37] DeepSeek V4 Pro (Reasoning, High Effort) vs GPT-5.5 (medium)artificialanalysis.ai

    Highlights Model Comparison Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) OpenAI logoGPT-5.5 (medium) Analysis --- --- Creator DeepSeek OpenAI Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 922k tokens ( 1383 A4 pages of s...

  • [41] DeepSeek V4 Pro (Reasoning, High Effort) vs GPT-5.5 (high): Model Comparisonartificialanalysis.ai

    Highlights Model Comparison Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) OpenAI logoGPT-5.5 (high) Analysis --- --- Creator DeepSeek OpenAI Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 922k tokens ( 1383 A4 pages of siz...