studioglobal
Khám phá xu hướng
Câu trả lờiĐã xuất bản11 nguồn

DeepSeek V4 vs. GPT-5.5: Welche Benchmarks zählen wirklich?

GPT 5.5 ist derzeit leichter für API Production einzuschätzen: OpenAI nennt Modell ID, 1 Mio. Ein Drittanbieterbericht sieht GPT 5.5 auf SWE bench Verified bei 88,7 % gegenüber 80,6 % für DeepSeek V4 Pro; das ist ein starker Coding Hinweis, aber kein Universalsieg [2].

18K0
Minh họa so sánh DeepSeek V4 và GPT-5.5 trên bảng benchmark AI
DeepSeek V4 vs GPT-5.5: benchmark nào đáng tin, nên chọn model nàoMinh họa: so sánh DeepSeek V4 và GPT-5.5 qua benchmark, thông số API và tiêu chí triển khai.
Prompt AI

Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 vs GPT-5.5: benchmark nào đáng tin, nên chọn model nào?. Article summary: Chưa có bằng chứng công khai đủ để tuyên bố DeepSeek V4 hay GPT 5.5 thắng toàn diện.. Topic tags: ai, deepseek, openai, gpt 5, llm benchmarks. Reference image context from search candidates: Reference image 1: visual subject "DeepSeek V4 vs GPT-5.5 vs Qwen3.6: Which Model Should You Use? DeepSeek V4, GPT-5.5, and Qwen3.6-35B-A3B all look strong on paper, but the harder question for AI application develo" source context "DeepSeek V4 RAG Benchmark with Milvus vs GPT-5.5 and Qwen" Reference image 2: visual subject "Benchmark, giá và so sánh với GPT-5.5 và Claude Opus 4.7. Điểm đáng chú ý nhất của V4 không phải là hiệu suất vượt trội so với các model hàng đầu thế giới, mà là mức giá thấp hơn k" source context "DeepSeek V4 có gì mới? Ben

openai.com

Der Vergleich zwischen DeepSeek V4 und GPT-5.5 sollte nicht mit der Frage beginnen, welches Modell auf irgendeiner Rangliste ganz oben steht. Für Teams, die ein Modell wirklich einsetzen wollen, ist eine andere Frage wichtiger: Welche Daten sind belastbar genug für den eigenen Workload – etwa Coding-Agenten, lange Dokumente, Tool-Use oder faktenkritische Frage-Antwort-Systeme?

Nach der aktuell öffentlich belegbaren Quellenlage hat GPT-5.5 einen klaren Vorteil bei der Planbarkeit: OpenAI nennt in der API-Dokumentation die Modell-ID gpt-5.5, ein Kontextfenster von 1 Mio. Token, maximal 128K Output-Token, Preise von 5 US-Dollar pro Mio. Input-Token und 30 US-Dollar pro Mio. Output-Token sowie die Tools Functions, Web search, File search und Computer use [22]. DeepSeek V4 Pro ist dagegen besonders interessant, wenn Open Weights ein zentrales Kriterium sind: Artificial Analysis beschreibt DeepSeek V4 Pro als Open-Weights-Modell mit Text-Input, Text-Output und einem Kontextfenster von 1 Mio. Token [35].

Die kurze Entscheidungshilfe

Wenn Sie schnell und kalkulierbar per API in Produktion gehen wollen, ist GPT-5.5 derzeit leichter zu bewerten. Wichtige Betriebsdaten – Kontext, maximaler Output, Preis und Tool-Unterstützung – stehen direkt in der OpenAI-Dokumentation [22].

Wenn Sie Open Weights oder mehr Kontrolle über die eigene Modellumgebung brauchen, gehört DeepSeek V4 Pro auf die Shortlist. Wichtig ist aber die genaue Lesart: Artificial Analysis nennt DeepSeek V4 Pro „open weights“; das bedeutet nicht automatisch, dass Trainingsdaten, Trainingscode oder die komplette Pipeline offenliegen [35].

Wenn die Frage lautet, welches Modell insgesamt „stärker“ ist, ist die seriöse Antwort: Dafür gibt es noch nicht genug öffentliche, unabhängige und unter identischen Bedingungen erhobene Daten. Es gibt einzelne Signale – etwa SWE-bench-Zahlen aus einer Drittquelle [2], Vergleichsdaten von Artificial Analysis [33][41] und OpenAIs API- beziehungsweise Safety-Dokumentation [22][24]. Daraus lässt sich aber kein absoluter Gesamtsieg ableiten.

Was die Quellen wirklich hergeben

DeepSeek führt in der eigenen API-Dokumentation eine Seite „DeepSeek-V4 Preview Release“ mit Datum 24. April 2026 [13]. OpenAI stellte GPT-5.5 am 23. April 2026 vor und aktualisierte die Ankündigung am 24. April 2026 mit dem Hinweis, dass GPT-5.5 und GPT-5.5 Pro nun in der API verfügbar sind [27]. Beide Modelle erscheinen also fast zeitgleich – die öffentliche Dokumentationslage ist aber unterschiedlich.

KriteriumGPT-5.5DeepSeek V4 ProBedeutung für die Auswahl
Öffentlicher StatusOpenAI stellte GPT-5.5 am 23. April 2026 vor; API-Verfügbarkeit ab 24. April 2026 [27]DeepSeek dokumentiert den V4 Preview Release zum 24. April 2026 [13]Beide Releases liegen zeitlich nah beieinander
API-Datengpt-5.5, 1 Mio. Token Kontext, 128K max. Output, 5/30 US-Dollar pro Mio. Token, offizielle Tools [22]Artificial Analysis bestätigt Text-Input/-Output und 1 Mio. Token Kontext [35]GPT-5.5 ist bei Kosten, Output-Grenzen und Tool-Use leichter zu planen
OffenheitArtificial Analysis führt GPT-5.5 high als proprietäres Modell [6]Artificial Analysis führt DeepSeek V4 Pro als Open-Weights-Modell [35]DeepSeek ist naheliegender, wenn Open Weights Pflicht sind
KontextfensterOpenAI nennt 1 Mio. Token [22]Artificial Analysis nennt 1 Mio. Token [35]Beide Modelle sind laut Quellen für sehr lange Kontexte ausgelegt
Bild-InputArtificial Analysis nennt für GPT-5.5 high Bild-Input [41]Dieselbe Vergleichsseite nennt für DeepSeek V4 Pro high keinen Bild-Input [41]Für multimodale Workflows spricht die Quellenlage eher für GPT-5.5
Tool-UnterstützungFunctions, Web search, File search und Computer use [22]In den hier zitierten Quellen gibt es keine gleichwertige Tool-TabelleFür agentische Workflows ist GPT-5.5 besser dokumentiert

Ein Detail zeigt, warum man Benchmarks und Spezifikationen nicht blind vermischen sollte: OpenAI nennt für GPT-5.5 ein Kontextfenster von 1 Mio. Token [22]. Die Vergleichsseite von Artificial Analysis zeigt für GPT-5.5 high dagegen 922K Token und für DeepSeek V4 Pro high 1000K Token [41]. Solche Abweichungen können an Modellvariante, Reasoning-Level oder Definition des Messwerts liegen. Für eine Kauf- oder Routing-Entscheidung sollte man deshalb immer prüfen, welche Variante genau verglichen wurde.

Welche Benchmarks sind belastbar?

SWE-bench Verified: wichtig für Coding, aber nicht das ganze Bild

Ein Artikel von o-mega nennt für GPT-5.5 einen Wert von 88,7 % auf SWE-bench Verified, gegenüber 80,6 % für DeepSeek V4-Pro – ein Abstand von 8,1 Prozentpunkten [2]. Für Software-Engineering-Workloads ist das ein relevantes Signal.

Trotzdem ersetzt ein einzelner SWE-bench-Wert keinen internen Test. Gerade bei Coding-Agenten können Prompt, Reasoning-Level, Tool-Zugriff, Retry-Strategie, Testausführung, Patch-Format und Bewertungs-Harness das Ergebnis deutlich verändern. Die Zahlen 88,7 % gegen 80,6 % sind daher ein guter Grund, GPT-5.5 zuerst in einem Coding-Piloten zu prüfen – aber kein Beweis, dass GPT-5.5 in jeder Aufgabe überlegen ist [2].

OpenAI System Card: breit angelegt, aber kein Head-to-Head

Der OpenAI Deployment Safety Hub beschreibt, dass GPT-5.5 mit CoT-Control bewertet wird, einer Evaluationssuite mit mehr als 13.000 Aufgaben, die aus etablierten Benchmarks wie GPQA, MMLU-Pro, HLE, BFCL und SWE-Bench Verified aufgebaut ist [24]. Das ist hilfreich, um zu verstehen, welche Art von Tests OpenAI für GPT-5.5 heranzieht.

Was diese Quelle nicht liefert: einen direkten, unabhängigen Vergleich zwischen GPT-5.5 und DeepSeek V4. Man sollte die System Card also nicht allein dafür verwenden, um zu behaupten, GPT-5.5 schlage DeepSeek V4 auf GPQA, MMLU-Pro oder SWE-bench Verified [24].

AA-Omniscience: DeepSeek verbessert Wissen, aber Halluzination bleibt ein Warnsignal

Artificial Analysis berichtet, dass DeepSeek V4 Pro Max auf AA-Omniscience einen Score von -10 erreicht und sich damit um 11 Punkte gegenüber V3.2 Reasoning mit -21 verbessert; DeepSeek V4 Flash Max kommt auf -23 [33]. In derselben Analyse werden für DeepSeek V4 Pro und V4 Flash sehr hohe Halluzinationsraten von 94 % beziehungsweise 96 % genannt – gemeint ist, dass das Modell fast immer trotzdem antwortet, wenn es die Antwort nicht weiß [33].

Für Produkte mit hohen Anforderungen an Faktentreue ist das entscheidend: interne Wissenssuche, juristische oder finanzielle Dokumentanalyse, medizinische Assistenz, Compliance-Workflows oder Systeme mit Quellenpflicht sollten nicht einfach Modellantworten ungeprüft ausgeben. DeepSeek V4 Pro kann wegen Open Weights und langem Kontext attraktiv sein, braucht in solchen Szenarien aber Retrieval, Zitationsprüfung, Quellenvalidierung und gegebenenfalls menschliche Kontrolle [33][35].

Wann GPT-5.5 die bessere Startwahl ist

GPT-5.5 ist besonders plausibel, wenn es um einen planbaren API-Betrieb geht. OpenAI dokumentiert Modell-ID, Preis, Kontextfenster, maximalen Output, Wissensstand bis 1. Dezember 2025 und die Tools Functions, Web search, File search sowie Computer use [22]. Für Teams, die ein Produkt betreiben und Kosten, Latenz, Output-Limits und Tool-Use sauber kalkulieren müssen, ist diese Transparenz ein praktischer Vorteil.

Auch für Coding-Agenten ist GPT-5.5 derzeit der naheliegende erste Kandidat, wenn man sich an der öffentlich genannten SWE-bench-Verified-Zahl orientiert [2]. Der richtige nächste Schritt ist aber nicht, diese Zahl ungeprüft zu übernehmen, sondern das Modell auf den eigenen Repositories, Test-Suites und Agenten-Workflows laufen zu lassen.

Wann DeepSeek V4 Pro sinnvoller ist

DeepSeek V4 Pro ist besonders interessant, wenn Open Weights ein hartes Kriterium sind. Wer eigene Infrastruktur, strengere Deployment-Kontrolle oder eine geringere Abhängigkeit von einer geschlossenen API-Umgebung braucht, sollte DeepSeek V4 Pro zumindest evaluieren. Artificial Analysis beschreibt das Modell als Open Weights, veröffentlicht im April 2026, mit Text-Input, Text-Output und 1 Mio. Token Kontextfenster [35].

Der Preis für diese Attraktivität ist nicht zwingend Geld, sondern Evaluationsaufwand. Wegen der von Artificial Analysis genannten Halluzinationsrate von 94 % für DeepSeek V4 Pro in AA-Omniscience sollten faktenkritische Workflows zusätzliche Prüfmechanismen enthalten [33].

Bild-Input und Tool-Use: Quellenlage pro GPT-5.5

Wenn Ihr Produkt Bild-Input oder offiziell dokumentierten Tool-Use benötigt, spricht die belegbare Quellenlage derzeit eher für GPT-5.5. Artificial Analysis führt in der High-Effort-Vergleichsseite Bild-Input für GPT-5.5 high auf, nicht aber für DeepSeek V4 Pro high [41]. Dazu kommt, dass OpenAI für GPT-5.5 Functions, Web search, File search und Computer use in der API-Dokumentation nennt [22].

Das heißt nicht, dass DeepSeek V4 Pro für Agenten grundsätzlich ungeeignet wäre. Es heißt nur: Für GPT-5.5 liegen in den hier genutzten Quellen klarere Angaben zum offiziellen Tool-Setup vor.

So benchmarken Sie beide Modelle fair

Bevor Sie Traffic routen, API-Budget freigeben oder ein Standardmodell festlegen, sollten Sie nicht einfach Scores aus verschiedenen Tabellen addieren. Sinnvoller ist ein eigener, reproduzierbarer Test unter gleichen Bedingungen.

  1. Modellvariante und Reasoning-Level fixieren. OpenAI nennt für GPT-5.5 Reasoning-Stufen wie none, low, medium, high und xhigh [22]. Artificial Analysis trennt ebenfalls Vergleichsseiten nach low, medium und high [3][37][41].
  2. Gleiche Prompts, gleiche Daten, gleicher Harness. Ein Modell mit optimiertem Prompt gegen ein anderes mit Rohprompt zu testen, sagt wenig aus.
  3. Tool-Policy angleichen. Bei Coding-Agenten können Retry-Zahl, Testausführung und Dateizugriff den Score stark beeinflussen.
  4. Mehr messen als nur Trefferquote. Wichtig sind auch Formatfehler, Output-Stabilität, Tokenkosten, Latenz und der Anteil der Fälle, die menschliche Nachprüfung brauchen.
  5. Halluzination separat testen. Das ist besonders wichtig für DeepSeek V4 Pro und V4 Flash, weil Artificial Analysis in AA-Omniscience sehr hohe Halluzinationsraten nennt [33].
  6. Echte Produktdaten nutzen. Wenn Ihr System deutschsprachige Nutzerinnen und Nutzer bedient, gehören deutsche Dokumente, Tickets, Prompts und gegebenenfalls Codekommentare in die interne Evaluation.

Fazit

GPT-5.5 ist die vorsichtigere Startwahl, wenn Sie API-Production, Coding-Agenten mit Tool-Use oder klar dokumentierte Output- und Preisdaten priorisieren [22]. DeepSeek V4 Pro ist die spannendere Option, wenn Open Weights Pflicht sind und Sie bereit sind, eigene Prüf- und Guardrail-Schichten aufzubauen – insbesondere bei faktenkritischen Antworten [33][35].

Auf die Frage „Wer gewinnt die Benchmarks?“ lautet die ehrlichste Antwort derzeit: Es gibt noch nicht genug öffentliche Daten unter gleichen Bedingungen für ein endgültiges Gesamturteil. Das stärkste Einzel-Signal spricht bei SWE-bench Verified laut einer Drittquelle für GPT-5.5 [2]. Bei API-Dokumentation und offiziellem Tool-Support liegt GPT-5.5 klarer vorn [22]. DeepSeek V4 Pro fällt dagegen durch Open Weights und sehr langen Kontext auf [35].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

  • GPT 5.5 ist derzeit leichter für API Production einzuschätzen: OpenAI nennt Modell ID, 1 Mio.
  • Ein Drittanbieterbericht sieht GPT 5.5 auf SWE bench Verified bei 88,7 % gegenüber 80,6 % für DeepSeek V4 Pro; das ist ein starker Coding Hinweis, aber kein Universalsieg [2].
  • DeepSeek V4 Pro ist laut Artificial Analysis ein Open Weights Modell mit 1 Mio. Token Kontext, zeigt dort aber sehr hohe Halluzinationsraten in AA Omniscience; für Fakten Workflows braucht es Guardrails [33][35].

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "DeepSeek V4 vs. GPT-5.5: Welche Benchmarks zählen wirklich?" là gì?

GPT 5.5 ist derzeit leichter für API Production einzuschätzen: OpenAI nennt Modell ID, 1 Mio.

Những điểm chính cần xác nhận đầu tiên là gì?

GPT 5.5 ist derzeit leichter für API Production einzuschätzen: OpenAI nennt Modell ID, 1 Mio. Ein Drittanbieterbericht sieht GPT 5.5 auf SWE bench Verified bei 88,7 % gegenüber 80,6 % für DeepSeek V4 Pro; das ist ein starker Coding Hinweis, aber kein Universalsieg [2].

Tôi nên làm gì tiếp theo trong thực tế?

DeepSeek V4 Pro ist laut Artificial Analysis ein Open Weights Modell mit 1 Mio. Token Kontext, zeigt dort aber sehr hohe Halluzinationsraten in AA Omniscience; für Fakten Workflows braucht es Guardrails [33][35].

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Phân tích nghiên cứu: Trẻ học từ nhờ nghe nhiều hơn hay xử lý từ nhanh hơn?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "Trẻ học nói không chỉ nhờ nghe nhiều: cách người lớn đáp lời có liên quan ra sao?".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Trao đổi nghiên cứu

Bạn

Câu hỏi nghiên cứu

So sánh một cách toàn diện benchmarks của DeepSeek V4 vs GPT-5.5

Studio Global AI40 nguồn

Câu trả lời được trích dẫn

Hiện chưa có đủ bằng chứng công khai, độc lập và đầy đủ để “so sánh toàn diện” benchmark DeepSeek V4 vs GPT-5.5 theo từng bài test chuẩn như MMLU, GPQA, SWE-bench, AIME, LiveCodeBench với số liệu ngang hàng. Những gì có thể kết luận chắc hơn là: GPT-5.5 có tài liệu chính thức rõ hơn về API/cấu hình, còn DeepSeek V4 mới ở dạng preview và các so sánh bên thứ ba hiện chủ yếu từ Artificial Analysis hoặc bài tổng hợp, chưa đủ để coi là bảng benchmark cuối cùng.

Điểm chắc chắn từ nguồn hiện có

  • DeepSeek có trang “DeepSeek-V4 Preview Release” ngày 2026/04/24 trong tài liệu API chính thức, nhưng kết quả tìm kiếm không hiển thị bảng benchmark chi tiết đầy đủ ngay trong snippet [6].

  • OpenAI API docs liệt kê GPT-5.5 với model ID gpt-5.5, context window 1M tokens, max output 128K tokens, input price $5/1M tokens và output price $30/1M tokens [1].

  • GPT-5.5 được OpenAI mô tả là “a new class of intelligence for coding and professional work” trong tài liệu API [1].

  • Artificial Analysis có các trang so sánh DeepSeek V4 Pro/Flash với GPT-5.5 ở nhiều mức reasoning như low, medium, xhigh, nhưng snippet công khai chủ yếu cho thấy thông tin cấu hình như context window thay vì toàn bộ điểm số benchmark [4][10][11].

  • Artificial Analysis ghi nhận DeepSeek V4 Pro là mô hình “open weights” phát hành tháng 4/2026 [8].

  • DeepSeek V4 Pro và V4 Flash được Artificial Analysis mô tả là có cải thiện về kiến thức nhưng cũng có hallucination rate rất cao trong AA-Omniscience; snippet nêu V4 Pro Max đạt -10, cải thiện 11 điểm so với V3.2 Reasoning, còn V4 Flash Max đạt -23 [3].

So sánh nhanh theo trục quan trọng

Trục so sánhDeepSeek V4GPT-5.5Nhận định
Trạng thái công khaiPreview chính thức từ DeepSeek [6]Có trong OpenAI API docs [1]GPT-5.5 có thông tin API rõ hơn
Mô hình mởArtificial Analysis gọi V4 Pro là open weights [8]Proprietary/đóng theo hệ sinh thái OpenAI [1]DeepSeek lợi thế nếu cần tự host/tùy biến
Context windowCác trang so sánh AA nêu DeepSeek V4 khoảng 1,000k tokens [4][10]OpenAI docs nêu GPT-5.5 context 1M tokens [1]Gần tương đương về ngữ cảnh
Max outputInsufficient evidence từ nguồn chính thức trong kết quả tìm kiếm128K tokens theo OpenAI API docs [1]GPT-5.5 có số chính thức rõ hơn
Coding/pro workInsufficient evidence để kết luận thắng-thua benchmarkOpenAI định vị GPT-5.5 cho coding và professional work [1]Chưa đủ số liệu độc lập để xếp hạng chắc chắn
Hallucination/knowledgeAA nêu V4 Pro cải thiện knowledge nhưng hallucination rate rất cao [3]Insufficient evidence trong kết quả tìm kiếm để so trực tiếp cùng metricCần xem bảng AA đầy đủ hoặc eval độc lập
Giá APIMột số bài/press-release nêu giá DeepSeek thấp, nhưng chưa đủ tin cậy để lấy làm kết luận chuẩn [13]$5 input / $30 output mỗi 1M tokens theo OpenAI API docs [1]GPT-5.5 có giá chính thức; DeepSeek cần xác nhận từ bảng giá DeepSeek

Kết luận thực dụng

  • Nếu bạn cần benchmark “đẹp, ổn định, có hệ sinh thái API, tool calling, file/web/computer use”: GPT-5.5 có lợi thế về tài liệu chính thức và tích hợp API [1].

  • Nếu bạn cần mô hình open-weight, chi phí có khả năng thấp hơn, hoặc triển khai/tùy biến nội bộ: DeepSeek V4 Pro đáng chú ý hơn, nhưng số liệu benchmark công khai hiện chưa đủ để khẳng định vượt GPT-5.5 toàn diện [6][8].

  • Nếu chỉ hỏi “model nào mạnh hơn?”: Insufficient evidence. Các nguồn hiện có chưa cung cấp một bảng benchmark độc lập, đầy đủ, cùng điều kiện chạy cho DeepSeek V4 Pro/Flash và GPT-5.5 trên toàn bộ các bài test quan trọng.

  • Để so sánh nghiêm túc, nên chờ hoặc tự chạy bộ test gồm: GPQA Diamond, MMLU-Pro, AIME 2025/2026, LiveCodeBench, SWE-bench Verified, MMMU, long-context retrieval, tool-use/agentic tasks, multilingual Vietnamese eval, hallucination/factuality và latency/cost trên cùng prompt + cùng mức reasoning.

Nguồn

  • [2] DeepSeek V4 Preview: The Complete 2026 Guide - o-mega | AIo-mega.ai

    6. Head-to-Head: DeepSeek V4 vs GPT-5.5 The comparison between DeepSeek V4-Pro and GPT-5.5 is the headline matchup, and the nuances matter more than the top-line numbers suggest. GPT-5.5 holds clear advantages in certain areas, DeepSeek V4-Pro leads in othe...

  • [3] DeepSeek V4 Pro (Reasoning, High Effort) vs GPT-5.5 (low): Model Comparisonartificialanalysis.ai

    Highlights Model Comparison Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) OpenAI logoGPT-5.5 (low) Analysis --- --- Creator DeepSeek OpenAI Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 922k tokens ( 1383 A4 pages of size...

  • [6] GPT-5.5 (high) - Intelligence, Performance & Price Analysisartificialanalysis.ai

    Artificial Analysis GPT-5.5 (high) logo • Proprietarymodel • Released April 2026 GPT-5.5 (high)Intelligence, Performance & Price Analysis Model summary Intelligence Artificial Analysis Intelligence Index 4 out of 4 units for Intelligence. Output tokens per...

  • [13] DeepSeek V4 Preview Releaseapi-docs.deepseek.com

    Image 8: WeChat QRcode Community Email Discord Twitter More GitHub Copyright © 2026 DeepSeek, Inc. [...] API Reference News DeepSeek-V4 Preview Release 2026/04/24 DeepSeek-V3.2 Release 2025/12/01 DeepSeek-V3.2-Exp Release 2025/09/29 DeepSeek V3.1 Update 202...

  • [22] Models | OpenAI APIdevelopers.openai.com

    GPT-5.5 New A new class of intelligence for coding and professional work. Model ID gpt-5.5 [Reasoning none low medium high xhigh Input price $5 / Input MTok Output price $30 / Output MTok Latency Fast Max output 128K tokens Context window 1M Tools Functions...

  • [24] GPT-5.5 System Card - Deployment Safety Hub - OpenAIdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...

  • [27] Introducing GPT-5.5 - OpenAIopenai.com

    Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...

  • [33] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [35] DeepSeek V4 Pro (Max) - Intelligence, Performance & Price Analysisartificialanalysis.ai

    DeepSeek V4 Pro (Reasoning, Max Effort) logo Open weights model Released April 2026 DeepSeek V4 Pro (Reasoning, Max Effort) Intelligence, Performance & Price Analysis Model summary Intelligence Artificial Analysis Intelligence Index Speed Output tokens per...

  • [37] DeepSeek V4 Pro (Reasoning, High Effort) vs GPT-5.5 (medium)artificialanalysis.ai

    Highlights Model Comparison Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) OpenAI logoGPT-5.5 (medium) Analysis --- --- Creator DeepSeek OpenAI Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 922k tokens ( 1383 A4 pages of s...

  • [41] DeepSeek V4 Pro (Reasoning, High Effort) vs GPT-5.5 (high): Model Comparisonartificialanalysis.ai

    Highlights Model Comparison Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) OpenAI logoGPT-5.5 (high) Analysis --- --- Creator DeepSeek OpenAI Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 922k tokens ( 1383 A4 pages of siz...