studioglobal
ค้นพบเทรนด์
รายงานเผยแพร่แล้ว11 แหล่งที่มา

GPT-5.5 vs. Claude Opus 4.7 vs. DeepSeek V4 vs. Kimi K2.6: Welches Modell passt zu welchem Job?

Ein Gesamt Ranking wäre irreführend: Direkt vergleichbare Zahlen gibt es vor allem für GPT 5.5 und Claude Opus 4.7. DeepSeek V4 Pro fällt durch ein sehr großes Kontextfenster auf: Artificial Analysis nennt 1.000k Tokens gegenüber 256k bei Kimi K2.6, meldet für V4 Pro aber auch eine Halluzinationsrate von 94 % [31][33].

15K0
ภาพประกอบการเปรียบเทียบ benchmark ของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6
GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือกภาพประกอบการเปรียบเทียบโมเดล AI ชั้นนำปี 2026 ตามหมวด benchmark และกรณีใช้งาน
AI พรอมต์

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือก. Article summary: ยังไม่มี benchmark ชุดเดียวที่เทียบทั้ง 4 รุ่นได้ครบแบบ apples to apples; จากตัวเลขที่มี GPT 5.5 นำ Terminal Bench 2.0 ที่ 82.7% ต่อ 69.4% ส่วน Claude Opus 4.7 นำ SWE Bench Pro ที่ 64.3% ต่อ 58.6% จึงควรเลือกตามงาน ไม.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and ..." Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login

openai.com

Die kurze Antwort lautet: Es gibt keinen belastbaren Gesamtsieger über alle vier Modelle hinweg. Die öffentlich verfügbaren Daten vergleichen GPT-5.5 und Claude Opus 4.7 in mehreren Benchmarks recht direkt, während DeepSeek V4 und Kimi K2.6 in den vorliegenden Quellen vor allem über Long Context, Open Weights, Multimodalität und Reliability-Signale greifbar werden [2][7][30][31][33][35][36].

Für die Praxis ist das wichtiger als eine Rangliste: Wer ein Modell für Coding, Agenten-Workflows, lange Dokumente oder multimodale Anwendungen auswählt, sollte die Benchmarks nach Einsatzfall lesen — nicht alles in eine einzige Punktzahl pressen.

Die wichtigste Einordnung: Bitte nicht alles in eine Tabelle kippen

Benchmarks sind nur dann wirklich fair vergleichbar, wenn Modelle unter denselben Bedingungen, mit demselben Testaufbau und derselben Auswertung geprüft wurden. Genau das ist hier nicht durchgehend der Fall. Vellum und OpenAI liefern mehrere Direktvergleiche zwischen GPT-5.5 und Claude Opus 4.7; bei DeepSeek V4 und Kimi K2.6 fehlen in den verwendeten Quellen viele derselben Benchmark-Zahlen [2][7][31][33][35].

Das bedeutet nicht, dass DeepSeek V4 oder Kimi K2.6 schwächer wären. Es bedeutet nur: Für viele Kategorien liegt kein sauberer Apples-to-Apples-Vergleich aller vier Modelle vor. Die seriösere Frage lautet daher: Für welchen Job brauche ich welches Modell?

Schnellentscheidung nach Aufgabe

AufgabeModell, das zuerst auf die Shortlist gehörtWarum
Terminal-Automation, Agentic Workflows, CLI-AufgabenGPT-5.5GPT-5.5 führt Claude Opus 4.7 im Terminal-Bench 2.0 mit 82,7 % zu 69,4 % [2].
Software Engineering und Issue-SolvingClaude Opus 4.7Claude Opus 4.7 führt im SWE-Bench Pro mit 64,3 % zu 58,6 % vor GPT-5.5 [2].
Browser- und Tool-WorkflowsGPT-5.5 oder Claude Opus 4.7, je nach Tool-SetupGPT-5.5 liegt bei BrowseComp vorn, Claude Opus 4.7 bei MCP Atlas [7].
Computer-Use-WorkflowsGPT-5.5 mit leichtem VorsprungOpenAI nennt 78,7 % für GPT-5.5 und 78,0 % für Claude Opus 4.7 auf OSWorld-Verified [7].
Sehr lange Kontexte, große DokumentmengenDeepSeek V4 ProArtificial Analysis nennt ein Kontextfenster von 1.000k Tokens, weist aber zugleich auf eine Halluzinationsrate von 94 % für V4 Pro hin [31][33].
Open-Weights-MultimodalmodellKimi K2.6Kimi K2.6 wird als Open-Weights-Modell geführt und unterstützt native Bild- und Videoeingaben mit Textausgabe [35][36].
Kritische Faktenarbeit mit möglichst wenig HalluzinationenKein Gesamtsieger aus diesen Daten ableitbarFür DeepSeek V4 gibt es ein klares Warnsignal, aber keine vollständige Reliability-Tabelle für alle vier Modelle aus derselben Quelle [31].

Vergleichbare Benchmark-Daten aus den vorliegenden Quellen

Benchmark / MetrikGPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6Einordnung
Terminal-Bench 2.082,7 %69,4 %k.A. in derselben Quellek.A. in derselben QuelleGPT-5.5 führt in der Vellum-Tabelle deutlich [2].
SWE-Bench Pro58,6 %64,3 %k.A. in derselben Quellek.A. in derselben QuelleClaude Opus 4.7 führt im Software-Engineering-Benchmark [2].
GDPval84,9 %80,3 %k.A. in derselben Quellek.A. in derselben QuelleGPT-5.5 liegt in diesem Vergleich vor Claude Opus 4.7 [2].
OSWorld-Verified78,7 %78,0 %k.A. in derselben Quellek.A. in derselben QuelleGPT-5.5 führt laut OpenAI knapp [7].
BrowseComp84,4 %79,3 %k.A. in derselben Quellek.A. in derselben QuelleGPT-5.5 liegt im Tool-Use-Vergleich vorn [7].
MCP Atlas75,3 %79,1 %k.A. in derselben Quellek.A. in derselben QuelleClaude Opus 4.7 führt laut OpenAI [7].
GPQA Diamond93,6 %94,2 %k.A. in derselben Quellek.A. in derselben QuelleClaude Opus 4.7 liegt knapp vor GPT-5.5 [2].
FrontierMath T1–351,7 %43,8 %k.A. in derselben Quellek.A. in derselben QuelleGPT-5.5 führt in der Vellum-Tabelle [2].
Kontextfensternicht in dieser Vergleichstabellenicht in dieser Vergleichstabelle1.000k Tokens256k TokensDeepSeek V4 Pro hat in der Artificial-Analysis-Tabelle das größere Kontextfenster [33].
AA-Omniscience / Halluzinationk.A. in derselben Quellek.A. in derselben QuelleV4 Pro Max: -10; V4 Pro: 94 % Halluzinationsratek.A. in derselben QuelleEin deutliches Signal, DeepSeek-V4-Antworten besonders sorgfältig zu prüfen [31].
Artificial Analysis Intelligence Indexk.A. in den verwendeten Quellenk.A. in den verwendeten Quellenk.A. in den verwendeten Quellen54Dieser Wert beschreibt Kimi K2.6 in Artificial Analysis, ist aber kein gemeinsames Leaderboard mit Vellum oder OpenAI [35].

k.A. heißt hier nicht, dass ein Modell schlechter ist. Es heißt nur: In den verwendeten Quellen wurde für dieses Modell kein direkt vergleichbarer Wert im selben Benchmark und unter derselben Auswertung gefunden.

GPT-5.5: Stark bei Agenten-, Terminal- und Tool-Workflows

GPT-5.5 ist in diesem Quellenpaket das Modell mit den meisten direkt nutzbaren Vergleichszahlen gegenüber Claude Opus 4.7. Vellum nennt unter anderem Terminal-Bench 2.0, SWE-Bench Pro, GDPval, GPQA Diamond und FrontierMath; OpenAI ergänzt Computer-Use- und Tool-Use-Werte wie OSWorld-Verified, BrowseComp und MCP Atlas [2][7].

Der sichtbarste Vorteil liegt bei agentischen Workflows: GPT-5.5 erreicht 82,7 % auf Terminal-Bench 2.0 gegenüber 69,4 % bei Claude Opus 4.7 [2]. Auch bei BrowseComp liegt GPT-5.5 mit 84,4 % vor Claude Opus 4.7 mit 79,3 %, und bei OSWorld-Verified führt GPT-5.5 knapp mit 78,7 % zu 78,0 % [7].

Das heißt aber nicht, dass GPT-5.5 jede Kategorie gewinnt. Claude Opus 4.7 liegt im SWE-Bench Pro, bei MCP Atlas und bei GPQA Diamond vorn [2][7]. Für Teams, die viel mit Code-Repositories, Issues und Tool-Ökosystemen arbeiten, ist diese Differenz entscheidend: Der beste Terminal-Agent ist nicht automatisch der beste Issue-Löser.

Für Safety und Kontrollierbarkeit verweist OpenAI in der GPT-5.5 System Card auf CoT-Control, eine Evaluationssuite mit mehr als 13.000 Aufgaben, die aus Benchmarks wie GPQA, MMLU-Pro, HLE, BFCL und SWE-Bench Verified aufgebaut ist [4]. Das ist für die Einschätzung des Modellverhaltens relevant, sollte aber nicht mit einem klassischen Performance-Score verwechselt werden.

Claude Opus 4.7: Das stärkste direkte Signal kommt aus Software Engineering

Anthropic führt Claude Opus 4.7 in den Claude API Docs mit dem Datum 16. April 2026 [20]. In den hier verwendeten Direktvergleichen ist der stärkste Punkt von Claude Opus 4.7 der SWE-Bench Pro: 64,3 % gegenüber 58,6 % bei GPT-5.5 [2].

Auch bei MCP Atlas liegt Claude Opus 4.7 laut OpenAI mit 79,1 % vor GPT-5.5 mit 75,3 % [7]. Gleichzeitig führt GPT-5.5 in anderen praktischen Kategorien: OSWorld-Verified und BrowseComp bei OpenAI sowie Terminal-Bench 2.0, GDPval und FrontierMath T1–3 in der Vellum-Tabelle [2][7].

Für die Auswahl heißt das: Claude Opus 4.7 ist besonders dann attraktiv, wenn Software-Engineering-Leistung im Vordergrund steht — etwa Debugging, Issue-Solving oder Arbeit an bestehenden Codebasen. Wer dagegen komplexe Terminal-Automation oder Browser-Toolchains priorisiert, sollte die GPT-5.5-Werte danebenlegen.

Auf der Safety-Seite berichtet Anthropic in Petri 2.0, dass zwei kombinierte Interventionen bei Claude-Modellen zu einem medianen relativen Rückgang der Eval-Awareness um 47,3 % führen [22]. Auch dieser Wert ist eher als Verhaltens- und Sicherheitsinformation zur Claude-Familie zu lesen, nicht als direkter Performance-Benchmark für Claude Opus 4.7.

DeepSeek V4: Sehr langer Kontext, aber Reliability genau prüfen

Der technische Bericht zu DeepSeek-V4 beschreibt die V4-Serie als Weiterentwicklung von DeepSeek-V3: DeepSeekMoE und die Multi-Token-Prediction-Strategie bleiben erhalten, hinzu kommt eine Hybrid-Attention-Architektur, die Long-Context-Effizienz verbessern soll [30].

Das passt zu den Zahlen von Artificial Analysis: DeepSeek V4 Pro wird dort mit einem Kontextfenster von 1.000k Tokens geführt, Kimi K2.6 mit 256k Tokens [33]. Für sehr große Dokumentensammlungen, lange technische Spezifikationen oder Workflows mit umfangreicher Historie ist das ein starkes Argument für DeepSeek V4 Pro.

Die Kehrseite ist Reliability. Artificial Analysis meldet für DeepSeek V4 Pro Max einen AA-Omniscience-Wert von -10, eine Verbesserung gegenüber DeepSeek V3.2 Reasoning mit -21. Gleichzeitig wird für DeepSeek V4 Pro eine Halluzinationsrate von 94 % und für V4 Flash von 96 % berichtet [31].

In der Praxis spricht das für einen vorsichtigen Einsatz: DeepSeek V4 Pro kann bei sehr langen Kontexten interessant sein, sollte aber bei faktenkritischen Aufgaben mit Retrieval-Grounding, automatischer Quellenprüfung oder menschlichem Review kombiniert werden [30][31][33].

Kimi K2.6: Open Weights, multimodal — aber noch zu wenige Direktvergleiche

Artificial Analysis beschreibt Kimi K2.6 als Open-Weights-Modell, das im April 2026 veröffentlicht wurde, und weist einen Artificial Analysis Intelligence Index von 54 aus [35]. Open Weights bedeutet hier: Das Modell ist für Szenarien interessant, in denen Teams mehr Kontrolle über Deployment, Anpassung oder Infrastruktur wünschen als bei rein proprietären API-Modellen.

Ein weiterer Pluspunkt ist Multimodalität: Kimi K2.6 unterstützt laut Artificial Analysis native Bild- und Videoeingaben sowie Textausgabe; die maximale Kontextlänge bleibt bei 256k Tokens [36]. Im direkten Kontextfenster-Vergleich liegt Kimi K2.6 damit unter DeepSeek V4 Pro mit 1.000k Tokens [33].

Was fehlt, sind umfassende Direktvergleiche gegen GPT-5.5 und Claude Opus 4.7 auf denselben Benchmarks wie Terminal-Bench 2.0, SWE-Bench Pro, GDPval, OSWorld-Verified oder MCP Atlas [2][7][33][35][36]. Deshalb gehört Kimi K2.6 auf die Shortlist für Open-Weights-Multimodalprojekte — aber nicht als pauschaler Sieger oder Verlierer in Kategorien, in denen die Vergleichszahlen fehlen.

Wie man die Benchmarks richtig liest

Erstens: Gleiche Namen bedeuten nicht automatisch gleiche Testbedingungen. Prompting, Tool-Zugriff, Reasoning-Modus, Rechenbudget und Scoring-Pipeline können sich zwischen Anbietern und Evaluatoren unterscheiden. Deshalb sollten Werte von Vellum, OpenAI und Artificial Analysis nicht zu einem einzigen Gesamt-Score verrechnet werden [2][7][31][33][35].

Zweitens: Coding ist nicht gleich Coding. Ein akademischer Benchmark weist darauf hin, dass ältere Coding-Tests wie HumanEval Grenzen haben und realitätsnähere Issue-Solving-Benchmarks wie SWE-Bench zusätzlich betrachtet werden sollten [42]. Für echte Entwickler-Workflows ist daher ein SWE-Bench-Pro-Signal oft aussagekräftiger als eine reine Kurzaufgaben-Coding-Metrik.

Drittens: Ein großes Kontextfenster ist kein Wahrheitsfilter. DeepSeek V4 Pro kann laut Artificial Analysis 1.000k Tokens Kontext verarbeiten, aber dieselbe Datenlage enthält auch die Halluzinationsrate von 94 % für DeepSeek V4 Pro [31][33]. Viel Kontext hilft nur, wenn das Modell relevante Informationen auch zuverlässig nutzt und Unsicherheit sauber signalisiert.

Viertens: Für produktive Systeme braucht es interne Tests. Wer ein Modell für juristische, medizinische, finanzielle, sicherheitskritische oder andere hochwertige Workflows einsetzen will, sollte eigene Evaluationssets mit echten Dokumenten, echten Tools und typischen Fehlerkosten bauen. Die öffentlichen Benchmarks sind ein Startpunkt, aber kein Ersatz für eine produktionsnahe Abnahme.

Fazit

GPT-5.5 ist nach den vorliegenden Direktvergleichen besonders stark bei Terminal-, Agenten- und Tool-Workflows: Es führt unter anderem auf Terminal-Bench 2.0, BrowseComp und OSWorld-Verified [2][7]. Claude Opus 4.7 ist die naheliegende Wahl, wenn Software Engineering und Issue-Solving im Vordergrund stehen, denn im SWE-Bench Pro liegt es mit 64,3 % vor GPT-5.5 mit 58,6 % [2].

DeepSeek V4 Pro punktet mit einem außergewöhnlich großen Kontextfenster von 1.000k Tokens, muss aber wegen der von Artificial Analysis berichteten Halluzinationsrate von 94 % besonders kontrolliert eingesetzt werden [31][33]. Kimi K2.6 wiederum ist ein spannender Open-Weights-Multimodal-Kandidat mit 256k Tokens Kontext, nativer Bild- und Videoeingabe und einem Intelligence Index von 54 — benötigt aber mehr direkte Benchmark-Daten, bevor man es sicher gegen GPT-5.5, Claude Opus 4.7 und DeepSeek V4 einordnen kann [35][36].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

  • Ein Gesamt Ranking wäre irreführend: Direkt vergleichbare Zahlen gibt es vor allem für GPT 5.5 und Claude Opus 4.7.
  • DeepSeek V4 Pro fällt durch ein sehr großes Kontextfenster auf: Artificial Analysis nennt 1.000k Tokens gegenüber 256k bei Kimi K2.6, meldet für V4 Pro aber auch eine Halluzinationsrate von 94 % [31][33].
  • Kimi K2.6 ist als Open Weights Multimodalmodell interessant: Es unterstützt native Bild und Videoeingaben, Textausgabe und erreicht einen Artificial Analysis Intelligence Index von 54 [35][36].

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5 vs. Claude Opus 4.7 vs. DeepSeek V4 vs. Kimi K2.6: Welches Modell passt zu welchem Job?" คืออะไร

Ein Gesamt Ranking wäre irreführend: Direkt vergleichbare Zahlen gibt es vor allem für GPT 5.5 und Claude Opus 4.7.

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

Ein Gesamt Ranking wäre irreführend: Direkt vergleichbare Zahlen gibt es vor allem für GPT 5.5 und Claude Opus 4.7. DeepSeek V4 Pro fällt durch ein sehr großes Kontextfenster auf: Artificial Analysis nennt 1.000k Tokens gegenüber 256k bei Kimi K2.6, meldet für V4 Pro aber auch eine Halluzinationsrate von 94 % [31][33].

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

Kimi K2.6 ist als Open Weights Multimodalmodell interessant: Es unterstützt native Bild und Videoeingaben, Textausgabe und erreicht einen Artificial Analysis Intelligence Index von 54 [35][36].

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ

คำถามวิจัย

ศึกษาค้นคว้าเกณฑ์มาตรฐานการทดสอบของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 แล้วเปรียบเทียบให้ครอบคลุมมากที่สุดเท่าที่เป็นไปได้ จัดทำรายงานการวิจัยเกี่ยวกับเรื่องนี้

Studio Global AI40 แหล่งที่มา

อ้างถึงคำตอบ

รายงานนี้พบว่า “มีข้อมูลเปรียบเทียบได้บางส่วน แต่ยังไม่ครบแบบ apples-to-apples” สำหรับ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 โดย GPT-5.5 มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดที่ค้นพบ, Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ตามแหล่งเปรียบเทียบภายนอก, DeepSeek V4 เด่นเรื่องบริบทยาวระดับ 1,000k tokens แต่มีสัญญาณความเสี่ยงด้าน hallucination ในการทดสอบของ Artificial Analysis, ส่วน Kimi K2.6 มีหลักฐานเปรียบเทียบที่พบจำกัด โดยยืนยันได้หลัก ๆ เรื่องบริบท 256k tokens จากแหล่งเปรียบเทียบภายนอก [11][7][9]

Key findings

  • ข้อมูลที่เทียบได้ตรงที่สุดระหว่าง GPT-5.5 กับ Claude Opus 4.7 คือ Terminal-Bench 2.0, SWE-Bench Pro และ GDPval จากแหล่งวิเคราะห์ภายนอกเดียวกัน [11]

  • GPT-5.5 ได้ 82.7% บน Terminal-Bench 2.0 เทียบกับ Claude Opus 4.7 ที่ 69.4% ทำให้ GPT-5.5 นำในงาน terminal/agentic workflow ตามข้อมูลชุดนี้ [11]

  • Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% ทำให้ Claude นำใน benchmark งานแก้ปัญหา software engineering ตามข้อมูลชุดนี้ [11]

  • GPT-5.5 ได้ 84.9% บน GDPval เทียบกับ Claude Opus 4.7 ที่ 80.3% ทำให้ GPT-5.5 นำใน benchmark งานเชิงเศรษฐกิจ/งานมืออาชีพตามข้อมูลชุดนี้ [11]

  • OpenAI มีเอกสาร safety/evaluation สำหรับ GPT-5.5 ที่กล่าวถึง CoT-Control ซึ่งใช้ชุดงานมากกว่า 13,000 งานจาก benchmark ที่มีอยู่ เช่น GPQA และ MMLU-Pro [14]

  • Anthropic มีบันทึกเอกสาร API ที่ระบุ Claude Opus 4.7 วันที่ 16 เมษายน 2026 แต่ข้อมูลคะแนน benchmark อย่างเป็นทางการที่พบในชุดผลค้นหานี้ยังไม่ครบเท่าข้อมูลของ GPT-5.5 [2]

  • DeepSeek V4 series ถูกอธิบายในเอกสารเทคนิคว่าเป็นการต่อยอดจาก DeepSeek-V3 โดยยังคง DeepSeekMoE และ Multi-Token Prediction พร้อมเพิ่มกลไกด้านประสิทธิภาพสำหรับ long context [6]

  • DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่าใช้ context window 1,000k tokens ส่วน Kimi K2.6 ใช้ context window 256k tokens [9]

  • Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ทำคะแนน AA-Omniscience ที่ -10 ดีขึ้น 11 จุดจาก V3.2 แต่มี hallucination rate สูงถึง 94% ในชุดทดสอบนั้น [7]

  • หลักฐานสาธารณะที่พบยังไม่เพียงพอสำหรับการสรุปตารางคะแนน benchmark ครบทุกหมวดของทั้ง 4 รุ่นพร้อมกัน; ดังนั้นจุดที่ไม่มีตัวเลขควรถือว่า “Insufficient evidence.”

ขอบเขตและวิธีวิจัย

  • รายงานนี้ใช้หลักฐานจากเอกสารทางการ, เอกสารเทคนิค, แหล่ง benchmark ภายนอก และแหล่งวิชาการที่พบในผลค้นหา ณ วันที่ทำรายงาน [2][6][11][14][1]

  • แหล่งที่มีน้ำหนักสูงกว่าในรายงานนี้คือเอกสารทางการหรือเอกสารเทคนิค เช่น release notes ของ Anthropic, เอกสาร safety/evaluation ของ OpenAI และ PDF ทางเทคนิคของ DeepSeek V4 [2][14][6]

  • แหล่งที่ใช้สำหรับคะแนนเปรียบเทียบหลายรุ่นพร้อมกันส่วนใหญ่เป็นแหล่งภายนอก เช่น Vellum, BenchLM, LLM Stats และ Artificial Analysis จึงควรตีความเป็น benchmark จากผู้ประเมินรายนั้น ไม่ใช่ผลรับรองกลางทั้งหมด [11][12][15][7]

  • งานวิชาการด้าน benchmark การเขียนโค้ดชี้ว่าชุดทดสอบอย่าง HumanEval มีข้อจำกัด และมีความพยายามสร้าง benchmark ที่ใกล้งานจริงมากขึ้น เช่น SWE-Bench และ benchmark fine-grained issue solving [1]

ภาพรวม benchmark ที่ควรใช้เทียบ

หมวดทดสอบตัวอย่าง benchmark ที่พบใช้วัดอะไรหมายเหตุด้านความน่าเชื่อถือ
Reasoning / knowledgeGPQA, MMLU-Pro, ARC-AGI, LongBench v2, MuSRความรู้เชิงลึก การให้เหตุผล และการแก้ปัญหาซับซ้อนOpenAI ระบุว่า CoT-Control ของ GPT-5.5 ใช้ชุดงานจาก GPQA และ MMLU-Pro ร่วมกับ benchmark อื่น ๆ มากกว่า 13,000 งาน [14]
Coding / software engineeringSWE-Bench Pro, SWE-Bench Verified, LiveCodeBench, Expert-SWEความสามารถแก้ issue, เขียน/แก้โค้ด และทำงานวิศวกรรมซอฟต์แวร์งานวิชาการระบุว่า benchmark แบบ HumanEval ไม่พอสำหรับงานจริง จึงต้องใช้ benchmark ที่ใกล้ issue จริงมากขึ้น [1]
Agentic / tool useTerminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench, WebArenaการใช้เครื่องมือ, terminal, browser, workflow หลายขั้นตอนBenchLM จัด GPT-5.5 ในหมวด agentic ด้วยชุด benchmark อย่าง Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench และ WebArena [12]
Vision / multimodalMMMU Pro, image/video input testsความเข้าใจภาพ วิดีโอ และเอกสารหลายรูปแบบข้อมูลที่พบสำหรับทั้ง 4 รุ่นยังไม่พอสำหรับสรุปเชิงตัวเลขครบทุกโมเดล; Insufficient evidence.
Long contextLongBench v2, MRCRv2, context-window testsการคงบริบทและดึงข้อมูลจากเอกสารยาวDeepSeek V4 Pro ถูกระบุว่ามี context window 1,000k tokens และ Kimi K2.6 256k tokens ในแหล่งเปรียบเทียบเดียวกัน [9]
Safety / reliabilityCoT-Control, Petri, hallucination tests, AA-Omniscienceการควบคุมพฤติกรรม, eval-awareness, hallucination, ความน่าเชื่อถือOpenAI ใช้ CoT-Control กับงานมากกว่า 13,000 งาน ส่วน Anthropic รายงาน Petri 2.0 และ Artificial Analysis รายงาน hallucination rate ของ DeepSeek V4 Pro Max [14][4][7]

ตารางเปรียบเทียบคะแนนที่พบ

Benchmark / metricGPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6ข้อสรุปจากหลักฐาน
Terminal-Bench 2.082.7%69.4%Insufficient evidenceInsufficient evidenceGPT-5.5 นำ Claude Opus 4.7 ชัดเจนในงาน terminal/agentic ตามแหล่งนี้ [11]
SWE-Bench Pro58.6%64.3%Insufficient evidenceInsufficient evidenceClaude Opus 4.7 นำ GPT-5.5 ในงาน software engineering ตามแหล่งนี้ [11]
Expert-SWE internal73.1%Insufficient evidenceInsufficient evidenceInsufficient evidenceใช้ได้เป็นสัญญาณภายในของ GPT-5.5 แต่ไม่เหมาะสรุปเทียบทุกค่ายเพราะไม่มีคะแนนครบ [11]
GDPval84.9%80.3%Insufficient evidenceInsufficient evidenceGPT-5.5 นำ Claude Opus 4.7 ใน benchmark งานมืออาชีพตามแหล่งนี้ [11]
BenchLM aggregate: Agentic#2 / 99.5 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceใช้ดูอันดับรวมของ GPT-5.5 ได้ แต่ยังไม่ใช่ตารางเดียวกันครบ 4 โมเดล [12]
BenchLM aggregate: Coding85.6 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceGPT-5.5 ถูกจัดอันดับสูงใน coding aggregate แต่ไม่มีคะแนนคู่เทียบครบในแหล่งเดียวกัน [12]
BenchLM aggregate: Reasoning100.0 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceGPT-5.5 ถูกจัดอันดับสูงสุดใน reasoning aggregate ของ BenchLM แต่ยังไม่ใช่ผลเปรียบเทียบครบ 4 รุ่น [12]
Context windowInsufficient evidenceInsufficient evidence1,000k tokens256k tokensDeepSeek V4 Pro เหนือ Kimi K2.6 ด้าน context window ตามแหล่งเปรียบเทียบนี้ [9]
AA-OmniscienceInsufficient evidenceInsufficient evidence-10 สำหรับ V4 Pro MaxInsufficient evidenceDeepSeek V4 Pro Max ดีขึ้นจาก V3.2 แต่ยังมี hallucination rate สูงมากในรายงานเดียวกัน [7]
Hallucination rateInsufficient evidenceInsufficient evidence94% สำหรับ V4 Pro/FlashInsufficient evidenceเป็นสัญญาณความเสี่ยงสำคัญของ DeepSeek V4 ในชุดทดสอบของ Artificial Analysis [7]

วิเคราะห์รายโมเดล

GPT-5.5

  • GPT-5.5 เป็นโมเดลที่มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดหลักฐานที่พบ โดยมีคะแนน Terminal-Bench 2.0, SWE-Bench Pro, Expert-SWE และ GDPval จากแหล่งเปรียบเทียบภายนอก [11]

  • จุดแข็งหลักของ GPT-5.5 คือ agentic workflow และงานมืออาชีพ โดยได้ 82.7% บน Terminal-Bench 2.0 และ 84.9% บน GDPval [11]

  • จุดที่ยังไม่ชนะทุกหมวดคือ software engineering benchmark แบบ SWE-Bench Pro เพราะ GPT-5.5 ได้ 58.6% ต่ำกว่า Claude Opus 4.7 ที่ 64.3% [11]

  • เอกสาร safety/evaluation ของ OpenAI สำหรับ GPT-5.5 ระบุการใช้ CoT-Control กับงานมากกว่า 13,000 งานจาก benchmark เช่น GPQA และ MMLU-Pro ซึ่งทำให้ข้อมูลด้านการควบคุมพฤติกรรมมีฐานเอกสารทางการมากกว่าโมเดลอื่นในชุดนี้ [14]

Claude Opus 4.7

  • Claude Opus 4.7 ปรากฏในเอกสาร release notes ของ Anthropic วันที่ 16 เมษายน 2026 ซึ่งช่วยยืนยันสถานะโมเดลในเอกสารทางการ [2]

  • จุดแข็งที่เด่นที่สุดจากข้อมูลที่พบคือ coding/software engineering เพราะ Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% [11]

  • Claude Opus 4.7 ตามข้อมูลเดียวกันได้ 69.4% บน Terminal-Bench 2.0 และ 80.3% บน GDPval ซึ่งตามหลัง GPT-5.5 ในสองหมวดนี้ [11]

  • Anthropic มีงานประเมินด้าน safety/eval-awareness ผ่าน Petri 2.0 โดยรายงานว่าการแทรกแซงสองแนวทางร่วมกันทำให้ eval-awareness ลดลงแบบ median relative drop 47.3% ในโมเดล Claude [4]

DeepSeek V4

  • เอกสาร DeepSeek-V4 ระบุว่า V4 series ยังคง DeepSeekMoE framework และ Multi-Token Prediction strategy จาก DeepSeek-V3 พร้อมเพิ่มนวัตกรรมด้านสถาปัตยกรรมและการปรับประสิทธิภาพ [6]

  • DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่ามี context window 1,000k tokens ซึ่งสูงกว่า Kimi K2.6 ที่ 256k tokens อย่างมีนัยสำคัญ [9]

  • Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ได้ AA-Omniscience -10 ซึ่งดีขึ้น 11 จุดจาก DeepSeek V3.2 Reasoning ที่ -21 [7]

  • ประเด็นเสี่ยงสำคัญคือ Artificial Analysis รายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro และ V4 Flash ในชุดประเมินของตน [7]

  • ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับการเปรียบเทียบ DeepSeek V4 กับ GPT-5.5 และ Claude Opus 4.7 บน Terminal-Bench 2.0, SWE-Bench Pro หรือ GDPval; Insufficient evidence.

Kimi K2.6

  • หลักฐานเปรียบเทียบที่พบสำหรับ Kimi K2.6 จำกัดกว่ารุ่นอื่น โดยแหล่งที่พบยืนยันได้ว่า Kimi K2.6 มี context window 256k tokens ในตารางเปรียบเทียบกับ DeepSeek V4 Pro [9]

  • เมื่อเทียบเฉพาะ context window, Kimi K2.6 ต่ำกว่า DeepSeek V4 Pro ที่ 1,000k tokens ตามแหล่งเปรียบเทียบเดียวกัน [9]

  • ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับคะแนน Kimi K2.6 บน Terminal-Bench 2.0, SWE-Bench Pro, GPQA, MMLU-Pro, GDPval หรือ hallucination benchmark แบบเดียวกับ DeepSeek V4; Insufficient evidence.

เปรียบเทียบตามกรณีใช้งาน

  • หากเน้น terminal, agentic workflow และงานหลายขั้นตอน GPT-5.5 เป็นตัวเลือกที่มีหลักฐานคะแนนนำ Claude Opus 4.7 ชัดเจนจาก Terminal-Bench 2.0 ที่ 82.7% เทียบกับ 69.4% [11]

  • หากเน้นแก้ปัญหา software engineering จาก issue จริง Claude Opus 4.7 น่าพิจารณากว่า GPT-5.5 เพราะได้ SWE-Bench Pro 64.3% เทียบกับ 58.6% [11]

  • หากเน้นงานมืออาชีพหรือ benchmark แนว GDPval GPT-5.5 มีคะแนน 84.9% สูงกว่า Claude Opus 4.7 ที่ 80.3% [11]

  • หากเน้น long-context retrieval หรือเอกสารยาวมาก DeepSeek V4 Pro มีจุดเด่นจาก context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens แต่ยังไม่มีข้อมูลครบสำหรับเทียบกับ GPT-5.5 และ Claude Opus 4.7 ในแหล่งเดียวกัน [9]

  • หากเน้นความน่าเชื่อถือและลด hallucination ควรระวัง DeepSeek V4 เพราะรายงานของ Artificial Analysis ระบุ hallucination rate 94% ในชุดทดสอบของตน [7]

  • หากต้องการเลือก Kimi K2.6 สำหรับงาน production ควรขอหรือรอ benchmark เพิ่มเติมจากแหล่งทางการหรือผู้ประเมินภายนอกที่ใช้ harness เดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4; Insufficient evidence.

Evidence notes

  • แหล่งทางการที่พบสำหรับ GPT-5.5 มีน้ำหนักสูงในส่วน safety/evaluation แต่คะแนนเปรียบเทียบเชิงประสิทธิภาพที่ครบกว่าในรายงานนี้มาจากแหล่งภายนอก [14][11]

  • แหล่งทางการของ Anthropic ที่พบยืนยันการมีอยู่ของ Claude Opus 4.7 ใน release notes แต่คะแนนเปรียบเทียบที่ใช้ในตารางมาจากแหล่งภายนอก [2][11]

  • แหล่ง DeepSeek V4 ที่มีน้ำหนักสูงสุดคือ PDF เทคนิคบน Hugging Face ของ deepseek-ai ซึ่งอธิบายสถาปัตยกรรมและ long-context direction แต่ไม่ให้ตารางเปรียบเทียบครบทุก benchmark ที่ต้องการในผลค้นหาที่พบ [6]

  • แหล่งสำหรับ Kimi K2.6 ที่ใช้ได้ในรายงานนี้เป็นแหล่งเปรียบเทียบภายนอก ไม่ใช่เอกสาร benchmark ทางการของ Moonshot/Kimi ในผลค้นหาที่พบ [9]

  • งานวิชาการสนับสนุนข้อควรระวังว่าการวัด coding capability ต้องใช้ benchmark ที่ใกล้งานจริงกว่า HumanEval และควรพิจารณา benchmark ประเภท SWE-Bench หรือ issue-solving ร่วมด้วย [1]

Limitations / uncertainty

  • Insufficient evidence สำหรับตารางคะแนนครบทุก benchmark ของทั้ง 4 รุ่นใน harness เดียวกัน

  • คะแนนจากแหล่งต่างกันอาจใช้ prompt, sampling, tool access, reasoning mode, compute budget และ scoring pipeline ต่างกัน จึงไม่ควรนำตัวเลขจากคนละแหล่งมารวมเป็นอันดับเด็ดขาด

  • ข้อมูล DeepSeek V4 และ Kimi K2.6 ในรายงานนี้ยังไม่ครบด้าน coding, reasoning, multimodal, safety และ cost-performance เมื่อเทียบกับข้อมูล GPT-5.5 และ Claude Opus 4.7

  • ผล benchmark ของโมเดลรุ่น frontier เปลี่ยนเร็วมาก และควรตรวจซ้ำกับ model card, system card, technical report และ leaderboard ที่อัปเดตล่าสุดก่อนตัดสินใจใช้งานจริง

Summary

  • GPT-5.5 มีหลักฐานแข็งที่สุดในชุดนี้ด้าน agentic workflow และ GDPval โดยนำ Claude Opus 4.7 บน Terminal-Bench 2.0 และ GDPval [11]

  • Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ซึ่งเป็นสัญญาณสำคัญสำหรับงาน software engineering [11]

แหล่งที่มา

  • [2] Everything You Need to Know About GPT-5.5vellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [4] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...

  • [7] Introducing GPT-5.5 - OpenAIopenai.com

    Computer use and vision EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro OSWorld-Verified 78.7%75.0%--78.0%- MMMU Pro (no tools)81.2%81.2%---80.5% MMMU Pro (with tools)83.2%82.1%---- Tool use EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaud...

  • [20] System Prompts - Claude API Docsdocs.anthropic.com

    Claude Opus 4.7. April 16, 2026. Claude Sonnet 4.6. February 17, 2026. Claude Opus 4.6. February 5, 2026. Claude Opus 4.5. January 18, 2026. November 24, 2025 ...

  • [22] Petri 2.0: New Scenarios, New Model Comparisons, and Improved ...alignment.anthropic.com

    The two approaches are complementary: On Claude models, the interventions together lead to a 47.3% median relative drop in eval-awareness ... Jan 22, 2026

  • [30] [PDF] DeepSeek-V4: Towards Highly Efficient Million-Token Context ...huggingface.co

    Compared with the DeepSeek-V3 architecture (DeepSeek-AI, 2024), DeepSeek-V4 series retain the DeepSeekMoE framework (Dai et al., 2024) and Multi-Token Prediction (MTP) strategy, while introducing several key innovations in architecture and optimization. To...

  • [31] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [33] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6: Model Comparisonartificialanalysis.ai

    Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) Kimi logoKimi K2.6 Analysis --- --- Creator DeepSeek Kimi Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 256k tokens ( 384 A4 pages of size 12 Arial font) DeepSeek V4 Pro (Reas...

  • [35] Kimi K2.6 - Intelligence, Performance & Price Analysisartificialanalysis.ai

    Kimi K2.6 scores 54 on the Artificial Analysis Intelligence Index, placing it well above average among comparable models (averaging 28). When evaluating the Intelligence Index, it generated 160M tokens, which is very verbose in comparison to the average of...

  • [36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai

    ➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...

  • [42] A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Modelsarxiv.org

    … Existing benchmarks such as HumanEval fall short in their ability to … benchmarks like SWE-Bench are designed to evaluate the … on LLM evaluation, there remains a gap in benchmarks … 2024