studioglobal
熱門探索內容
報告已發布9 個來源

GPT-5.5, Claude Opus 4.7, DeepSeek V4 oder Kimi K2.6: Welches Modell passt?

Eine seriöse Gesamtkrone lässt sich aus den öffentlichen Daten nicht ableiten: GPT 5.5 liegt im sichtbaren Intelligence Index mit 60/59 sowie bei BrowseComp und Terminal Bench 2.0 vorn, Claude Opus 4.7 führt bei GPQA... DeepSeek V4 ist die klarste Preisoption: Öffentliche Übersichten nennen 1,74 / 3,48 US Dollar pro...

17K0
四款 AI 模型在基準測試與 API 價格上比較的抽象儀表板
GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 怎麼選?Benchmark 與價格比較AI 生成配圖:比較 GPT-5.5、Claude Opus 4.7、DeepSeek V4 與 Kimi K2.6 的性能與成本取捨。
AI 提示詞

Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 怎麼選?Benchmark 與價格比較. Article summary: 公開數據不支持一個絕對總冠軍:GPT 5.5 在可見 Intelligence Index 60/59、BrowseComp 84.4% 與 Terminal Bench 2.0 82.7% 最突出;Claude Opus 4.7 在 GPQA Diamond 94.2% 與 HLE no tools 46.9% 領先,Kimi K2.6 則缺少完整四方同場數據。[2][7]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://

openai.com

Eine einzige Rangliste wäre bequem: Platz 1, Platz 2, Platz 3, fertig. Bei GPT-5.5, Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 wäre genau das aber die falsche Abkürzung. Die verfügbaren öffentlichen Zahlen stammen aus unterschiedlichen Quellen, Modellmodi, Reasoning-Stufen und Test-Harnesses. LLM Stats weist für GPT-5.5 und Claude Opus 4.7 ausdrücklich darauf hin, dass mehrere Werte von den Anbietern in hohen Reasoning-Tiers gemeldet wurden und daher eher in der Form vergleichbar sind als in der Methodik.[3]

Die bessere Frage lautet also nicht: Welches Modell ist absolut das beste? Sondern: Welches Modell sollte für welche Aufgabe zuerst in den Testlauf?

Kurzentscheidung: welches Modell zuerst testen?

EinsatzfallZuerst testenWarum
Web-Recherche-Agenten, Terminal-Automatisierung, Workflows über mehrere ToolsGPT-5.5GPT-5.5 erreicht 84,4 % in BrowseComp und 82,7 % in Terminal-Bench 2.0; beide Werte liegen in der VentureBeat-Übersicht über den entsprechenden Werten für Claude Opus 4.7 und DeepSeek-V4-Pro-Max.[7]
Anspruchsvolles Reasoning, Review, Entscheidungen mit geringer FehlertoleranzClaude Opus 4.7Claude Opus 4.7 erreicht 94,2 % in GPQA Diamond und 46,9 % in Humanity’s Last Exam no-tools, jeweils vor GPT-5.5 und DeepSeek-V4-Pro-Max in derselben Übersicht.[7]
Hohe API-Last und strenger KostendruckDeepSeek V4DeepSeek V4 wird öffentlich mit 1,74 US-Dollar pro 1 Mio. Input-Token und 3,48 US-Dollar pro 1 Mio. Output-Token angegeben und liegt damit unter den gleichartig genannten Preisen für GPT-5.5 und Claude Opus 4.7.[1][17]
Open-Source-Coding-Agenten und lange Coding-ExperimenteKimi K2.6DocsBot beschreibt Kimi K2.6 als Open-Source-Modell mit nativer Multimodalität, Agentenfokus und 256K-Kontext; zugleich fehlt ein vollständiger öffentlicher Benchmark-Vergleich mit allen drei anderen Modellen.[5][4]

Die wichtigsten Benchmark- und Preisdaten

Bei DeepSeek sind die Bezeichnungen in den Quellen nicht vollständig deckungsgleich: Preisübersichten sprechen von DeepSeek V4 oder DeepSeek V4 Pro, einige Benchmark-Tabellen von DeepSeek-V4-Pro-Max.[1][7][17] Die folgende Tabelle übernimmt deshalb die Modellnamen aus den jeweiligen Quellen, statt verschiedene Konfigurationen stillschweigend gleichzusetzen.

KennzahlGPT-5.5Claude Opus 4.7DeepSeek V4 / V4-Pro-MaxKimi K2.6
Artificial Analysis Intelligence Indexxhigh 60; high 59.[2]Adaptive Reasoning, Max Effort 57.[2]Im sichtbaren Auszug kein gleicher Wert genannt.[2]Im sichtbaren Auszug kein gleicher Wert genannt.[2]
BrowseComp84,4 %.[7]79,3 %.[7]DeepSeek-V4-Pro-Max 83,4 %.[7]Kein öffentlicher Vierer-Vergleich belegt.
Terminal-Bench 2.082,7 %.[7][31]69,4 %.[7]67,9 %.[7]66,70 %, aber aus einem anderen Vergleich mit Kimi K2.6, Claude Opus 4.6 und GPT-5.4.[4]
SWE-Bench Pro58,6 %.[17][31]64,3 %.[17]DeepSeek V4 Pro 55,4 %.[17]58,60 %, aber laut Verdent mit Moonshot-internem Harness und nicht als vollständiger Vierer-Vergleich.[4]
GPQA Diamond93,6 %.[7]94,2 %.[7]DeepSeek-V4-Pro-Max 90,1 %.[7]Kein öffentlicher Vierer-Vergleich belegt.
Humanity’s Last Exam, no tools41,4 %; GPT-5.5 Pro 43,1 %.[7]46,9 %.[7]37,7 %.[7]Kein öffentlicher Vierer-Vergleich belegt.
API-Preis Eingabe / Ausgabe pro 1 Mio. Token5 / 30 US-Dollar; 1 Mio. Token Kontextfenster.[1]5 / 25 US-Dollar; 1 Mio. Token Kontextfenster.[1]1,74 / 3,48 US-Dollar; 1 Mio. Token Kontextfenster.[1]Kein gleichartiger Preis in den bereitgestellten Quellen; DocsBot nennt 256K Kontext.[5]

1. Gesamtindex: GPT-5.5 vorn, aber nicht automatisch Gesamtsieger

Artificial Analysis listet in der sichtbaren Zusammenfassung die führenden Modelle nach Intelligence Index so: GPT-5.5 xhigh mit 60, GPT-5.5 high mit 59 und Claude Opus 4.7 Adaptive Reasoning, Max Effort mit 57; ebenfalls mit 57 erscheinen Gemini 3.1 Pro Preview und GPT-5.4 xhigh.[2]

Das stützt eine begrenzte Aussage: In diesem sichtbaren Intelligence-Index-Ausschnitt liegt GPT-5.5 vor Claude Opus 4.7.[2] Es stützt aber keine vollständige Rangliste aller vier Modelle, weil für DeepSeek V4 und Kimi K2.6 im selben sichtbaren Ausschnitt keine gleichartigen Werte genannt werden.[2]

2. Agenten, Browser und Terminal: GPT-5.5 ist stark, DeepSeek beim Browsing sehr nah

BrowseComp zielt auf Web-Browsing-Fähigkeiten von KI-Agenten, insbesondere auf stark strukturierte Informationssuche. In der VentureBeat-Zusammenfassung steht GPT-5.5 bei 84,4 %, DeepSeek-V4-Pro-Max bei 83,4 % und Claude Opus 4.7 bei 79,3 %.[7] Für solche Browser-Agenten liegt DeepSeek-V4-Pro-Max damit nur knapp hinter GPT-5.5, während Claude Opus 4.7 in dieser Tabelle spürbar zurückliegt.[7]

Bei Terminal-Bench 2.0 ist der Abstand größer. VentureBeat nennt 82,7 % für GPT-5.5, 69,4 % für Claude Opus 4.7 und 67,9 % für DeepSeek; Yahoo / Investing.com beschreibt Terminal-Bench 2.0 als Test für Command-Line-Workflows und nennt ebenfalls 82,7 % für GPT-5.5.[7][31]

Kimi K2.6 hat zwar einen sichtbaren Terminal-Bench-2.0-Wert von 66,70 %, doch dieser stammt aus einer anderen Gegenüberstellung mit Kimi K2.6, Claude Opus 4.6 und GPT-5.4, nicht aus einem Vierer-Vergleich mit GPT-5.5, Claude Opus 4.7 und DeepSeek V4.[4]

3. Coding und Software-Engineering: Claude führt bei SWE-Bench Pro, Tool-Ketten sind ein anderes Bild

DataCamp führt für SWE-Bench Pro 55,4 % für DeepSeek V4 Pro, 58,6 % für GPT-5.5 und 64,3 % für Claude Opus 4.7 auf.[17] Yahoo / Investing.com nennt ebenfalls 58,6 % für GPT-5.5 und beschreibt SWE-Bench Pro als Benchmark für die Lösung von GitHub-Issues.[31]

Für Kimi K2.6 sind die Coding-Zahlen interessant, aber vorsichtig zu lesen. Verdent nennt 58,60 % in SWE-Bench Pro, 80,20 % in SWE-Bench Verified und 89,60 % in LiveCodeBench v6; zugleich steht dort, dass die Kimi-K2.6-Zahlen aus der offiziellen Moonshot-Model-Card stammen und SWE-Bench Pro mit einem Moonshot-internen Harness gemessen wurde.[4] Damit gehört Kimi K2.6 in die engere Auswahl für Coding-Agent-Experimente, aber diese Zahlen sollten nicht hart in dieselbe Rangliste mit GPT-5.5, Claude Opus 4.7 und DeepSeek V4 einsortiert werden.[4]

Praktisch heißt das: Wer große Repositories reparieren, Pull Requests prüfen oder lange Coding-Agenten laufen lassen will, sollte mehr als einen SWE-Wert betrachten. Claude Opus 4.7 hat in der sichtbaren SWE-Bench-Pro-Gegenüberstellung den höchsten Wert; GPT-5.5 liegt bei langen Tool- und Terminal-Workflows vorn; Kimi K2.6 braucht Tests auf den eigenen Repositories und der eigenen Toolchain.[17][7][4]

4. Reasoning und Review: Claude Opus 4.7 hat den klareren sichtbaren Vorteil

Für schwierige Wissens- und Reasoning-Tests sieht Claude Opus 4.7 in den sichtbaren Zahlen besonders stark aus. VentureBeat nennt für GPQA Diamond 94,2 % bei Claude Opus 4.7, 93,6 % bei GPT-5.5 und 90,1 % bei DeepSeek-V4-Pro-Max. Bei Humanity’s Last Exam no-tools stehen 46,9 % für Claude Opus 4.7, 41,4 % für GPT-5.5, 43,1 % für GPT-5.5 Pro und 37,7 % für DeepSeek-V4-Pro-Max.[7]

Auch LLM Stats kommt in der Einordnung von GPT-5.5 und Claude Opus 4.7 zu einem ähnlichen Muster: In den zehn Benchmarks, die beide Anbieter berichten, führt Opus 4.7 in sechs und GPT-5.5 in vier; die Claude-Vorteile liegen vor allem bei reasoning-heavy und review-grade Tests, während GPT-5.5 bei long-running tool-use Tests stärker ist.[3]

5. Preis und Kontextfenster: DeepSeek V4 ist der Kostenhebel

Mashable nennt für DeepSeek V4 1,74 US-Dollar pro 1 Mio. Input-Token und 3,48 US-Dollar pro 1 Mio. Output-Token, jeweils mit 1 Mio. Token Kontextfenster. In derselben Preisübersicht stehen GPT-5.5 bei 5 US-Dollar pro 1 Mio. Input-Token und 30 US-Dollar pro 1 Mio. Output-Token sowie Claude Opus 4.7 bei 5 US-Dollar pro 1 Mio. Input-Token und 25 US-Dollar pro 1 Mio. Output-Token, beide ebenfalls mit 1 Mio. Token Kontextfenster.[1]

DataCamp verwendet denselben Preisrahmen für DeepSeek V4 Pro, GPT-5.5 und Claude Opus 4.7 und nennt für alle drei ein Kontextfenster von rund 1 Mio. Token.[17] In den verfügbaren Preisangaben ist DeepSeek V4 damit deutlich günstiger als GPT-5.5 und Claude Opus 4.7; zusammen mit 83,4 % für DeepSeek-V4-Pro-Max in BrowseComp gegenüber 84,4 % für GPT-5.5 macht das DeepSeek zu einem naheliegenden Kandidaten für kostenkritische API-Routen.[1][7][17]

Für Kimi K2.6 enthalten die bereitgestellten Quellen keinen gleichartigen API-Preis. DocsBot beschreibt Kimi K2.6 jedoch als Open-Source-Agentenmodell für long-horizon coding, coding-driven design, autonome Ausführung und swarm-based orchestration und nennt 256K Kontext.[5]

Praktischer Aufbau: nicht ein Modell wählen, sondern routen

Für viele Produktteams ist die beste Antwort nicht, ein einziges Modell dauerhaft zum Standard zu erklären. Sinnvoller ist eine kleine Routing-Architektur mit eigenen Regressionstests.

  1. GPT-5.5 als Premium-Baseline für Agenten-Workflows testen. Es führt in BrowseComp und Terminal-Bench 2.0 und hat zusätzlich starke von OpenAI genannte Werte für werkzeugnahe Wissensarbeit, darunter 84,9 % auf GDPval, 78,7 % auf OSWorld-Verified und 98,0 % auf Tau2-bench Telecom.[7][23]
  2. Claude Opus 4.7 für Reasoning, Review und niedrige Fehlertoleranz prüfen. Die sichtbaren Vorteile liegen bei GPQA Diamond, Humanity’s Last Exam no-tools sowie in den von LLM Stats gruppierten reasoning-heavy und review-grade Tests.[7][3]
  3. DeepSeek V4 für hohe API-Volumina und Kostensenkung in die Route aufnehmen. Die genannten Tokenpreise liegen deutlich unter GPT-5.5 und Claude Opus 4.7, während DeepSeek-V4-Pro-Max in BrowseComp nahe an GPT-5.5 liegt.[1][7]
  4. Kimi K2.6 als Open-Source-Coding-Agent im eigenen Stack testen. Die verfügbaren Coding- und Agentenwerte sind interessant, aber es fehlt ein sauberer öffentlicher Vierer-Vergleich; eigene Repositories, eigene Tools und eigene Erfolgskriterien sind daher entscheidend.[4][5]

Der Test sollte streng gleich aufgebaut sein: identische Prompts, gleiche Tool-Rechte, vergleichbare Kontextlängen, einheitliche Erfolgskriterien und eine klare Kostenerfassung. Öffentliche Benchmarks helfen bei der Priorisierung; sie ersetzen aber nicht die Prüfung auf realen Aufgaben, weil BrowseComp, Terminal-Bench 2.0 und SWE-Bench Pro jeweils unterschiedliche Arbeitsarten abbilden.[3][7][31]

Wichtige Einschränkungen

  • Nicht alle Modelle wurden im selben Setup verglichen. Für GPT-5.5, Claude Opus 4.7 und DeepSeek-V4-Pro-Max gibt es in der VentureBeat-Übersicht mehrere gemeinsame Zahlen; Kimi K2.6 stammt vor allem aus einem anderen Vergleich mit Claude Opus 4.6 und GPT-5.4.[7][4]
  • Die Modellkonfigurationen unterscheiden sich. Artificial Analysis nennt GPT-5.5 als xhigh und high, Claude Opus 4.7 als Adaptive Reasoning, Max Effort; VentureBeat verwendet DeepSeek-V4-Pro-Max. Das muss nicht dem jeweiligen Standard-API-Modus entsprechen.[2][7]
  • Anbieterangaben und Drittvergleiche sind nicht dasselbe. LLM Stats warnt, dass mehrere GPT-5.5- und Claude-Opus-4.7-Werte in hohen Reasoning-Tiers selbst berichtet wurden und methodisch nicht vollständig gleichzusetzen sind.[3]
  • Benchmarks sind aufgabenbezogen. BrowseComp misst Web-Browsing-Agenten, Terminal-Bench 2.0 Command-Line-Workflows und SWE-Bench Pro GitHub-Issue-Resolution; keiner dieser Tests sagt allein, welches Modell in Ihrem Produkt zuverlässig gewinnt.[7][31]

Fazit

Wenn nur die sichtbaren öffentlichen Daten zählen, ist GPT-5.5 der stärkste Kandidat für Agenten-Workflows, Tool-Nutzung und die sichtbare Gesamtindex-Spitze. Claude Opus 4.7 ist besonders überzeugend bei Reasoning und Review-Aufgaben. DeepSeek V4 ist die attraktivste Preisoption für hohe API-Volumina. Kimi K2.6 gehört in den Open-Source- und Coding-Agent-Testpool, sollte aber mangels vollständiger Vierer-Benchmarks nicht unfair in eine harte Gesamtrangliste gedrückt werden.[2][3][1][4][5]

Die nüchterne Auswahl lautet daher: erst nach Aufgabe routen, dann mit eigenen Daten messen. Benchmarks entscheiden, wen man zuerst testet; die endgültige Modellwahl hängt von Fehlerrisiko, Durchsatz, Tokenkosten und dem realen Workflow ab.[3][7][31]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

  • Eine seriöse Gesamtkrone lässt sich aus den öffentlichen Daten nicht ableiten: GPT 5.5 liegt im sichtbaren Intelligence Index mit 60/59 sowie bei BrowseComp und Terminal Bench 2.0 vorn, Claude Opus 4.7 führt bei GPQA...
  • DeepSeek V4 ist die klarste Preisoption: Öffentliche Übersichten nennen 1,74 / 3,48 US Dollar pro 1 Mio.
  • Für die Praxis spricht vieles für Routing statt Einheitsmodell: GPT 5.5 für Tool Agenten, Claude Opus 4.7 für Reasoning und Review, DeepSeek V4 für kostenkritische API Last und Kimi K2.6 für Open Source Coding Agent E...

大家也會問

「GPT-5.5, Claude Opus 4.7, DeepSeek V4 oder Kimi K2.6: Welches Modell passt?」的簡短答案是什麼?

Eine seriöse Gesamtkrone lässt sich aus den öffentlichen Daten nicht ableiten: GPT 5.5 liegt im sichtbaren Intelligence Index mit 60/59 sowie bei BrowseComp und Terminal Bench 2.0 vorn, Claude Opus 4.7 führt bei GPQA...

最值得優先驗證的重點是什麼?

Eine seriöse Gesamtkrone lässt sich aus den öffentlichen Daten nicht ableiten: GPT 5.5 liegt im sichtbaren Intelligence Index mit 60/59 sowie bei BrowseComp und Terminal Bench 2.0 vorn, Claude Opus 4.7 führt bei GPQA... DeepSeek V4 ist die klarste Preisoption: Öffentliche Übersichten nennen 1,74 / 3,48 US Dollar pro 1 Mio.

接下來在實務上該怎麼做?

Für die Praxis spricht vieles für Routing statt Einheitsmodell: GPT 5.5 für Tool Agenten, Claude Opus 4.7 für Reasoning und Review, DeepSeek V4 für kostenkritische API Last und Kimi K2.6 für Open Source Coding Agent E...

下一步適合探索哪個相關主題?

繼續閱讀「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較:2026 年誰最值得信?」,從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較?

將這個答案與「DeepSeek V4 工程解析:1M 上下文、MoE 與 API 遷移重點」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

研究問題

研究 Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 的基準測試,並盡可能全面地進行比較。

Studio Global AI35 個來源

附引用的答案

基於你提供的證據,能比較出的結論是:GPT-5.5 在可見的綜合智能排名與 BrowseComp 中領先;DeepSeek V4/DeepSeek-V4-Pro-Max 在 BrowseComp、Terminal-Bench 2.0 和價格上顯示出很強的性價比;Claude Opus 4.7 仍屬前排模型;Kimi K2.6 的可用基準數據最少,因此無法做同等完整排名。證據來源有限且多為摘要片段,以下比較應視為「基於現有證據的部分比較」,不是完整評測。

Key findings

  • 綜合智能排名方面,GPT-5.5 領先。 Artificial Analysis 摘要列出的 Intelligence Index 前五名中,GPT-5.5 xhigh 為 60 分、GPT-5.5 high 為 59 分,Claude Opus 4.7 Adaptive Reasoning Max Effort 為 57 分,與 Gemini 3.1 Pro Preview、GPT-5.4 xhigh 同分段出現;該摘要沒有給出 DeepSeek V4 或 Kimi K2.6 的具體 Intelligence Index 分數。[4]

  • BrowseComp 上,GPT-5.5 略高於 DeepSeek-V4-Pro-Max,Claude Opus 4.7 落後一些。 VentureBeat 摘要稱 DeepSeek-V4-Pro-Max 在 BrowseComp 得分 83.4%,GPT-5.5 為 84.4%,Claude Opus 4.7 為 79.3%。[5]

  • Terminal-Bench 2.0 上,DeepSeek V4 有可見分數,但其他模型細節不足。 VentureBeat 摘要稱 DeepSeek 在 Terminal-Bench 2.0 得分 67.9%,並稱其接近 Claude Opus 4.7,但摘要沒有提供 Claude Opus 4.7 的完整數字,也沒有提供 GPT-5.5 或 Kimi K2.6 的 Terminal-Bench 2.0 分數。[5]

  • 成本方面,DeepSeek V4 明顯低於 GPT-5.5;Claude Opus 4.7 的輸入價格片段可見但輸出價格不完整。 Mashable 摘要稱 DeepSeek V4 的 API 價格為每 100 萬輸入 token $1.74、每 100 萬輸出 token $3.48,且上下文窗口為 100 萬;同一摘要稱 GPT-5.5 為每 100 萬輸入 token $5、每 100 萬輸出 token $30,且上下文窗口為 100 萬。[3] Mashable 摘要也顯示 Claude Opus 4.7 的輸入價格為每 100 萬 token $5,但輸出價格在提供片段中被截斷。[3]

  • DeepSeek V4 的性價比主張較強,但需要完整原文驗證。 VentureBeat 標題稱 DeepSeek-V4 以 Opus 4.7/GPT-5.5 約六分之一成本達到接近最先進智能,但目前可用證據只提供部分 benchmark 與價格片段,缺少完整計算方法。[5]

  • Kimi K2.6 的基準證據不足。 可用證據中有 Claude Opus 4.7 與 Kimi K2.6 的 SourceForge 比較頁,以及 Artificial Analysis 的 DeepSeek V4 Pro 與 Kimi K2.6 比較頁標題,但片段沒有提供 Kimi K2.6 的具體分數、價格、上下文窗口或任務表現。[2][4]

基準與價格對照

維度GPT-5.5Claude Opus 4.7DeepSeek V4 / V4-Pro-MaxKimi K2.6
Intelligence Indexxhigh 60;high 59。[4]Adaptive Reasoning Max Effort 57。[4]可用片段未提供分數。[4]可用片段未提供分數。[4]
BrowseComp84.4%。[5]79.3%。[5]DeepSeek-V4-Pro-Max 83.4%。[5]無可用分數。
Terminal-Bench 2.0無可用分數。摘要稱 DeepSeek 接近 Claude,但未給完整 Claude 分數。[5]67.9%。[5]無可用分數。
API 價格$5 / 100 萬輸入 token;$30 / 100 萬輸出 token;100 萬上下文。[3]可見片段顯示 $5 / 100 萬輸入 token;輸出價格片段不完整。[3]$1.74 / 100 萬輸入 token;$3.48 / 100 萬輸出 token;100 萬上下文。[3]無可用價格。
證據充分度中等:有官方系統卡存在、第三方排名與價格片段。[7][4][3]中等偏低:有第三方排名與部分價格/benchmark。[4][5][3]中等:有 BrowseComp、Terminal-Bench、價格片段。[5][3]低:只有比較頁存在,缺少具體 benchmark 數字。[2][4]

Evidence notes

  • GPT-5.5 的官方性較強,但官方 benchmark 片段不足。 OpenAI 的 GPT-5.5 System Card 於 2026 年 4 月 23 日發布,但提供的片段沒有列出具體 benchmark 成績。[7]

  • 第三方 benchmark 來源比個人測試更適合做排名依據。 Artificial Analysis 提供了 Intelligence Index 排名片段,VentureBeat 提供了 BrowseComp 和 Terminal-Bench 2.0 的部分數字,因此這兩類證據比 LinkedIn 個人測試更適合作為量化比較依據。[4][5][31]

  • 個人實測只能作為補充,不宜作為排名依據。 LinkedIn 摘要描述一名用戶用 GPT-5.5 Codex 與 Claude Code on Opus 4.7 做了 4 個 one-shot head-to-head 實驗,並指出 benchmark 只能說明部分情況;但摘要沒有提供可複核的分數表或完整任務結果。[31]

  • SourceForge 對 Claude Opus 4.7 與 Kimi K2.6 的比較主要是產品/公司資訊,不是 benchmark 數據。 該片段顯示 Anthropic 與 Moonshot AI 的公司資訊,以及 Claude Opus 4.7 vs Kimi K2.6 的比較頁存在,但沒有提供模型能力分數。[2]

Limitations / uncertainty

  • Insufficient evidence. 目前證據不足以對四個模型做「全面」基準排名,因為 Kimi K2.6 缺少具體 benchmark 數字,DeepSeek V4 在 Intelligence Index 中也沒有可見分數。[2][4]

  • 不同來源可能使用不同模型配置。 Artificial Analysis 中 GPT-5.5 有 xhigh/high,Claude Opus 4.7 有 Adaptive Reasoning Max Effort;VentureBeat 則提到 DeepSeek-V4-Pro-Max,這些配置不一定代表普通 API 默認模式。[4][5]

  • 部分價格與 benchmark 資訊被截斷。 Mashable 片段提供 DeepSeek V4 與 GPT-5.5 的完整輸入/輸出價格,但 Claude Opus 4.7 的輸出價格沒有出現在可用片段中。[3]

  • BrowseComp 和 Terminal-Bench 2.0 不能代表所有任務。 BrowseComp 偏向 agentic web browsing,Terminal-Bench 2.0 偏向終端/開發環境任務;它們不能直接代表寫作、長上下文理解、多語言、數學、視覺或企業安全表現。[5]

Summary

  • 若只看可見綜合智能排名:GPT-5.5 第一,Claude Opus 4.7 屬第一梯隊;DeepSeek V4 與 Kimi K2.6 因缺少同表分數無法排序。[4]

  • 若看 BrowseComp:GPT-5.5 84.4% 最高,DeepSeek-V4-Pro-Max 83.4% 非常接近,Claude Opus 4.7 為 79.3%;Kimi K2.6 無可用分數。[5]

  • 若看性價比:DeepSeek V4 的可見 API 價格明顯低於 GPT-5.5,且其 BrowseComp 接近 GPT-5.5;但完整成本結論仍需 Claude 與 Kimi 的完整價格和更多任務分數。[3][5]

  • 最可靠的結論是:GPT-5.5 在現有證據中性能最強,DeepSeek V4 最像高性價比追趕者,Claude Opus 4.7 仍在高端模型梯隊,Kimi K2.6 目前證據不足,不能公平排名。[4][5][2]

來源

  • [1] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [2] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6artificialanalysis.ai

    What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...

  • [3] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com

    The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...

  • [4] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...

  • [5] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai

    Kimi K2.6 Kimi K2.6 is Moonshot AI's latest open-source native multimodal agentic model, advancing long-horizon coding, coding-driven design, proactive autonomous execution, and swarm-based task orchestration. It keeps the Kimi K2.5 1T parameter MoE archite...

  • [7] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    DeepSeek-V4-Pro-Max’s best showing is on BrowseComp, the benchmark measuring agentic AI web browsing prowess (especially highly containerized information), where it scores 83.4%, narrowly behind GPT-5.5 at 84.4% andahead of Claude Opus 4.7 at 79.3%. On Term...

  • [17] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com

    DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...

  • [23] Introducing GPT-5.5 - OpenAIopenai.com

    GPT‑5.5 reaches state-of-the-art performance across multiple benchmarks that reflect this kind of work. OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. On OSWorld-Verified, whic...

  • [31] OpenAI releases GPT-5.5 with improved coding and research capabilitiesuk.finance.yahoo.com

    Louis Juricic 1 min read Investing.com -- OpenAI announced Thursday the release of GPT-5.5, its latest AI model now available to Plus, Pro, Business, and Enterprise users through ChatGPT and Codex platforms. The model achieved 82.7% accuracy on Terminal-Ben...