studioglobal
熱門探索內容
報告已發布6 個來源

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: comparativa con nivel de evidencia

No hay base suficiente para proclamar un “campeón” entre los cuatro modelos: en la tabla de OpenAI, Claude Opus 4.7 supera a GPT 5.5 en SWE Bench Pro, 64,3% frente a 58,6%, pero GPT 5.5 lidera Terminal Bench 2.0, 82,7... Kimi K2.6 puede entrar en una lista corta si buscas modelos abiertos: Hugging Face lo describe c...

17K0
四個 AI 模型基準測試比較的抽象儀表板插圖
GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4:基準測試比較表與證據等級AI 生成示意圖;本文聚焦可核驗 benchmark 分數與來源等級。
AI 提示詞

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4:基準測試比較表與證據等級. Article summary: 目前不能公平排出四模型總冠軍:同表可比數據顯示 Claude Opus 4.7 在 SWE Bench Pro 64.3% vs GPT 5.5 58.6% 領先,但 GPT 5.5 在 Terminal Bench 2.0 82.7% vs 69.4% 領先;Kimi K2.6 與 DeepSeek V4 缺少同等級交叉驗證。[21]. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "OpenAI’s GPT-5.5, Anthropic’s Claude Opus 4.7, and DeepSeek V4 arrived close enough together to look like a clean three-way race. **GPT-5.5 is OpenAI’s bet on execution-heavy profe" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different ..." Reference image 2: visual subject "# DeepSeek V4 Pro vs Claude Opus 4.7 vs GPT-5.5: The Frontier in April 2026. DeepSeek V4 Pro undercuts GPT-5.5 by ~9x on outpu

openai.com

La pregunta parece sencilla —¿qué modelo gana entre GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4?—, pero la respuesta responsable es menos vistosa: depende de qué benchmark mires y de si los datos se midieron con el mismo criterio.

En esta comparación separo dos cosas que a menudo se mezclan: los resultados numéricos y el nivel de evidencia. La comparación más limpia es la de GPT-5.5 frente a Claude Opus 4.7, porque OpenAI publica una misma tabla donde aparecen ambos modelos en SWE-Bench Pro y Terminal-Bench 2.0.[21] Para Kimi K2.6, los datos disponibles proceden de su página en Hugging Face y de un artículo de terceros con cifras de SWE-Bench; para DeepSeek V4, las fuentes disponibles aquí no aportan benchmarks verificables suficientes.[32][34]

Tabla comparativa de benchmarks

En la tabla, “—” significa que las fuentes usadas para este artículo no ofrecen una cifra citable. No significa que el modelo no pueda realizar esa tarea. Tampoco conviene sumar resultados de pruebas distintas como si fueran una clasificación general.

ModeloSWE-Bench ProSWE-Bench VerifiedTerminal-Bench 2.0Otros datos visiblesNivel de evidencia y lectura
GPT-5.558,6% [21]82,7% [21]Expert-SWE, evaluación interna: 73,1%; OpenAI señala que otros laboratorios han observado indicios de memorización en esa evaluación.[21]A−: SWE-Bench Pro y Terminal-Bench 2.0 aparecen en la misma tabla de OpenAI que Claude Opus 4.7, por lo que son comparables entre ambos. Expert-SWE es interno y debe leerse con cautela.[21]
Claude Opus 4.764,3% [21]87,6% [4][6]69,4% [21]CursorBench: 70%.[4][6]A−/B: SWE-Bench Pro y Terminal-Bench 2.0 son comparables con GPT-5.5 en la tabla de OpenAI. SWE-Bench Verified y CursorBench aparecen sobre todo en recopilaciones de terceros; Verdent etiqueta el primero como evaluación realizada por Anthropic y el segundo como partner eval.[6][21]
Kimi K2.658,6% [34]80,2% [34]Hugging Face describe Kimi K2.6 como un modelo open-source, multimodal nativo y agéntico.[32]B, limitado: las cifras de SWE-Bench vienen de un artículo de terceros. En estas fuentes no aparece una tabla oficial completa que lo cruce con GPT-5.5 y Claude Opus 4.7 bajo el mismo marco.[32][34]
DeepSeek V4C, datos insuficientes: con las fuentes disponibles para este artículo no hay resultados verificables suficientes para incluirlo en un ranking numérico.

Lo importante no es “quién gana”, sino dónde gana

SWE-Bench Pro: ventaja para Claude Opus 4.7 frente a GPT-5.5

En la tabla de evaluación de OpenAI, Claude Opus 4.7 obtiene 64,3% en SWE-Bench Pro, por encima del 58,6% de GPT-5.5.[21] Es uno de los cruces más sólidos de esta comparación porque ambos modelos aparecen en la misma fuente y en el mismo benchmark.

Kimi K2.6 también aparece con 58,6% en SWE-Bench Pro en un artículo de Kilo AI.[34] La cifra lo coloca, al menos como señal preliminar, cerca de GPT-5.5. Pero no aparece en la misma tabla cruzada que GPT-5.5 y Claude Opus 4.7, así que no conviene tratarlo como un empate formal bajo idénticas condiciones.[21][34]

Terminal-Bench 2.0: GPT-5.5 supera a Claude Opus 4.7

La misma tabla de OpenAI da a GPT-5.5 un 82,7% en Terminal-Bench 2.0, frente al 69,4% de Claude Opus 4.7.[21] Si tu caso de uso se parece más a un agente que trabaja en terminal, ejecuta comandos o se mueve por flujos de desarrollo basados en línea de comandos, GPT-5.5 merece estar muy arriba en la lista de pruebas internas.

Aquí, sin embargo, falta una pieza importante: no hay cifras citables de Kimi K2.6 ni de DeepSeek V4 en Terminal-Bench 2.0 dentro de las fuentes disponibles. Por tanto, esta columna no permite ordenar a los cuatro modelos.

SWE-Bench Verified: Claude aparece por encima de Kimi, pero las fuentes no son equivalentes

Claude Opus 4.7 figura con 87,6% en SWE-Bench Verified en recopilaciones de benchmarks de terceros; Verdent indica que esa cifra corresponde a una evaluación realizada por Anthropic y que se aplicaron filtros de memorización.[4][6] Kimi K2.6 aparece con 80,2% en SWE-Bench Verified en el artículo de Kilo AI.[34]

Ambas cifras son útiles como orientación, pero no tienen el mismo peso que los datos de GPT-5.5 y Claude Opus 4.7 colocados en una misma tabla de OpenAI para SWE-Bench Pro y Terminal-Bench 2.0.[21]

Expert-SWE: una señal interesante, no una base para coronar a nadie

GPT-5.5 obtiene 73,1% en Expert-SWE, pero OpenAI lo presenta como una evaluación interna y añade que otros laboratorios han observado indicios de memorización en esa prueba.[21] Por eso, Expert-SWE puede servir como señal complementaria sobre GPT-5.5, pero no debería ser el pilar de un ranking general entre modelos.

Cómo elegir según el producto o el flujo de trabajo

Si tu prioridad es resolver issues complejos de software, Claude Opus 4.7 debería probarse pronto. En el dato más comparable de SWE-Bench Pro, Claude Opus 4.7 marca 64,3% frente al 58,6% de GPT-5.5.[21] Vellum interpreta esta comparación en el contexto de resolución de issues reales de GitHub.[24]

Si tu flujo se parece más a un coding agent que opera en terminal, GPT-5.5 parte con ventaja. Su 82,7% en Terminal-Bench 2.0 supera el 69,4% de Claude Opus 4.7 en la tabla de OpenAI.[21] Eso no significa que GPT-5.5 sea superior en toda tarea de programación, pero sí que destaca claramente en ese benchmark concreto.

Si necesitas una opción abierta, Kimi K2.6 merece entrar en la shortlist. Hugging Face lo describe como un modelo open-source, multimodal nativo y agéntico, y Kilo AI le atribuye 58,6% en SWE-Bench Pro y 80,2% en SWE-Bench Verified.[32][34] La cautela está en la evidencia: esas cifras no aparecen, en las fuentes de este artículo, dentro de una tabla oficial comparable con GPT-5.5 y Claude Opus 4.7.[21][34]

Si estás evaluando DeepSeek V4, lo prudente es esperar benchmarks verificables o hacer tus propias pruebas. Con las fuentes disponibles aquí, meterlo en una tabla de posiciones numérica sería más engañoso que útil.

Por qué esta comparativa no declara un ganador absoluto

La forma más rápida de equivocarse con benchmarks de modelos de lenguaje es mezclar fuentes, condiciones de prueba y tipos de tarea. Para evitarlo, conviene leer los datos en tres niveles:

  1. Benchmarks compartidos en una misma tabla. Es el caso de GPT-5.5 y Claude Opus 4.7 en SWE-Bench Pro y Terminal-Bench 2.0 dentro de la publicación de OpenAI; son los datos más comparables de este análisis.[21]
  2. Evaluaciones de proveedor o de socios recopiladas por terceros. Aquí entran, por ejemplo, SWE-Bench Verified y CursorBench para Claude Opus 4.7. Sirven como señal, pero hay que mirar quién midió y bajo qué condiciones.[4][6]
  3. Datos sin verificación cruzada suficiente o directamente ausentes. Kimi K2.6 tiene cifras competitivas en SWE-Bench procedentes de un artículo de terceros, mientras que DeepSeek V4 no cuenta aquí con benchmarks citables suficientes.[32][34]

La conclusión práctica es clara: Claude Opus 4.7 lidera frente a GPT-5.5 en SWE-Bench Pro; GPT-5.5 lidera frente a Claude Opus 4.7 en Terminal-Bench 2.0; Kimi K2.6 muestra números competitivos, pero con evidencia más limitada; y DeepSeek V4 queda como dato insuficiente en esta comparación.[21][32][34]

Para una decisión real de producto, esta tabla debería ser solo el punto de partida. El siguiente paso es probar los modelos con tus propios repositorios, lenguajes, herramientas, pruebas automatizadas, límites de latencia, costes y mecanismos de recuperación ante fallos. Ahí es donde una comparativa deja de ser una foto de benchmarks y empieza a parecerse al rendimiento que verás en producción.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

  • No hay base suficiente para proclamar un “campeón” entre los cuatro modelos: en la tabla de OpenAI, Claude Opus 4.7 supera a GPT 5.5 en SWE Bench Pro, 64,3% frente a 58,6%, pero GPT 5.5 lidera Terminal Bench 2.0, 82,7...
  • Kimi K2.6 puede entrar en una lista corta si buscas modelos abiertos: Hugging Face lo describe como un modelo open source, multimodal nativo y agéntico; un artículo de Kilo AI le atribuye 58,6% en SWE Bench Pro y 80,2...
  • DeepSeek V4 no debería entrar en un ranking numérico con estas fuentes: en el material disponible para este artículo no hay benchmarks verificables suficientes.

大家也會問

「GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: comparativa con nivel de evidencia」的簡短答案是什麼?

No hay base suficiente para proclamar un “campeón” entre los cuatro modelos: en la tabla de OpenAI, Claude Opus 4.7 supera a GPT 5.5 en SWE Bench Pro, 64,3% frente a 58,6%, pero GPT 5.5 lidera Terminal Bench 2.0, 82,7...

最值得優先驗證的重點是什麼?

No hay base suficiente para proclamar un “campeón” entre los cuatro modelos: en la tabla de OpenAI, Claude Opus 4.7 supera a GPT 5.5 en SWE Bench Pro, 64,3% frente a 58,6%, pero GPT 5.5 lidera Terminal Bench 2.0, 82,7... Kimi K2.6 puede entrar en una lista corta si buscas modelos abiertos: Hugging Face lo describe como un modelo open source, multimodal nativo y agéntico; un artículo de Kilo AI le atribuye 58,6% en SWE Bench Pro y 80,2...

接下來在實務上該怎麼做?

DeepSeek V4 no debería entrar en un ranking numérico con estas fuentes: en el material disponible para este artículo no hay benchmarks verificables suficientes.

下一步適合探索哪個相關主題?

繼續閱讀「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較:2026 年誰最值得信?」,從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較?

將這個答案與「DeepSeek V4 工程解析:1M 上下文、MoE 與 API 遷移重點」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

研究問題

研究 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 的基準測試,並為我以比較表形式展示。

Studio Global AI40 個來源

附引用的答案

先給你可用結論:在本次可核實資料裡,GPT-5.5 與 Claude Opus 4.7 的 benchmark 最完整,且在 OpenAI 同一張對照表上,Claude Opus 4.7 在 SWE-Bench Pro 以 64.3% 高於 GPT-5.5 的 58.6%,但 GPT-5.5 在 Terminal-Bench 2.0 以 82.7% 高於 Claude Opus 4.7 的 69.4%。[14] Kimi K2.6 目前只看到第三方摘要數值,DeepSeek V4 則缺乏足夠可核實 benchmark,因此我把「分數」與「證據等級」一起標在表裡。[4]

Key findings

模型SWE-Bench ProSWE-Bench VerifiedTerminal-Bench 2.0其他可見 benchmark證據等級 / 備註
GPT-5.558.6% [14]82.7% [14]Expert-SWE(Internal)73.1% [14]OpenAI 官方資料;OpenAI 也註記 Expert-SWE 有 memorization 風險提示,需保守解讀。[14]
Claude Opus 4.764.3% [14]87.6% [10]69.4% [14]CursorBench 70% [10]SWE-Bench Pro / Terminal-Bench 2.0 可與 GPT-5.5 同口徑比較。[14] Verified / CursorBench 來自第三方對 vendor/partner eval 的摘要,不是獨立 leaderboard。[10]
Kimi K2.658.6% [4]80.2% [4]目前僅見第三方摘要,未在本次證據集中交叉核實到官方完整 benchmark 頁面。[4]
DeepSeek V4Insufficient evidenceInsufficient evidenceInsufficient evidence本次檢索未取得足夠可核實 benchmark,暫不做數值比較。
  • 如果只看目前可同口徑對照的共享 benchmark,Claude Opus 4.7 在 SWE-Bench Pro 高於 GPT-5.5,而 GPT-5.5 在 Terminal-Bench 2.0 高於 Claude Opus 4.7。[14]
  • GPT-5.5 的 73.1% Expert-SWE 屬於 internal eval,且 OpenAI 自己提醒有 memorization caveat,因此不宜單獨把它當作總體排名依據。[14]
  • Claude Opus 4.7 的 87.6% SWE-Bench Verified 很強,但本次可用資料中,這個數值來自第三方摘要的 vendor/partner-eval 描述,可信度仍低於同張官方對照表裡的共享 benchmark。[10][14]
  • Kimi K2.6 依目前可見摘要,在 SWE-Bench Pro 與 GPT-5.5 同為 58.6%,且 SWE-Bench Verified 為 80.2%,但因缺乏同等級官方交叉驗證,我不建議直接把它與 GPT-5.5、Claude Opus 4.7 做嚴格總排名。[4][14]

Evidence notes

  • OpenAI 的比較表同時列出 GPT-5.5、GPT-5.4、Claude Opus 4.7 與 Gemini 3.1 Pro 在 SWE-Bench Pro 與 Terminal-Bench 2.0 的成績,所以這兩欄是本次最乾淨的 apples-to-apples 子集。[14]
  • Claude Opus 4.7 的 87.6% SWE-Bench Verified 與 70% CursorBench,在本次資料中來自第三方摘要,且摘要本身把它描述為 Anthropic-conducted / partner eval。[10]
  • Kimi K2.6 的數值來自本次檢索到的第三方結果摘要,而不是我已核實的官方 benchmark 表。[4]

Limitations / uncertainty

  • 四個模型沒有在完全一致的 benchmark 集上都公布足夠數字,因此如果你要的是「四家嚴格總排名」,目前證據不足。[14][10][4]
  • 目前可見的多數數據仍帶有廠商自報、合作方摘要或單一來源片段的限制,獨立重跑結果可能不同。[14][10]
  • DeepSeek V4:Insufficient evidence.

Summary

目前最穩妥的比較方式,是只拿共享 benchmark 來看:Claude Opus 4.7 在 SWE-Bench Pro 領先,GPT-5.5 在 Terminal-Bench 2.0 領先。[14] Kimi K2.6 看起來在 SWE-Bench 系列有競爭力,但證據等級較低。[4] DeepSeek V4 目前無法公平放入同一張排名表,因為可核實資料不足。

如果你要,我下一步可以幫你做兩個延伸版本:

  1. 只保留「官方來源」的極保守比較表。
  2. 擴充到 Artificial Analysis、Vals AI 等第三方榜單,做一版「更完整但混合來源」的比較表。

來源

  • [4] Claude Opus 4.7: Full Review, Benchmarks & Features (2026)buildfastwithai.com

    Claude Opus 4.7 Benchmarks: The Full Picture Claude Opus 4.7 leads all publicly available (non-preview) models on five major benchmarks as of April 16, 2026. The one exception is BrowseComp, which I will address in detail below. The headline: SWE-bench Pro...

  • [6] Claude Opus 4.7: What Changed for Coding Agents (April 2026)verdent.ai

    Benchmark Opus 4.6 Opus 4.7 GPT-5.4 Notes --- --- SWE-bench Verified 80.80% 87.60% — Anthropic-conducted; memorization screens applied SWE-bench Pro 53.50% 64.30% 57.70% Multi-language real-world tasks CursorBench 58% 70% — Source: Cursor CEO Michael Truell...

  • [21] Introducing GPT-5.5openai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...

  • [24] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    SWE-bench Pro: the coding crown stays with Anthropic Claude Opus 4.7 scores 64.3% versus GPT-5.5's 58.6% — a 5.7-point gap on real GitHub issue resolution. OpenAI's system card includes an asterisk noting "evidence of memorization" from other labs on this e...

  • [32] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co

    Kimi K2.6 is an open-source, native multimodal agentic model that advances practical capabilities in long-horizon coding, coding-driven design, ... 5 days ago

  • [34] Kimi K2.6 Has Arrived: An Open-Weight Powerhouse for Agentic Workblog.kilo.ai

    It scored an impressive 80.2% on SWE-Bench Verified and 58.6% on SWE-Bench Pro, showcasing its deep understanding of real-world software ... 5 days ago