studioglobal
熱門探索內容
報告已發布9 個來源

GPT-5.5, Claude Opus 4.7, DeepSeek V4 o Kimi K2.6: guía práctica para elegir

Los datos públicos no sostienen un ranking absoluto: GPT 5.5 lidera en el Intelligence Index visible con 60/59 y sobresale en BrowseComp con 84,4 % y Terminal Bench 2.0 con 82,7 %, mientras Claude Opus 4.7 lidera GPQA... DeepSeek V4 tiene la ventaja de coste más clara: los resúmenes públicos lo sitúan en US$1,74 por...

17K0
四款 AI 模型在基準測試與 API 價格上比較的抽象儀表板
GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 怎麼選?Benchmark 與價格比較AI 生成配圖:比較 GPT-5.5、Claude Opus 4.7、DeepSeek V4 與 Kimi K2.6 的性能與成本取捨。
AI 提示詞

Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 怎麼選?Benchmark 與價格比較. Article summary: 公開數據不支持一個絕對總冠軍:GPT 5.5 在可見 Intelligence Index 60/59、BrowseComp 84.4% 與 Terminal Bench 2.0 82.7% 最突出;Claude Opus 4.7 在 GPQA Diamond 94.2% 與 HLE no tools 46.9% 領先,Kimi K2.6 則缺少完整四方同場數據。[2][7]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://

openai.com

Comparar GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6 como si fueran corredores en una sola carrera puede llevar a una mala decisión. Las cifras públicas vienen de fuentes, configuraciones y arneses de prueba distintos. LLM Stats, por ejemplo, advierte que parte de las puntuaciones de GPT-5.5 y Claude Opus 4.7 son autodeclaradas por los proveedores en niveles de razonamiento alto: sirven para ver tendencias, pero no equivalen a una metodología idéntica.[3]

La lectura más útil para un equipo de producto o ingeniería es otra: elegir primero qué tarea se quiere optimizar. Si el objetivo es un agente que navega, usa terminal y coordina herramientas, GPT-5.5 aparece como el candidato de referencia. Si la prioridad es razonamiento difícil, revisión o decisiones con poco margen de error, Claude Opus 4.7 gana peso. Si el problema es escalar llamadas API sin disparar el presupuesto, DeepSeek V4 es el primer modelo que conviene probar. Y si se explora un coding agent open source, Kimi K2.6 debe entrar en la lista, aunque no haya todavía una comparación pública completa y homogénea contra los otros tres.[3][4][5][7]

La respuesta rápida: qué probar primero

Necesidad principalModelo que conviene probar primeroPor qué
Navegación web agentic, automatización de terminal, flujos con varias herramientasGPT-5.5En BrowseComp marca 84,4 % y en Terminal-Bench 2.0 llega a 82,7 %, por encima de Claude Opus 4.7 y DeepSeek-V4-Pro-Max en los datos resumidos por VentureBeat.[7]
Razonamiento complejo, revisión, decisiones con bajo margen de errorClaude Opus 4.7Lidera GPQA Diamond con 94,2 % y Humanity’s Last Exam sin herramientas con 46,9 %, por delante de GPT-5.5 y DeepSeek-V4-Pro-Max en esa tabla.[7]
API de alto volumen y sensibilidad al costeDeepSeek V4Sus precios públicos son US$1,74 por millón de tokens de entrada y US$3,48 por millón de tokens de salida, más bajos que los de GPT-5.5 y Claude Opus 4.7 en la misma comparación.[1][17]
Experimentos con coding agents open source y flujos largos de desarrolloKimi K2.6DocsBot lo describe como un modelo agentic multimodal nativo y open source de Moonshot AI, con contexto de 256K; aun así, faltan benchmarks públicos completos y comparables contra los otros tres.[5][4]

Benchmarks y precios: la foto comparativa

Hay que leer la tabla con una precaución importante: la nomenclatura de DeepSeek no siempre aparece igual. Algunas fuentes de precio hablan de DeepSeek V4 o DeepSeek V4 Pro; algunos benchmarks citan DeepSeek-V4-Pro-Max.[1][7][17] Para no mezclar configuraciones, aquí se mantiene el nombre usado por cada fuente.

MétricaGPT-5.5Claude Opus 4.7DeepSeek V4 / V4-Pro-MaxKimi K2.6
Artificial Analysis Intelligence Indexxhigh 60; high 59.[2]Adaptive Reasoning, Max Effort 57.[2]El resumen disponible no da una puntuación equivalente.[2]El resumen disponible no da una puntuación equivalente.[2]
BrowseComp84,4 %.[7]79,3 %.[7]DeepSeek-V4-Pro-Max: 83,4 %.[7]No aparece una puntuación pública en la misma comparación.
Terminal-Bench 2.082,7 %.[7][31]69,4 %.[7]67,9 %.[7]66,70 %, pero en otra comparación con Kimi K2.6, Claude Opus 4.6 y GPT-5.4, no en una prueba a cuatro bandas.[4]
SWE-Bench Pro58,6 %.[17][31]64,3 %.[17]DeepSeek V4 Pro: 55,4 %.[17]58,60 %, pero Verdent indica que usa un harness interno de Moonshot y no compara contra GPT-5.5, Claude Opus 4.7 y DeepSeek V4 en igualdad de condiciones.[4]
GPQA Diamond93,6 %.[7]94,2 %.[7]DeepSeek-V4-Pro-Max: 90,1 %.[7]No aparece una puntuación pública en la misma comparación.
Humanity’s Last Exam, sin herramientas41,4 %; GPT-5.5 Pro figura con 43,1 %.[7]46,9 %.[7]37,7 %.[7]No aparece una puntuación pública en la misma comparación.
Precio API, entrada / salida por millón de tokensUS$5 / US$30; ventana de contexto de 1M.[1]US$5 / US$25; ventana de contexto de 1M.[1]US$1,74 / US$3,48; ventana de contexto de 1M.[1]Las fuentes dadas no ofrecen precio equivalente; DocsBot resume su contexto como 256K.[5]

GPT-5.5: el candidato fuerte para agentes y uso de herramientas

En el resumen visible de Artificial Analysis, GPT-5.5 ocupa las dos primeras posiciones del Intelligence Index: GPT-5.5 xhigh con 60 y GPT-5.5 high con 59. Claude Opus 4.7, en modo Adaptive Reasoning, Max Effort, aparece con 57.[2] Eso permite una conclusión limitada: en ese índice visible, GPT-5.5 está por delante de Claude Opus 4.7. No permite, en cambio, construir un ranking total de los cuatro modelos, porque DeepSeek V4 y Kimi K2.6 no aparecen con puntuaciones equivalentes en el mismo resumen.[2]

Donde GPT-5.5 muestra una ventaja más accionable es en tareas agentic. BrowseComp mide navegación web por agentes, especialmente búsqueda de información en entornos muy acotados; VentureBeat recoge 84,4 % para GPT-5.5, 83,4 % para DeepSeek-V4-Pro-Max y 79,3 % para Claude Opus 4.7.[7] En Terminal-Bench 2.0, la distancia es mayor: GPT-5.5 llega a 82,7 %, frente a 69,4 % de Claude Opus 4.7 y 67,9 % de DeepSeek.[7] Yahoo / Investing.com también describe Terminal-Bench 2.0 como una prueba de flujos de línea de comandos y cita el 82,7 % de GPT-5.5.[31]

OpenAI, además, atribuye a GPT-5.5 resultados altos en pruebas de trabajo con herramientas: 84,9 % en GDPval, 78,7 % en OSWorld-Verified y 98,0 % en Tau2-bench Telecom sin ajuste de prompt.[23] Para un equipo que está construyendo agentes que abren páginas, ejecutan comandos, manipulan archivos o pasan de una herramienta a otra, GPT-5.5 es el punto de referencia más sólido con los datos disponibles.[7][23]

Claude Opus 4.7: más convincente en razonamiento y revisión

Claude Opus 4.7 aparece especialmente fuerte en pruebas de razonamiento difícil. En la tabla resumida por VentureBeat, lidera GPQA Diamond con 94,2 %, por encima de GPT-5.5 con 93,6 % y DeepSeek-V4-Pro-Max con 90,1 %. También encabeza Humanity’s Last Exam sin herramientas con 46,9 %, frente al 41,4 % de GPT-5.5, el 43,1 % de GPT-5.5 Pro y el 37,7 % de DeepSeek-V4-Pro-Max.[7]

La lectura de LLM Stats va en la misma dirección. En los 10 benchmarks que ambos proveedores reportan, Claude Opus 4.7 lidera 6 y GPT-5.5 lidera 4; Claude destaca más en pruebas de razonamiento y revisión, mientras GPT-5.5 se impone en pruebas largas de uso de herramientas.[3]

En desarrollo de software, el matiz es importante. DataCamp recoge en SWE-Bench Pro un 64,3 % para Claude Opus 4.7, 58,6 % para GPT-5.5 y 55,4 % para DeepSeek V4 Pro.[17] Eso favorece a Claude en esa prueba concreta. Pero si el flujo real incluye terminal, navegación, ejecución de comandos y corrección iterativa, el resultado puede depender más del harness, las herramientas disponibles y la forma de evaluar que de una sola cifra de SWE-Bench.[3][7][31]

DeepSeek V4: la opción de coste que no se puede ignorar

La ventaja más clara de DeepSeek V4 está en el precio. Mashable resume su API en US$1,74 por millón de tokens de entrada y US$3,48 por millón de tokens de salida, con ventana de contexto de 1 millón de tokens. En la misma comparación, GPT-5.5 figura en US$5 por millón de tokens de entrada y US$30 por millón de salida, y Claude Opus 4.7 en US$5 y US$25, también con ventana de contexto de 1 millón.[1]

DataCamp usa una lectura similar: DeepSeek V4 Pro aparece con US$1,74 / US$3,48 por millón de tokens de entrada y salida, GPT-5.5 con US$5 / US$30 y Claude Opus 4.7 con US$5 / US$25, con contextos cercanos a 1M tokens.[17] Si una aplicación genera muchas llamadas, muchas respuestas largas o grandes volúmenes de procesamiento automático, esa diferencia puede cambiar por completo la economía del producto.

Lo relevante es que DeepSeek no solo compite por precio. En BrowseComp, DeepSeek-V4-Pro-Max marca 83,4 %, muy cerca del 84,4 % de GPT-5.5 y por encima del 79,3 % de Claude Opus 4.7 en esa tabla.[7] Su punto débil visible está en Terminal-Bench 2.0, donde 67,9 % queda lejos del 82,7 % de GPT-5.5.[7] Por eso, DeepSeek V4 parece especialmente atractivo como ruta API económica para tareas en las que el coste pesa mucho y el rendimiento se pueda validar con pruebas propias.[1][7][17]

Kimi K2.6: prometedor para coding agents, pero necesita evaluación propia

Kimi K2.6 es el más difícil de colocar en una comparativa justa. DocsBot lo describe como el último modelo agentic multimodal nativo y open source de Moonshot AI, orientado a long-horizon coding, diseño impulsado por código, ejecución autónoma y orquestación de tareas con enjambres de agentes. También resume que mantiene una arquitectura MoE de 1T parámetros con 32B activados y contexto de 256K.[5]

Sus cifras de coding merecen atención, pero no deben mezclarse sin más con las de los otros tres modelos. Verdent recoge para Kimi K2.6 58,60 % en SWE-Bench Pro, 80,20 % en SWE-Bench Verified, 66,70 % en Terminal-Bench 2.0 y 89,60 % en LiveCodeBench v6. La propia fuente indica que los números de Kimi K2.6 vienen de la model card oficial de Moonshot AI y que SWE-Bench Pro usa un harness interno de Moonshot; además, la comparación principal es contra Claude Opus 4.6 y GPT-5.4, no contra GPT-5.5, Claude Opus 4.7 y DeepSeek V4 en el mismo banco de pruebas.[4]

La conclusión práctica: Kimi K2.6 puede ser muy interesante si el equipo quiere experimentar con agentes de programación open source, despliegue propio o flujos largos de desarrollo. Pero, con la evidencia pública disponible, no conviene colocarlo en un ranking global a cuatro bandas como si todas las métricas fueran equivalentes.[4][5]

Una arquitectura más realista: no elegir uno, sino enrutar

Para muchos productos, la pregunta no debería ser qué modelo comprar para todo, sino cómo diseñar un sistema que use cada modelo donde tiene sentido. Un esquema razonable sería:

  1. GPT-5.5 como referencia de gama alta para agentes. Sus cifras en BrowseComp, Terminal-Bench 2.0 y benchmarks de trabajo con herramientas como GDPval, OSWorld-Verified y Tau2-bench Telecom lo convierten en el primer candidato para flujos con navegación, terminal y varias herramientas.[7][23]
  2. Claude Opus 4.7 para razonamiento, revisión y tareas de bajo margen de error. Sus resultados en GPQA Diamond, Humanity’s Last Exam sin herramientas y la lectura de LLM Stats lo favorecen en pruebas de razonamiento pesado y revisión.[7][3]
  3. DeepSeek V4 para reducir coste en rutas de alto volumen. Sus precios por token son más bajos que los de GPT-5.5 y Claude Opus 4.7 en las fuentes disponibles, y su BrowseComp está cerca del de GPT-5.5.[1][7][17]
  4. Kimi K2.6 para el laboratorio de coding agents open source. Tiene señales interesantes en coding y agentes, pero necesita validación con el repositorio, la herramienta y el entorno de despliegue del propio equipo.[4][5]

Límites de esta comparación

  • No todos los modelos tienen benchmarks en la misma pista. GPT-5.5, Claude Opus 4.7 y DeepSeek-V4-Pro-Max aparecen juntos en algunas tablas; Kimi K2.6 procede sobre todo de otra comparación con Claude Opus 4.6 y GPT-5.4.[7][4]
  • Las configuraciones importan. Artificial Analysis distingue GPT-5.5 xhigh y high, y Claude Opus 4.7 Adaptive Reasoning, Max Effort; VentureBeat usa DeepSeek-V4-Pro-Max. No hay que asumir que todo eso equivale al modo API por defecto.[2][7]
  • Los datos autodeclarados y los de terceros no son intercambiables. LLM Stats señala que algunas puntuaciones de GPT-5.5 y Claude Opus 4.7 son autodeclaradas en niveles altos de razonamiento y comparables en forma, no en metodología.[3]
  • Un benchmark no sustituye un piloto real. BrowseComp se centra en navegación web agentic, Terminal-Bench 2.0 en flujos de línea de comandos y SWE-Bench Pro en resolución de issues de GitHub; ninguno cubre por sí solo seguridad, latencia, estabilidad, calidad multilingüe, integración o coste total de operación.[7][31]

Veredicto

Con los datos públicos visibles, GPT-5.5 es el candidato más fuerte para agentes y uso prolongado de herramientas; Claude Opus 4.7 es de los más convincentes para razonamiento y revisión; DeepSeek V4 destaca por precio y relación rendimiento-coste; y Kimi K2.6 debe evaluarse como opción open source para coding agents, pero todavía no tiene evidencia pública suficiente para entrar en una clasificación completa y justa contra los otros tres.[2][3][1][4][5]

Antes de cerrar una compra o mover producción, lo sensato es hacer una regresión con tareas reales: mismos prompts, mismas herramientas, mismo contexto, mismos criterios de éxito y medición de coste por resultado útil. Los benchmarks sirven para decidir a quién invitar primero a la prueba; la elección final la deberían marcar el producto, el coste de los errores y la factura de tokens.[3][7][31]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

  • Los datos públicos no sostienen un ranking absoluto: GPT 5.5 lidera en el Intelligence Index visible con 60/59 y sobresale en BrowseComp con 84,4 % y Terminal Bench 2.0 con 82,7 %, mientras Claude Opus 4.7 lidera GPQA...
  • DeepSeek V4 tiene la ventaja de coste más clara: los resúmenes públicos lo sitúan en US$1,74 por millón de tokens de entrada y US$3,48 por millón de tokens de salida, por debajo de GPT 5.5 y Claude Opus 4.7 en la mism...
  • Para decidir, conviene enrutar por tarea: GPT 5.5 para agentes con navegación y terminal, Claude Opus 4.7 para razonamiento y revisión, DeepSeek V4 para APIs de alto volumen, y Kimi K2.6 para experimentos de coding ag...

大家也會問

「GPT-5.5, Claude Opus 4.7, DeepSeek V4 o Kimi K2.6: guía práctica para elegir」的簡短答案是什麼?

Los datos públicos no sostienen un ranking absoluto: GPT 5.5 lidera en el Intelligence Index visible con 60/59 y sobresale en BrowseComp con 84,4 % y Terminal Bench 2.0 con 82,7 %, mientras Claude Opus 4.7 lidera GPQA...

最值得優先驗證的重點是什麼?

Los datos públicos no sostienen un ranking absoluto: GPT 5.5 lidera en el Intelligence Index visible con 60/59 y sobresale en BrowseComp con 84,4 % y Terminal Bench 2.0 con 82,7 %, mientras Claude Opus 4.7 lidera GPQA... DeepSeek V4 tiene la ventaja de coste más clara: los resúmenes públicos lo sitúan en US$1,74 por millón de tokens de entrada y US$3,48 por millón de tokens de salida, por debajo de GPT 5.5 y Claude Opus 4.7 en la mism...

接下來在實務上該怎麼做?

Para decidir, conviene enrutar por tarea: GPT 5.5 para agentes con navegación y terminal, Claude Opus 4.7 para razonamiento y revisión, DeepSeek V4 para APIs de alto volumen, y Kimi K2.6 para experimentos de coding ag...

下一步適合探索哪個相關主題?

繼續閱讀「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較:2026 年誰最值得信?」,從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較?

將這個答案與「DeepSeek V4 工程解析:1M 上下文、MoE 與 API 遷移重點」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

研究問題

研究 Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 的基準測試,並盡可能全面地進行比較。

Studio Global AI35 個來源

附引用的答案

基於你提供的證據,能比較出的結論是:GPT-5.5 在可見的綜合智能排名與 BrowseComp 中領先;DeepSeek V4/DeepSeek-V4-Pro-Max 在 BrowseComp、Terminal-Bench 2.0 和價格上顯示出很強的性價比;Claude Opus 4.7 仍屬前排模型;Kimi K2.6 的可用基準數據最少,因此無法做同等完整排名。證據來源有限且多為摘要片段,以下比較應視為「基於現有證據的部分比較」,不是完整評測。

Key findings

  • 綜合智能排名方面,GPT-5.5 領先。 Artificial Analysis 摘要列出的 Intelligence Index 前五名中,GPT-5.5 xhigh 為 60 分、GPT-5.5 high 為 59 分,Claude Opus 4.7 Adaptive Reasoning Max Effort 為 57 分,與 Gemini 3.1 Pro Preview、GPT-5.4 xhigh 同分段出現;該摘要沒有給出 DeepSeek V4 或 Kimi K2.6 的具體 Intelligence Index 分數。[4]

  • BrowseComp 上,GPT-5.5 略高於 DeepSeek-V4-Pro-Max,Claude Opus 4.7 落後一些。 VentureBeat 摘要稱 DeepSeek-V4-Pro-Max 在 BrowseComp 得分 83.4%,GPT-5.5 為 84.4%,Claude Opus 4.7 為 79.3%。[5]

  • Terminal-Bench 2.0 上,DeepSeek V4 有可見分數,但其他模型細節不足。 VentureBeat 摘要稱 DeepSeek 在 Terminal-Bench 2.0 得分 67.9%,並稱其接近 Claude Opus 4.7,但摘要沒有提供 Claude Opus 4.7 的完整數字,也沒有提供 GPT-5.5 或 Kimi K2.6 的 Terminal-Bench 2.0 分數。[5]

  • 成本方面,DeepSeek V4 明顯低於 GPT-5.5;Claude Opus 4.7 的輸入價格片段可見但輸出價格不完整。 Mashable 摘要稱 DeepSeek V4 的 API 價格為每 100 萬輸入 token $1.74、每 100 萬輸出 token $3.48,且上下文窗口為 100 萬;同一摘要稱 GPT-5.5 為每 100 萬輸入 token $5、每 100 萬輸出 token $30,且上下文窗口為 100 萬。[3] Mashable 摘要也顯示 Claude Opus 4.7 的輸入價格為每 100 萬 token $5,但輸出價格在提供片段中被截斷。[3]

  • DeepSeek V4 的性價比主張較強,但需要完整原文驗證。 VentureBeat 標題稱 DeepSeek-V4 以 Opus 4.7/GPT-5.5 約六分之一成本達到接近最先進智能,但目前可用證據只提供部分 benchmark 與價格片段,缺少完整計算方法。[5]

  • Kimi K2.6 的基準證據不足。 可用證據中有 Claude Opus 4.7 與 Kimi K2.6 的 SourceForge 比較頁,以及 Artificial Analysis 的 DeepSeek V4 Pro 與 Kimi K2.6 比較頁標題,但片段沒有提供 Kimi K2.6 的具體分數、價格、上下文窗口或任務表現。[2][4]

基準與價格對照

維度GPT-5.5Claude Opus 4.7DeepSeek V4 / V4-Pro-MaxKimi K2.6
Intelligence Indexxhigh 60;high 59。[4]Adaptive Reasoning Max Effort 57。[4]可用片段未提供分數。[4]可用片段未提供分數。[4]
BrowseComp84.4%。[5]79.3%。[5]DeepSeek-V4-Pro-Max 83.4%。[5]無可用分數。
Terminal-Bench 2.0無可用分數。摘要稱 DeepSeek 接近 Claude,但未給完整 Claude 分數。[5]67.9%。[5]無可用分數。
API 價格$5 / 100 萬輸入 token;$30 / 100 萬輸出 token;100 萬上下文。[3]可見片段顯示 $5 / 100 萬輸入 token;輸出價格片段不完整。[3]$1.74 / 100 萬輸入 token;$3.48 / 100 萬輸出 token;100 萬上下文。[3]無可用價格。
證據充分度中等:有官方系統卡存在、第三方排名與價格片段。[7][4][3]中等偏低:有第三方排名與部分價格/benchmark。[4][5][3]中等:有 BrowseComp、Terminal-Bench、價格片段。[5][3]低:只有比較頁存在,缺少具體 benchmark 數字。[2][4]

Evidence notes

  • GPT-5.5 的官方性較強,但官方 benchmark 片段不足。 OpenAI 的 GPT-5.5 System Card 於 2026 年 4 月 23 日發布,但提供的片段沒有列出具體 benchmark 成績。[7]

  • 第三方 benchmark 來源比個人測試更適合做排名依據。 Artificial Analysis 提供了 Intelligence Index 排名片段,VentureBeat 提供了 BrowseComp 和 Terminal-Bench 2.0 的部分數字,因此這兩類證據比 LinkedIn 個人測試更適合作為量化比較依據。[4][5][31]

  • 個人實測只能作為補充,不宜作為排名依據。 LinkedIn 摘要描述一名用戶用 GPT-5.5 Codex 與 Claude Code on Opus 4.7 做了 4 個 one-shot head-to-head 實驗,並指出 benchmark 只能說明部分情況;但摘要沒有提供可複核的分數表或完整任務結果。[31]

  • SourceForge 對 Claude Opus 4.7 與 Kimi K2.6 的比較主要是產品/公司資訊,不是 benchmark 數據。 該片段顯示 Anthropic 與 Moonshot AI 的公司資訊,以及 Claude Opus 4.7 vs Kimi K2.6 的比較頁存在,但沒有提供模型能力分數。[2]

Limitations / uncertainty

  • Insufficient evidence. 目前證據不足以對四個模型做「全面」基準排名,因為 Kimi K2.6 缺少具體 benchmark 數字,DeepSeek V4 在 Intelligence Index 中也沒有可見分數。[2][4]

  • 不同來源可能使用不同模型配置。 Artificial Analysis 中 GPT-5.5 有 xhigh/high,Claude Opus 4.7 有 Adaptive Reasoning Max Effort;VentureBeat 則提到 DeepSeek-V4-Pro-Max,這些配置不一定代表普通 API 默認模式。[4][5]

  • 部分價格與 benchmark 資訊被截斷。 Mashable 片段提供 DeepSeek V4 與 GPT-5.5 的完整輸入/輸出價格,但 Claude Opus 4.7 的輸出價格沒有出現在可用片段中。[3]

  • BrowseComp 和 Terminal-Bench 2.0 不能代表所有任務。 BrowseComp 偏向 agentic web browsing,Terminal-Bench 2.0 偏向終端/開發環境任務;它們不能直接代表寫作、長上下文理解、多語言、數學、視覺或企業安全表現。[5]

Summary

  • 若只看可見綜合智能排名:GPT-5.5 第一,Claude Opus 4.7 屬第一梯隊;DeepSeek V4 與 Kimi K2.6 因缺少同表分數無法排序。[4]

  • 若看 BrowseComp:GPT-5.5 84.4% 最高,DeepSeek-V4-Pro-Max 83.4% 非常接近,Claude Opus 4.7 為 79.3%;Kimi K2.6 無可用分數。[5]

  • 若看性價比:DeepSeek V4 的可見 API 價格明顯低於 GPT-5.5,且其 BrowseComp 接近 GPT-5.5;但完整成本結論仍需 Claude 與 Kimi 的完整價格和更多任務分數。[3][5]

  • 最可靠的結論是:GPT-5.5 在現有證據中性能最強,DeepSeek V4 最像高性價比追趕者,Claude Opus 4.7 仍在高端模型梯隊,Kimi K2.6 目前證據不足,不能公平排名。[4][5][2]

來源

  • [1] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [2] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6artificialanalysis.ai

    What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...

  • [3] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com

    The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...

  • [4] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...

  • [5] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai

    Kimi K2.6 Kimi K2.6 is Moonshot AI's latest open-source native multimodal agentic model, advancing long-horizon coding, coding-driven design, proactive autonomous execution, and swarm-based task orchestration. It keeps the Kimi K2.5 1T parameter MoE archite...

  • [7] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    DeepSeek-V4-Pro-Max’s best showing is on BrowseComp, the benchmark measuring agentic AI web browsing prowess (especially highly containerized information), where it scores 83.4%, narrowly behind GPT-5.5 at 84.4% andahead of Claude Opus 4.7 at 79.3%. On Term...

  • [17] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com

    DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...

  • [23] Introducing GPT-5.5 - OpenAIopenai.com

    GPT‑5.5 reaches state-of-the-art performance across multiple benchmarks that reflect this kind of work. OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. On OSWorld-Verified, whic...

  • [31] OpenAI releases GPT-5.5 with improved coding and research capabilitiesuk.finance.yahoo.com

    Louis Juricic 1 min read Investing.com -- OpenAI announced Thursday the release of GPT-5.5, its latest AI model now available to Plus, Pro, Business, and Enterprise users through ChatGPT and Codex platforms. The model achieved 82.7% accuracy on Terminal-Ben...