studioglobal
Khám phá xu hướng
Báo cáoĐã xuất bản7 nguồn

GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6: qué modelo elegir según el benchmark

Claude Opus 4.7 lidera GPQA Diamond con 94,2 % y HLE sin herramientas con 46,9 %; GPT 5.5 Pro lidera HLE con herramientas (57,2 %) y BrowseComp (90,1 %), mientras GPT 5.5 encabeza Terminal Bench 2.0 (82,7 %) [2]. DeepSeek V4 Pro Max no encabeza las filas directas de VentureBeat, pero se describe como cercano al esta...

17K0
Minh họa so sánh benchmark giữa GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6
GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026Benchmark các mô hình AI lớn nên được đọc theo tác vụ: reasoning, tool use, terminal, coding và chi phí.
Prompt AI

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026. Article summary: Không có mô hình thắng tuyệt đối: Claude Opus 4.7 dẫn GPQA Diamond ở 94.2% và HLE không tool, GPT 5.5 Pro dẫn HLE có tool ở 57.2%, còn GPT 5.5 dẫn Terminal Bench 2.0 ở 82.7%.. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "# 2026年4月最新四大模型横评:Kimi K2.6 vs Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4,差距到底有多大?. # 同周发布四大旗舰,差距到底有多大?Kimi K2.6 / Claude Opus 4.7 / GPT-5.5 / DeepSeek V4 深度横评. **2026 年 4 月的第三周,AI" source context "2026年4月最新四大模型横评:Kimi K2.6 vs Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4,差距到底有多大? - 七牛云行业应用 - 博客园" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4h

openai.com

Los benchmarks de IA no deberían leerse como una clasificación deportiva. Funcionan mejor como un mapa: cada prueba ilumina una capacidad distinta —razonamiento, uso de herramientas, navegación web, terminal, programación o coste— y el modelo adecuado depende de la tarea.

Con los datos disponibles, la conclusión más prudente es esta: Claude Opus 4.7 es la opción más fuerte en razonamiento difícil sin herramientas y en SWE-Bench Pro; GPT-5.5 Pro sobresale cuando la tarea permite herramientas o navegación; GPT-5.5 tiene la señal más clara en terminal; DeepSeek V4 resulta atractivo por coste/rendimiento, aunque con advertencias de alucinación; y Kimi K2.6 tiene buenos indicadores aislados, pero no una matriz homogénea que lo compare con todos los rivales en las mismas condiciones [1][2][3][8][9].

La tabla rápida: quién gana en cada benchmark

El símbolo significa que la fuente citada no ofrece una cifra comparable para ese modelo en ese benchmark. No significa una puntuación de cero.

BenchmarkGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek-V4-Pro-MaxKimi K2.6Mejor resultado en estos datos
GPQA Diamond93,6 %94,2 %90,1 %— en la tabla directa; LLM Stats lista GPQA 0,91Claude Opus 4.7 [2][8]
Humanity’s Last Exam, sin herramientas41,4 %43,1 %46,9 %37,7 %Claude Opus 4.7 [2]
Humanity’s Last Exam, con herramientas52,2 %57,2 %54,7 %48,2 %GPT-5.5 Pro [2]
Terminal-Bench 2.082,7 %69,4 %67,9 %GPT-5.5 [2]
SWE-Bench Pro / SWE Pro58,6 %64,3 %55,4 %LLM Stats lista 0,59Claude Opus 4.7 [2][3]
BrowseComp84,4 %90,1 %79,3 %83,4 %DocsBot lista 83,2 %GPT-5.5 Pro en la tabla de VentureBeat [2][9]
MCP Atlas / MCPAtlas Public75,3 %79,1 %73,6 %Claude Opus 4.7 [2]

La tabla deja claro por qué no conviene declarar un campeón absoluto. Claude Opus 4.7 domina varias pruebas de razonamiento e ingeniería de software; GPT-5.5 Pro cambia la clasificación cuando entran herramientas y navegación; GPT-5.5 saca una ventaja clara en terminal; y Kimi K2.6 aparece sobre todo en fuentes separadas, no en la misma comparación completa [2][3][8][9].

Si necesitas razonamiento difícil: Claude Opus 4.7 parte con ventaja

En la comparación directa de VentureBeat, Claude Opus 4.7 logra 94,2 % en GPQA Diamond, por encima de GPT-5.5 con 93,6 % y DeepSeek-V4-Pro-Max con 90,1 % [2]. La distancia con GPT-5.5 no es enorme, pero en esa tabla Claude queda primero [2].

La ventaja se repite en Humanity’s Last Exam sin herramientas: Claude Opus 4.7 obtiene 46,9 %, frente al 43,1 % de GPT-5.5 Pro, el 41,4 % de GPT-5.5 y el 37,7 % de DeepSeek-V4-Pro-Max [2]. Para preguntas complejas, razonamiento científico o evaluaciones donde el modelo no puede apoyarse en herramientas externas, los datos citados favorecen a Claude Opus 4.7 [2].

Kimi K2.6 tiene una señal propia en GPQA: LLM Stats lo lista con 0,91, mientras que Claude Opus 4.7 y GPT-5.5 aparecen ambos con 0,94 redondeado en ese leaderboard [8]. Aun así, ese dato no procede de la misma tabla GPQA Diamond de VentureBeat, así que conviene tratarlo como una referencia complementaria, no como una comparación perfecta uno a uno [2][8].

Si dependes de herramientas o web: GPT-5.5 Pro destaca

Cuando el benchmark permite usar herramientas, el orden cambia. En Humanity’s Last Exam con herramientas, GPT-5.5 Pro alcanza 57,2 %, por encima de Claude Opus 4.7 con 54,7 %, GPT-5.5 con 52,2 % y DeepSeek-V4-Pro-Max con 48,2 % [2].

La misma tendencia aparece en BrowseComp, una prueba vinculada a navegación y comprensión web: GPT-5.5 Pro marca 90,1 %, GPT-5.5 obtiene 84,4 %, DeepSeek-V4-Pro-Max 83,4 % y Claude Opus 4.7 79,3 % en la tabla de VentureBeat [2]. DocsBot lista a Kimi K2.6 con 83,2 % en BrowseComp, pero ese dato procede de una página comparativa específica entre Kimi K2.6 y DeepSeek-V4 Pro, no de la misma matriz completa [9].

Para cargas de trabajo de investigación web, consulta de información reciente, orquestación de herramientas o flujos donde el modelo debe decidir cuándo buscar, leer y sintetizar, GPT-5.5 Pro es el candidato más fuerte en los datos citados [2].

Para terminal y agentes de línea de comandos: GPT-5.5 tiene la señal más clara

Terminal-Bench 2.0 importa cuando no basta con responder: el modelo debe actuar en un entorno de línea de comandos. La prueba se describe como una medición de flujos CLI reales, con manipulación de archivos, ejecución de scripts, depuración y coordinación de herramientas [5].

En esa prueba, GPT-5.5 alcanza 82,7 %, muy por encima de Claude Opus 4.7 con 69,4 % y DeepSeek-V4-Pro-Max con 67,9 % [2]. Si el caso de uso es un agente que ejecuta comandos, arregla errores en un repositorio, automatiza tareas o encadena pasos en shell, esta es la ventaja más contundente de GPT-5.5 dentro de los datos disponibles [2][5].

Para ingeniería de software compleja: Claude Opus 4.7 lidera SWE-Bench Pro

SWE-Bench Pro es una señal especialmente relevante para trabajo de software. LLM Stats lo describe como una versión avanzada de SWE-Bench que evalúa tareas reales de ingeniería de software y exige razonamiento prolongado y resolución de problemas en varios pasos [3].

En la tabla de VentureBeat, Claude Opus 4.7 consigue 64,3 % en SWE-Bench Pro / SWE Pro, por delante de GPT-5.5 con 58,6 % y DeepSeek-V4-Pro-Max con 55,4 % [2]. LLM Stats también lista a Claude Opus 4.7 con 0,64, GPT-5.5 con 0,59, Kimi K2.6 con 0,59 y DeepSeek-V4-Pro-Max con 0,55 en SWE-Bench Pro [3].

Aunque las fuentes presentan las puntuaciones en formatos distintos, la señal principal coincide: Claude Opus 4.7 encabeza este grupo en SWE-Bench Pro; GPT-5.5 y Kimi K2.6 aparecen muy cerca entre sí en LLM Stats; y DeepSeek-V4-Pro-Max queda por debajo en los números citados [2][3].

DeepSeek V4: muy interesante por coste, pero hay que vigilar las alucinaciones

DeepSeek-V4-Pro-Max no lidera ninguna fila de la comparación directa de VentureBeat: obtiene 90,1 % en GPQA Diamond, 37,7 % en Humanity’s Last Exam sin herramientas, 48,2 % en Humanity’s Last Exam con herramientas, 67,9 % en Terminal-Bench 2.0, 55,4 % en SWE-Bench Pro, 83,4 % en BrowseComp y 73,6 % en MCP Atlas [2].

Su atractivo está en el coste. VentureBeat describe DeepSeek-V4 como cercano al estado del arte con un coste de alrededor de 1/6 frente a Opus 4.7 y GPT-5.5 [2]. Eso puede cambiar la decisión si el volumen de uso es alto o si el presupuesto pesa más que ganar unos puntos en el benchmark.

La cautela está en la fiabilidad. Artificial Analysis señala que DeepSeek V4 Pro Max obtiene -10 en AA-Omniscience, una mejora de 11 puntos frente a V3.2 Reasoning en -21, pero también afirma que V4 Pro y V4 Flash tienen tasas de alucinación muy altas, de 94 % y 96 %, respectivamente [1].

No se debe concluir automáticamente que DeepSeek V4 sea el menos fiable de todo el grupo, porque las fuentes citadas no ofrecen la misma métrica de alucinación para GPT-5.5, Claude Opus 4.7 y Kimi K2.6 [1]. La conclusión segura es más práctica: DeepSeek V4 merece una prueba si el coste es prioritario, pero necesita validaciones propias y controles estrictos de respuestas inventadas en el flujo real de trabajo [1][2].

Kimi K2.6: buenas señales, pero falta una comparación común

Kimi K2.6 es el modelo más difícil de colocar en la tabla general. No porque no tenga datos, sino porque esos datos no aparecen en la misma matriz completa que compara GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 y DeepSeek-V4-Pro-Max [2][3][8][9].

Las señales disponibles son interesantes. LLM Stats lista a Kimi K2.6 con 0,91 en GPQA y 0,59 en SWE-Bench Pro [3][8]. DocsBot, por su parte, lo lista con 96,4 % en AIME 2026 en thinking mode, 27,9 % en APEX Agents y 83,2 % en BrowseComp; en esa misma página, DeepSeek-V4 Pro aparece con 83,4 % en BrowseComp [9].

Pero al venir de fuentes y contextos distintos, esos resultados no bastan para afirmar que Kimi K2.6 gane o pierda de forma global. La lectura más razonable es tratarlo como un candidato que merece pruebas internas cuando sus benchmarks específicos coinciden con tus necesidades [3][8][9].

Entonces, ¿qué modelo conviene usar?

  • Razonamiento científico o conocimiento difícil sin herramientas: empieza por Claude Opus 4.7, que lidera GPQA Diamond y Humanity’s Last Exam sin herramientas en la comparación directa [2].
  • Uso de herramientas, navegación web o investigación asistida: prioriza GPT-5.5 Pro, que encabeza Humanity’s Last Exam con herramientas y BrowseComp en los datos citados [2].
  • Agentes que trabajan en terminal o flujos CLI: GPT-5.5 tiene la señal más fuerte con 82,7 % en Terminal-Bench 2.0 [2][5].
  • Ingeniería de software compleja: Claude Opus 4.7 lidera SWE-Bench Pro tanto en VentureBeat como en LLM Stats; GPT-5.5 y Kimi K2.6 aparecen empatados en 0,59 en LLM Stats [2][3].
  • Optimización de coste/rendimiento: DeepSeek V4 es atractivo porque se describe como cercano al estado del arte a alrededor de 1/6 del coste de Opus 4.7 y GPT-5.5, pero requiere pruebas de alucinación y controles de calidad [1][2].
  • Interés específico en Kimi K2.6: úsalo como candidato a evaluar, no como ganador universal demostrado; sus datos de GPQA, SWE-Bench Pro, AIME 2026, APEX Agents y BrowseComp son útiles, pero no forman una comparación homogénea con todos los demás [3][8][9].

Límites importantes de esta comparativa

Primero, GPT-5.5 Pro solo aparece en algunas filas de la tabla de VentureBeat. No se puede suponer que lidere —o que quede por detrás— en benchmarks donde no se publica una cifra comparable [2].

Segundo, la información de Kimi K2.6 procede sobre todo de LLM Stats y DocsBot, no de la misma tabla completa donde aparecen GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 y DeepSeek-V4-Pro-Max [2][3][8][9].

Tercero, OpenAI tiene una system card para GPT-5.5 donde describe CoT-Control, una evaluación de más de 13.000 tareas construidas a partir de benchmarks como GPQA, MMLU-Pro, HLE, BFCL y SWE-Bench Verified [20]. Es información útil para entender cómo se evalúa GPT-5.5, pero las fuentes citadas no ofrecen resultados equivalentes de CoT-Control para Claude Opus 4.7, DeepSeek V4 y Kimi K2.6, así que no sirve para ordenar a todos en igualdad de condiciones [20].

En resumen: Claude Opus 4.7 es la apuesta más sólida de esta muestra para razonamiento difícil y SWE-Bench Pro; GPT-5.5 Pro es el más destacado cuando entran herramientas y web; GPT-5.5 brilla en terminal; DeepSeek V4 gana interés cuando manda el presupuesto; y Kimi K2.6 tiene indicadores prometedores, pero necesita una comparación más homogénea o pruebas internas antes de coronarlo [1][2][3][8][9].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

  • Claude Opus 4.7 lidera GPQA Diamond con 94,2 % y HLE sin herramientas con 46,9 %; GPT 5.5 Pro lidera HLE con herramientas (57,2 %) y BrowseComp (90,1 %), mientras GPT 5.5 encabeza Terminal Bench 2.0 (82,7 %) [2].
  • DeepSeek V4 Pro Max no encabeza las filas directas de VentureBeat, pero se describe como cercano al estado del arte con alrededor de 1/6 del coste de Opus 4.7 y GPT 5.5; conviene validarlo por el riesgo de alucinacion...
  • Kimi K2.6 muestra señales útiles —0,91 en GPQA, 0,59 en SWE Bench Pro y 83,2 % en BrowseComp—, pero esos datos vienen de fuentes separadas, no de una matriz común completa [3][8][9].

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6: qué modelo elegir según el benchmark" là gì?

Claude Opus 4.7 lidera GPQA Diamond con 94,2 % y HLE sin herramientas con 46,9 %; GPT 5.5 Pro lidera HLE con herramientas (57,2 %) y BrowseComp (90,1 %), mientras GPT 5.5 encabeza Terminal Bench 2.0 (82,7 %) [2].

Những điểm chính cần xác nhận đầu tiên là gì?

Claude Opus 4.7 lidera GPQA Diamond con 94,2 % y HLE sin herramientas con 46,9 %; GPT 5.5 Pro lidera HLE con herramientas (57,2 %) y BrowseComp (90,1 %), mientras GPT 5.5 encabeza Terminal Bench 2.0 (82,7 %) [2]. DeepSeek V4 Pro Max no encabeza las filas directas de VentureBeat, pero se describe como cercano al estado del arte con alrededor de 1/6 del coste de Opus 4.7 y GPT 5.5; conviene validarlo por el riesgo de alucinacion...

Tôi nên làm gì tiếp theo trong thực tế?

Kimi K2.6 muestra señales útiles —0,91 en GPQA, 0,59 en SWE Bench Pro y 83,2 % en BrowseComp—, pero esos datos vienen de fuentes separadas, no de una matriz común completa [3][8][9].

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Claude Opus 4.7, GPT-5.5, DeepSeek V4 và Kimi K2.6: benchmark 2026 nói gì?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "DeepSeek V4: không chỉ là 1M token, mà là bài toán MoE và API".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Trao đổi nghiên cứu

Bạn

Câu hỏi nghiên cứu

Nghiên cứu benchmarks của GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6 và so sánh chúng một cách toàn diện nhất

Studio Global AI28 nguồn

Câu trả lời được trích dẫn

Dựa trên bộ bằng chứng được cung cấp, không thể so sánh đầy đủ cả 5 mô hình vì không có dữ liệu benchmark cho Kimi K2.6; Insufficient evidence. Trong các benchmark có số liệu, Claude Opus 4.7 đứng đầu GPQA Diamond và Humanity’s Last Exam không dùng công cụ, GPT-5.5 Pro đứng đầu Humanity’s Last Exam có công cụ, còn GPT-5.5 đứng đầu Terminal-Bench 2.0 [3]. DeepSeek-V4-Pro-Max ở gần nhóm đầu nhưng thua mô hình dẫn đầu trong các benchmark được trích dẫn, dù được mô tả là có chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5 [3].

Key findings

  • Claude Opus 4.7 mạnh nhất trong nhóm benchmark tri thức/lý luận khó không dùng công cụ: Claude Opus 4.7 đạt 94.2% trên GPQA Diamond, cao hơn GPT-5.5 ở 93.6% và DeepSeek-V4-Pro-Max ở 90.1% [3]. Claude Opus 4.7 cũng đạt 46.9% trên Humanity’s Last Exam không dùng công cụ, cao hơn GPT-5.5 Pro 43.1%, GPT-5.5 41.4% và DeepSeek-V4-Pro-Max 37.7% [3].

  • GPT-5.5 Pro dẫn đầu khi có công cụ: Trên Humanity’s Last Exam có công cụ, GPT-5.5 Pro đạt 57.2%, cao hơn Claude Opus 4.7 ở 54.7%, GPT-5.5 ở 52.2% và DeepSeek-V4-Pro-Max ở 48.2% [3].

  • GPT-5.5 nổi bật nhất ở tác vụ terminal/agentic CLI: Trên Terminal-Bench 2.0, GPT-5.5 đạt 82.7%, cao hơn Claude Opus 4.7 ở 69.4% và DeepSeek-V4-Pro-Max ở 67.9% [3]. Terminal-Bench 2.0 được mô tả là benchmark đo khả năng hoàn thành workflow CLI thực tế gồm thao tác file, chạy script, debug và phối hợp công cụ [7].

  • DeepSeek-V4-Pro-Max có vị trí tốt về hiệu năng/chi phí nhưng chưa dẫn benchmark chính trong evidence: Nguồn [3] mô tả DeepSeek-V4 là “near state-of-the-art” với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5, nhưng trong các số liệu benchmark được trích, DeepSeek-V4-Pro-Max không đứng đầu GPQA Diamond, Humanity’s Last Exam hoặc Terminal-Bench 2.0 [3].

  • DeepSeek V4 có tín hiệu rủi ro hallucination: Nguồn [2] cho biết DeepSeek V4 Pro Max đạt -10 trên AA-Omniscience, cải thiện 11 điểm so với V3.2 Reasoning ở -21, chủ yếu nhờ độ chính xác cao hơn [2]. Cùng nguồn nói V4 Pro và V4 Flash có tỷ lệ hallucination “rất cao”, nhưng phần evidence bị cắt ở con số “94…”, nên không thể xác nhận chính xác tỷ lệ phần trăm [2].

  • Kimi K2.6 không thể đánh giá từ bộ evidence này: Không có nguồn nào trong evidence cung cấp điểm benchmark, giá, độ trễ, coding score, reasoning score hoặc hallucination score cho Kimi K2.6; Insufficient evidence.

Bảng so sánh benchmark có số liệu

Benchmark / năng lựcGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek-V4-Pro-MaxKimi K2.6Mô hình dẫn đầu trong evidence
GPQA Diamond93.6%Không có số liệu94.2%90.1%Insufficient evidenceClaude Opus 4.7 [3]
Humanity’s Last Exam, không dùng công cụ41.4%43.1%46.9%37.7%Insufficient evidenceClaude Opus 4.7 [3]
Humanity’s Last Exam, có công cụ52.2%57.2%54.7%48.2%Insufficient evidenceGPT-5.5 Pro [3]
Terminal-Bench 2.082.7%Không có số liệu69.4%67.9%Insufficient evidenceGPT-5.5 [3]
AA-OmniscienceKhông có số liệuKhông có số liệuKhông có số liệu-10Insufficient evidenceKhông đủ dữ liệu đối chiếu giữa 5 mô hình [2]
SWE-Bench ProKhông đủ số liệuKhông đủ số liệuCó mốc 0.64 trong snippetSnippet hiển thị “#11 of 11” nhưng không có điểm đầy đủInsufficient evidenceKhông đủ dữ liệu lập ranking đầy đủ [4]

So sánh theo từng mục đích sử dụng

  • Nếu ưu tiên lý luận khoa học/tri thức khó: Claude Opus 4.7 có lợi thế nhẹ trên GPQA Diamond với 94.2%, so với GPT-5.5 ở 93.6% và DeepSeek-V4-Pro-Max ở 90.1% [3].

  • Nếu ưu tiên bài kiểm tra tổng hợp cực khó không dùng tool: Claude Opus 4.7 dẫn Humanity’s Last Exam không dùng công cụ với 46.9%, cao hơn GPT-5.5 Pro 43.1% và GPT-5.5 41.4% [3].

  • Nếu ưu tiên bài toán có tool: GPT-5.5 Pro là lựa chọn mạnh nhất trong evidence vì đạt 57.2% trên Humanity’s Last Exam có công cụ, cao hơn Claude Opus 4.7 ở 54.7% [3].

  • Nếu ưu tiên workflow terminal, automation và tác vụ agentic CLI: GPT-5.5 vượt rõ rệt với 82.7% trên Terminal-Bench 2.0, trong khi Claude Opus 4.7 đạt 69.4% và DeepSeek-V4-Pro-Max đạt 67.9% [3].

  • Nếu ưu tiên chi phí/hiệu năng: DeepSeek-V4 đáng chú ý vì được mô tả là đạt mức gần state-of-the-art với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5 [3]. Tuy nhiên, evidence không cung cấp bảng giá chi tiết hoặc giá token, nên không thể kiểm chứng sâu hơn về tổng chi phí sử dụng thực tế.

  • Nếu ưu tiên độ tin cậy và giảm hallucination: Evidence chỉ có dữ liệu hallucination cho DeepSeek V4, trong đó nguồn [2] nói hallucination vẫn rất cao dù AA-Omniscience cải thiện [2]. Không có dữ liệu hallucination tương đương cho GPT-5.5, Claude Opus 4.7 hoặc Kimi K2.6 trong evidence, nên không thể kết luận mô hình nào đáng tin cậy nhất về mặt này.

Evidence notes

  • Nguồn chính cho bảng so sánh số liệu giữa GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 và DeepSeek-V4-Pro-Max là [3]. Các kết luận về mô hình đứng đầu từng benchmark trong bảng đều dựa trên các số liệu được trích trong [3].

  • GPT-5.5 có tài liệu hệ thống riêng về đánh giá an toàn/điều khiển chuỗi suy luận: system card nói GPT-5.5 được đo bằng CoT-Control, một bộ đánh giá hơn 13,000 tác vụ xây dựng từ các benchmark như GPQA và MMLU-Pro [1]. Tuy nhiên, evidence không cung cấp kết quả CoT-Control tương ứng cho Claude Opus 4.7, DeepSeek V4 hoặc Kimi K2.6, nên không thể dùng CoT-Control để so sánh ngang hàng [1].

  • Nguồn [6] cũng lặp lại rằng GPT-5.5 được đánh giá controllability bằng CoT-Control với hơn 13,000 tác vụ từ các benchmark đã có như GPQA và MMLU-Pro [6]. Đây là bằng chứng hữu ích về phạm vi đánh giá GPT-5.5, nhưng không đủ để lập ranking giữa 5 mô hình [6].

  • Nguồn [4] có nhắc đến SWE-Bench Pro cho DeepSeek-V4-Pro-Max và hiển thị Claude Opus 4.7 ở mức 0.64 trong snippet, nhưng phần evidence không đủ đầy đủ để so sánh SWE-Bench Pro giữa tất cả mô hình [4].

Limitations / uncertainty

  • Thiếu hoàn toàn dữ liệu Kimi K2.6: Không có benchmark nào cho Kimi K2.6 trong evidence, nên mọi xếp hạng có Kimi đều là Insufficient evidence.

  • Thiếu nguồn chính thức cho Claude Opus 4.7 và DeepSeek V4 trong bảng chính: Các số liệu so sánh trực tiếp chủ yếu đến từ nguồn [3], không phải model card chính thức của từng nhà cung cấp trong evidence [3].

  • Thiếu nhiều benchmark quan trọng: Evidence không cung cấp số liệu đầy đủ cho MMLU-Pro, AIME, LiveCodeBench, SWE-Bench Verified, MMMU, latency, context window, throughput hoặc giá token cho cả 5 mô hình.

  • Không thể kết luận “mô hình tốt nhất toàn diện” một cách tuyệt đối: Với evidence hiện có, chỉ có thể nói Claude Opus 4.7 dẫn một số benchmark reasoning không dùng tool, GPT-5.5/GPT-5.5 Pro dẫn các benchmark tool/terminal được trích, còn DeepSeek-V4-Pro-Max có lợi thế được mô tả về chi phí nhưng có cảnh báo hallucination [2][3].

Summary

  • Tốt nhất về GPQA Diamond: Claude Opus 4.7, 94.2% [3].

  • Tốt nhất về Humanity’s Last Exam không tool: Claude Opus 4.7, 46.9% [3].

  • Tốt nhất về Humanity’s Last Exam có tool: GPT-5.5 Pro, 57.2% [3].

  • Tốt nhất về Terminal-Bench 2.0: GPT-5.5, 82.7% [3].

  • Đáng chú ý về chi phí/hiệu năng: DeepSeek-V4, được mô tả là gần state-of-the-art với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5 [3].

  • Không thể đánh giá: Kimi K2.6, vì không có dữ liệu benchmark trong evidence; Insufficient evidence.

Nguồn

  • [1] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [2] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...

  • [3] DeepSeek-V4-Pro-Max: Pricing, Benchmarks & Performancellm-stats.com

    SWE-Bench ProView → 11 of 11 Image 35: LLM Stats Logo SWE-Bench Pro is an advanced version of SWE-Bench that evaluates language models on complex, real-world software engineering tasks requiring extended reasoning and multi-step problem solving. More 1Image...

  • [5] GPT-5.5: The Complete Guide (2026) - o-mega | AIo-mega.ai

    Terminal-Bench 2.0 measures the ability to complete real CLI workflows: multi-step tasks involving file manipulation, script execution, debugging, and tool coordination. GPT-5.5's 82.7% score is the highest ever recorded, though the margin over Claude Mytho...

  • [8] GPT-5.5: Pricing, Benchmarks & Performance - LLM Statsllm-stats.com

    9Image 42GPT-5 mini 0.22 10Image 43o3 0.16 GPQAView → 4 of 10 Image 44: LLM Stats Logo A challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. Questions are Google-proof and extremely difficult, w...

  • [9] Kimi K2.6 vs DeepSeek-V4 Pro - Detailed Performance & Feature Comparisondocsbot.ai

    Benchmark Kimi K2.6 DeepSeek-V4 Pro --- AIME 2026 American Invitational Mathematics Examination 2026 - Evaluates advanced mathematical problem-solving abilities (contest-level math) 96.4% Thinking mode Source Not available APEX Agents Evaluates long-horizon...

  • [20] [PDF] GPT-5.5 System Card - Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...

GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6: qué modelo elegir según el benchmark | Nghiên cứu sâu | Studio Global