studioglobal
ค้นพบเทรนด์
รายงานเผยแพร่แล้ว11 แหล่งที่มา

Benchmark 2026: GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6

No existe un benchmark único que compare a los cuatro modelos en igualdad de condiciones; GPT 5.5 supera a Claude Opus 4.7 en Terminal Bench 2.0, pero Claude lidera en SWE Bench Pro [2]. DeepSeek V4 Pro sobresale por ventana de contexto, con 1.000k tokens frente a los 256k de Kimi K2.6, aunque Artificial Analysis re...

16K0
ภาพประกอบการเปรียบเทียบ benchmark ของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6
GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือกภาพประกอบการเปรียบเทียบโมเดล AI ชั้นนำปี 2026 ตามหมวด benchmark และกรณีใช้งาน
AI พรอมต์

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือก. Article summary: ยังไม่มี benchmark ชุดเดียวที่เทียบทั้ง 4 รุ่นได้ครบแบบ apples to apples; จากตัวเลขที่มี GPT 5.5 นำ Terminal Bench 2.0 ที่ 82.7% ต่อ 69.4% ส่วน Claude Opus 4.7 นำ SWE Bench Pro ที่ 64.3% ต่อ 58.6% จึงควรเลือกตามงาน ไม.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and ..." Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login

openai.com

La forma más segura de comparar GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6 no es buscar un campeón absoluto. Con las fuentes disponibles, una clasificación única puede inducir a error: no todos los modelos aparecen en los mismos benchmarks, con el mismo evaluador y bajo las mismas condiciones. GPT-5.5 y Claude Opus 4.7 sí cuentan con varias comparaciones directas publicadas por Vellum y OpenAI. DeepSeek V4 y Kimi K2.6, en cambio, tienen evidencia pública más clara en áreas como ventana de contexto, pesos abiertos, multimodalidad y fiabilidad, según el informe técnico de DeepSeek y análisis de Artificial Analysis [2][7][30][31][33][35][36].

Lectura rápida: no hay un ganador universal

Si solo miramos las pruebas donde GPT-5.5 y Claude Opus 4.7 aparecen juntos, el resultado cambia según la tarea. En la tabla de Vellum, GPT-5.5 lidera Terminal-Bench 2.0 con 82,7 % frente al 69,4 % de Claude Opus 4.7, y también GDPval con 84,9 % frente a 80,3 %. Claude Opus 4.7, por su parte, queda por delante en SWE-Bench Pro, con 64,3 % frente a 58,6 %, y en GPQA Diamond, con 94,2 % frente a 93,6 % [2].

En uso de ordenador y herramientas, OpenAI reporta que GPT-5.5 obtiene 78,7 % en OSWorld-Verified frente al 78,0 % de Claude Opus 4.7, y 84,4 % en BrowseComp frente a 79,3 %. Sin embargo, Claude Opus 4.7 supera a GPT-5.5 en MCP Atlas, con 79,1 % frente a 75,3 % [7].

Para DeepSeek V4 y Kimi K2.6, las fuentes usadas no ofrecen una comparativa completa en los mismos benchmarks que GPT-5.5 y Claude Opus 4.7. Por eso, no conviene afirmar que ganan o pierden en categorías donde no hay datos directos bajo el mismo marco de evaluación [31][33][35][36].

Tabla de referencia: puntuaciones comparables y vacíos de evidencia

Benchmark o métricaGPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6Cómo leer el dato
Terminal-Bench 2.082,7 %69,4 %Sin dato comparable en la misma fuenteSin dato comparable en la misma fuenteGPT-5.5 supera a Claude Opus 4.7 en la tabla de Vellum [2]
SWE-Bench Pro58,6 %64,3 %Sin dato comparable en la misma fuenteSin dato comparable en la misma fuenteClaude Opus 4.7 lidera en este benchmark de ingeniería de software [2]
GDPval84,9 %80,3 %Sin dato comparable en la misma fuenteSin dato comparable en la misma fuenteGPT-5.5 queda por delante de Claude Opus 4.7 [2]
OSWorld-Verified78,7 %78,0 %Sin dato comparable en la misma fuenteSin dato comparable en la misma fuenteGPT-5.5 tiene una ventaja pequeña según OpenAI [7]
BrowseComp84,4 %79,3 %Sin dato comparable en la misma fuenteSin dato comparable en la misma fuenteGPT-5.5 lidera en este apartado de uso de herramientas [7]
MCP Atlas75,3 %79,1 %Sin dato comparable en la misma fuenteSin dato comparable en la misma fuenteClaude Opus 4.7 supera a GPT-5.5 según OpenAI [7]
GPQA Diamond93,6 %94,2 %Sin dato comparable en la misma fuenteSin dato comparable en la misma fuenteClaude Opus 4.7 lidera por un margen estrecho [2]
FrontierMath T1–351,7 %43,8 %Sin dato comparable en la misma fuenteSin dato comparable en la misma fuenteGPT-5.5 supera a Claude Opus 4.7 según Vellum [2]
Ventana de contextoNo aparece en esta tabla de Artificial AnalysisNo aparece en esta tabla de Artificial AnalysisDeepSeek V4 Pro: 1.000k tokens256k tokensDeepSeek V4 Pro ofrece una ventana de contexto mayor que Kimi K2.6 en la misma fuente [33]
AA-Omniscience / hallucinationSin comparativa directa en la misma fuenteSin comparativa directa en la misma fuenteV4 Pro Max obtiene -10; V4 Pro tiene una tasa de hallucination del 94 %Sin comparativa directa en la misma fuenteSeñal clara de que las respuestas de DeepSeek V4 requieren verificación [31]
Artificial Analysis Intelligence IndexNo aparece en las fuentes usadasNo aparece en las fuentes usadasNo aparece en las fuentes usadas54Dato específico de Kimi K2.6; no pertenece al mismo leaderboard que Vellum u OpenAI [35]

Que una celda diga sin dato comparable no significa que el modelo sea peor. Significa únicamente que, en las fuentes usadas, no aparece una puntuación del mismo benchmark bajo el mismo evaluador.

GPT-5.5: fuerte en terminal, agentes y uso de herramientas

GPT-5.5 es el modelo con más datos públicos directamente comparables frente a Claude Opus 4.7 en este conjunto de fuentes. Vellum publica resultados para Terminal-Bench 2.0, SWE-Bench Pro, GDPval, GPQA Diamond y FrontierMath; OpenAI añade OSWorld-Verified, BrowseComp y MCP Atlas [2][7].

Su señal más clara está en los flujos de trabajo con agentes, terminal y herramientas. GPT-5.5 supera a Claude Opus 4.7 en Terminal-Bench 2.0, con 82,7 % frente a 69,4 %; en BrowseComp, con 84,4 % frente a 79,3 %; y en OSWorld-Verified, con 78,7 % frente a 78,0 % [2][7].

Eso no significa que gane en todo. Claude Opus 4.7 queda por delante en SWE-Bench Pro, MCP Atlas y GPQA Diamond en las fuentes citadas [2][7]. La lectura práctica es sencilla: GPT-5.5 parece especialmente sólido cuando el trabajo exige coordinar pasos, usar herramientas y ejecutar flujos técnicos, pero no desplaza a Claude en todos los escenarios.

En seguridad y evaluación de comportamiento, OpenAI indica en la System Card que GPT-5.5 fue evaluado con CoT-Control, una suite de más de 13.000 tareas construidas a partir de benchmarks como GPQA, MMLU-Pro, HLE, BFCL y SWE-Bench Verified [4]. Ese dato ayuda a entender el marco de control del modelo, pero no debe sustituir a las puntuaciones de rendimiento en benchmarks concretos.

Claude Opus 4.7: la señal más fuerte está en ingeniería de software

Anthropic lista Claude Opus 4.7 en la documentación de Claude API con fecha del 16 de abril de 2026 [20]. En las comparaciones directas disponibles con GPT-5.5, su ventaja más importante aparece en SWE-Bench Pro: Claude Opus 4.7 alcanza 64,3 %, frente al 58,6 % de GPT-5.5 [2].

También supera a GPT-5.5 en MCP Atlas, con 79,1 % frente a 75,3 %, según la tabla publicada por OpenAI [7]. A la vez, GPT-5.5 queda por delante en OSWorld-Verified y BrowseComp en esa misma fuente, y Vellum lo sitúa por encima en Terminal-Bench 2.0, GDPval y FrontierMath T1–3 [2][7].

Por tanto, Claude Opus 4.7 es una opción especialmente convincente cuando el criterio principal es resolver problemas de software, siempre que el caso de uso se parezca a lo que mide SWE-Bench Pro. Para flujos de navegador, herramientas o uso de ordenador, la elección exige mirar el benchmark concreto y no solo la marca del modelo.

En seguridad, Anthropic reporta en Petri 2.0 que dos intervenciones combinadas redujeron la eval-awareness en modelos Claude con una caída relativa mediana del 47,3 % [22]. Es un dato relevante para comportamiento y alineamiento, pero no debe leerse como una puntuación directa de rendimiento de Claude Opus 4.7.

DeepSeek V4: contexto enorme, con una alerta de fiabilidad

El informe técnico de DeepSeek-V4 señala que la serie V4 mantiene el marco DeepSeekMoE y la estrategia Multi-Token Prediction de DeepSeek-V3, e introduce mecanismos de atención híbrida para mejorar la eficiencia en contexto largo [30]. En la tabla de Artificial Analysis, DeepSeek V4 Pro aparece con una ventana de contexto de 1.000k tokens, frente a los 256k tokens de Kimi K2.6 [33].

Ese es su gran atractivo: trabajar con documentos extensos o flujos donde retener mucho contexto importa. Pero la ventana de contexto no equivale automáticamente a mayor fiabilidad. Artificial Analysis reporta que DeepSeek V4 Pro Max obtiene -10 en AA-Omniscience, una mejora frente al -21 de DeepSeek V3.2 Reasoning, pero también informa una tasa de hallucination del 94 % para DeepSeek V4 Pro y del 96 % para DeepSeek V4 Flash [31].

La conclusión práctica es prudente: DeepSeek V4 Pro merece entrar en la lista si el problema exige contexto muy largo. Pero en tareas con coste alto de error —por ejemplo, análisis documental sensible, decisiones legales, financieras o técnicas— conviene combinarlo con grounding mediante recuperación, verificación factual y revisión humana cuando sea necesario [30][31][33].

Kimi K2.6: pesos abiertos y multimodalidad, pero faltan comparativas directas

Artificial Analysis describe Kimi K2.6 como un modelo de pesos abiertos lanzado en abril de 2026 y le asigna 54 puntos en el Artificial Analysis Intelligence Index [35]. Otro análisis de la misma firma indica que Kimi K2.6 admite entrada de imagen y vídeo, produce texto de forma nativa y mantiene una longitud máxima de contexto de 256k tokens [36].

Frente a DeepSeek V4 Pro, Kimi K2.6 ofrece menos contexto en la tabla disponible: 256k tokens frente a 1.000k tokens [33]. Pero su perfil es distinto. Kimi K2.6 resulta más interesante para quien necesita un modelo multimodal de pesos abiertos que para quien busca simplemente la mayor ventana de contexto posible.

El punto débil de la evidencia es que, en las fuentes usadas, no aparece una batería completa de puntuaciones de Kimi K2.6 contra GPT-5.5 y Claude Opus 4.7 en Terminal-Bench 2.0, SWE-Bench Pro, GDPval, OSWorld-Verified o MCP Atlas [2][7][33][35][36]. Por eso, conviene tratarlo como candidato prometedor, no como ganador demostrado en categorías donde faltan datos comparables.

Qué modelo elegir según el trabajo

Trabajo principalModelo que conviene mirar primeroMotivo basado en la evidencia disponible
Automatización en terminal y flujos con agentesGPT-5.5Lidera frente a Claude Opus 4.7 en Terminal-Bench 2.0: 82,7 % frente a 69,4 % [2]
Ingeniería de software y resolución de issuesClaude Opus 4.7Supera a GPT-5.5 en SWE-Bench Pro: 64,3 % frente a 58,6 % [2]
Flujos de navegador y uso de herramientasGPT-5.5 o Claude Opus 4.7, según la herramientaGPT-5.5 lidera en BrowseComp, pero Claude Opus 4.7 lidera en MCP Atlas [7]
Uso de ordenador o interfaz gráficaGPT-5.5, con ventaja estrechaOSWorld-Verified queda en 78,7 % para GPT-5.5 y 78,0 % para Claude Opus 4.7 [7]
Documentos o contexto extremadamente largoDeepSeek V4 ProArtificial Analysis indica una ventana de contexto de 1.000k tokens, aunque también reporta hallucination del 94 % para V4 Pro [31][33]
Multimodalidad con pesos abiertosKimi K2.6Artificial Analysis lo identifica como modelo de pesos abiertos y señala entrada nativa de imagen y vídeo con salida textual [35][36]
Máxima reducción de hallucinationNo hay ganador global con estos datosHay una señal de riesgo clara en DeepSeek V4, pero no una comparativa completa de fiabilidad para los cuatro modelos en la misma fuente [31]

Lo que los benchmarks no cuentan por sí solos

Mezclar puntuaciones de fuentes distintas en una sola clasificación rígida es una mala idea. Vellum, OpenAI y Artificial Analysis publican pruebas, contextos y métricas diferentes [2][7][31][33][35]. Incluso en programación, la literatura académica advierte que benchmarks como HumanEval tienen limitaciones, y que las evaluaciones más cercanas al trabajo real deben considerar pruebas de resolución de issues como SWE-Bench [42].

También conviene separar contexto de exactitud. DeepSeek V4 Pro aparece con 1.000k tokens de ventana de contexto, pero la misma familia de datos de Artificial Analysis reporta una tasa de hallucination del 94 % para DeepSeek V4 Pro [31][33]. Un modelo puede leer mucho y, aun así, necesitar controles fuertes para responder correctamente.

Para producción, lo sensato es construir una evaluación propia con los documentos, herramientas, prompts y criterios de éxito reales. Si el modelo va a operar sobre información especializada o decisiones de alto impacto, los benchmarks públicos sirven como filtro inicial, no como autorización automática.

Conclusión

Con la evidencia disponible, GPT-5.5 es el candidato más fuerte para flujos con agentes, terminal y uso de herramientas en varias pruebas, porque supera a Claude Opus 4.7 en Terminal-Bench 2.0, BrowseComp y OSWorld-Verified [2][7]. Claude Opus 4.7 destaca especialmente en ingeniería de software: en SWE-Bench Pro obtiene 64,3 %, frente al 58,6 % de GPT-5.5 [2].

DeepSeek V4 Pro aporta una ventaja clara en contexto largo, con 1.000k tokens, pero esa fortaleza debe equilibrarse con la tasa de hallucination del 94 % reportada por Artificial Analysis [31][33]. Kimi K2.6, por su parte, es un candidato atractivo si se buscan pesos abiertos y multimodalidad, con contexto de 256k tokens, entrada nativa de imagen y vídeo, y 54 puntos en el Artificial Analysis Intelligence Index [35][36].

La respuesta corta: no elija por marca ni por una tabla única. Elija por tarea, por benchmark relevante y por pruebas internas con sus propios datos.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

  • No existe un benchmark único que compare a los cuatro modelos en igualdad de condiciones; GPT 5.5 supera a Claude Opus 4.7 en Terminal Bench 2.0, pero Claude lidera en SWE Bench Pro [2].
  • DeepSeek V4 Pro sobresale por ventana de contexto, con 1.000k tokens frente a los 256k de Kimi K2.6, aunque Artificial Analysis reporta una tasa de hallucination del 94 % para V4 Pro [31][33].
  • Kimi K2.6 entra en la lista corta si se busca un modelo multimodal de pesos abiertos: admite imagen y vídeo como entrada, salida de texto nativa y obtiene 54 en el Artificial Analysis Intelligence Index [35][36].

คนยังถาม

คำตอบสั้น ๆ สำหรับ "Benchmark 2026: GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6" คืออะไร

No existe un benchmark único que compare a los cuatro modelos en igualdad de condiciones; GPT 5.5 supera a Claude Opus 4.7 en Terminal Bench 2.0, pero Claude lidera en SWE Bench Pro [2].

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

No existe un benchmark único que compare a los cuatro modelos en igualdad de condiciones; GPT 5.5 supera a Claude Opus 4.7 en Terminal Bench 2.0, pero Claude lidera en SWE Bench Pro [2]. DeepSeek V4 Pro sobresale por ventana de contexto, con 1.000k tokens frente a los 256k de Kimi K2.6, aunque Artificial Analysis reporta una tasa de hallucination del 94 % para V4 Pro [31][33].

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

Kimi K2.6 entra en la lista corta si se busca un modelo multimodal de pesos abiertos: admite imagen y vídeo como entrada, salida de texto nativa y obtiene 54 en el Artificial Analysis Intelligence Index [35][36].

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ

คำถามวิจัย

ศึกษาค้นคว้าเกณฑ์มาตรฐานการทดสอบของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 แล้วเปรียบเทียบให้ครอบคลุมมากที่สุดเท่าที่เป็นไปได้ จัดทำรายงานการวิจัยเกี่ยวกับเรื่องนี้

Studio Global AI40 แหล่งที่มา

อ้างถึงคำตอบ

รายงานนี้พบว่า “มีข้อมูลเปรียบเทียบได้บางส่วน แต่ยังไม่ครบแบบ apples-to-apples” สำหรับ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 โดย GPT-5.5 มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดที่ค้นพบ, Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ตามแหล่งเปรียบเทียบภายนอก, DeepSeek V4 เด่นเรื่องบริบทยาวระดับ 1,000k tokens แต่มีสัญญาณความเสี่ยงด้าน hallucination ในการทดสอบของ Artificial Analysis, ส่วน Kimi K2.6 มีหลักฐานเปรียบเทียบที่พบจำกัด โดยยืนยันได้หลัก ๆ เรื่องบริบท 256k tokens จากแหล่งเปรียบเทียบภายนอก [11][7][9]

Key findings

  • ข้อมูลที่เทียบได้ตรงที่สุดระหว่าง GPT-5.5 กับ Claude Opus 4.7 คือ Terminal-Bench 2.0, SWE-Bench Pro และ GDPval จากแหล่งวิเคราะห์ภายนอกเดียวกัน [11]

  • GPT-5.5 ได้ 82.7% บน Terminal-Bench 2.0 เทียบกับ Claude Opus 4.7 ที่ 69.4% ทำให้ GPT-5.5 นำในงาน terminal/agentic workflow ตามข้อมูลชุดนี้ [11]

  • Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% ทำให้ Claude นำใน benchmark งานแก้ปัญหา software engineering ตามข้อมูลชุดนี้ [11]

  • GPT-5.5 ได้ 84.9% บน GDPval เทียบกับ Claude Opus 4.7 ที่ 80.3% ทำให้ GPT-5.5 นำใน benchmark งานเชิงเศรษฐกิจ/งานมืออาชีพตามข้อมูลชุดนี้ [11]

  • OpenAI มีเอกสาร safety/evaluation สำหรับ GPT-5.5 ที่กล่าวถึง CoT-Control ซึ่งใช้ชุดงานมากกว่า 13,000 งานจาก benchmark ที่มีอยู่ เช่น GPQA และ MMLU-Pro [14]

  • Anthropic มีบันทึกเอกสาร API ที่ระบุ Claude Opus 4.7 วันที่ 16 เมษายน 2026 แต่ข้อมูลคะแนน benchmark อย่างเป็นทางการที่พบในชุดผลค้นหานี้ยังไม่ครบเท่าข้อมูลของ GPT-5.5 [2]

  • DeepSeek V4 series ถูกอธิบายในเอกสารเทคนิคว่าเป็นการต่อยอดจาก DeepSeek-V3 โดยยังคง DeepSeekMoE และ Multi-Token Prediction พร้อมเพิ่มกลไกด้านประสิทธิภาพสำหรับ long context [6]

  • DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่าใช้ context window 1,000k tokens ส่วน Kimi K2.6 ใช้ context window 256k tokens [9]

  • Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ทำคะแนน AA-Omniscience ที่ -10 ดีขึ้น 11 จุดจาก V3.2 แต่มี hallucination rate สูงถึง 94% ในชุดทดสอบนั้น [7]

  • หลักฐานสาธารณะที่พบยังไม่เพียงพอสำหรับการสรุปตารางคะแนน benchmark ครบทุกหมวดของทั้ง 4 รุ่นพร้อมกัน; ดังนั้นจุดที่ไม่มีตัวเลขควรถือว่า “Insufficient evidence.”

ขอบเขตและวิธีวิจัย

  • รายงานนี้ใช้หลักฐานจากเอกสารทางการ, เอกสารเทคนิค, แหล่ง benchmark ภายนอก และแหล่งวิชาการที่พบในผลค้นหา ณ วันที่ทำรายงาน [2][6][11][14][1]

  • แหล่งที่มีน้ำหนักสูงกว่าในรายงานนี้คือเอกสารทางการหรือเอกสารเทคนิค เช่น release notes ของ Anthropic, เอกสาร safety/evaluation ของ OpenAI และ PDF ทางเทคนิคของ DeepSeek V4 [2][14][6]

  • แหล่งที่ใช้สำหรับคะแนนเปรียบเทียบหลายรุ่นพร้อมกันส่วนใหญ่เป็นแหล่งภายนอก เช่น Vellum, BenchLM, LLM Stats และ Artificial Analysis จึงควรตีความเป็น benchmark จากผู้ประเมินรายนั้น ไม่ใช่ผลรับรองกลางทั้งหมด [11][12][15][7]

  • งานวิชาการด้าน benchmark การเขียนโค้ดชี้ว่าชุดทดสอบอย่าง HumanEval มีข้อจำกัด และมีความพยายามสร้าง benchmark ที่ใกล้งานจริงมากขึ้น เช่น SWE-Bench และ benchmark fine-grained issue solving [1]

ภาพรวม benchmark ที่ควรใช้เทียบ

หมวดทดสอบตัวอย่าง benchmark ที่พบใช้วัดอะไรหมายเหตุด้านความน่าเชื่อถือ
Reasoning / knowledgeGPQA, MMLU-Pro, ARC-AGI, LongBench v2, MuSRความรู้เชิงลึก การให้เหตุผล และการแก้ปัญหาซับซ้อนOpenAI ระบุว่า CoT-Control ของ GPT-5.5 ใช้ชุดงานจาก GPQA และ MMLU-Pro ร่วมกับ benchmark อื่น ๆ มากกว่า 13,000 งาน [14]
Coding / software engineeringSWE-Bench Pro, SWE-Bench Verified, LiveCodeBench, Expert-SWEความสามารถแก้ issue, เขียน/แก้โค้ด และทำงานวิศวกรรมซอฟต์แวร์งานวิชาการระบุว่า benchmark แบบ HumanEval ไม่พอสำหรับงานจริง จึงต้องใช้ benchmark ที่ใกล้ issue จริงมากขึ้น [1]
Agentic / tool useTerminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench, WebArenaการใช้เครื่องมือ, terminal, browser, workflow หลายขั้นตอนBenchLM จัด GPT-5.5 ในหมวด agentic ด้วยชุด benchmark อย่าง Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench และ WebArena [12]
Vision / multimodalMMMU Pro, image/video input testsความเข้าใจภาพ วิดีโอ และเอกสารหลายรูปแบบข้อมูลที่พบสำหรับทั้ง 4 รุ่นยังไม่พอสำหรับสรุปเชิงตัวเลขครบทุกโมเดล; Insufficient evidence.
Long contextLongBench v2, MRCRv2, context-window testsการคงบริบทและดึงข้อมูลจากเอกสารยาวDeepSeek V4 Pro ถูกระบุว่ามี context window 1,000k tokens และ Kimi K2.6 256k tokens ในแหล่งเปรียบเทียบเดียวกัน [9]
Safety / reliabilityCoT-Control, Petri, hallucination tests, AA-Omniscienceการควบคุมพฤติกรรม, eval-awareness, hallucination, ความน่าเชื่อถือOpenAI ใช้ CoT-Control กับงานมากกว่า 13,000 งาน ส่วน Anthropic รายงาน Petri 2.0 และ Artificial Analysis รายงาน hallucination rate ของ DeepSeek V4 Pro Max [14][4][7]

ตารางเปรียบเทียบคะแนนที่พบ

Benchmark / metricGPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6ข้อสรุปจากหลักฐาน
Terminal-Bench 2.082.7%69.4%Insufficient evidenceInsufficient evidenceGPT-5.5 นำ Claude Opus 4.7 ชัดเจนในงาน terminal/agentic ตามแหล่งนี้ [11]
SWE-Bench Pro58.6%64.3%Insufficient evidenceInsufficient evidenceClaude Opus 4.7 นำ GPT-5.5 ในงาน software engineering ตามแหล่งนี้ [11]
Expert-SWE internal73.1%Insufficient evidenceInsufficient evidenceInsufficient evidenceใช้ได้เป็นสัญญาณภายในของ GPT-5.5 แต่ไม่เหมาะสรุปเทียบทุกค่ายเพราะไม่มีคะแนนครบ [11]
GDPval84.9%80.3%Insufficient evidenceInsufficient evidenceGPT-5.5 นำ Claude Opus 4.7 ใน benchmark งานมืออาชีพตามแหล่งนี้ [11]
BenchLM aggregate: Agentic#2 / 99.5 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceใช้ดูอันดับรวมของ GPT-5.5 ได้ แต่ยังไม่ใช่ตารางเดียวกันครบ 4 โมเดล [12]
BenchLM aggregate: Coding85.6 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceGPT-5.5 ถูกจัดอันดับสูงใน coding aggregate แต่ไม่มีคะแนนคู่เทียบครบในแหล่งเดียวกัน [12]
BenchLM aggregate: Reasoning100.0 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceGPT-5.5 ถูกจัดอันดับสูงสุดใน reasoning aggregate ของ BenchLM แต่ยังไม่ใช่ผลเปรียบเทียบครบ 4 รุ่น [12]
Context windowInsufficient evidenceInsufficient evidence1,000k tokens256k tokensDeepSeek V4 Pro เหนือ Kimi K2.6 ด้าน context window ตามแหล่งเปรียบเทียบนี้ [9]
AA-OmniscienceInsufficient evidenceInsufficient evidence-10 สำหรับ V4 Pro MaxInsufficient evidenceDeepSeek V4 Pro Max ดีขึ้นจาก V3.2 แต่ยังมี hallucination rate สูงมากในรายงานเดียวกัน [7]
Hallucination rateInsufficient evidenceInsufficient evidence94% สำหรับ V4 Pro/FlashInsufficient evidenceเป็นสัญญาณความเสี่ยงสำคัญของ DeepSeek V4 ในชุดทดสอบของ Artificial Analysis [7]

วิเคราะห์รายโมเดล

GPT-5.5

  • GPT-5.5 เป็นโมเดลที่มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดหลักฐานที่พบ โดยมีคะแนน Terminal-Bench 2.0, SWE-Bench Pro, Expert-SWE และ GDPval จากแหล่งเปรียบเทียบภายนอก [11]

  • จุดแข็งหลักของ GPT-5.5 คือ agentic workflow และงานมืออาชีพ โดยได้ 82.7% บน Terminal-Bench 2.0 และ 84.9% บน GDPval [11]

  • จุดที่ยังไม่ชนะทุกหมวดคือ software engineering benchmark แบบ SWE-Bench Pro เพราะ GPT-5.5 ได้ 58.6% ต่ำกว่า Claude Opus 4.7 ที่ 64.3% [11]

  • เอกสาร safety/evaluation ของ OpenAI สำหรับ GPT-5.5 ระบุการใช้ CoT-Control กับงานมากกว่า 13,000 งานจาก benchmark เช่น GPQA และ MMLU-Pro ซึ่งทำให้ข้อมูลด้านการควบคุมพฤติกรรมมีฐานเอกสารทางการมากกว่าโมเดลอื่นในชุดนี้ [14]

Claude Opus 4.7

  • Claude Opus 4.7 ปรากฏในเอกสาร release notes ของ Anthropic วันที่ 16 เมษายน 2026 ซึ่งช่วยยืนยันสถานะโมเดลในเอกสารทางการ [2]

  • จุดแข็งที่เด่นที่สุดจากข้อมูลที่พบคือ coding/software engineering เพราะ Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% [11]

  • Claude Opus 4.7 ตามข้อมูลเดียวกันได้ 69.4% บน Terminal-Bench 2.0 และ 80.3% บน GDPval ซึ่งตามหลัง GPT-5.5 ในสองหมวดนี้ [11]

  • Anthropic มีงานประเมินด้าน safety/eval-awareness ผ่าน Petri 2.0 โดยรายงานว่าการแทรกแซงสองแนวทางร่วมกันทำให้ eval-awareness ลดลงแบบ median relative drop 47.3% ในโมเดล Claude [4]

DeepSeek V4

  • เอกสาร DeepSeek-V4 ระบุว่า V4 series ยังคง DeepSeekMoE framework และ Multi-Token Prediction strategy จาก DeepSeek-V3 พร้อมเพิ่มนวัตกรรมด้านสถาปัตยกรรมและการปรับประสิทธิภาพ [6]

  • DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่ามี context window 1,000k tokens ซึ่งสูงกว่า Kimi K2.6 ที่ 256k tokens อย่างมีนัยสำคัญ [9]

  • Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ได้ AA-Omniscience -10 ซึ่งดีขึ้น 11 จุดจาก DeepSeek V3.2 Reasoning ที่ -21 [7]

  • ประเด็นเสี่ยงสำคัญคือ Artificial Analysis รายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro และ V4 Flash ในชุดประเมินของตน [7]

  • ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับการเปรียบเทียบ DeepSeek V4 กับ GPT-5.5 และ Claude Opus 4.7 บน Terminal-Bench 2.0, SWE-Bench Pro หรือ GDPval; Insufficient evidence.

Kimi K2.6

  • หลักฐานเปรียบเทียบที่พบสำหรับ Kimi K2.6 จำกัดกว่ารุ่นอื่น โดยแหล่งที่พบยืนยันได้ว่า Kimi K2.6 มี context window 256k tokens ในตารางเปรียบเทียบกับ DeepSeek V4 Pro [9]

  • เมื่อเทียบเฉพาะ context window, Kimi K2.6 ต่ำกว่า DeepSeek V4 Pro ที่ 1,000k tokens ตามแหล่งเปรียบเทียบเดียวกัน [9]

  • ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับคะแนน Kimi K2.6 บน Terminal-Bench 2.0, SWE-Bench Pro, GPQA, MMLU-Pro, GDPval หรือ hallucination benchmark แบบเดียวกับ DeepSeek V4; Insufficient evidence.

เปรียบเทียบตามกรณีใช้งาน

  • หากเน้น terminal, agentic workflow และงานหลายขั้นตอน GPT-5.5 เป็นตัวเลือกที่มีหลักฐานคะแนนนำ Claude Opus 4.7 ชัดเจนจาก Terminal-Bench 2.0 ที่ 82.7% เทียบกับ 69.4% [11]

  • หากเน้นแก้ปัญหา software engineering จาก issue จริง Claude Opus 4.7 น่าพิจารณากว่า GPT-5.5 เพราะได้ SWE-Bench Pro 64.3% เทียบกับ 58.6% [11]

  • หากเน้นงานมืออาชีพหรือ benchmark แนว GDPval GPT-5.5 มีคะแนน 84.9% สูงกว่า Claude Opus 4.7 ที่ 80.3% [11]

  • หากเน้น long-context retrieval หรือเอกสารยาวมาก DeepSeek V4 Pro มีจุดเด่นจาก context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens แต่ยังไม่มีข้อมูลครบสำหรับเทียบกับ GPT-5.5 และ Claude Opus 4.7 ในแหล่งเดียวกัน [9]

  • หากเน้นความน่าเชื่อถือและลด hallucination ควรระวัง DeepSeek V4 เพราะรายงานของ Artificial Analysis ระบุ hallucination rate 94% ในชุดทดสอบของตน [7]

  • หากต้องการเลือก Kimi K2.6 สำหรับงาน production ควรขอหรือรอ benchmark เพิ่มเติมจากแหล่งทางการหรือผู้ประเมินภายนอกที่ใช้ harness เดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4; Insufficient evidence.

Evidence notes

  • แหล่งทางการที่พบสำหรับ GPT-5.5 มีน้ำหนักสูงในส่วน safety/evaluation แต่คะแนนเปรียบเทียบเชิงประสิทธิภาพที่ครบกว่าในรายงานนี้มาจากแหล่งภายนอก [14][11]

  • แหล่งทางการของ Anthropic ที่พบยืนยันการมีอยู่ของ Claude Opus 4.7 ใน release notes แต่คะแนนเปรียบเทียบที่ใช้ในตารางมาจากแหล่งภายนอก [2][11]

  • แหล่ง DeepSeek V4 ที่มีน้ำหนักสูงสุดคือ PDF เทคนิคบน Hugging Face ของ deepseek-ai ซึ่งอธิบายสถาปัตยกรรมและ long-context direction แต่ไม่ให้ตารางเปรียบเทียบครบทุก benchmark ที่ต้องการในผลค้นหาที่พบ [6]

  • แหล่งสำหรับ Kimi K2.6 ที่ใช้ได้ในรายงานนี้เป็นแหล่งเปรียบเทียบภายนอก ไม่ใช่เอกสาร benchmark ทางการของ Moonshot/Kimi ในผลค้นหาที่พบ [9]

  • งานวิชาการสนับสนุนข้อควรระวังว่าการวัด coding capability ต้องใช้ benchmark ที่ใกล้งานจริงกว่า HumanEval และควรพิจารณา benchmark ประเภท SWE-Bench หรือ issue-solving ร่วมด้วย [1]

Limitations / uncertainty

  • Insufficient evidence สำหรับตารางคะแนนครบทุก benchmark ของทั้ง 4 รุ่นใน harness เดียวกัน

  • คะแนนจากแหล่งต่างกันอาจใช้ prompt, sampling, tool access, reasoning mode, compute budget และ scoring pipeline ต่างกัน จึงไม่ควรนำตัวเลขจากคนละแหล่งมารวมเป็นอันดับเด็ดขาด

  • ข้อมูล DeepSeek V4 และ Kimi K2.6 ในรายงานนี้ยังไม่ครบด้าน coding, reasoning, multimodal, safety และ cost-performance เมื่อเทียบกับข้อมูล GPT-5.5 และ Claude Opus 4.7

  • ผล benchmark ของโมเดลรุ่น frontier เปลี่ยนเร็วมาก และควรตรวจซ้ำกับ model card, system card, technical report และ leaderboard ที่อัปเดตล่าสุดก่อนตัดสินใจใช้งานจริง

Summary

  • GPT-5.5 มีหลักฐานแข็งที่สุดในชุดนี้ด้าน agentic workflow และ GDPval โดยนำ Claude Opus 4.7 บน Terminal-Bench 2.0 และ GDPval [11]

  • Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ซึ่งเป็นสัญญาณสำคัญสำหรับงาน software engineering [11]

แหล่งที่มา

  • [2] Everything You Need to Know About GPT-5.5vellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [4] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...

  • [7] Introducing GPT-5.5 - OpenAIopenai.com

    Computer use and vision EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro OSWorld-Verified 78.7%75.0%--78.0%- MMMU Pro (no tools)81.2%81.2%---80.5% MMMU Pro (with tools)83.2%82.1%---- Tool use EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaud...

  • [20] System Prompts - Claude API Docsdocs.anthropic.com

    Claude Opus 4.7. April 16, 2026. Claude Sonnet 4.6. February 17, 2026. Claude Opus 4.6. February 5, 2026. Claude Opus 4.5. January 18, 2026. November 24, 2025 ...

  • [22] Petri 2.0: New Scenarios, New Model Comparisons, and Improved ...alignment.anthropic.com

    The two approaches are complementary: On Claude models, the interventions together lead to a 47.3% median relative drop in eval-awareness ... Jan 22, 2026

  • [30] [PDF] DeepSeek-V4: Towards Highly Efficient Million-Token Context ...huggingface.co

    Compared with the DeepSeek-V3 architecture (DeepSeek-AI, 2024), DeepSeek-V4 series retain the DeepSeekMoE framework (Dai et al., 2024) and Multi-Token Prediction (MTP) strategy, while introducing several key innovations in architecture and optimization. To...

  • [31] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [33] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6: Model Comparisonartificialanalysis.ai

    Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) Kimi logoKimi K2.6 Analysis --- --- Creator DeepSeek Kimi Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 256k tokens ( 384 A4 pages of size 12 Arial font) DeepSeek V4 Pro (Reas...

  • [35] Kimi K2.6 - Intelligence, Performance & Price Analysisartificialanalysis.ai

    Kimi K2.6 scores 54 on the Artificial Analysis Intelligence Index, placing it well above average among comparable models (averaging 28). When evaluating the Intelligence Index, it generated 160M tokens, which is very verbose in comparison to the average of...

  • [36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai

    ➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...

  • [42] A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Modelsarxiv.org

    … Existing benchmarks such as HumanEval fall short in their ability to … benchmarks like SWE-Bench are designed to evaluate the … on LLM evaluation, there remains a gap in benchmarks … 2024