studioglobal
ค้นพบเทรนด์
รายงานเผยแพร่แล้ว11 แหล่งที่มา

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: что выбрать под задачу

Единой таблицы apples to apples для всех четырёх моделей нет: GPT 5.5 лидирует в Terminal Bench 2.0 — 82,7% против 69,4%, а Claude Opus 4.7 в SWE Bench Pro — 64,3% против 58,6% [2]. DeepSeek V4 Pro выделяется окном контекста 1000k токенов против 256k у Kimi K2.6, но Artificial Analysis сообщает hallucination rate 94...

16K0
ภาพประกอบการเปรียบเทียบ benchmark ของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6
GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือกภาพประกอบการเปรียบเทียบโมเดล AI ชั้นนำปี 2026 ตามหมวด benchmark และกรณีใช้งาน
AI พรอมต์

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือก. Article summary: ยังไม่มี benchmark ชุดเดียวที่เทียบทั้ง 4 รุ่นได้ครบแบบ apples to apples; จากตัวเลขที่มี GPT 5.5 นำ Terminal Bench 2.0 ที่ 82.7% ต่อ 69.4% ส่วน Claude Opus 4.7 นำ SWE Bench Pro ที่ 64.3% ต่อ 58.6% จึงควรเลือกตามงาน ไม.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and ..." Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login

openai.com

Сравнивать GPT-5.5, Claude Opus 4.7, DeepSeek V4 и Kimi K2.6 одним общим баллом — значит смешивать разные линейки измерений. В доступных источниках GPT-5.5 и Claude Opus 4.7 чаще встречаются в одних и тех же бенчмарках, а DeepSeek V4 и Kimi K2.6 лучше описаны через окно контекста, открытые веса, мультимодальность и отдельные метрики надёжности [2][7][30][31][33][35][36]. Поэтому практичный вопрос звучит не кто победил вообще, а какая модель меньше рискует подвести именно в вашем сценарии.

Короткий ответ

  • Для terminal automation, agentic workflow и работы с инструментами сильнее выглядит GPT-5.5: он ведёт у Claude Opus 4.7 в Terminal-Bench 2.0, BrowseComp и OSWorld-Verified [2][7].
  • Для задач software engineering самый явный плюс у Claude Opus 4.7: 64,3% на SWE-Bench Pro против 58,6% у GPT-5.5 [2].
  • Для очень длинного контекста в этой подборке выделяется DeepSeek V4 Pro: Artificial Analysis указывает 1000k токенов против 256k у Kimi K2.6, но одновременно сообщает hallucination rate 94% для DeepSeek V4 Pro [31][33].
  • Для open-weight multimodal сценариев в shortlist попадает Kimi K2.6: Artificial Analysis описывает его как open weights model, указывает Intelligence Index 54 и нативную поддержку image/video input с text output [35][36].

Сравнимые цифры: где есть прямые данные

Тест / метрикаGPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6Как читать результат
Terminal-Bench 2.082,7%69,4%н/дн/дGPT-5.5 заметно впереди Claude Opus 4.7 в таблице Vellum [2]
SWE-Bench Pro58,6%64,3%н/дн/дClaude Opus 4.7 лидирует в бенчмарке software engineering [2]
GDPval84,9%80,3%н/дн/дGPT-5.5 выше Claude Opus 4.7 в этом наборе [2]
OSWorld-Verified78,7%78,0%н/дн/дGPT-5.5 впереди минимально, по данным OpenAI [7]
BrowseComp84,4%79,3%н/дн/дGPT-5.5 ведёт в этом тесте tool use [7]
MCP Atlas75,3%79,1%н/дн/дЗдесь уже Claude Opus 4.7 впереди GPT-5.5 [7]
GPQA Diamond93,6%94,2%н/дн/дClaude Opus 4.7 имеет небольшой перевес [2]
FrontierMath T1–351,7%43,8%н/дн/дGPT-5.5 впереди Claude Opus 4.7 [2]
Окно контекстан/д в этой таблицен/д в этой таблице1000k токенов256k токеновDeepSeek V4 Pro имеет более длинное окно контекста, чем Kimi K2.6, в сравнении Artificial Analysis [33]
AA-Omniscience / hallucinationн/дн/дV4 Pro Max: -10; V4 Pro hallucination rate 94%н/дСигнал, что ответы DeepSeek V4 Pro нужно особенно тщательно проверять [31]
Artificial Analysis Intelligence Indexн/дн/дн/д54Это отдельная метрика для Kimi K2.6, а не единый рейтинг всех четырёх моделей [35]

Здесь н/д не означает, что модель хуже. Это означает только, что в использованных источниках нет сопоставимого результата в том же бенчмарке и у того же оценщика.

GPT-5.5: сильный кандидат для agentic и tool workflow

GPT-5.5 — модель с самым плотным набором прямых сравнений с Claude Opus 4.7 в доступных источниках. Vellum приводит Terminal-Bench 2.0, SWE-Bench Pro, GDPval, GPQA Diamond и FrontierMath, а OpenAI — OSWorld-Verified, BrowseComp и MCP Atlas [2][7].

Самый заметный профиль GPT-5.5 — задачи, где модель должна не просто отвечать текстом, а планировать шаги, пользоваться инструментами, работать в терминале или браузерном окружении. GPT-5.5 получает 82,7% на Terminal-Bench 2.0 против 69,4% у Claude Opus 4.7, 84,4% на BrowseComp против 79,3% и 78,7% на OSWorld-Verified против 78,0% [2][7].

Но это не универсальная победа. Claude Opus 4.7 обгоняет GPT-5.5 в SWE-Bench Pro, MCP Atlas и GPQA Diamond в приведённых источниках [2][7]. Поэтому GPT-5.5 выглядит особенно убедительно не как модель на все случаи жизни, а как выбор для agentic workflow, терминальных задач, browser/tool use и автоматизации сложных процессов.

Отдельно стоит читать данные по безопасности и управляемости. В System Card OpenAI указано, что GPT-5.5 оценивали через CoT-Control — набор из более чем 13 000 задач, построенный на базе GPQA, MMLU-Pro, HLE, BFCL и SWE-Bench Verified [4]. Это полезно для понимания контроля поведения модели, но не заменяет performance-бенчмарки вроде SWE-Bench Pro или Terminal-Bench.

Claude Opus 4.7: главный аргумент — software engineering

Anthropic указывает Claude Opus 4.7 в документации Claude API с датой 16 апреля 2026 года [20]. Если смотреть только на прямые сравнения с GPT-5.5, самый сильный сигнал в пользу Claude Opus 4.7 — SWE-Bench Pro: 64,3% против 58,6% у GPT-5.5 [2].

Это важно для команд разработки: бенчмарки уровня SWE-Bench ближе к задачам исправления реальных проблем в коде, чем классические короткие тесты на написание функций. На ограничения HumanEval и необходимость более реалистичных issue-solving benchmark указывает и академическая работа о fine-grained issue solving для LLM [42].

Claude Opus 4.7 также ведёт в MCP Atlas: 79,1% против 75,3% у GPT-5.5, по данным OpenAI [7]. В GPQA Diamond его перевес небольшой — 94,2% против 93,6% у GPT-5.5 [2]. Но в Terminal-Bench 2.0, GDPval, BrowseComp, OSWorld-Verified и FrontierMath T1–3 GPT-5.5 выглядит сильнее в этих же наборах данных [2][7].

По части safety Anthropic сообщает в Petri 2.0, что две совместные интервенции снизили eval-awareness у моделей Claude на 47,3% по median relative drop [22]. Это стоит воспринимать как показатель исследований поведения и безопасности семейства Claude, а не как прямой балл производительности Claude Opus 4.7.

DeepSeek V4: огромный контекст, но высокий риск галлюцинаций

Технический отчёт DeepSeek-V4 описывает серию V4 как развитие DeepSeek-V3: сохраняются DeepSeekMoE framework и стратегия Multi-Token Prediction, а для длинного контекста добавлен hybrid attention mechanism с Compressed Sparse Attention и Heavily Compressed Attention [30].

На практике главный видимый плюс DeepSeek V4 Pro — окно контекста. В сравнении Artificial Analysis у DeepSeek V4 Pro указано 1000k токенов, тогда как у Kimi K2.6 — 256k токенов [33]. Это может быть критично для больших документов, длинных логов, массивных кодовых баз и процессов, где модель должна удерживать много входных данных.

Но длинный контекст не равен надёжности. Artificial Analysis сообщает, что DeepSeek V4 Pro Max получил -10 на AA-Omniscience, улучшившись относительно DeepSeek V3.2 Reasoning с -21, но при этом у DeepSeek V4 Pro указан hallucination rate 94%, а у V4 Flash — 96% [31]. Иными словами, модель может быть полезной для задач с большим контекстом, но ответы нужно жёстко приземлять на источники: retrieval, проверка фактов, тесты и human review здесь не роскошь, а часть рабочего процесса [30][31][33].

Kimi K2.6: open-weight multimodal, которому нужны прямые сравнения

Artificial Analysis описывает Kimi K2.6 как open weights model, выпущенную в апреле 2026 года, и указывает Intelligence Index 54 [35]. В отдельном материале Artificial Analysis говорится, что Kimi K2.6 нативно поддерживает ввод изображений и видео с текстовым выводом, а максимальная длина контекста остаётся 256k [36].

Это делает Kimi K2.6 интересным кандидатом для тех, кому важны открытые веса и мультимодальность. Но по ключевым бенчмаркам, где GPT-5.5 и Claude Opus 4.7 можно сравнить напрямую, — Terminal-Bench 2.0, SWE-Bench Pro, GDPval, OSWorld-Verified, BrowseComp и MCP Atlas — в использованных источниках нет полноценного сопоставимого набора результатов для Kimi K2.6 [2][7][35][36].

Поэтому корректный вывод осторожный: Kimi K2.6 стоит включать в shortlist для open-weight multimodal задач, но не стоит объявлять его сильнее или слабее GPT-5.5, Claude Opus 4.7 и DeepSeek V4 там, где нет прямых данных [35][36].

Как выбрать модель под задачу

СценарийЧто рассмотреть первымПочему
Terminal automation, CLI-задачи, agentic workflowGPT-5.582,7% на Terminal-Bench 2.0 против 69,4% у Claude Opus 4.7 [2]
Исправление issue, software engineering, работа с кодовой базойClaude Opus 4.764,3% на SWE-Bench Pro против 58,6% у GPT-5.5 [2]
Browser/tool workflowGPT-5.5 или Claude Opus 4.7 — зависит от стекаGPT-5.5 ведёт в BrowseComp, Claude Opus 4.7 — в MCP Atlas [7]
Computer-use workflowGPT-5.5 с небольшим перевесомOSWorld-Verified: 78,7% у GPT-5.5 и 78,0% у Claude Opus 4.7 [7]
Очень длинный контекстDeepSeek V4 Pro1000k токенов в таблице Artificial Analysis, но нужен строгий контроль качества из-за hallucination rate 94% [31][33]
Open-weight multimodalKimi K2.6Открытые веса, нативный ввод изображений и видео, Intelligence Index 54 [35][36]
Минимизация галлюцинаций в критичных процессахНужен собственный тест, общего победителя по этим данным нетДля DeepSeek V4 Pro есть явный риск в отчёте Artificial Analysis, но единой reliability-таблицы для всех четырёх моделей нет [31]

Почему бенчмарк не заменяет пилот в вашей среде

Первая ловушка — складывать баллы из разных источников в один рейтинг. Vellum, OpenAI и Artificial Analysis показывают разные наборы тестов и разные контексты оценки, поэтому их цифры лучше читать как отдельные срезы, а не как единую турнирную таблицу [2][7][31][33][35].

Вторая ловушка — думать, что один coding-бенчмарк описывает всю разработку. Академическая работа по issue-solving benchmark прямо указывает, что HumanEval недостаточен для оценки возможностей LLM в реальных задачах, а бенчмарки вроде SWE-Bench лучше отражают решение практических проблем в коде [42].

Третья ловушка — путать длину контекста с точностью. DeepSeek V4 Pro имеет 1000k токенов контекста в таблице Artificial Analysis, но тот же источник сообщает hallucination rate 94% для DeepSeek V4 Pro [31][33]. Для production-сценариев это означает простую вещь: нужен собственный набор тестов на ваших данных, с проверкой фактов, регрессионными задачами и понятной процедурой отката.

Итог

Если нужен один практичный ориентир, он такой: GPT-5.5 сильнее выглядит для agentic, terminal и tool workflow; Claude Opus 4.7 — для software engineering по SWE-Bench Pro; DeepSeek V4 Pro — для задач с очень длинным контекстом, но с обязательной проверкой ответов; Kimi K2.6 — для open-weight multimodal сценариев, где важны изображения, видео и доступность весов [2][7][31][33][35][36].

Абсолютного победителя по всем четырём моделям эти данные не доказывают. Лучший выбор — не лидер общего рейтинга, а модель, которая выигрывает именно в вашем типе задач и проходит ваш внутренний тест качества.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

  • Единой таблицы apples to apples для всех четырёх моделей нет: GPT 5.5 лидирует в Terminal Bench 2.0 — 82,7% против 69,4%, а Claude Opus 4.7 в SWE Bench Pro — 64,3% против 58,6% [2].
  • DeepSeek V4 Pro выделяется окном контекста 1000k токенов против 256k у Kimi K2.6, но Artificial Analysis сообщает hallucination rate 94% для V4 Pro [31][33].
  • Kimi K2.6 стоит рассматривать, если нужны открытые веса и нативный ввод изображений и видео: модель получила Intelligence Index 54, но прямых сравнений с GPT 5.5 и Claude в ключевых тестах пока не хватает [2][7][35][36].

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: что выбрать под задачу" คืออะไร

Единой таблицы apples to apples для всех четырёх моделей нет: GPT 5.5 лидирует в Terminal Bench 2.0 — 82,7% против 69,4%, а Claude Opus 4.7 в SWE Bench Pro — 64,3% против 58,6% [2].

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

Единой таблицы apples to apples для всех четырёх моделей нет: GPT 5.5 лидирует в Terminal Bench 2.0 — 82,7% против 69,4%, а Claude Opus 4.7 в SWE Bench Pro — 64,3% против 58,6% [2]. DeepSeek V4 Pro выделяется окном контекста 1000k токенов против 256k у Kimi K2.6, но Artificial Analysis сообщает hallucination rate 94% для V4 Pro [31][33].

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

Kimi K2.6 стоит рассматривать, если нужны открытые веса и нативный ввод изображений и видео: модель получила Intelligence Index 54, но прямых сравнений с GPT 5.5 и Claude в ключевых тестах пока не хватает [2][7][35][36].

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ

คำถามวิจัย

ศึกษาค้นคว้าเกณฑ์มาตรฐานการทดสอบของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 แล้วเปรียบเทียบให้ครอบคลุมมากที่สุดเท่าที่เป็นไปได้ จัดทำรายงานการวิจัยเกี่ยวกับเรื่องนี้

Studio Global AI40 แหล่งที่มา

อ้างถึงคำตอบ

รายงานนี้พบว่า “มีข้อมูลเปรียบเทียบได้บางส่วน แต่ยังไม่ครบแบบ apples-to-apples” สำหรับ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 โดย GPT-5.5 มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดที่ค้นพบ, Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ตามแหล่งเปรียบเทียบภายนอก, DeepSeek V4 เด่นเรื่องบริบทยาวระดับ 1,000k tokens แต่มีสัญญาณความเสี่ยงด้าน hallucination ในการทดสอบของ Artificial Analysis, ส่วน Kimi K2.6 มีหลักฐานเปรียบเทียบที่พบจำกัด โดยยืนยันได้หลัก ๆ เรื่องบริบท 256k tokens จากแหล่งเปรียบเทียบภายนอก [11][7][9]

Key findings

  • ข้อมูลที่เทียบได้ตรงที่สุดระหว่าง GPT-5.5 กับ Claude Opus 4.7 คือ Terminal-Bench 2.0, SWE-Bench Pro และ GDPval จากแหล่งวิเคราะห์ภายนอกเดียวกัน [11]

  • GPT-5.5 ได้ 82.7% บน Terminal-Bench 2.0 เทียบกับ Claude Opus 4.7 ที่ 69.4% ทำให้ GPT-5.5 นำในงาน terminal/agentic workflow ตามข้อมูลชุดนี้ [11]

  • Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% ทำให้ Claude นำใน benchmark งานแก้ปัญหา software engineering ตามข้อมูลชุดนี้ [11]

  • GPT-5.5 ได้ 84.9% บน GDPval เทียบกับ Claude Opus 4.7 ที่ 80.3% ทำให้ GPT-5.5 นำใน benchmark งานเชิงเศรษฐกิจ/งานมืออาชีพตามข้อมูลชุดนี้ [11]

  • OpenAI มีเอกสาร safety/evaluation สำหรับ GPT-5.5 ที่กล่าวถึง CoT-Control ซึ่งใช้ชุดงานมากกว่า 13,000 งานจาก benchmark ที่มีอยู่ เช่น GPQA และ MMLU-Pro [14]

  • Anthropic มีบันทึกเอกสาร API ที่ระบุ Claude Opus 4.7 วันที่ 16 เมษายน 2026 แต่ข้อมูลคะแนน benchmark อย่างเป็นทางการที่พบในชุดผลค้นหานี้ยังไม่ครบเท่าข้อมูลของ GPT-5.5 [2]

  • DeepSeek V4 series ถูกอธิบายในเอกสารเทคนิคว่าเป็นการต่อยอดจาก DeepSeek-V3 โดยยังคง DeepSeekMoE และ Multi-Token Prediction พร้อมเพิ่มกลไกด้านประสิทธิภาพสำหรับ long context [6]

  • DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่าใช้ context window 1,000k tokens ส่วน Kimi K2.6 ใช้ context window 256k tokens [9]

  • Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ทำคะแนน AA-Omniscience ที่ -10 ดีขึ้น 11 จุดจาก V3.2 แต่มี hallucination rate สูงถึง 94% ในชุดทดสอบนั้น [7]

  • หลักฐานสาธารณะที่พบยังไม่เพียงพอสำหรับการสรุปตารางคะแนน benchmark ครบทุกหมวดของทั้ง 4 รุ่นพร้อมกัน; ดังนั้นจุดที่ไม่มีตัวเลขควรถือว่า “Insufficient evidence.”

ขอบเขตและวิธีวิจัย

  • รายงานนี้ใช้หลักฐานจากเอกสารทางการ, เอกสารเทคนิค, แหล่ง benchmark ภายนอก และแหล่งวิชาการที่พบในผลค้นหา ณ วันที่ทำรายงาน [2][6][11][14][1]

  • แหล่งที่มีน้ำหนักสูงกว่าในรายงานนี้คือเอกสารทางการหรือเอกสารเทคนิค เช่น release notes ของ Anthropic, เอกสาร safety/evaluation ของ OpenAI และ PDF ทางเทคนิคของ DeepSeek V4 [2][14][6]

  • แหล่งที่ใช้สำหรับคะแนนเปรียบเทียบหลายรุ่นพร้อมกันส่วนใหญ่เป็นแหล่งภายนอก เช่น Vellum, BenchLM, LLM Stats และ Artificial Analysis จึงควรตีความเป็น benchmark จากผู้ประเมินรายนั้น ไม่ใช่ผลรับรองกลางทั้งหมด [11][12][15][7]

  • งานวิชาการด้าน benchmark การเขียนโค้ดชี้ว่าชุดทดสอบอย่าง HumanEval มีข้อจำกัด และมีความพยายามสร้าง benchmark ที่ใกล้งานจริงมากขึ้น เช่น SWE-Bench และ benchmark fine-grained issue solving [1]

ภาพรวม benchmark ที่ควรใช้เทียบ

หมวดทดสอบตัวอย่าง benchmark ที่พบใช้วัดอะไรหมายเหตุด้านความน่าเชื่อถือ
Reasoning / knowledgeGPQA, MMLU-Pro, ARC-AGI, LongBench v2, MuSRความรู้เชิงลึก การให้เหตุผล และการแก้ปัญหาซับซ้อนOpenAI ระบุว่า CoT-Control ของ GPT-5.5 ใช้ชุดงานจาก GPQA และ MMLU-Pro ร่วมกับ benchmark อื่น ๆ มากกว่า 13,000 งาน [14]
Coding / software engineeringSWE-Bench Pro, SWE-Bench Verified, LiveCodeBench, Expert-SWEความสามารถแก้ issue, เขียน/แก้โค้ด และทำงานวิศวกรรมซอฟต์แวร์งานวิชาการระบุว่า benchmark แบบ HumanEval ไม่พอสำหรับงานจริง จึงต้องใช้ benchmark ที่ใกล้ issue จริงมากขึ้น [1]
Agentic / tool useTerminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench, WebArenaการใช้เครื่องมือ, terminal, browser, workflow หลายขั้นตอนBenchLM จัด GPT-5.5 ในหมวด agentic ด้วยชุด benchmark อย่าง Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench และ WebArena [12]
Vision / multimodalMMMU Pro, image/video input testsความเข้าใจภาพ วิดีโอ และเอกสารหลายรูปแบบข้อมูลที่พบสำหรับทั้ง 4 รุ่นยังไม่พอสำหรับสรุปเชิงตัวเลขครบทุกโมเดล; Insufficient evidence.
Long contextLongBench v2, MRCRv2, context-window testsการคงบริบทและดึงข้อมูลจากเอกสารยาวDeepSeek V4 Pro ถูกระบุว่ามี context window 1,000k tokens และ Kimi K2.6 256k tokens ในแหล่งเปรียบเทียบเดียวกัน [9]
Safety / reliabilityCoT-Control, Petri, hallucination tests, AA-Omniscienceการควบคุมพฤติกรรม, eval-awareness, hallucination, ความน่าเชื่อถือOpenAI ใช้ CoT-Control กับงานมากกว่า 13,000 งาน ส่วน Anthropic รายงาน Petri 2.0 และ Artificial Analysis รายงาน hallucination rate ของ DeepSeek V4 Pro Max [14][4][7]

ตารางเปรียบเทียบคะแนนที่พบ

Benchmark / metricGPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6ข้อสรุปจากหลักฐาน
Terminal-Bench 2.082.7%69.4%Insufficient evidenceInsufficient evidenceGPT-5.5 นำ Claude Opus 4.7 ชัดเจนในงาน terminal/agentic ตามแหล่งนี้ [11]
SWE-Bench Pro58.6%64.3%Insufficient evidenceInsufficient evidenceClaude Opus 4.7 นำ GPT-5.5 ในงาน software engineering ตามแหล่งนี้ [11]
Expert-SWE internal73.1%Insufficient evidenceInsufficient evidenceInsufficient evidenceใช้ได้เป็นสัญญาณภายในของ GPT-5.5 แต่ไม่เหมาะสรุปเทียบทุกค่ายเพราะไม่มีคะแนนครบ [11]
GDPval84.9%80.3%Insufficient evidenceInsufficient evidenceGPT-5.5 นำ Claude Opus 4.7 ใน benchmark งานมืออาชีพตามแหล่งนี้ [11]
BenchLM aggregate: Agentic#2 / 99.5 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceใช้ดูอันดับรวมของ GPT-5.5 ได้ แต่ยังไม่ใช่ตารางเดียวกันครบ 4 โมเดล [12]
BenchLM aggregate: Coding85.6 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceGPT-5.5 ถูกจัดอันดับสูงใน coding aggregate แต่ไม่มีคะแนนคู่เทียบครบในแหล่งเดียวกัน [12]
BenchLM aggregate: Reasoning100.0 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceGPT-5.5 ถูกจัดอันดับสูงสุดใน reasoning aggregate ของ BenchLM แต่ยังไม่ใช่ผลเปรียบเทียบครบ 4 รุ่น [12]
Context windowInsufficient evidenceInsufficient evidence1,000k tokens256k tokensDeepSeek V4 Pro เหนือ Kimi K2.6 ด้าน context window ตามแหล่งเปรียบเทียบนี้ [9]
AA-OmniscienceInsufficient evidenceInsufficient evidence-10 สำหรับ V4 Pro MaxInsufficient evidenceDeepSeek V4 Pro Max ดีขึ้นจาก V3.2 แต่ยังมี hallucination rate สูงมากในรายงานเดียวกัน [7]
Hallucination rateInsufficient evidenceInsufficient evidence94% สำหรับ V4 Pro/FlashInsufficient evidenceเป็นสัญญาณความเสี่ยงสำคัญของ DeepSeek V4 ในชุดทดสอบของ Artificial Analysis [7]

วิเคราะห์รายโมเดล

GPT-5.5

  • GPT-5.5 เป็นโมเดลที่มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดหลักฐานที่พบ โดยมีคะแนน Terminal-Bench 2.0, SWE-Bench Pro, Expert-SWE และ GDPval จากแหล่งเปรียบเทียบภายนอก [11]

  • จุดแข็งหลักของ GPT-5.5 คือ agentic workflow และงานมืออาชีพ โดยได้ 82.7% บน Terminal-Bench 2.0 และ 84.9% บน GDPval [11]

  • จุดที่ยังไม่ชนะทุกหมวดคือ software engineering benchmark แบบ SWE-Bench Pro เพราะ GPT-5.5 ได้ 58.6% ต่ำกว่า Claude Opus 4.7 ที่ 64.3% [11]

  • เอกสาร safety/evaluation ของ OpenAI สำหรับ GPT-5.5 ระบุการใช้ CoT-Control กับงานมากกว่า 13,000 งานจาก benchmark เช่น GPQA และ MMLU-Pro ซึ่งทำให้ข้อมูลด้านการควบคุมพฤติกรรมมีฐานเอกสารทางการมากกว่าโมเดลอื่นในชุดนี้ [14]

Claude Opus 4.7

  • Claude Opus 4.7 ปรากฏในเอกสาร release notes ของ Anthropic วันที่ 16 เมษายน 2026 ซึ่งช่วยยืนยันสถานะโมเดลในเอกสารทางการ [2]

  • จุดแข็งที่เด่นที่สุดจากข้อมูลที่พบคือ coding/software engineering เพราะ Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% [11]

  • Claude Opus 4.7 ตามข้อมูลเดียวกันได้ 69.4% บน Terminal-Bench 2.0 และ 80.3% บน GDPval ซึ่งตามหลัง GPT-5.5 ในสองหมวดนี้ [11]

  • Anthropic มีงานประเมินด้าน safety/eval-awareness ผ่าน Petri 2.0 โดยรายงานว่าการแทรกแซงสองแนวทางร่วมกันทำให้ eval-awareness ลดลงแบบ median relative drop 47.3% ในโมเดล Claude [4]

DeepSeek V4

  • เอกสาร DeepSeek-V4 ระบุว่า V4 series ยังคง DeepSeekMoE framework และ Multi-Token Prediction strategy จาก DeepSeek-V3 พร้อมเพิ่มนวัตกรรมด้านสถาปัตยกรรมและการปรับประสิทธิภาพ [6]

  • DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่ามี context window 1,000k tokens ซึ่งสูงกว่า Kimi K2.6 ที่ 256k tokens อย่างมีนัยสำคัญ [9]

  • Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ได้ AA-Omniscience -10 ซึ่งดีขึ้น 11 จุดจาก DeepSeek V3.2 Reasoning ที่ -21 [7]

  • ประเด็นเสี่ยงสำคัญคือ Artificial Analysis รายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro และ V4 Flash ในชุดประเมินของตน [7]

  • ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับการเปรียบเทียบ DeepSeek V4 กับ GPT-5.5 และ Claude Opus 4.7 บน Terminal-Bench 2.0, SWE-Bench Pro หรือ GDPval; Insufficient evidence.

Kimi K2.6

  • หลักฐานเปรียบเทียบที่พบสำหรับ Kimi K2.6 จำกัดกว่ารุ่นอื่น โดยแหล่งที่พบยืนยันได้ว่า Kimi K2.6 มี context window 256k tokens ในตารางเปรียบเทียบกับ DeepSeek V4 Pro [9]

  • เมื่อเทียบเฉพาะ context window, Kimi K2.6 ต่ำกว่า DeepSeek V4 Pro ที่ 1,000k tokens ตามแหล่งเปรียบเทียบเดียวกัน [9]

  • ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับคะแนน Kimi K2.6 บน Terminal-Bench 2.0, SWE-Bench Pro, GPQA, MMLU-Pro, GDPval หรือ hallucination benchmark แบบเดียวกับ DeepSeek V4; Insufficient evidence.

เปรียบเทียบตามกรณีใช้งาน

  • หากเน้น terminal, agentic workflow และงานหลายขั้นตอน GPT-5.5 เป็นตัวเลือกที่มีหลักฐานคะแนนนำ Claude Opus 4.7 ชัดเจนจาก Terminal-Bench 2.0 ที่ 82.7% เทียบกับ 69.4% [11]

  • หากเน้นแก้ปัญหา software engineering จาก issue จริง Claude Opus 4.7 น่าพิจารณากว่า GPT-5.5 เพราะได้ SWE-Bench Pro 64.3% เทียบกับ 58.6% [11]

  • หากเน้นงานมืออาชีพหรือ benchmark แนว GDPval GPT-5.5 มีคะแนน 84.9% สูงกว่า Claude Opus 4.7 ที่ 80.3% [11]

  • หากเน้น long-context retrieval หรือเอกสารยาวมาก DeepSeek V4 Pro มีจุดเด่นจาก context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens แต่ยังไม่มีข้อมูลครบสำหรับเทียบกับ GPT-5.5 และ Claude Opus 4.7 ในแหล่งเดียวกัน [9]

  • หากเน้นความน่าเชื่อถือและลด hallucination ควรระวัง DeepSeek V4 เพราะรายงานของ Artificial Analysis ระบุ hallucination rate 94% ในชุดทดสอบของตน [7]

  • หากต้องการเลือก Kimi K2.6 สำหรับงาน production ควรขอหรือรอ benchmark เพิ่มเติมจากแหล่งทางการหรือผู้ประเมินภายนอกที่ใช้ harness เดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4; Insufficient evidence.

Evidence notes

  • แหล่งทางการที่พบสำหรับ GPT-5.5 มีน้ำหนักสูงในส่วน safety/evaluation แต่คะแนนเปรียบเทียบเชิงประสิทธิภาพที่ครบกว่าในรายงานนี้มาจากแหล่งภายนอก [14][11]

  • แหล่งทางการของ Anthropic ที่พบยืนยันการมีอยู่ของ Claude Opus 4.7 ใน release notes แต่คะแนนเปรียบเทียบที่ใช้ในตารางมาจากแหล่งภายนอก [2][11]

  • แหล่ง DeepSeek V4 ที่มีน้ำหนักสูงสุดคือ PDF เทคนิคบน Hugging Face ของ deepseek-ai ซึ่งอธิบายสถาปัตยกรรมและ long-context direction แต่ไม่ให้ตารางเปรียบเทียบครบทุก benchmark ที่ต้องการในผลค้นหาที่พบ [6]

  • แหล่งสำหรับ Kimi K2.6 ที่ใช้ได้ในรายงานนี้เป็นแหล่งเปรียบเทียบภายนอก ไม่ใช่เอกสาร benchmark ทางการของ Moonshot/Kimi ในผลค้นหาที่พบ [9]

  • งานวิชาการสนับสนุนข้อควรระวังว่าการวัด coding capability ต้องใช้ benchmark ที่ใกล้งานจริงกว่า HumanEval และควรพิจารณา benchmark ประเภท SWE-Bench หรือ issue-solving ร่วมด้วย [1]

Limitations / uncertainty

  • Insufficient evidence สำหรับตารางคะแนนครบทุก benchmark ของทั้ง 4 รุ่นใน harness เดียวกัน

  • คะแนนจากแหล่งต่างกันอาจใช้ prompt, sampling, tool access, reasoning mode, compute budget และ scoring pipeline ต่างกัน จึงไม่ควรนำตัวเลขจากคนละแหล่งมารวมเป็นอันดับเด็ดขาด

  • ข้อมูล DeepSeek V4 และ Kimi K2.6 ในรายงานนี้ยังไม่ครบด้าน coding, reasoning, multimodal, safety และ cost-performance เมื่อเทียบกับข้อมูล GPT-5.5 และ Claude Opus 4.7

  • ผล benchmark ของโมเดลรุ่น frontier เปลี่ยนเร็วมาก และควรตรวจซ้ำกับ model card, system card, technical report และ leaderboard ที่อัปเดตล่าสุดก่อนตัดสินใจใช้งานจริง

Summary

  • GPT-5.5 มีหลักฐานแข็งที่สุดในชุดนี้ด้าน agentic workflow และ GDPval โดยนำ Claude Opus 4.7 บน Terminal-Bench 2.0 และ GDPval [11]

  • Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ซึ่งเป็นสัญญาณสำคัญสำหรับงาน software engineering [11]

แหล่งที่มา

  • [2] Everything You Need to Know About GPT-5.5vellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [4] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...

  • [7] Introducing GPT-5.5 - OpenAIopenai.com

    Computer use and vision EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro OSWorld-Verified 78.7%75.0%--78.0%- MMMU Pro (no tools)81.2%81.2%---80.5% MMMU Pro (with tools)83.2%82.1%---- Tool use EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaud...

  • [20] System Prompts - Claude API Docsdocs.anthropic.com

    Claude Opus 4.7. April 16, 2026. Claude Sonnet 4.6. February 17, 2026. Claude Opus 4.6. February 5, 2026. Claude Opus 4.5. January 18, 2026. November 24, 2025 ...

  • [22] Petri 2.0: New Scenarios, New Model Comparisons, and Improved ...alignment.anthropic.com

    The two approaches are complementary: On Claude models, the interventions together lead to a 47.3% median relative drop in eval-awareness ... Jan 22, 2026

  • [30] [PDF] DeepSeek-V4: Towards Highly Efficient Million-Token Context ...huggingface.co

    Compared with the DeepSeek-V3 architecture (DeepSeek-AI, 2024), DeepSeek-V4 series retain the DeepSeekMoE framework (Dai et al., 2024) and Multi-Token Prediction (MTP) strategy, while introducing several key innovations in architecture and optimization. To...

  • [31] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [33] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6: Model Comparisonartificialanalysis.ai

    Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) Kimi logoKimi K2.6 Analysis --- --- Creator DeepSeek Kimi Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 256k tokens ( 384 A4 pages of size 12 Arial font) DeepSeek V4 Pro (Reas...

  • [35] Kimi K2.6 - Intelligence, Performance & Price Analysisartificialanalysis.ai

    Kimi K2.6 scores 54 on the Artificial Analysis Intelligence Index, placing it well above average among comparable models (averaging 28). When evaluating the Intelligence Index, it generated 160M tokens, which is very verbose in comparison to the average of...

  • [36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai

    ➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...

  • [42] A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Modelsarxiv.org

    … Existing benchmarks such as HumanEval fall short in their ability to … benchmarks like SWE-Bench are designed to evaluate the … on LLM evaluation, there remains a gap in benchmarks … 2024