studioglobal
ค้นพบเทรนด์
รายงานเผยแพร่แล้ว11 แหล่งที่มา

GPT-5.5, Claude Opus 4.7, DeepSeek V4, atau Kimi K2.6: mana yang paling pas?

Belum ada satu benchmark setara yang membandingkan keempat model secara lengkap; GPT 5.5 unggul atas Claude Opus 4.7 di Terminal Bench 2.0 dengan 82,7% vs 69,4%, sementara Claude unggul di SWE Bench Pro dengan 64,3% v... GPT 5.5 terlihat kuat untuk workflow terminal, agentic, dan tool use, tetapi Claude Opus 4.7 tet...

16K0
ภาพประกอบการเปรียบเทียบ benchmark ของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6
GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือกภาพประกอบการเปรียบเทียบโมเดล AI ชั้นนำปี 2026 ตามหมวด benchmark และกรณีใช้งาน
AI พรอมต์

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือก. Article summary: ยังไม่มี benchmark ชุดเดียวที่เทียบทั้ง 4 รุ่นได้ครบแบบ apples to apples; จากตัวเลขที่มี GPT 5.5 นำ Terminal Bench 2.0 ที่ 82.7% ต่อ 69.4% ส่วน Claude Opus 4.7 นำ SWE Bench Pro ที่ 64.3% ต่อ 58.6% จึงควรเลือกตามงาน ไม.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and ..." Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login

openai.com

Pertanyaan model AI mana yang terbaik sering terdengar sederhana. Masalahnya, data benchmark 2026 untuk GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6 belum tersedia dalam satu arena uji yang benar-benar setara. Jadi, membuat satu peringkat umum dari nomor 1 sampai 4 justru bisa menyesatkan.

Kesimpulan yang lebih aman: pilih model berdasarkan jenis pekerjaan. GPT-5.5 dan Claude Opus 4.7 punya beberapa angka yang bisa dibandingkan langsung dari Vellum dan OpenAI, sementara DeepSeek V4 dan Kimi K2.6 lebih banyak memiliki data publik yang menonjol di area long context, open-weight, multimodal, dan reliability dari laporan teknis DeepSeek serta Artificial Analysis [2][7][30][31][33][35][36].

Kesimpulan cepat: jangan cari juara tunggal

Jika pekerjaan Anda banyak berkutat dengan terminal, agentic workflow, dan penggunaan tool, GPT-5.5 adalah kandidat kuat. Model ini unggul atas Claude Opus 4.7 di Terminal-Bench 2.0 dengan 82,7% vs 69,4%, BrowseComp 84,4% vs 79,3%, dan OSWorld-Verified 78,7% vs 78,0% [2][7].

Jika fokusnya software engineering dan penyelesaian issue, Claude Opus 4.7 punya sinyal lebih kuat karena unggul di SWE-Bench Pro dengan 64,3% dibanding GPT-5.5 yang mendapat 58,6% [2]. Claude juga unggul di MCP Atlas menurut tabel OpenAI, 79,1% vs 75,3% [7].

Jika kebutuhan utama adalah membaca atau mengelola konteks sangat panjang, DeepSeek V4 Pro layak dilirik karena Artificial Analysis mencatat context window 1.000k token, lebih besar dari Kimi K2.6 yang 256k token [33]. Namun, DeepSeek V4 Pro juga perlu dipakai dengan kontrol kualitas yang ketat karena Artificial Analysis melaporkan hallucination rate 94% untuk V4 Pro [31].

Jika Anda mencari model open-weight multimodal, Kimi K2.6 masuk daftar pendek. Artificial Analysis menyebut Kimi K2.6 sebagai open weights model yang dirilis pada April 2026 dan mencatat Intelligence Index 54; analisis lain dari sumber yang sama menyebut dukungan input image dan video dengan output teks secara native serta max context length 256k [35][36].

Tabel benchmark yang benar-benar bisa dibandingkan

Catatan penting: kolom tidak tersedia bukan berarti model tersebut buruk. Artinya, dalam sumber yang digunakan di sini belum ditemukan skor dari benchmark yang sama, evaluator yang sama, dan kondisi pengujian yang sama.

Benchmark / metrikGPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6Cara membaca
Terminal-Bench 2.082,7%69,4%Tidak tersedia di sumber yang samaTidak tersedia di sumber yang samaGPT-5.5 unggul atas Claude Opus 4.7 dalam tabel Vellum [2]
SWE-Bench Pro58,6%64,3%Tidak tersedia di sumber yang samaTidak tersedia di sumber yang samaClaude Opus 4.7 unggul untuk benchmark software engineering ini [2]
GDPval84,9%80,3%Tidak tersedia di sumber yang samaTidak tersedia di sumber yang samaGPT-5.5 unggul atas Claude Opus 4.7 dalam set ini [2]
OSWorld-Verified78,7%78,0%Tidak tersedia di sumber yang samaTidak tersedia di sumber yang samaGPT-5.5 unggul tipis dalam tabel OpenAI [7]
BrowseComp84,4%79,3%Tidak tersedia di sumber yang samaTidak tersedia di sumber yang samaGPT-5.5 unggul untuk benchmark tool use ini [7]
MCP Atlas75,3%79,1%Tidak tersedia di sumber yang samaTidak tersedia di sumber yang samaClaude Opus 4.7 unggul atas GPT-5.5 menurut OpenAI [7]
GPQA Diamond93,6%94,2%Tidak tersedia di sumber yang samaTidak tersedia di sumber yang samaClaude Opus 4.7 unggul tipis menurut Vellum [2]
FrontierMath T1–351,7%43,8%Tidak tersedia di sumber yang samaTidak tersedia di sumber yang samaGPT-5.5 unggul atas Claude Opus 4.7 menurut Vellum [2]
Context windowTidak ada di tabel Artificial Analysis iniTidak ada di tabel Artificial Analysis ini1.000k token256k tokenDeepSeek V4 Pro punya context window lebih besar daripada Kimi K2.6 di sumber yang sama [33]
AA-Omniscience / hallucinationTidak tersedia di sumber yang samaTidak tersedia di sumber yang samaV4 Pro Max mendapat -10; V4 Pro hallucination rate 94%Tidak tersedia di sumber yang samaIni sinyal bahwa output DeepSeek V4 perlu diverifikasi dengan hati-hati [31]
Artificial Analysis Intelligence IndexTidak tersedia di sumber yang digunakanTidak tersedia di sumber yang digunakanTidak tersedia di sumber yang digunakan54Ini data khusus Kimi K2.6, bukan leaderboard yang sama dengan Vellum atau OpenAI [35]

GPT-5.5: kuat untuk agentic, terminal, dan tool workflow

Dalam kumpulan data yang digunakan di artikel ini, GPT-5.5 memiliki angka publik yang paling banyak bisa dibandingkan langsung dengan Claude Opus 4.7. Vellum mencantumkan skor Terminal-Bench 2.0, SWE-Bench Pro, GDPval, GPQA Diamond, dan FrontierMath; OpenAI mencantumkan OSWorld-Verified, BrowseComp, dan MCP Atlas [2][7].

Kekuatan paling jelas ada di pekerjaan yang mirip operator digital: menjalankan langkah-langkah terminal, memakai browser, memakai tool, dan menyelesaikan workflow bertahap. GPT-5.5 unggul atas Claude Opus 4.7 di Terminal-Bench 2.0 dengan 82,7% vs 69,4%, BrowseComp 84,4% vs 79,3%, dan OSWorld-Verified 78,7% vs 78,0% [2][7].

Namun, GPT-5.5 bukan pemenang di semua kategori. Claude Opus 4.7 unggul di SWE-Bench Pro, MCP Atlas, dan GPQA Diamond pada sumber yang dikutip [2][7]. Jadi, untuk tim yang hendak memilih model produksi, skor GPT-5.5 sebaiknya dibaca sebagai sinyal kuat di workflow agentic dan tool-heavy, bukan sebagai bukti bahwa ia selalu lebih baik untuk semua tugas.

Di sisi safety dan evaluasi perilaku, OpenAI menyebut GPT-5.5 dievaluasi dengan CoT-Control, rangkaian evaluasi yang berisi lebih dari 13.000 tugas dari benchmark seperti GPQA, MMLU-Pro, HLE, BFCL, dan SWE-Bench Verified [4]. Informasi ini berguna untuk memahami kontrol perilaku model, tetapi tidak boleh disamakan begitu saja dengan skor performance benchmark.

Claude Opus 4.7: sinyal paling kuat ada di software engineering

Anthropic mencantumkan Claude Opus 4.7 dalam Claude API Docs dengan tanggal 16 April 2026 [20]. Dari angka yang dapat dibandingkan langsung dengan GPT-5.5, keunggulan paling jelas adalah SWE-Bench Pro: Claude Opus 4.7 mendapat 64,3%, sementara GPT-5.5 mendapat 58,6% [2].

Untuk tim engineering, ini penting karena benchmark sejenis SWE-Bench lebih dekat dengan pekerjaan penyelesaian issue dibanding tes coding yang terlalu sederhana. Literatur akademik juga mencatat bahwa benchmark seperti HumanEval memiliki keterbatasan, dan evaluasi yang lebih dekat ke pekerjaan nyata perlu mempertimbangkan benchmark issue-solving seperti SWE-Bench [42].

Claude Opus 4.7 juga unggul di MCP Atlas dengan 79,1% vs GPT-5.5 75,3% menurut tabel OpenAI [7]. Tetapi gambarnya tetap campuran: GPT-5.5 unggul di OSWorld-Verified dan BrowseComp menurut OpenAI, serta unggul di Terminal-Bench 2.0, GDPval, dan FrontierMath T1–3 menurut Vellum [2][7].

Untuk aspek safety, Anthropic melaporkan dalam Petri 2.0 bahwa dua pendekatan intervensi yang digabungkan menghasilkan median relative drop 47,3% dalam eval-awareness pada model Claude [22]. Angka ini sebaiknya dibaca sebagai informasi perilaku dan keamanan keluarga Claude, bukan sebagai skor performa langsung untuk Claude Opus 4.7.

DeepSeek V4: context sangat panjang, tetapi reliability harus dijaga

Laporan teknis DeepSeek-V4 menyebut seri V4 tetap mempertahankan DeepSeekMoE framework dan strategi Multi-Token Prediction dari DeepSeek-V3, lalu menambahkan mekanisme hybrid attention untuk meningkatkan efisiensi long context [30]. Dalam tabel Artificial Analysis, DeepSeek V4 Pro memiliki context window 1.000k token, sedangkan Kimi K2.6 memiliki 256k token [33].

Bagi pembaca yang tidak akrab dengan istilah ini, context window adalah jumlah potongan teks atau token yang bisa dipertahankan model dalam satu sesi. Angka yang lebih besar membantu ketika model harus membaca dokumen panjang, banyak file, atau percakapan yang sangat besar. Tetapi context besar tidak otomatis berarti jawaban lebih benar.

Titik rawannya ada di reliability. Artificial Analysis melaporkan DeepSeek V4 Pro Max mendapat AA-Omniscience -10, membaik dari DeepSeek V3.2 Reasoning yang mendapat -21, tetapi juga melaporkan hallucination rate 94% untuk DeepSeek V4 Pro dan 96% untuk DeepSeek V4 Flash [31]. Dalam praktik, halusinasi berarti model tetap menjawab seolah tahu meskipun jawabannya belum tentu benar.

Karena itu, DeepSeek V4 Pro paling masuk akal dipertimbangkan ketika konteks panjang adalah kebutuhan utama, misalnya analisis dokumen besar atau workflow yang harus menyimpan banyak konteks. Namun untuk pekerjaan berisiko tinggi, gunakan bersama retrieval grounding, pengecekan fakta, dan review manusia [30][31][33].

Kimi K2.6: kandidat open-weight multimodal yang masih butuh pembanding langsung

Artificial Analysis menyebut Kimi K2.6 sebagai open weights model yang dirilis pada April 2026 dan mencatat skor 54 pada Artificial Analysis Intelligence Index [35]. Artikel lain dari Artificial Analysis menyebut Kimi K2.6 mendukung input image dan video dengan output teks secara native, serta memiliki max context length 256k [36].

Jika dibandingkan hanya dari context window dalam tabel yang sama, Kimi K2.6 berada di bawah DeepSeek V4 Pro yang mencapai 1.000k token [33]. Tetapi Kimi K2.6 punya sudut pandang berbeda: ia menarik bagi pengguna yang membutuhkan model open-weight dengan kemampuan multimodal native [35][36].

Yang belum boleh dilakukan adalah menyimpulkan Kimi K2.6 lebih unggul atau lebih lemah dari GPT-5.5 dan Claude Opus 4.7 pada benchmark seperti Terminal-Bench 2.0, SWE-Bench Pro, GDPval, OSWorld-Verified, atau MCP Atlas. Dalam sumber yang digunakan di artikel ini, skor setara untuk perbandingan langsung tersebut belum tersedia [2][7][33][35][36].

Cara memilih model berdasarkan pekerjaan

Kebutuhan utamaModel yang layak diprioritaskanAlasan dari data yang tersedia
Terminal automation dan agentic workflowGPT-5.5Unggul atas Claude Opus 4.7 di Terminal-Bench 2.0, 82,7% vs 69,4% [2]
Software engineering dan penyelesaian issueClaude Opus 4.7Unggul atas GPT-5.5 di SWE-Bench Pro, 64,3% vs 58,6% [2]
Browser dan tool workflowGPT-5.5 atau Claude Opus 4.7, tergantung toolGPT-5.5 unggul di BrowseComp, tetapi Claude Opus 4.7 unggul di MCP Atlas [7]
Computer-use workflowGPT-5.5, dengan selisih tipisOSWorld-Verified: GPT-5.5 78,7%, Claude Opus 4.7 78,0% [7]
Long context sangat besarDeepSeek V4 ProContext window 1.000k token, tetapi perlu verifikasi tambahan karena hallucination rate 94% [31][33]
Open-weight multimodalKimi K2.6Disebut open weights model dan mendukung image serta video input dengan text output native [35][36]
Pekerjaan yang menuntut minim halusinasiBelum ada pemenang umum dari data iniAda sinyal risiko jelas pada DeepSeek V4, tetapi belum ada metrik reliability setara untuk keempat model dalam satu sumber [31]

Cara membaca benchmark dengan lebih sehat

Pertama, jangan mencampur angka dari sumber berbeda menjadi satu ranking final. Vellum, OpenAI, dan Artificial Analysis memakai konteks evaluasi, benchmark, dan penyajian data yang berbeda [2][7][31][33][35]. Angka yang tampak dekat pun bisa berubah makna jika prompt, akses tool, reasoning mode, atau pipeline penilaiannya berbeda.

Kedua, benchmark coding tidak semuanya sama. Tes yang mengukur potongan kode pendek tidak selalu menggambarkan kemampuan menyelesaikan issue nyata di repositori besar. Karena itu, riset akademik menekankan keterbatasan HumanEval dan pentingnya benchmark yang lebih dekat ke issue-solving seperti SWE-Bench [42].

Ketiga, context window bukan pengganti akurasi. DeepSeek V4 Pro memang punya context window 1.000k token dalam tabel Artificial Analysis, tetapi sumber yang sama juga melaporkan hallucination rate 94% untuk V4 Pro [31][33]. Untuk penggunaan produksi, terutama di domain hukum, keuangan, kesehatan, keamanan, atau keputusan bisnis penting, selalu buat set pengujian internal dan proses review yang sesuai risiko.

Ringkasan akhir

Dari bukti yang tersedia, GPT-5.5 adalah pilihan kuat untuk pekerjaan agentic, terminal, dan tool workflow karena unggul atas Claude Opus 4.7 di Terminal-Bench 2.0, BrowseComp, dan OSWorld-Verified [2][7]. Claude Opus 4.7 lebih menarik untuk software engineering berbasis issue karena unggul di SWE-Bench Pro, 64,3% vs 58,6% [2].

DeepSeek V4 Pro menonjol untuk long context dengan 1.000k token, tetapi harus diimbangi dengan verifikasi ketat karena Artificial Analysis melaporkan hallucination rate 94% [31][33]. Kimi K2.6 menarik sebagai kandidat open-weight multimodal dengan context 256k, dukungan image/video input native, dan Artificial Analysis Intelligence Index 54, tetapi masih membutuhkan lebih banyak benchmark setara sebelum bisa dinilai secara penuh melawan GPT-5.5, Claude Opus 4.7, dan DeepSeek V4 [35][36].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

  • Belum ada satu benchmark setara yang membandingkan keempat model secara lengkap; GPT 5.5 unggul atas Claude Opus 4.7 di Terminal Bench 2.0 dengan 82,7% vs 69,4%, sementara Claude unggul di SWE Bench Pro dengan 64,3% v...
  • GPT 5.5 terlihat kuat untuk workflow terminal, agentic, dan tool use, tetapi Claude Opus 4.7 tetap lebih unggul di beberapa metrik seperti SWE Bench Pro, MCP Atlas, dan GPQA Diamond [2][7].
  • DeepSeek V4 Pro menonjol dengan context window 1.000k token, tetapi Artificial Analysis melaporkan hallucination rate 94%; Kimi K2.6 menarik sebagai model open weight multimodal dengan context 256k dan Intelligence In...

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5, Claude Opus 4.7, DeepSeek V4, atau Kimi K2.6: mana yang paling pas?" คืออะไร

Belum ada satu benchmark setara yang membandingkan keempat model secara lengkap; GPT 5.5 unggul atas Claude Opus 4.7 di Terminal Bench 2.0 dengan 82,7% vs 69,4%, sementara Claude unggul di SWE Bench Pro dengan 64,3% v...

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

Belum ada satu benchmark setara yang membandingkan keempat model secara lengkap; GPT 5.5 unggul atas Claude Opus 4.7 di Terminal Bench 2.0 dengan 82,7% vs 69,4%, sementara Claude unggul di SWE Bench Pro dengan 64,3% v... GPT 5.5 terlihat kuat untuk workflow terminal, agentic, dan tool use, tetapi Claude Opus 4.7 tetap lebih unggul di beberapa metrik seperti SWE Bench Pro, MCP Atlas, dan GPQA Diamond [2][7].

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

DeepSeek V4 Pro menonjol dengan context window 1.000k token, tetapi Artificial Analysis melaporkan hallucination rate 94%; Kimi K2.6 menarik sebagai model open weight multimodal dengan context 256k dan Intelligence In...

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ

คำถามวิจัย

ศึกษาค้นคว้าเกณฑ์มาตรฐานการทดสอบของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 แล้วเปรียบเทียบให้ครอบคลุมมากที่สุดเท่าที่เป็นไปได้ จัดทำรายงานการวิจัยเกี่ยวกับเรื่องนี้

Studio Global AI40 แหล่งที่มา

อ้างถึงคำตอบ

รายงานนี้พบว่า “มีข้อมูลเปรียบเทียบได้บางส่วน แต่ยังไม่ครบแบบ apples-to-apples” สำหรับ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 โดย GPT-5.5 มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดที่ค้นพบ, Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ตามแหล่งเปรียบเทียบภายนอก, DeepSeek V4 เด่นเรื่องบริบทยาวระดับ 1,000k tokens แต่มีสัญญาณความเสี่ยงด้าน hallucination ในการทดสอบของ Artificial Analysis, ส่วน Kimi K2.6 มีหลักฐานเปรียบเทียบที่พบจำกัด โดยยืนยันได้หลัก ๆ เรื่องบริบท 256k tokens จากแหล่งเปรียบเทียบภายนอก [11][7][9]

Key findings

  • ข้อมูลที่เทียบได้ตรงที่สุดระหว่าง GPT-5.5 กับ Claude Opus 4.7 คือ Terminal-Bench 2.0, SWE-Bench Pro และ GDPval จากแหล่งวิเคราะห์ภายนอกเดียวกัน [11]

  • GPT-5.5 ได้ 82.7% บน Terminal-Bench 2.0 เทียบกับ Claude Opus 4.7 ที่ 69.4% ทำให้ GPT-5.5 นำในงาน terminal/agentic workflow ตามข้อมูลชุดนี้ [11]

  • Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% ทำให้ Claude นำใน benchmark งานแก้ปัญหา software engineering ตามข้อมูลชุดนี้ [11]

  • GPT-5.5 ได้ 84.9% บน GDPval เทียบกับ Claude Opus 4.7 ที่ 80.3% ทำให้ GPT-5.5 นำใน benchmark งานเชิงเศรษฐกิจ/งานมืออาชีพตามข้อมูลชุดนี้ [11]

  • OpenAI มีเอกสาร safety/evaluation สำหรับ GPT-5.5 ที่กล่าวถึง CoT-Control ซึ่งใช้ชุดงานมากกว่า 13,000 งานจาก benchmark ที่มีอยู่ เช่น GPQA และ MMLU-Pro [14]

  • Anthropic มีบันทึกเอกสาร API ที่ระบุ Claude Opus 4.7 วันที่ 16 เมษายน 2026 แต่ข้อมูลคะแนน benchmark อย่างเป็นทางการที่พบในชุดผลค้นหานี้ยังไม่ครบเท่าข้อมูลของ GPT-5.5 [2]

  • DeepSeek V4 series ถูกอธิบายในเอกสารเทคนิคว่าเป็นการต่อยอดจาก DeepSeek-V3 โดยยังคง DeepSeekMoE และ Multi-Token Prediction พร้อมเพิ่มกลไกด้านประสิทธิภาพสำหรับ long context [6]

  • DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่าใช้ context window 1,000k tokens ส่วน Kimi K2.6 ใช้ context window 256k tokens [9]

  • Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ทำคะแนน AA-Omniscience ที่ -10 ดีขึ้น 11 จุดจาก V3.2 แต่มี hallucination rate สูงถึง 94% ในชุดทดสอบนั้น [7]

  • หลักฐานสาธารณะที่พบยังไม่เพียงพอสำหรับการสรุปตารางคะแนน benchmark ครบทุกหมวดของทั้ง 4 รุ่นพร้อมกัน; ดังนั้นจุดที่ไม่มีตัวเลขควรถือว่า “Insufficient evidence.”

ขอบเขตและวิธีวิจัย

  • รายงานนี้ใช้หลักฐานจากเอกสารทางการ, เอกสารเทคนิค, แหล่ง benchmark ภายนอก และแหล่งวิชาการที่พบในผลค้นหา ณ วันที่ทำรายงาน [2][6][11][14][1]

  • แหล่งที่มีน้ำหนักสูงกว่าในรายงานนี้คือเอกสารทางการหรือเอกสารเทคนิค เช่น release notes ของ Anthropic, เอกสาร safety/evaluation ของ OpenAI และ PDF ทางเทคนิคของ DeepSeek V4 [2][14][6]

  • แหล่งที่ใช้สำหรับคะแนนเปรียบเทียบหลายรุ่นพร้อมกันส่วนใหญ่เป็นแหล่งภายนอก เช่น Vellum, BenchLM, LLM Stats และ Artificial Analysis จึงควรตีความเป็น benchmark จากผู้ประเมินรายนั้น ไม่ใช่ผลรับรองกลางทั้งหมด [11][12][15][7]

  • งานวิชาการด้าน benchmark การเขียนโค้ดชี้ว่าชุดทดสอบอย่าง HumanEval มีข้อจำกัด และมีความพยายามสร้าง benchmark ที่ใกล้งานจริงมากขึ้น เช่น SWE-Bench และ benchmark fine-grained issue solving [1]

ภาพรวม benchmark ที่ควรใช้เทียบ

หมวดทดสอบตัวอย่าง benchmark ที่พบใช้วัดอะไรหมายเหตุด้านความน่าเชื่อถือ
Reasoning / knowledgeGPQA, MMLU-Pro, ARC-AGI, LongBench v2, MuSRความรู้เชิงลึก การให้เหตุผล และการแก้ปัญหาซับซ้อนOpenAI ระบุว่า CoT-Control ของ GPT-5.5 ใช้ชุดงานจาก GPQA และ MMLU-Pro ร่วมกับ benchmark อื่น ๆ มากกว่า 13,000 งาน [14]
Coding / software engineeringSWE-Bench Pro, SWE-Bench Verified, LiveCodeBench, Expert-SWEความสามารถแก้ issue, เขียน/แก้โค้ด และทำงานวิศวกรรมซอฟต์แวร์งานวิชาการระบุว่า benchmark แบบ HumanEval ไม่พอสำหรับงานจริง จึงต้องใช้ benchmark ที่ใกล้ issue จริงมากขึ้น [1]
Agentic / tool useTerminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench, WebArenaการใช้เครื่องมือ, terminal, browser, workflow หลายขั้นตอนBenchLM จัด GPT-5.5 ในหมวด agentic ด้วยชุด benchmark อย่าง Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench และ WebArena [12]
Vision / multimodalMMMU Pro, image/video input testsความเข้าใจภาพ วิดีโอ และเอกสารหลายรูปแบบข้อมูลที่พบสำหรับทั้ง 4 รุ่นยังไม่พอสำหรับสรุปเชิงตัวเลขครบทุกโมเดล; Insufficient evidence.
Long contextLongBench v2, MRCRv2, context-window testsการคงบริบทและดึงข้อมูลจากเอกสารยาวDeepSeek V4 Pro ถูกระบุว่ามี context window 1,000k tokens และ Kimi K2.6 256k tokens ในแหล่งเปรียบเทียบเดียวกัน [9]
Safety / reliabilityCoT-Control, Petri, hallucination tests, AA-Omniscienceการควบคุมพฤติกรรม, eval-awareness, hallucination, ความน่าเชื่อถือOpenAI ใช้ CoT-Control กับงานมากกว่า 13,000 งาน ส่วน Anthropic รายงาน Petri 2.0 และ Artificial Analysis รายงาน hallucination rate ของ DeepSeek V4 Pro Max [14][4][7]

ตารางเปรียบเทียบคะแนนที่พบ

Benchmark / metricGPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6ข้อสรุปจากหลักฐาน
Terminal-Bench 2.082.7%69.4%Insufficient evidenceInsufficient evidenceGPT-5.5 นำ Claude Opus 4.7 ชัดเจนในงาน terminal/agentic ตามแหล่งนี้ [11]
SWE-Bench Pro58.6%64.3%Insufficient evidenceInsufficient evidenceClaude Opus 4.7 นำ GPT-5.5 ในงาน software engineering ตามแหล่งนี้ [11]
Expert-SWE internal73.1%Insufficient evidenceInsufficient evidenceInsufficient evidenceใช้ได้เป็นสัญญาณภายในของ GPT-5.5 แต่ไม่เหมาะสรุปเทียบทุกค่ายเพราะไม่มีคะแนนครบ [11]
GDPval84.9%80.3%Insufficient evidenceInsufficient evidenceGPT-5.5 นำ Claude Opus 4.7 ใน benchmark งานมืออาชีพตามแหล่งนี้ [11]
BenchLM aggregate: Agentic#2 / 99.5 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceใช้ดูอันดับรวมของ GPT-5.5 ได้ แต่ยังไม่ใช่ตารางเดียวกันครบ 4 โมเดล [12]
BenchLM aggregate: Coding85.6 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceGPT-5.5 ถูกจัดอันดับสูงใน coding aggregate แต่ไม่มีคะแนนคู่เทียบครบในแหล่งเดียวกัน [12]
BenchLM aggregate: Reasoning100.0 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceGPT-5.5 ถูกจัดอันดับสูงสุดใน reasoning aggregate ของ BenchLM แต่ยังไม่ใช่ผลเปรียบเทียบครบ 4 รุ่น [12]
Context windowInsufficient evidenceInsufficient evidence1,000k tokens256k tokensDeepSeek V4 Pro เหนือ Kimi K2.6 ด้าน context window ตามแหล่งเปรียบเทียบนี้ [9]
AA-OmniscienceInsufficient evidenceInsufficient evidence-10 สำหรับ V4 Pro MaxInsufficient evidenceDeepSeek V4 Pro Max ดีขึ้นจาก V3.2 แต่ยังมี hallucination rate สูงมากในรายงานเดียวกัน [7]
Hallucination rateInsufficient evidenceInsufficient evidence94% สำหรับ V4 Pro/FlashInsufficient evidenceเป็นสัญญาณความเสี่ยงสำคัญของ DeepSeek V4 ในชุดทดสอบของ Artificial Analysis [7]

วิเคราะห์รายโมเดล

GPT-5.5

  • GPT-5.5 เป็นโมเดลที่มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดหลักฐานที่พบ โดยมีคะแนน Terminal-Bench 2.0, SWE-Bench Pro, Expert-SWE และ GDPval จากแหล่งเปรียบเทียบภายนอก [11]

  • จุดแข็งหลักของ GPT-5.5 คือ agentic workflow และงานมืออาชีพ โดยได้ 82.7% บน Terminal-Bench 2.0 และ 84.9% บน GDPval [11]

  • จุดที่ยังไม่ชนะทุกหมวดคือ software engineering benchmark แบบ SWE-Bench Pro เพราะ GPT-5.5 ได้ 58.6% ต่ำกว่า Claude Opus 4.7 ที่ 64.3% [11]

  • เอกสาร safety/evaluation ของ OpenAI สำหรับ GPT-5.5 ระบุการใช้ CoT-Control กับงานมากกว่า 13,000 งานจาก benchmark เช่น GPQA และ MMLU-Pro ซึ่งทำให้ข้อมูลด้านการควบคุมพฤติกรรมมีฐานเอกสารทางการมากกว่าโมเดลอื่นในชุดนี้ [14]

Claude Opus 4.7

  • Claude Opus 4.7 ปรากฏในเอกสาร release notes ของ Anthropic วันที่ 16 เมษายน 2026 ซึ่งช่วยยืนยันสถานะโมเดลในเอกสารทางการ [2]

  • จุดแข็งที่เด่นที่สุดจากข้อมูลที่พบคือ coding/software engineering เพราะ Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% [11]

  • Claude Opus 4.7 ตามข้อมูลเดียวกันได้ 69.4% บน Terminal-Bench 2.0 และ 80.3% บน GDPval ซึ่งตามหลัง GPT-5.5 ในสองหมวดนี้ [11]

  • Anthropic มีงานประเมินด้าน safety/eval-awareness ผ่าน Petri 2.0 โดยรายงานว่าการแทรกแซงสองแนวทางร่วมกันทำให้ eval-awareness ลดลงแบบ median relative drop 47.3% ในโมเดล Claude [4]

DeepSeek V4

  • เอกสาร DeepSeek-V4 ระบุว่า V4 series ยังคง DeepSeekMoE framework และ Multi-Token Prediction strategy จาก DeepSeek-V3 พร้อมเพิ่มนวัตกรรมด้านสถาปัตยกรรมและการปรับประสิทธิภาพ [6]

  • DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่ามี context window 1,000k tokens ซึ่งสูงกว่า Kimi K2.6 ที่ 256k tokens อย่างมีนัยสำคัญ [9]

  • Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ได้ AA-Omniscience -10 ซึ่งดีขึ้น 11 จุดจาก DeepSeek V3.2 Reasoning ที่ -21 [7]

  • ประเด็นเสี่ยงสำคัญคือ Artificial Analysis รายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro และ V4 Flash ในชุดประเมินของตน [7]

  • ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับการเปรียบเทียบ DeepSeek V4 กับ GPT-5.5 และ Claude Opus 4.7 บน Terminal-Bench 2.0, SWE-Bench Pro หรือ GDPval; Insufficient evidence.

Kimi K2.6

  • หลักฐานเปรียบเทียบที่พบสำหรับ Kimi K2.6 จำกัดกว่ารุ่นอื่น โดยแหล่งที่พบยืนยันได้ว่า Kimi K2.6 มี context window 256k tokens ในตารางเปรียบเทียบกับ DeepSeek V4 Pro [9]

  • เมื่อเทียบเฉพาะ context window, Kimi K2.6 ต่ำกว่า DeepSeek V4 Pro ที่ 1,000k tokens ตามแหล่งเปรียบเทียบเดียวกัน [9]

  • ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับคะแนน Kimi K2.6 บน Terminal-Bench 2.0, SWE-Bench Pro, GPQA, MMLU-Pro, GDPval หรือ hallucination benchmark แบบเดียวกับ DeepSeek V4; Insufficient evidence.

เปรียบเทียบตามกรณีใช้งาน

  • หากเน้น terminal, agentic workflow และงานหลายขั้นตอน GPT-5.5 เป็นตัวเลือกที่มีหลักฐานคะแนนนำ Claude Opus 4.7 ชัดเจนจาก Terminal-Bench 2.0 ที่ 82.7% เทียบกับ 69.4% [11]

  • หากเน้นแก้ปัญหา software engineering จาก issue จริง Claude Opus 4.7 น่าพิจารณากว่า GPT-5.5 เพราะได้ SWE-Bench Pro 64.3% เทียบกับ 58.6% [11]

  • หากเน้นงานมืออาชีพหรือ benchmark แนว GDPval GPT-5.5 มีคะแนน 84.9% สูงกว่า Claude Opus 4.7 ที่ 80.3% [11]

  • หากเน้น long-context retrieval หรือเอกสารยาวมาก DeepSeek V4 Pro มีจุดเด่นจาก context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens แต่ยังไม่มีข้อมูลครบสำหรับเทียบกับ GPT-5.5 และ Claude Opus 4.7 ในแหล่งเดียวกัน [9]

  • หากเน้นความน่าเชื่อถือและลด hallucination ควรระวัง DeepSeek V4 เพราะรายงานของ Artificial Analysis ระบุ hallucination rate 94% ในชุดทดสอบของตน [7]

  • หากต้องการเลือก Kimi K2.6 สำหรับงาน production ควรขอหรือรอ benchmark เพิ่มเติมจากแหล่งทางการหรือผู้ประเมินภายนอกที่ใช้ harness เดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4; Insufficient evidence.

Evidence notes

  • แหล่งทางการที่พบสำหรับ GPT-5.5 มีน้ำหนักสูงในส่วน safety/evaluation แต่คะแนนเปรียบเทียบเชิงประสิทธิภาพที่ครบกว่าในรายงานนี้มาจากแหล่งภายนอก [14][11]

  • แหล่งทางการของ Anthropic ที่พบยืนยันการมีอยู่ของ Claude Opus 4.7 ใน release notes แต่คะแนนเปรียบเทียบที่ใช้ในตารางมาจากแหล่งภายนอก [2][11]

  • แหล่ง DeepSeek V4 ที่มีน้ำหนักสูงสุดคือ PDF เทคนิคบน Hugging Face ของ deepseek-ai ซึ่งอธิบายสถาปัตยกรรมและ long-context direction แต่ไม่ให้ตารางเปรียบเทียบครบทุก benchmark ที่ต้องการในผลค้นหาที่พบ [6]

  • แหล่งสำหรับ Kimi K2.6 ที่ใช้ได้ในรายงานนี้เป็นแหล่งเปรียบเทียบภายนอก ไม่ใช่เอกสาร benchmark ทางการของ Moonshot/Kimi ในผลค้นหาที่พบ [9]

  • งานวิชาการสนับสนุนข้อควรระวังว่าการวัด coding capability ต้องใช้ benchmark ที่ใกล้งานจริงกว่า HumanEval และควรพิจารณา benchmark ประเภท SWE-Bench หรือ issue-solving ร่วมด้วย [1]

Limitations / uncertainty

  • Insufficient evidence สำหรับตารางคะแนนครบทุก benchmark ของทั้ง 4 รุ่นใน harness เดียวกัน

  • คะแนนจากแหล่งต่างกันอาจใช้ prompt, sampling, tool access, reasoning mode, compute budget และ scoring pipeline ต่างกัน จึงไม่ควรนำตัวเลขจากคนละแหล่งมารวมเป็นอันดับเด็ดขาด

  • ข้อมูล DeepSeek V4 และ Kimi K2.6 ในรายงานนี้ยังไม่ครบด้าน coding, reasoning, multimodal, safety และ cost-performance เมื่อเทียบกับข้อมูล GPT-5.5 และ Claude Opus 4.7

  • ผล benchmark ของโมเดลรุ่น frontier เปลี่ยนเร็วมาก และควรตรวจซ้ำกับ model card, system card, technical report และ leaderboard ที่อัปเดตล่าสุดก่อนตัดสินใจใช้งานจริง

Summary

  • GPT-5.5 มีหลักฐานแข็งที่สุดในชุดนี้ด้าน agentic workflow และ GDPval โดยนำ Claude Opus 4.7 บน Terminal-Bench 2.0 และ GDPval [11]

  • Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ซึ่งเป็นสัญญาณสำคัญสำหรับงาน software engineering [11]

แหล่งที่มา

  • [2] Everything You Need to Know About GPT-5.5vellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [4] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...

  • [7] Introducing GPT-5.5 - OpenAIopenai.com

    Computer use and vision EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro OSWorld-Verified 78.7%75.0%--78.0%- MMMU Pro (no tools)81.2%81.2%---80.5% MMMU Pro (with tools)83.2%82.1%---- Tool use EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaud...

  • [20] System Prompts - Claude API Docsdocs.anthropic.com

    Claude Opus 4.7. April 16, 2026. Claude Sonnet 4.6. February 17, 2026. Claude Opus 4.6. February 5, 2026. Claude Opus 4.5. January 18, 2026. November 24, 2025 ...

  • [22] Petri 2.0: New Scenarios, New Model Comparisons, and Improved ...alignment.anthropic.com

    The two approaches are complementary: On Claude models, the interventions together lead to a 47.3% median relative drop in eval-awareness ... Jan 22, 2026

  • [30] [PDF] DeepSeek-V4: Towards Highly Efficient Million-Token Context ...huggingface.co

    Compared with the DeepSeek-V3 architecture (DeepSeek-AI, 2024), DeepSeek-V4 series retain the DeepSeekMoE framework (Dai et al., 2024) and Multi-Token Prediction (MTP) strategy, while introducing several key innovations in architecture and optimization. To...

  • [31] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [33] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6: Model Comparisonartificialanalysis.ai

    Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) Kimi logoKimi K2.6 Analysis --- --- Creator DeepSeek Kimi Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 256k tokens ( 384 A4 pages of size 12 Arial font) DeepSeek V4 Pro (Reas...

  • [35] Kimi K2.6 - Intelligence, Performance & Price Analysisartificialanalysis.ai

    Kimi K2.6 scores 54 on the Artificial Analysis Intelligence Index, placing it well above average among comparable models (averaging 28). When evaluating the Intelligence Index, it generated 160M tokens, which is very verbose in comparison to the average of...

  • [36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai

    ➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...

  • [42] A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Modelsarxiv.org

    … Existing benchmarks such as HumanEval fall short in their ability to … benchmarks like SWE-Bench are designed to evaluate the … on LLM evaluation, there remains a gap in benchmarks … 2024