รายงานเผยแพร่แล้ว28 เม.ย. 2026Last edited 6 พ.ค. 20269 แหล่งที่มา

GPT-5.5, Claude Opus 4.7, Kimi K2.6 และ DeepSeek V4: เทียบเบนช์มาร์กแบบใช้งานจริง

ไม่มีผู้ชนะหนึ่งเดียว: GPT 5.5 นำใน ARC AGI 2 ที่ 85% เทียบกับ Claude 75.8% และ Terminal Bench 2.0 ที่ 82.7%; Claude Opus 4.7 นำใน HLE และ SWE Bench Pro Kimi K2.6 ควรถูกมองเป็นตัวเลือก coding/agentic และ open weight ที่น่าสนใจ: ได้ 54 ใน Artificial Analysis และ 87 ใน AkitaOnRails แต่ข้อมูลเทียบตรงครบทั้ง 4 โมเดลยังน...

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

18K0

Сравнение четырёх AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 на фоне графиков бенчмарков — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахСравнение бенчмарков показывает не одного абсолютного лидера, а разные сильные стороны моделей.
AI พรอมต์
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro; вывод ограничен тем, что источники сравнивают разные режим.... Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.
openai.com

ถ้าจะหาว่า GPT-5.5, Claude Opus 4.7, Kimi K2.6 และ DeepSeek V4 ใครเป็นแชมป์เบนช์มาร์กแบบเด็ดขาด คำตอบคือยังสรุปแบบนั้นไม่ได้ เพราะแหล่งข้อมูลใช้คนละชุดทดสอบ คนละโหมดของโมเดล และหลายตารางไม่ได้มีครบทั้ง 4 รุ่น แต่ภาพรวมสำหรับคนเลือกใช้งานค่อนข้างชัด: GPT-5.5 ดูแข็งใน ARC และงานเอเจนต์ที่ทำผ่านเทอร์มินัล, Claude Opus 4.7 เด่นใน HLE และ SWE-Bench Pro, Kimi K2.6 เป็นตัวเลือก coding/agentic ที่น่าสนใจโดยเฉพาะสาย open-weight ส่วน DeepSeek V4 มักไม่ใช่ผู้นำคะแนนสูงสุดในชุดข้อมูลเหล่านี้ แต่ได้เปรียบเรื่องราคา API อย่างชัดเจน^[1]^[2]^[3]^[6]^[8]^[9]^[13]

สรุปเร็ว: เลือกตามงาน ไม่ใช่ตามชื่อรุ่น

GPT-5.5 เหมาะเริ่มทดสอบก่อนถ้างานของคุณคล้าย ARC หรือเอเจนต์ที่ต้องสั่งงานผ่าน shell/terminal: DocsBot ให้ GPT-5.5 ได้ 85% ใน ARC-AGI-2 เทียบกับ 75.8% ของ Claude Opus 4.7 ส่วน VentureBeat ให้ GPT-5.5 ได้ 82.7% ใน Terminal-Bench 2.0 เทียบกับ 69.4% ของ Claude และ 67.9% ของ DeepSeek^[1]^[3]
Claude Opus 4.7 เด่นเมื่องานต้องใช้ reasoning หนักหรือการตรวจโค้ดเชิงลึก: VentureBeat ให้ Claude นำ GPT-5.5 และ DeepSeek ใน Humanity’s Last Exam ทั้งแบบไม่ใช้เครื่องมือและแบบเปิดใช้เครื่องมือ ส่วน DataCamp ให้ Claude ได้ 64.3% ใน SWE-Bench Pro เทียบกับ 58.6% ของ GPT-5.5 และ 55.4% ของ DeepSeek V4 Pro^[3]^[9]
Kimi K2.6 ยังมีข้อมูลเทียบตรงกับทุกคู่ไม่มากเท่า GPT และ Claude แต่ตัวเลขที่มีถือว่าสู้ได้: Artificial Analysis ให้ Kimi 54 เทียบกับ GPT-5.5 medium ที่ 57 และ Claude Opus 4.7 non-reasoning high ที่ 52; AkitaOnRails ให้ Kimi 87 ใน coding benchmark^[13]^[8]
DeepSeek V4 ควรถูกมองเป็นตัวเลือก price-performance มากกว่าตัวเต็งคะแนนสูงสุด: Mashable ระบุราคา $1.74 ต่อ input tokens 1 ล้าน และ $3.48 ต่อ output tokens 1 ล้าน เทียบกับ GPT-5.5 ที่ $5/$30 และ Claude Opus 4.7 ที่ $5/$25^[2]

ตารางเทียบเบนช์มาร์กสำคัญ

เครื่องหมาย — หมายถึงในข้อมูลที่มี ไม่มีผลลัพธ์ที่เทียบกันได้โดยตรงสำหรับโมเดลนั้น

เบนช์มาร์ก / แหล่งข้อมูล	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	อ่านผลอย่างไร
ARC-AGI-2, DocsBot	85%	75.8%	—	—	GPT-5.5 นำ Claude 9.2 จุดเปอร์เซ็นต์^[1]
ARC-AGI-1, DocsBot	95%	93.5%	—	—	GPT-5.5 สูงกว่า Claude เล็กน้อย^[1]
Artificial Analysis leaderboard	57, GPT-5.5 medium	52, Claude Opus 4.7 non-reasoning high	54	—	ในสไลซ์นี้ GPT-5.5 สูงกว่า Kimi และโหมด Claude ที่ถูกนำมาเทียบ; ไม่มี DeepSeek V4 ในข้อมูลที่ให้มา^[13]
Humanity’s Last Exam ไม่ใช้เครื่องมือ, VentureBeat	41.4%	46.9%	—	37.7%	Claude นำในแถวพื้นฐานที่แสดง^[3]
Humanity’s Last Exam เปิดใช้เครื่องมือ, VentureBeat	52.2%; GPT-5.5 Pro 57.2%	54.7%	—	48.2%	Claude สูงกว่า GPT-5.5 แถวพื้นฐาน แต่ GPT-5.5 Pro สูงกว่า Claude^[3]
Terminal-Bench 2.0, VentureBeat	82.7%	69.4%	—	67.9%	เป็นหนึ่งในแถวที่ GPT-5.5 ทิ้งห่างชัดที่สุด^[3]
SWE-Bench Pro, DataCamp	58.6%	64.3%	—	55.4%, DeepSeek V4 Pro	Claude สูงกว่า GPT-5.5 และ DeepSeek V4 Pro^[9]
SWE-Bench Verified, Verdent	—	87.6%	80.2%	—	Claude สูงกว่า Kimi ในมุม coding นี้^[6]
Coding benchmark, AkitaOnRails	96, GPT-5.5 xHigh/Codex	97	87	78, V4 Flash; 69, V4 Pro	Claude และ GPT-5.5 ใกล้กันมาก; Kimi สูงกว่า DeepSeek V4 ทั้งสองแถว^[8]

ทำไมยังไม่ควรประกาศแชมป์รวม

จุดยากไม่ใช่ตัวเลขน้อยเกินไป แต่เป็นตัวเลขที่มาจากคนละเงื่อนไข ตัวอย่างเช่น Artificial Analysis เทียบ GPT-5.5 medium, Kimi K2.6 และ Claude Opus 4.7 non-reasoning high; AkitaOnRails ใช้ GPT-5.5 xHigh/Codex และแยก DeepSeek V4 เป็น Flash กับ Pro; ส่วน VentureBeat ยังแยก GPT-5.5 และ GPT-5.5 Pro ออกเป็นคนละแถว^[13]^[8]^[3]

แม้เทียบเฉพาะ GPT-5.5 กับ Claude Opus 4.7 ภาพก็ยังไม่ใช่เกมขาด LLM Stats ระบุว่าใน 10 เบนช์มาร์กที่ทั้งสองผู้ให้บริการรายงาน Claude Opus 4.7 นำ 6 รายการ ส่วน GPT-5.5 นำ 4 รายการ โดยจุดแข็งของ Claude กระจุกอยู่ที่งาน reasoning-heavy และ review-grade ขณะที่ GPT-5.5 เด่นในงาน long-running tool-use และ shell-driven tasks^[4]

GPT-5.5 เด่นตรงไหน

สัญญาณที่ชัดที่สุดของ GPT-5.5 อยู่ที่ ARC และ Terminal-Bench ใน ARC-AGI-2 โมเดลนี้ได้ 85% เทียบกับ 75.8% ของ Claude Opus 4.7 และใน ARC-AGI-1 ได้ 95% เทียบกับ 93.5% ของ Claude^[1] ส่วน Terminal-Bench 2.0 ให้ GPT-5.5 ที่ 82.7% สูงกว่า Claude Opus 4.7 ที่ 69.4% และ DeepSeek ที่ 67.9% อย่างเห็นได้ชัด^[3]

Artificial Analysis ก็ให้ GPT-5.5 medium สูงกว่าสองคู่แข่งที่อยู่ในสไลซ์เดียวกัน: 57 เทียบกับ 54 ของ Kimi K2.6 และ 52 ของ Claude Opus 4.7 non-reasoning high^[13] อย่างไรก็ตาม นี่ไม่ใช่ตารางสรุปทุกโหมดของทุกโมเดล เพราะ LLM Stats แสดงอีกด้านว่า Claude Opus 4.7 ชนะ GPT-5.5 ในบางชุดทดสอบด้าน reasoning และ software engineering^[4]

Claude Opus 4.7 เด่นตรงไหน

Claude Opus 4.7 ดูแข็งเป็นพิเศษในงานที่ต้องใช้ reasoning หนักและการตรวจซอฟต์แวร์เชิงลึก ใน Humanity’s Last Exam แบบไม่ใช้เครื่องมือ VentureBeat ให้ Claude 46.9%, GPT-5.5 41.4% และ DeepSeek 37.7%; เมื่อเปิดใช้เครื่องมือ Claude ได้ 54.7%, GPT-5.5 ได้ 52.2% และ DeepSeek ได้ 48.2%^[3]

ด้าน coding ระดับแก้ปัญหาซอฟต์แวร์จริง DataCamp ให้ Claude Opus 4.7 ได้ 64.3% ใน SWE-Bench Pro เทียบกับ 58.6% ของ GPT-5.5 และ 55.4% ของ DeepSeek V4 Pro^[9] ภาพนี้สอดคล้องกับ LLM Stats ที่ระบุว่า Claude นำ GPT-5.5 ใน GPQA, HLE แบบไม่ใช้เครื่องมือ, HLE แบบใช้เครื่องมือ, SWE-Bench Pro, MCP Atlas และ FinanceAgent v1.1^[4]

Kimi K2.6 ควรถูกอ่านอย่างไร

Kimi K2.6 ยังจัดเข้าตารางเดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4 แบบครบทุกสนามได้ยาก เพราะไม่ได้ปรากฏในทุกแหล่งข้อมูลเดียวกัน ใน Artificial Analysis รุ่นนี้ได้ 54 ต่ำกว่า GPT-5.5 medium ที่ 57 แต่สูงกว่า Claude Opus 4.7 non-reasoning high ที่ 52^[13]

ใน coding benchmark ของ AkitaOnRails Kimi K2.6 ได้ 87 ต่ำกว่า Claude Opus 4.7 ที่ 97 และ GPT-5.5 xHigh/Codex ที่ 96 แต่สูงกว่า DeepSeek V4 Flash ที่ 78 และ DeepSeek V4 Pro ที่ 69^[8] ส่วน Verdent ให้ตัวเลข SWE-Bench Verified ของ Kimi K2.6 ที่ 80.2% เทียบกับ 87.6% ของ Claude Opus 4.7^[6]

จุดต่างสำคัญของ Kimi คือเส้นทาง open-weight Verdent ระบุว่า weights ของ K2.6 อยู่บน Hugging Face และรันได้ผ่าน vLLM, SGLang หรือ KTransformers โดยคอนฟิกขั้นต่ำที่พอใช้งานได้สำหรับรุ่น INT4 เมื่อย่อ context คือ 4× H100^[6] README บน Hugging Face ยังระบุเมตริกด้าน agentic ของ Kimi K2.6 เช่น HLE-Full แบบใช้เครื่องมือ 54.0, BrowseComp 83.2, DeepSearchQA f1-score 92.5, Toolathlon 50.0 และ MCPMark 55.9 แต่ตารางนั้นเทียบ Kimi เป็นหลักกับ GPT-5.4, Claude Opus 4.6 และ Gemini 3.1 Pro ไม่ใช่ชุดโมเดลครบทั้ง 4 รุ่นในบทความนี้^[25]

DeepSeek V4: คะแนนไม่สุด แต่ราคาน่าคิด

ในข้อมูลชุดนี้ DeepSeek V4 มักดูเป็นโมเดลสาย value มากกว่าผู้นำคะแนนดิบ VentureBeat ให้ DeepSeek ต่ำกว่า GPT-5.5 และ Claude Opus 4.7 ใน HLE ทั้งแบบไม่ใช้เครื่องมือและแบบใช้เครื่องมือ รวมถึง Terminal-Bench 2.0^[3] DataCamp ให้ DeepSeek V4 Pro ได้ 55.4% ใน SWE-Bench Pro เทียบกับ 58.6% ของ GPT-5.5 และ 64.3% ของ Claude Opus 4.7^[9] ขณะที่ AkitaOnRails ให้ DeepSeek V4 Flash 78 และ DeepSeek V4 Pro 69 ต่ำกว่า Kimi K2.6, GPT-5.5 xHigh/Codex และ Claude Opus 4.7 ในตารางเดียวกัน^[8]

แต่ถ้ามองเรื่องต้นทุน DeepSeek V4 เปลี่ยนสมการได้ Mashable ระบุราคา DeepSeek V4 ที่ $1.74 ต่อ input tokens 1 ล้าน และ $3.48 ต่อ output tokens 1 ล้าน ขณะที่ GPT-5.5 อยู่ที่ $5/$30 และ Claude Opus 4.7 อยู่ที่ $5/$25^[2] นี่ไม่ได้ทำให้ DeepSeek เป็นแชมป์เบนช์มาร์ก แต่ทำให้มันเป็นตัวเลือกที่ควรทดลองสำหรับงานปริมาณมาก งานร่างเบื้องต้น งานความเสี่ยงต่ำ หรือการทำ eval ภายในที่ต้องคุมค่าใช้จ่าย

ถ้าต้องเริ่มทดสอบ ควรเริ่มจากตัวไหน

ARC, visual reasoning และโจทย์จับแพตเทิร์นเชิงนามธรรม: เริ่มจาก GPT-5.5 เพราะในข้อมูล DocsBot โมเดลนี้สูงกว่า Claude Opus 4.7 ทั้ง ARC-AGI-2 และ ARC-AGI-1^[1]
Hard reasoning และงานสไตล์ Humanity’s Last Exam: เริ่มจาก Claude Opus 4.7 ถ้าเทียบแถวพื้นฐาน แต่ควรจำไว้ว่าใน VentureBeat แถว GPT-5.5 Pro สูงกว่า Claude เมื่อเปิดใช้เครื่องมือ^[3]
Terminal, shell-driven agents และ tool-use ระยะยาว: เริ่มจาก GPT-5.5 เพราะ Terminal-Bench 2.0 เป็นผลลัพธ์ตรงที่โดดเด่นที่สุดของ GPT-5.5 ในชุดข้อมูลนี้^[3]^[4]
SWE-Bench Pro และ software engineering ที่เน้น review: เริ่มจาก Claude Opus 4.7 เพราะทั้ง DataCamp และ LLM Stats ชี้ว่า Claude ได้เปรียบใน SWE-Bench Pro^[9]^[4]
งาน coding/agentic ที่ต้องการ open-weight หรือ self-hosted: ทดสอบ Kimi K2.6 ถ้าการรันผ่าน Hugging Face, vLLM, SGLang หรือ KTransformers สำคัญกว่าการเรียกใช้ผ่าน API เพียงอย่างเดียว^[6]
งานปริมาณสูงที่งบสำคัญกว่าคะแนนสูงสุด: พิจารณา DeepSeek V4 โดยเฉพาะเมื่อค่าใช้จ่ายต่อการลองหนึ่งครั้งสำคัญกว่า benchmark score สูงสุด^[2]^[3]^[9]

บทสรุป

ถ้ามองเฉพาะเบนช์มาร์ก คู่บนสุดคือ GPT-5.5 กับ Claude Opus 4.7 แต่ทั้งสองเด่นคนละสนาม GPT-5.5 ดูแข็งกว่าใน ARC และ Terminal-Bench ส่วน Claude Opus 4.7 ดูแข็งกว่าใน HLE และ SWE-Bench Pro^[1]^[3]^[4]^[9] Kimi K2.6 เป็นตัวเลือก coding/agentic ที่น่าสนใจ โดยเฉพาะเมื่อต้องการเส้นทาง open-weight แต่ข้อมูลเทียบตรงกับทุกโมเดลยังน้อยกว่า^[6]^[8]^[13] ส่วน DeepSeek V4 ในชุดข้อมูลนี้มักตามหลังด้าน raw score แต่ราคา API ทำให้ยังเป็นตัวเลือกสำคัญสำหรับการทดลองแบบ price-performance^[2]^[3]^[9]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

ไม่มีผู้ชนะหนึ่งเดียว: GPT 5.5 นำใน ARC AGI 2 ที่ 85% เทียบกับ Claude 75.8% และ Terminal Bench 2.0 ที่ 82.7%; Claude Opus 4.7 นำใน HLE และ SWE Bench Pro
Kimi K2.6 ควรถูกมองเป็นตัวเลือก coding/agentic และ open weight ที่น่าสนใจ: ได้ 54 ใน Artificial Analysis และ 87 ใน AkitaOnRails แต่ข้อมูลเทียบตรงครบทั้ง 4 โมเดลยังน้อย
DeepSeek V4 คะแนนดิบมักไม่ใช่สูงสุดในแหล่งข้อมูลนี้ แต่ราคาถูกกว่า: $1.74 ต่อ input 1 ล้าน token และ $3.48 ต่อ output 1 ล้าน token เทียบกับ GPT 5.5 ที่ $5/$30 และ Claude Opus 4.7 ที่ $5/$25

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5, Claude Opus 4.7, Kimi K2.6 และ DeepSeek V4: เทียบเบนช์มาร์กแบบใช้งานจริง" คืออะไร

ไม่มีผู้ชนะหนึ่งเดียว: GPT 5.5 นำใน ARC AGI 2 ที่ 85% เทียบกับ Claude 75.8% และ Terminal Bench 2.0 ที่ 82.7%; Claude Opus 4.7 นำใน HLE และ SWE Bench Pro

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

DeepSeek V4 คะแนนดิบมักไม่ใช่สูงสุดในแหล่งข้อมูลนี้ แต่ราคาถูกกว่า: $1.74 ต่อ input 1 ล้าน token และ $3.48 ต่อ output 1 ล้าน token เทียบกับ GPT 5.5 ที่ $5/$30 และ Claude Opus 4.7 ที่ $5/$25

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: สรุปเบนช์มาร์กปี 2026 และคำตัดสิน

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา

DeepSeek V4 ไม่ใช่แค่โมเดล 1M context

โจทย์ความยืดหยุ่น Northwest vs. Southeast Timber: ทำไมคำตอบคือ larger; larger

Northwest กับ Southeast Timber: ทำไมแทนกันได้มากขึ้นแล้วต้องตอบ larger; larger

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek จะโค่น OpenAI, Claude, Gemini และ Grok ได้ไหม? เกมจริงอยู่ที่ต้นทุนและความไว้วางใจ

การสนทนาการวิจัย

คุณ26 เม.ย. 2026

คำถามวิจัย

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI26 เม.ย. 202627 แหล่งที่มา

อ้างถึงคำตอบ

По доступным фрагментам доказательств полноценное сравнение всех четырёх моделей “один к одному” сделать нельзя: есть частичные данные для GPT-5.5, Claude Opus 4.7 и Kimi K2.6, но в предоставленных источниках нет сопоставимых бенчмарков для DeepSeek V4. В имеющихся данных GPT-5.5 выглядит сильнее Claude Opus 4.7 на ARC-AGI-2 и немного выше Kimi K2.6 в общем рейтинге Artificial Analysis, а Kimi K2.6 имеет сильные отдельные результаты на агентных и coding-бенчмарках.

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Если опираться только на предоставленные данные, GPT-5.5 выглядит лидером в имеющихся прямых сравнениях: он выше Claude Opus 4.7 на ARC-AGI-2 и выше Kimi K2.6 в фрагменте Artificial Analysis ^[5]^[6]. Kimi K2.6 имеет сильные подтверждённые результаты на агентных и coding-бенчмарках, включая SWE-bench Verified 65.8 ^[3]. Для DeepSeek V4 в предоставленных данных недостаточно benchmark-информации, поэтому корректно сравнить его с остальными по бенчмаркам невозможно ^[7].

แหล่งที่มา

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...

ค้นพบเทรนด์

รายงานเผยแพร่แล้ว28 เม.ย. 2026Last edited 6 พ.ค. 20269 แหล่งที่มา

GPT-5.5, Claude Opus 4.7, Kimi K2.6 และ DeepSeek V4: เทียบเบนช์มาร์กแบบใช้งานจริง

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

18K0

สรุปเร็ว: เลือกตามงาน ไม่ใช่ตามชื่อรุ่น

GPT-5.5 เหมาะเริ่มทดสอบก่อนถ้างานของคุณคล้าย ARC หรือเอเจนต์ที่ต้องสั่งงานผ่าน shell/terminal: DocsBot ให้ GPT-5.5 ได้ 85% ใน ARC-AGI-2 เทียบกับ 75.8% ของ Claude Opus 4.7 ส่วน VentureBeat ให้ GPT-5.5 ได้ 82.7% ใน Terminal-Bench 2.0 เทียบกับ 69.4% ของ Claude และ 67.9% ของ DeepSeek^[1]^[3]
Claude Opus 4.7 เด่นเมื่องานต้องใช้ reasoning หนักหรือการตรวจโค้ดเชิงลึก: VentureBeat ให้ Claude นำ GPT-5.5 และ DeepSeek ใน Humanity’s Last Exam ทั้งแบบไม่ใช้เครื่องมือและแบบเปิดใช้เครื่องมือ ส่วน DataCamp ให้ Claude ได้ 64.3% ใน SWE-Bench Pro เทียบกับ 58.6% ของ GPT-5.5 และ 55.4% ของ DeepSeek V4 Pro^[3]^[9]
Kimi K2.6 ยังมีข้อมูลเทียบตรงกับทุกคู่ไม่มากเท่า GPT และ Claude แต่ตัวเลขที่มีถือว่าสู้ได้: Artificial Analysis ให้ Kimi 54 เทียบกับ GPT-5.5 medium ที่ 57 และ Claude Opus 4.7 non-reasoning high ที่ 52; AkitaOnRails ให้ Kimi 87 ใน coding benchmark^[13]^[8]
DeepSeek V4 ควรถูกมองเป็นตัวเลือก price-performance มากกว่าตัวเต็งคะแนนสูงสุด: Mashable ระบุราคา $1.74 ต่อ input tokens 1 ล้าน และ $3.48 ต่อ output tokens 1 ล้าน เทียบกับ GPT-5.5 ที่ $5/$30 และ Claude Opus 4.7 ที่ $5/$25^[2]

ตารางเทียบเบนช์มาร์กสำคัญ

เบนช์มาร์ก / แหล่งข้อมูล	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	อ่านผลอย่างไร
ARC-AGI-2, DocsBot	85%	75.8%	—	—	GPT-5.5 นำ Claude 9.2 จุดเปอร์เซ็นต์^[1]
ARC-AGI-1, DocsBot	95%	93.5%	—	—	GPT-5.5 สูงกว่า Claude เล็กน้อย^[1]
Artificial Analysis leaderboard	57, GPT-5.5 medium	52, Claude Opus 4.7 non-reasoning high	54	—	ในสไลซ์นี้ GPT-5.5 สูงกว่า Kimi และโหมด Claude ที่ถูกนำมาเทียบ; ไม่มี DeepSeek V4 ในข้อมูลที่ให้มา^[13]
Humanity’s Last Exam ไม่ใช้เครื่องมือ, VentureBeat	41.4%	46.9%	—	37.7%	Claude นำในแถวพื้นฐานที่แสดง^[3]
Humanity’s Last Exam เปิดใช้เครื่องมือ, VentureBeat	52.2%; GPT-5.5 Pro 57.2%	54.7%	—	48.2%	Claude สูงกว่า GPT-5.5 แถวพื้นฐาน แต่ GPT-5.5 Pro สูงกว่า Claude^[3]
Terminal-Bench 2.0, VentureBeat	82.7%	69.4%	—	67.9%	เป็นหนึ่งในแถวที่ GPT-5.5 ทิ้งห่างชัดที่สุด^[3]
SWE-Bench Pro, DataCamp	58.6%	64.3%	—	55.4%, DeepSeek V4 Pro	Claude สูงกว่า GPT-5.5 และ DeepSeek V4 Pro^[9]
SWE-Bench Verified, Verdent	—	87.6%	80.2%	—	Claude สูงกว่า Kimi ในมุม coding นี้^[6]
Coding benchmark, AkitaOnRails	96, GPT-5.5 xHigh/Codex	97	87	78, V4 Flash; 69, V4 Pro	Claude และ GPT-5.5 ใกล้กันมาก; Kimi สูงกว่า DeepSeek V4 ทั้งสองแถว^[8]

ทำไมยังไม่ควรประกาศแชมป์รวม

GPT-5.5 เด่นตรงไหน

Claude Opus 4.7 เด่นตรงไหน

Kimi K2.6 ควรถูกอ่านอย่างไร

DeepSeek V4: คะแนนไม่สุด แต่ราคาน่าคิด

ถ้าต้องเริ่มทดสอบ ควรเริ่มจากตัวไหน

ARC, visual reasoning และโจทย์จับแพตเทิร์นเชิงนามธรรม: เริ่มจาก GPT-5.5 เพราะในข้อมูล DocsBot โมเดลนี้สูงกว่า Claude Opus 4.7 ทั้ง ARC-AGI-2 และ ARC-AGI-1^[1]
Hard reasoning และงานสไตล์ Humanity’s Last Exam: เริ่มจาก Claude Opus 4.7 ถ้าเทียบแถวพื้นฐาน แต่ควรจำไว้ว่าใน VentureBeat แถว GPT-5.5 Pro สูงกว่า Claude เมื่อเปิดใช้เครื่องมือ^[3]
Terminal, shell-driven agents และ tool-use ระยะยาว: เริ่มจาก GPT-5.5 เพราะ Terminal-Bench 2.0 เป็นผลลัพธ์ตรงที่โดดเด่นที่สุดของ GPT-5.5 ในชุดข้อมูลนี้^[3]^[4]
SWE-Bench Pro และ software engineering ที่เน้น review: เริ่มจาก Claude Opus 4.7 เพราะทั้ง DataCamp และ LLM Stats ชี้ว่า Claude ได้เปรียบใน SWE-Bench Pro^[9]^[4]
งาน coding/agentic ที่ต้องการ open-weight หรือ self-hosted: ทดสอบ Kimi K2.6 ถ้าการรันผ่าน Hugging Face, vLLM, SGLang หรือ KTransformers สำคัญกว่าการเรียกใช้ผ่าน API เพียงอย่างเดียว^[6]
งานปริมาณสูงที่งบสำคัญกว่าคะแนนสูงสุด: พิจารณา DeepSeek V4 โดยเฉพาะเมื่อค่าใช้จ่ายต่อการลองหนึ่งครั้งสำคัญกว่า benchmark score สูงสุด^[2]^[3]^[9]

บทสรุป

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

ไม่มีผู้ชนะหนึ่งเดียว: GPT 5.5 นำใน ARC AGI 2 ที่ 85% เทียบกับ Claude 75.8% และ Terminal Bench 2.0 ที่ 82.7%; Claude Opus 4.7 นำใน HLE และ SWE Bench Pro
Kimi K2.6 ควรถูกมองเป็นตัวเลือก coding/agentic และ open weight ที่น่าสนใจ: ได้ 54 ใน Artificial Analysis และ 87 ใน AkitaOnRails แต่ข้อมูลเทียบตรงครบทั้ง 4 โมเดลยังน้อย
DeepSeek V4 คะแนนดิบมักไม่ใช่สูงสุดในแหล่งข้อมูลนี้ แต่ราคาถูกกว่า: $1.74 ต่อ input 1 ล้าน token และ $3.48 ต่อ output 1 ล้าน token เทียบกับ GPT 5.5 ที่ $5/$30 และ Claude Opus 4.7 ที่ $5/$25

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5, Claude Opus 4.7, Kimi K2.6 และ DeepSeek V4: เทียบเบนช์มาร์กแบบใช้งานจริง" คืออะไร

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ26 เม.ย. 2026

คำถามวิจัย

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI26 เม.ย. 202627 แหล่งที่มา

อ้างถึงคำตอบ

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

แหล่งที่มา

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...

ค้นพบเทรนด์

รายงานเผยแพร่แล้ว28 เม.ย. 2026Last edited 6 พ.ค. 20269 แหล่งที่มา

GPT-5.5, Claude Opus 4.7, Kimi K2.6 และ DeepSeek V4: เทียบเบนช์มาร์กแบบใช้งานจริง

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

18K0

สรุปเร็ว: เลือกตามงาน ไม่ใช่ตามชื่อรุ่น

GPT-5.5 เหมาะเริ่มทดสอบก่อนถ้างานของคุณคล้าย ARC หรือเอเจนต์ที่ต้องสั่งงานผ่าน shell/terminal: DocsBot ให้ GPT-5.5 ได้ 85% ใน ARC-AGI-2 เทียบกับ 75.8% ของ Claude Opus 4.7 ส่วน VentureBeat ให้ GPT-5.5 ได้ 82.7% ใน Terminal-Bench 2.0 เทียบกับ 69.4% ของ Claude และ 67.9% ของ DeepSeek^[1]^[3]
Claude Opus 4.7 เด่นเมื่องานต้องใช้ reasoning หนักหรือการตรวจโค้ดเชิงลึก: VentureBeat ให้ Claude นำ GPT-5.5 และ DeepSeek ใน Humanity’s Last Exam ทั้งแบบไม่ใช้เครื่องมือและแบบเปิดใช้เครื่องมือ ส่วน DataCamp ให้ Claude ได้ 64.3% ใน SWE-Bench Pro เทียบกับ 58.6% ของ GPT-5.5 และ 55.4% ของ DeepSeek V4 Pro^[3]^[9]
Kimi K2.6 ยังมีข้อมูลเทียบตรงกับทุกคู่ไม่มากเท่า GPT และ Claude แต่ตัวเลขที่มีถือว่าสู้ได้: Artificial Analysis ให้ Kimi 54 เทียบกับ GPT-5.5 medium ที่ 57 และ Claude Opus 4.7 non-reasoning high ที่ 52; AkitaOnRails ให้ Kimi 87 ใน coding benchmark^[13]^[8]
DeepSeek V4 ควรถูกมองเป็นตัวเลือก price-performance มากกว่าตัวเต็งคะแนนสูงสุด: Mashable ระบุราคา $1.74 ต่อ input tokens 1 ล้าน และ $3.48 ต่อ output tokens 1 ล้าน เทียบกับ GPT-5.5 ที่ $5/$30 และ Claude Opus 4.7 ที่ $5/$25^[2]

ตารางเทียบเบนช์มาร์กสำคัญ

เบนช์มาร์ก / แหล่งข้อมูล	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	อ่านผลอย่างไร
ARC-AGI-2, DocsBot	85%	75.8%	—	—	GPT-5.5 นำ Claude 9.2 จุดเปอร์เซ็นต์^[1]
ARC-AGI-1, DocsBot	95%	93.5%	—	—	GPT-5.5 สูงกว่า Claude เล็กน้อย^[1]
Artificial Analysis leaderboard	57, GPT-5.5 medium	52, Claude Opus 4.7 non-reasoning high	54	—	ในสไลซ์นี้ GPT-5.5 สูงกว่า Kimi และโหมด Claude ที่ถูกนำมาเทียบ; ไม่มี DeepSeek V4 ในข้อมูลที่ให้มา^[13]
Humanity’s Last Exam ไม่ใช้เครื่องมือ, VentureBeat	41.4%	46.9%	—	37.7%	Claude นำในแถวพื้นฐานที่แสดง^[3]
Humanity’s Last Exam เปิดใช้เครื่องมือ, VentureBeat	52.2%; GPT-5.5 Pro 57.2%	54.7%	—	48.2%	Claude สูงกว่า GPT-5.5 แถวพื้นฐาน แต่ GPT-5.5 Pro สูงกว่า Claude^[3]
Terminal-Bench 2.0, VentureBeat	82.7%	69.4%	—	67.9%	เป็นหนึ่งในแถวที่ GPT-5.5 ทิ้งห่างชัดที่สุด^[3]
SWE-Bench Pro, DataCamp	58.6%	64.3%	—	55.4%, DeepSeek V4 Pro	Claude สูงกว่า GPT-5.5 และ DeepSeek V4 Pro^[9]
SWE-Bench Verified, Verdent	—	87.6%	80.2%	—	Claude สูงกว่า Kimi ในมุม coding นี้^[6]
Coding benchmark, AkitaOnRails	96, GPT-5.5 xHigh/Codex	97	87	78, V4 Flash; 69, V4 Pro	Claude และ GPT-5.5 ใกล้กันมาก; Kimi สูงกว่า DeepSeek V4 ทั้งสองแถว^[8]

ทำไมยังไม่ควรประกาศแชมป์รวม

GPT-5.5 เด่นตรงไหน

Claude Opus 4.7 เด่นตรงไหน

Kimi K2.6 ควรถูกอ่านอย่างไร

DeepSeek V4: คะแนนไม่สุด แต่ราคาน่าคิด

ถ้าต้องเริ่มทดสอบ ควรเริ่มจากตัวไหน

ARC, visual reasoning และโจทย์จับแพตเทิร์นเชิงนามธรรม: เริ่มจาก GPT-5.5 เพราะในข้อมูล DocsBot โมเดลนี้สูงกว่า Claude Opus 4.7 ทั้ง ARC-AGI-2 และ ARC-AGI-1^[1]
Hard reasoning และงานสไตล์ Humanity’s Last Exam: เริ่มจาก Claude Opus 4.7 ถ้าเทียบแถวพื้นฐาน แต่ควรจำไว้ว่าใน VentureBeat แถว GPT-5.5 Pro สูงกว่า Claude เมื่อเปิดใช้เครื่องมือ^[3]
Terminal, shell-driven agents และ tool-use ระยะยาว: เริ่มจาก GPT-5.5 เพราะ Terminal-Bench 2.0 เป็นผลลัพธ์ตรงที่โดดเด่นที่สุดของ GPT-5.5 ในชุดข้อมูลนี้^[3]^[4]
SWE-Bench Pro และ software engineering ที่เน้น review: เริ่มจาก Claude Opus 4.7 เพราะทั้ง DataCamp และ LLM Stats ชี้ว่า Claude ได้เปรียบใน SWE-Bench Pro^[9]^[4]
งาน coding/agentic ที่ต้องการ open-weight หรือ self-hosted: ทดสอบ Kimi K2.6 ถ้าการรันผ่าน Hugging Face, vLLM, SGLang หรือ KTransformers สำคัญกว่าการเรียกใช้ผ่าน API เพียงอย่างเดียว^[6]
งานปริมาณสูงที่งบสำคัญกว่าคะแนนสูงสุด: พิจารณา DeepSeek V4 โดยเฉพาะเมื่อค่าใช้จ่ายต่อการลองหนึ่งครั้งสำคัญกว่า benchmark score สูงสุด^[2]^[3]^[9]

บทสรุป

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

ไม่มีผู้ชนะหนึ่งเดียว: GPT 5.5 นำใน ARC AGI 2 ที่ 85% เทียบกับ Claude 75.8% และ Terminal Bench 2.0 ที่ 82.7%; Claude Opus 4.7 นำใน HLE และ SWE Bench Pro
Kimi K2.6 ควรถูกมองเป็นตัวเลือก coding/agentic และ open weight ที่น่าสนใจ: ได้ 54 ใน Artificial Analysis และ 87 ใน AkitaOnRails แต่ข้อมูลเทียบตรงครบทั้ง 4 โมเดลยังน้อย
DeepSeek V4 คะแนนดิบมักไม่ใช่สูงสุดในแหล่งข้อมูลนี้ แต่ราคาถูกกว่า: $1.74 ต่อ input 1 ล้าน token และ $3.48 ต่อ output 1 ล้าน token เทียบกับ GPT 5.5 ที่ $5/$30 และ Claude Opus 4.7 ที่ $5/$25

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5, Claude Opus 4.7, Kimi K2.6 และ DeepSeek V4: เทียบเบนช์มาร์กแบบใช้งานจริง" คืออะไร

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ26 เม.ย. 2026

คำถามวิจัย

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI26 เม.ย. 202627 แหล่งที่มา

อ้างถึงคำตอบ

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

แหล่งที่มา

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...