รายงานเผยแพร่แล้ว3 เดือนที่ผ่านมาLast edited 2 เดือนที่ผ่านมา18 แหล่งที่มา

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: ผู้ชนะตามหมวดเบนช์มาร์ก

Claude Opus 4.7 นำใน GPQA Diamond ที่ 94.2% และ Humanity’s Last Exam แบบไม่ใช้เครื่องมือที่ 46.9% ขณะที่ GPT 5.5 Pro นำเมื่อใช้เครื่องมือช่วยใน HLE ที่ 57.2% [4] GPT 5.5 เด่นชัดในงานเทอร์มินัลและเอเจนต์ โดยได้ 82.7% บน Terminal Bench 2.0 และนำ Claude บน OSWorld Verified กับ FrontierMath Tiers 1–3 [4][5] DeepSeek V4...

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI ดูหน้าที่กำลังมาแรงเพิ่มเติม

Editorial illustration of GPT-5.5, Claude Opus 4.7, DeepSeek V4 and Kimi K2.6 compared across AI benchmark categories — GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark Winners by CategoryAI-generated editorial illustration for comparing frontier model benchmark winners by category.
AI พรอมต์
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark Winners by Category. Article summary: No single model wins across the available 2026 benchmark evidence: Claude Opus 4.7 leads GPQA Diamond at 94.2% and Humanity’s Last Exam without tools at 46.9%, GPT 5.5 leads Terminal Bench 2.0 at 82.7%, and GPT 5.5 Pr.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "Kimi K2.6 ties GPT-5.5 on SWE-bench Pro at 5–6x lower cost — with agent swarms, 13-hour autonomous runs, and open weights. In practice it is the first open-source model that can su" source context "Kimi K2.6: The Complete Developer Guide (2026) - Codersera" Reference image 2: visual subject "# Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7: Which S
openai.com

ถ้าดูแค่ตารางคะแนน เบนช์มาร์กชุดนี้อาจทำให้เหมือนมีผู้ชนะชัดเจน แต่ในงานจริงคำตอบมักไม่ง่ายขนาดนั้น ตารางร่วมที่แข็งแรงที่สุดครอบคลุม GPT-5.5, GPT-5.5 Pro ในบางแถว, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max ส่วน Kimi K2.6 โผล่ในหลักฐานที่เป็นการเปรียบเทียบแยกเป็นหลัก จึงเทียบแบบแถวต่อแถวกับอีกสามโมเดลไม่ได้ครบทุกหมวด

วิธีอ่านที่ปลอดภัยที่สุดคือ อย่าถามว่าโมเดลไหนดีที่สุดโดยรวม แต่ให้ถามว่า งานของคุณใกล้กับเบนช์มาร์กไหนที่สุด แล้วนำโมเดลตัวเต็งไปทดสอบซ้ำด้วยพรอมป์ เครื่องมือ งบเวลา และเกณฑ์ให้คะแนนเดียวกัน

สรุปผู้ชนะตามประเภทงาน

งานที่ต้องทำ	ตัวเลือกที่มีหลักฐานหนุนดีที่สุด	เหตุผล
เหตุผลเชิงวิทยาศาสตร์	Claude Opus 4.7	ได้ 94.2% บน GPQA Diamond นำ GPT-5.5 ที่ 93.6% และ DeepSeek-V4-Pro-Max ที่ 90.1%
เหตุผลระดับผู้เชี่ยวชาญแบบไม่ใช้เครื่องมือ	Claude Opus 4.7	ได้ 46.9% บน Humanity’s Last Exam แบบไม่ใช้เครื่องมือ นำ GPT-5.5 Pro ที่ 43.1%, GPT-5.5 ที่ 41.4% และ DeepSeek-V4-Pro-Max ที่ 37.7%
เหตุผลข้อสอบเมื่อใช้เครื่องมือช่วย	GPT-5.5 Pro	ได้ 57.2% บน Humanity’s Last Exam แบบใช้เครื่องมือ นำ Claude Opus 4.7 ที่ 54.7%
งานเทอร์มินัลและเอเจนต์คอมพิวติ้ง	GPT-5.5	ได้ 82.7% บน Terminal-Bench 2.0 นำ Claude Opus 4.7 ที่ 69.4% และ DeepSeek-V4-Pro-Max ที่ 67.9%
การควบคุมระบบปฏิบัติการ	GPT-5.5	ได้ 78.7% บน OSWorld-Verified เทียบกับ Claude Opus 4.7 ที่ 78.0%
คณิตศาสตร์แนว frontier	GPT-5.5	ได้ 51.7% บน FrontierMath Tiers 1–3 เทียบกับ Claude Opus 4.7 ที่ 43.8%
วิศวกรรมซอฟต์แวร์ในตารางร่วม	Claude Opus 4.7	ได้ 64.3% บน SWE-Bench Pro / SWE Pro นำ GPT-5.5 ที่ 58.6% และ DeepSeek-V4-Pro-Max ที่ 55.4%
การท่องเว็บและอ่านข้อมูลจากเว็บ	GPT-5.5 Pro	ได้ 90.1% บน BrowseComp นำ GPT-5.5 ที่ 84.4%, DeepSeek-V4-Pro-Max ที่ 83.4% และ Claude Opus 4.7 ที่ 79.3%
เวิร์กโฟลว์เครื่องมือสาธารณะแนว MCP	Claude Opus 4.7	ได้ 79.1% บน MCP Atlas / MCPAtlas Public นำ GPT-5.5 ที่ 75.3% และ DeepSeek-V4-Pro-Max ที่ 73.6%
ภาพ เอกสาร และ OCR	Claude Opus 4.7	มีรายงานว่าเป็นอันดับ 1 ใน Vision & Document Arena และชนะหมวดย่อย diagram, homework และ OCR
งานที่อ่อนไหวต่อต้นทุน	DeepSeek V4	VentureBeat รายงานว่าให้ความฉลาดใกล้ระดับแนวหน้าที่ต้นทุนราวหนึ่งในหกของ Opus 4.7 และ GPT-5.5 แต่ควรตรวจสอบกับโหลดงานจริงของคุณเอง
การเทียบสี่ทางที่ยังไม่สะอาดที่สุด	Kimi K2.6	มีคะแนนที่น่าสนใจหลายรายการ แต่หลักฐานของ Kimi ส่วนใหญ่มาจากการเปรียบเทียบแยก ไม่ใช่ตารางเดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max

ตารางเบนช์มาร์กละเอียด

เบนช์มาร์ก / ความสามารถ	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek V4 / V4 Pro Max	Kimi K2.6	อ่านผลอย่างไร
GPQA Diamond	93.6%	ไม่รายงาน	94.2%	90.1% สำหรับ DeepSeek-V4-Pro-Max	ไม่รายงาน	Claude นำในตารางร่วม
Humanity’s Last Exam, ไม่ใช้เครื่องมือ	41.4%	43.1%	46.9%	37.7% สำหรับ DeepSeek-V4-Pro-Max	ไม่รายงาน	Claude นำในตารางร่วม
Humanity’s Last Exam, ใช้เครื่องมือ	52.2%	57.2%	54.7%	48.2% สำหรับ DeepSeek-V4-Pro-Max	54.0% ในตาราง Kimi แยก	GPT-5.5 Pro นำในตารางร่วม
Terminal-Bench 2.0	82.7%	ไม่รายงาน	69.4%	67.9% สำหรับ DeepSeek-V4-Pro-Max	66.7% ในตาราง Kimi แยก	GPT-5.5 นำ
SWE-Bench Pro / SWE Pro	58.6%	ไม่รายงาน	64.3%	55.4% สำหรับ DeepSeek-V4-Pro-Max	58.6% ในตาราง Kimi แยก	Claude นำในตารางร่วม
BrowseComp	84.4%	90.1%	79.3%	83.4% สำหรับ DeepSeek-V4-Pro-Max ; 83.4% สำหรับ DeepSeek-V4 Pro ในอีกตาราง	83.2% ในตาราง Kimi เทียบ DeepSeek	GPT-5.5 Pro นำในตารางร่วม
MCP Atlas / MCPAtlas Public	75.3%	ไม่รายงาน	79.1%	73.6% สำหรับ DeepSeek-V4-Pro-Max	ไม่รายงาน	Claude นำ
OSWorld-Verified	78.7%	ไม่รายงาน	78.0%	ไม่รายงาน	ไม่รายงาน	GPT-5.5 นำ Claude เล็กน้อย
FrontierMath Tiers 1–3	51.7%	ไม่รายงาน	43.8%	ไม่รายงาน	ไม่รายงาน	GPT-5.5 นำ Claude
Vision & Document Arena	ไม่รายงาน	ไม่รายงาน	รายงานว่าเป็นอันดับ 1 โดยรวม	ไม่รายงาน	ไม่รายงาน	Claude มีผลลัพธ์ที่ถูกอ้างเพียงรายเดียวในชุดนี้
AIME 2026	ไม่รายงาน	ไม่รายงาน	ไม่รายงาน	ไม่มีในตาราง Kimi เทียบ DeepSeek ที่อ้างถึง	96.4% ใน Thinking mode	เป็นสัญญาณของ Kimi แต่ไม่ใช่อันดับสี่ทาง
APEX Agents	ไม่รายงาน	ไม่รายงาน	ไม่รายงาน	ไม่มีในตาราง Kimi เทียบ DeepSeek ที่อ้างถึง	27.9% ใน Thinking mode	เป็นสัญญาณของ Kimi แต่ไม่ใช่อันดับสี่ทาง
หน้าต่างบริบท	ไม่รายงาน	ไม่รายงาน	1,000k tokens ในการเปรียบเทียบของ Artificial Analysis ชุดหนึ่ง	1,000k tokens สำหรับ DeepSeek V4 Pro ในการเปรียบเทียบเดียวกัน	ไม่รายงาน	Claude และ DeepSeek V4 Pro เท่ากันในคอนฟิกที่ถูกอ้างนั้น

แถวที่ผสมหลายแหล่งต้องอ่านด้วยความระวังเป็นพิเศษ คะแนน Kimi ที่มาจากตารางเฉพาะ Kimi มีประโยชน์ต่อการคัดเลือกเบื้องต้น แต่ยังไม่หนักแน่นเท่าผลที่วัดใน harness เดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max

GPT-5.5: เด่นเมื่อโจทย์เกี่ยวกับเทอร์มินัล ระบบปฏิบัติการ คณิตศาสตร์ และการใช้เครื่องมือ

ชัยชนะที่ชัดที่สุดของ GPT-5.5 คือ Terminal-Bench 2.0 โดยทำได้ 82.7% เทียบกับ Claude Opus 4.7 ที่ 69.4% และ DeepSeek-V4-Pro-Max ที่ 67.9% ในตารางร่วม ช่องว่างนี้ถือว่าใหญ่ที่สุดชุดหนึ่งในข้อมูลที่อ้างถึง

ใน OSWorld-Verified ซึ่งสะท้อนการทำงานกับสภาพแวดล้อมคอมพิวเตอร์จริง GPT-5.5 นำ Claude Opus 4.7 แบบเฉียด ๆ ที่ 78.7% ต่อ 78.0% แต่บน FrontierMath Tiers 1–3 ช่องว่างใหญ่กว่า โดย GPT-5.5 ได้ 51.7% เทียบกับ Claude ที่ 43.8%

ถ้างานต้องใช้เครื่องมือหรือการท่องเว็บ GPT-5.5 Pro ทำให้ภาพเปลี่ยนไปชัดเจนกว่าเดิม รุ่น Pro นำ Humanity’s Last Exam แบบใช้เครื่องมือที่ 57.2% เหนือ Claude Opus 4.7 ที่ 54.7%, GPT-5.5 ที่ 52.2% และ DeepSeek-V4-Pro-Max ที่ 48.2% อีกทั้งยังนำ BrowseComp ที่ 90.1% เหนือ GPT-5.5 ที่ 84.4%, DeepSeek-V4-Pro-Max ที่ 83.4% และ Claude Opus 4.7 ที่ 79.3%

อย่างไรก็ตาม GPT-5.5 ไม่ได้ชนะทุกการทดสอบด้านเหตุผล Claude Opus 4.7 เฉือนชนะใน GPQA Diamond ที่ 94.2% ต่อ 93.6% ในตารางร่วม นอกจากนี้ยังมีผลเฉพาะโดเมนของ GPT-5.5 เช่น 91.7% บน Harvey BigLaw Bench, 88.5% บนเบนช์มาร์กวาณิชธนกิจภายใน และ 80.5% บน BixBench แต่ไม่ควรตีความว่าเป็นชัยชนะสี่ทาง เพราะข้อความที่อ้างไม่ได้รายงานคะแนนเดียวกันของ Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6

Claude Opus 4.7: แข็งแรงเมื่อไม่ใช้เครื่องมือ และเด่นด้านเอกสาร

Claude Opus 4.7 มีโปรไฟล์เหตุผลแบบไม่ใช้เครื่องมือที่ดีที่สุดในตารางร่วมหลัก โดยนำ GPQA Diamond ที่ 94.2% และ Humanity’s Last Exam แบบไม่ใช้เครื่องมือที่ 46.9% ในตารางเดียวกัน Claude ยังนำ SWE-Bench Pro / SWE Pro ที่ 64.3% และ MCP Atlas / MCPAtlas Public ที่ 79.1%

จุดที่ Claude ดูอ่อนกว่าในข้อมูลชุดนี้คืองานเทอร์มินัลและการปฏิบัติการเชิงระบบ GPT-5.5 นำ Claude บน Terminal-Bench 2.0 มากกว่า 13 จุด ที่ 82.7% ต่อ 69.4% และยังนำบน OSWorld-Verified กับ FrontierMath Tiers 1–3

ด้านมัลติโหมดและเอกสาร Claude มีสัญญาณที่แข็งแรงที่สุดในหลักฐานที่อ้าง แหล่งหนึ่งรายงานว่า Claude Opus 4.7 ได้อันดับ 1 ใน Vision & Document Arena ปรับดีขึ้น 4 จุดจาก Opus 4.6 ใน Document Arena และชนะหมวดย่อย diagram, homework และ OCR แต่แหล่งเดียวกันไม่ได้ให้คะแนน Vision & Document Arena ของ GPT-5.5, DeepSeek V4 หรือ Kimi K2.6 แบบเทียบกันโดยตรง จึงสรุปได้ว่า Claude มีหลักฐานเด่นด้านเอกสาร ไม่ใช่การจัดอันดับมัลติโหมดสี่ทางแบบสมบูรณ์

DeepSeek V4: แข่งขันได้ แต่จุดขายหลักในหลักฐานคือความคุ้มค่า

ต้องแยกชื่อรุ่นให้ดี เพราะแหล่งข้อมูลใช้ป้ายชื่อ DeepSeek มากกว่าหนึ่งแบบ ตารางร่วมรายงาน DeepSeek-V4-Pro-Max ส่วนการเปรียบเทียบของ Artificial Analysis รายงาน DeepSeek V4 Pro พร้อมหน้าต่างบริบท 1,000k tokens สองชื่อนี้จึงไม่ควรถูกถือว่าเหมือนกันโดยอัตโนมัติ

ในตารางร่วมหลัก DeepSeek-V4-Pro-Max แข่งขันได้แต่ไม่ชนะสักแถว โดยได้ 90.1% บน GPQA Diamond, 37.7% บน Humanity’s Last Exam แบบไม่ใช้เครื่องมือ, 48.2% บน Humanity’s Last Exam แบบใช้เครื่องมือ, 67.9% บน Terminal-Bench 2.0, 55.4% บน SWE-Bench Pro / SWE Pro, 83.4% บน BrowseComp และ 73.6% บน MCP Atlas / MCPAtlas Public

ข้ออ้างที่น่าสนใจที่สุดของ DeepSeek ในข้อมูลชุดนี้จึงเป็นเรื่องต้นทุนต่อประสิทธิภาพ VentureBeat ระบุว่า DeepSeek V4 ให้ความฉลาดใกล้ระดับแนวหน้าที่ต้นทุนประมาณหนึ่งในหกของ Opus 4.7 และ GPT-5.5 นี่เป็นเหตุผลที่ดีในการนำไปทดสอบสำหรับงานที่งบประมาณสำคัญ แต่ไม่ใช่เหตุผลที่จะข้ามการประเมินคุณภาพกับงานจริง

สำหรับงานบริบทยาว การเปรียบเทียบของ Artificial Analysis ชุดหนึ่งระบุว่า DeepSeek V4 Pro และ Claude Opus 4.7 ต่างมีหน้าต่างบริบท 1,000k tokens ข้อมูลนี้สนับสนุนความเท่าเทียมในคอนฟิกที่ถูกอ้างเท่านั้น ไม่ได้หมายความว่าทุกโหมดของ DeepSeek หรือ Claude จะเหมือนกันทั้งหมด

Kimi K2.6: คะแนนน่าสนใจ แต่ยังเทียบตรงสี่ทางได้ยาก

Kimi K2.6 เป็นโมเดลที่จัดอันดับในชุดนี้ได้ยากที่สุด เพราะไม่ได้อยู่ในตารางร่วมหลักที่เทียบกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max แหล่งที่โฟกัส Kimi รายงานว่า K2.6 ได้ 58.6% บน SWE-Bench Pro, 80.2% บน SWE-Bench Verified, 66.7% บน Terminal-Bench 2.0, 54.0% บน Humanity’s Last Exam แบบใช้เครื่องมือ และ 89.6% บน LiveCodeBench v6 แหล่งนั้นระบุว่าคะแนน K2.6 มาจาก model card ทางการของ Moonshot AI แต่ชุดเปรียบเทียบหลักเป็น Claude Opus 4.6 และ GPT-5.4 ไม่ใช่ไลน์อัปสี่ตัวในบทความนี้แบบตรงรุ่น

อีกแหล่งหนึ่งที่เทียบ Kimi กับ DeepSeek รายงานว่า Kimi K2.6 ได้ 96.4% บน AIME 2026 ใน Thinking mode, 27.9% บน APEX Agents ใน Thinking mode และ 83.2% บน BrowseComp เมื่อใช้ Thinking mode และการจัดการบริบท ในแหล่งเดียวกัน DeepSeek-V4 Pro อยู่ที่ 83.4% บน BrowseComp ส่วนค่า DeepSeek สำหรับ AIME 2026 และ APEX Agents ไม่พร้อมใช้งาน

ดังนั้น Kimi ควรถูกมองว่าเป็นตัวเลือกที่น่าทดสอบ โดยเฉพาะงานโค้ด เอเจนต์ คณิตศาสตร์ และการท่องเว็บ แต่หลักฐานที่มียังไม่พอให้สรุปอันดับรวมเทียบ GPT-5.5 และ Claude Opus 4.7 บนชุดเบนช์มาร์กเดียวกัน

ควรเริ่มทดสอบโมเดลไหนก่อน

เริ่มจาก GPT-5.5 ถ้างานหนักไปทางเอเจนต์ที่ใช้เทอร์มินัล การควบคุมระบบปฏิบัติการ หรือโจทย์คล้าย FrontierMath เพราะนำในผล Terminal-Bench 2.0, OSWorld-Verified และ FrontierMath ที่อ้างถึง
เริ่มจาก GPT-5.5 Pro ถ้างานต้องใช้เครื่องมือประกอบการให้เหตุผลหรือการท่องเว็บเป็นแกนหลัก เพราะนำ Humanity’s Last Exam แบบใช้เครื่องมือและ BrowseComp ในตารางร่วม
เริ่มจาก Claude Opus 4.7 ถ้างานคล้าย GPQA, คำถามผู้เชี่ยวชาญแบบไม่ใช้เครื่องมือ, วิศวกรรมซอฟต์แวร์แนว SWE-Bench Pro, เวิร์กโฟลว์แนว MCP หรือเอกสาร/ภาพที่ต้องอ่านละเอียด
เริ่มจาก DeepSeek V4 ถ้าข้อจำกัดหลักคือต้นทุนต่อคุณภาพ และทีมของคุณพร้อมทำ quality check เอง เพราะข้อได้เปรียบที่ถูกอ้างคือประสิทธิภาพใกล้ระดับแนวหน้าที่ต้นทุนราวหนึ่งในหกของ Opus 4.7 และ GPT-5.5
เริ่มจาก Kimi K2.6 ถ้าต้องการพิสูจน์คะแนนที่รายงานในงานโค้ด เอเจนต์ คณิตศาสตร์ และการท่องเว็บ แต่ควรเทียบด้วยพรอมป์ เครื่องมือ ขนาดบริบท เป้าหมาย latency และกติกาให้คะแนนเดียวกับโมเดลอื่น

ข้อควรระวังก่อนนำคะแนนไปตัดสินใจ

นี่ไม่ใช่ลีดเดอร์บอร์ดสากลที่ตอบทุกคำถาม แหล่งข้อมูลผสมทั้งรุ่นฐานและรุ่น Pro รวมถึง GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, Claude Opus 4.7 และ Kimi K2.6 บางผลยังเป็นคะแนนที่ผู้ให้บริการรายงานเอง และ OpenAI ระบุว่าการประเมิน GPT สำหรับ ARC ใช้ reasoning effort ระดับ xhigh ในสภาพแวดล้อมวิจัย ซึ่งอาจให้ผลต่างจาก ChatGPT ที่ใช้งานจริงบางกรณี

ส่วนต่างเล็ก ๆ ควรมองเป็นทิศทาง ไม่ใช่คำตัดสินถาวร Claude นำ GPT-5.5 บน GPQA Diamond เพียง 0.6 จุด และ GPT-5.5 นำ Claude บน OSWorld-Verified เพียง 0.7 จุด แต่ช่องว่างใหญ่กว่า เช่น GPT-5.5 นำ Claude บน Terminal-Bench 2.0 มากกว่า 13 จุด และนำบน FrontierMath 7.9 จุด ดูมีน้ำหนักต่อการตัดสินใจมากกว่า

สรุปแบบใช้งานจริงคือ ไม่มีผู้ชนะเดียวระหว่าง GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 ให้เลือกเบนช์มาร์กที่ใกล้กับงานของคุณที่สุด แล้วรันการทดสอบซ้ำกับโมเดลที่คุณสามารถนำไปใช้จริงได้

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: ผู้ชนะตามหมวดเบนช์มาร์ก" คืออะไร

Claude Opus 4.7 นำใน GPQA Diamond ที่ 94.2% และ Humanity’s Last Exam แบบไม่ใช้เครื่องมือที่ 46.9% ขณะที่ GPT 5.5 Pro นำเมื่อใช้เครื่องมือช่วยใน HLE ที่ 57.2% [4]

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

DeepSeek V4 แข็งแรงด้านความคุ้มค่าตามรายงาน VentureBeat ส่วน Kimi K2.6 มีคะแนนน่าสนใจแต่ส่วนใหญ่มาจากตารางเทียบแยก จึงยังจัดอันดับสี่ทางแบบสะอาดไม่ได้ [4][11][13]

แหล่งที่มา

← Back to Trending