| เหตุผลข้อสอบเมื่อใช้เครื่องมือช่วย | GPT-5.5 Pro | ได้ 57.2% บน Humanity’s Last Exam แบบใช้เครื่องมือ นำ Claude Opus 4.7 ที่ 54.7% |
| งานเทอร์มินัลและเอเจนต์คอมพิวติ้ง | GPT-5.5 | ได้ 82.7% บน Terminal-Bench 2.0 นำ Claude Opus 4.7 ที่ 69.4% และ DeepSeek-V4-Pro-Max ที่ 67.9% |
| การควบคุมระบบปฏิบัติการ | GPT-5.5 | ได้ 78.7% บน OSWorld-Verified เทียบกับ Claude Opus 4.7 ที่ 78.0% |
| คณิตศาสตร์แนว frontier | GPT-5.5 | ได้ 51.7% บน FrontierMath Tiers 1–3 เทียบกับ Claude Opus 4.7 ที่ 43.8% |
| วิศวกรรมซอฟต์แวร์ในตารางร่วม | Claude Opus 4.7 | ได้ 64.3% บน SWE-Bench Pro / SWE Pro นำ GPT-5.5 ที่ 58.6% และ DeepSeek-V4-Pro-Max ที่ 55.4% |
| การท่องเว็บและอ่านข้อมูลจากเว็บ | GPT-5.5 Pro | ได้ 90.1% บน BrowseComp นำ GPT-5.5 ที่ 84.4%, DeepSeek-V4-Pro-Max ที่ 83.4% และ Claude Opus 4.7 ที่ 79.3% |
| เวิร์กโฟลว์เครื่องมือสาธารณะแนว MCP | Claude Opus 4.7 | ได้ 79.1% บน MCP Atlas / MCPAtlas Public นำ GPT-5.5 ที่ 75.3% และ DeepSeek-V4-Pro-Max ที่ 73.6% |
| ภาพ เอกสาร และ OCR | Claude Opus 4.7 | มีรายงานว่าเป็นอันดับ 1 ใน Vision & Document Arena และชนะหมวดย่อย diagram, homework และ OCR |
| งานที่อ่อนไหวต่อต้นทุน | DeepSeek V4 | VentureBeat รายงานว่าให้ความฉลาดใกล้ระดับแนวหน้าที่ต้นทุนราวหนึ่งในหกของ Opus 4.7 และ GPT-5.5 แต่ควรตรวจสอบกับโหลดงานจริงของคุณเอง |
| การเทียบสี่ทางที่ยังไม่สะอาดที่สุด | Kimi K2.6 | มีคะแนนที่น่าสนใจหลายรายการ แต่หลักฐานของ Kimi ส่วนใหญ่มาจากการเปรียบเทียบแยก ไม่ใช่ตารางเดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max |
แถวที่ผสมหลายแหล่งต้องอ่านด้วยความระวังเป็นพิเศษ คะแนน Kimi ที่มาจากตารางเฉพาะ Kimi มีประโยชน์ต่อการคัดเลือกเบื้องต้น แต่ยังไม่หนักแน่นเท่าผลที่วัดใน harness เดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max
ชัยชนะที่ชัดที่สุดของ GPT-5.5 คือ Terminal-Bench 2.0 โดยทำได้ 82.7% เทียบกับ Claude Opus 4.7 ที่ 69.4% และ DeepSeek-V4-Pro-Max ที่ 67.9% ในตารางร่วม ช่องว่างนี้ถือว่าใหญ่ที่สุดชุดหนึ่งในข้อมูลที่อ้างถึง
ใน OSWorld-Verified ซึ่งสะท้อนการทำงานกับสภาพแวดล้อมคอมพิวเตอร์จริง GPT-5.5 นำ Claude Opus 4.7 แบบเฉียด ๆ ที่ 78.7% ต่อ 78.0% แต่บน FrontierMath Tiers 1–3 ช่องว่างใหญ่กว่า โดย GPT-5.5 ได้ 51.7% เทียบกับ Claude ที่ 43.8%
ถ้างานต้องใช้เครื่องมือหรือการท่องเว็บ GPT-5.5 Pro ทำให้ภาพเปลี่ยนไปชัดเจนกว่าเดิม รุ่น Pro นำ Humanity’s Last Exam แบบใช้เครื่องมือที่ 57.2% เหนือ Claude Opus 4.7 ที่ 54.7%, GPT-5.5 ที่ 52.2% และ DeepSeek-V4-Pro-Max ที่ 48.2% อีกทั้งยังนำ BrowseComp ที่ 90.1% เหนือ GPT-5.5 ที่ 84.4%, DeepSeek-V4-Pro-Max ที่ 83.4% และ Claude Opus 4.7 ที่ 79.3%
อย่างไรก็ตาม GPT-5.5 ไม่ได้ชนะทุกการทดสอบด้านเหตุผล Claude Opus 4.7 เฉือนชนะใน GPQA Diamond ที่ 94.2% ต่อ 93.6% ในตารางร่วม นอกจากนี้ยังมีผลเฉพาะโดเมนของ GPT-5.5 เช่น 91.7% บน Harvey BigLaw Bench, 88.5% บนเบนช์มาร์กวาณิชธนกิจภายใน และ 80.5% บน BixBench แต่ไม่ควรตีความว่าเป็นชัยชนะสี่ทาง เพราะข้อความที่อ้างไม่ได้รายงานคะแนนเดียวกันของ Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6
Claude Opus 4.7 มีโปรไฟล์เหตุผลแบบไม่ใช้เครื่องมือที่ดีที่สุดในตารางร่วมหลัก โดยนำ GPQA Diamond ที่ 94.2% และ Humanity’s Last Exam แบบไม่ใช้เครื่องมือที่ 46.9% ในตารางเดียวกัน Claude ยังนำ SWE-Bench Pro / SWE Pro ที่ 64.3% และ MCP Atlas / MCPAtlas Public ที่ 79.1%
จุดที่ Claude ดูอ่อนกว่าในข้อมูลชุดนี้คืองานเทอร์มินัลและการปฏิบัติการเชิงระบบ GPT-5.5 นำ Claude บน Terminal-Bench 2.0 มากกว่า 13 จุด ที่ 82.7% ต่อ 69.4% และยังนำบน OSWorld-Verified กับ FrontierMath Tiers 1–3
ด้านมัลติโหมดและเอกสาร Claude มีสัญญาณที่แข็งแรงที่สุดในหลักฐานที่อ้าง แหล่งหนึ่งรายงานว่า Claude Opus 4.7 ได้อันดับ 1 ใน Vision & Document Arena ปรับดีขึ้น 4 จุดจาก Opus 4.6 ใน Document Arena และชนะหมวดย่อย diagram, homework และ OCR แต่แหล่งเดียวกันไม่ได้ให้คะแนน Vision & Document Arena ของ GPT-5.5, DeepSeek V4 หรือ Kimi K2.6 แบบเทียบกันโดยตรง จึงสรุปได้ว่า Claude มีหลักฐานเด่นด้านเอกสาร ไม่ใช่การจัดอันดับมัลติโหมดสี่ทางแบบสมบูรณ์
ต้องแยกชื่อรุ่นให้ดี เพราะแหล่งข้อมูลใช้ป้ายชื่อ DeepSeek มากกว่าหนึ่งแบบ ตารางร่วมรายงาน DeepSeek-V4-Pro-Max ส่วนการเปรียบเทียบของ Artificial Analysis รายงาน DeepSeek V4 Pro พร้อมหน้าต่างบริบท 1,000k tokens สองชื่อนี้จึงไม่ควรถูกถือว่าเหมือนกันโดยอัตโนมัติ
ในตารางร่วมหลัก DeepSeek-V4-Pro-Max แข่งขันได้แต่ไม่ชนะสักแถว โดยได้ 90.1% บน GPQA Diamond, 37.7% บน Humanity’s Last Exam แบบไม่ใช้เครื่องมือ, 48.2% บน Humanity’s Last Exam แบบใช้เครื่องมือ, 67.9% บน Terminal-Bench 2.0, 55.4% บน SWE-Bench Pro / SWE Pro, 83.4% บน BrowseComp และ 73.6% บน MCP Atlas / MCPAtlas Public
ข้ออ้างที่น่าสนใจที่สุดของ DeepSeek ในข้อมูลชุดนี้จึงเป็นเรื่องต้นทุนต่อประสิทธิภาพ VentureBeat ระบุว่า DeepSeek V4 ให้ความฉลาดใกล้ระดับแนวหน้าที่ต้นทุนประมาณหนึ่งในหกของ Opus 4.7 และ GPT-5.5 นี่เป็นเหตุผลที่ดีในการนำไปทดสอบสำหรับงานที่งบประมาณสำคัญ แต่ไม่ใช่เหตุผลที่จะข้ามการประเมินคุณภาพกับงานจริง
สำหรับงานบริบทยาว การเปรียบเทียบของ Artificial Analysis ชุดหนึ่งระบุว่า DeepSeek V4 Pro และ Claude Opus 4.7 ต่างมีหน้าต่างบริบท 1,000k tokens ข้อมูลนี้สนับสนุนความเท่าเทียมในคอนฟิกที่ถูกอ้างเท่านั้น ไม่ได้หมายความว่าทุกโหมดของ DeepSeek หรือ Claude จะเหมือนกันทั้งหมด
Kimi K2.6 เป็นโมเดลที่จัดอันดับในชุดนี้ได้ยากที่สุด เพราะไม่ได้อยู่ในตารางร่วมหลักที่เทียบกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max แหล่งที่โฟกัส Kimi รายงานว่า K2.6 ได้ 58.6% บน SWE-Bench Pro, 80.2% บน SWE-Bench Verified, 66.7% บน Terminal-Bench 2.0, 54.0% บน Humanity’s Last Exam แบบใช้เครื่องมือ และ 89.6% บน LiveCodeBench v6
แหล่งนั้นระบุว่าคะแนน K2.6 มาจาก model card ทางการของ Moonshot AI แต่ชุดเปรียบเทียบหลักเป็น Claude Opus 4.6 และ GPT-5.4 ไม่ใช่ไลน์อัปสี่ตัวในบทความนี้แบบตรงรุ่น
อีกแหล่งหนึ่งที่เทียบ Kimi กับ DeepSeek รายงานว่า Kimi K2.6 ได้ 96.4% บน AIME 2026 ใน Thinking mode, 27.9% บน APEX Agents ใน Thinking mode และ 83.2% บน BrowseComp เมื่อใช้ Thinking mode และการจัดการบริบท ในแหล่งเดียวกัน DeepSeek-V4 Pro อยู่ที่ 83.4% บน BrowseComp ส่วนค่า DeepSeek สำหรับ AIME 2026 และ APEX Agents ไม่พร้อมใช้งาน
ดังนั้น Kimi ควรถูกมองว่าเป็นตัวเลือกที่น่าทดสอบ โดยเฉพาะงานโค้ด เอเจนต์ คณิตศาสตร์ และการท่องเว็บ แต่หลักฐานที่มียังไม่พอให้สรุปอันดับรวมเทียบ GPT-5.5 และ Claude Opus 4.7 บนชุดเบนช์มาร์กเดียวกัน
นี่ไม่ใช่ลีดเดอร์บอร์ดสากลที่ตอบทุกคำถาม แหล่งข้อมูลผสมทั้งรุ่นฐานและรุ่น Pro รวมถึง GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, Claude Opus 4.7 และ Kimi K2.6 บางผลยังเป็นคะแนนที่ผู้ให้บริการรายงานเอง และ OpenAI ระบุว่าการประเมิน GPT สำหรับ ARC ใช้ reasoning effort ระดับ xhigh ในสภาพแวดล้อมวิจัย ซึ่งอาจให้ผลต่างจาก ChatGPT ที่ใช้งานจริงบางกรณี
ส่วนต่างเล็ก ๆ ควรมองเป็นทิศทาง ไม่ใช่คำตัดสินถาวร Claude นำ GPT-5.5 บน GPQA Diamond เพียง 0.6 จุด และ GPT-5.5 นำ Claude บน OSWorld-Verified เพียง 0.7 จุด แต่ช่องว่างใหญ่กว่า เช่น GPT-5.5 นำ Claude บน Terminal-Bench 2.0 มากกว่า 13 จุด และนำบน FrontierMath 7.9 จุด ดูมีน้ำหนักต่อการตัดสินใจมากกว่า
สรุปแบบใช้งานจริงคือ ไม่มีผู้ชนะเดียวระหว่าง GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 ให้เลือกเบนช์มาร์กที่ใกล้กับงานของคุณที่สุด แล้วรันการทดสอบซ้ำกับโมเดลที่คุณสามารถนำไปใช้จริงได้
Comments
0 comments