เครื่องหมาย — หมายถึงในข้อมูลที่มี ไม่มีผลลัพธ์ที่เทียบกันได้โดยตรงสำหรับโมเดลนั้น
จุดยากไม่ใช่ตัวเลขน้อยเกินไป แต่เป็นตัวเลขที่มาจากคนละเงื่อนไข ตัวอย่างเช่น Artificial Analysis เทียบ GPT-5.5 medium, Kimi K2.6 และ Claude Opus 4.7 non-reasoning high; AkitaOnRails ใช้ GPT-5.5 xHigh/Codex และแยก DeepSeek V4 เป็น Flash กับ Pro; ส่วน VentureBeat ยังแยก GPT-5.5 และ GPT-5.5 Pro ออกเป็นคนละแถว
แม้เทียบเฉพาะ GPT-5.5 กับ Claude Opus 4.7 ภาพก็ยังไม่ใช่เกมขาด LLM Stats ระบุว่าใน 10 เบนช์มาร์กที่ทั้งสองผู้ให้บริการรายงาน Claude Opus 4.7 นำ 6 รายการ ส่วน GPT-5.5 นำ 4 รายการ โดยจุดแข็งของ Claude กระจุกอยู่ที่งาน reasoning-heavy และ review-grade ขณะที่ GPT-5.5 เด่นในงาน long-running tool-use และ shell-driven tasks
สัญญาณที่ชัดที่สุดของ GPT-5.5 อยู่ที่ ARC และ Terminal-Bench ใน ARC-AGI-2 โมเดลนี้ได้ 85% เทียบกับ 75.8% ของ Claude Opus 4.7 และใน ARC-AGI-1 ได้ 95% เทียบกับ 93.5% ของ Claude ส่วน Terminal-Bench 2.0 ให้ GPT-5.5 ที่ 82.7% สูงกว่า Claude Opus 4.7 ที่ 69.4% และ DeepSeek ที่ 67.9% อย่างเห็นได้ชัด
Artificial Analysis ก็ให้ GPT-5.5 medium สูงกว่าสองคู่แข่งที่อยู่ในสไลซ์เดียวกัน: 57 เทียบกับ 54 ของ Kimi K2.6 และ 52 ของ Claude Opus 4.7 non-reasoning high อย่างไรก็ตาม นี่ไม่ใช่ตารางสรุปทุกโหมดของทุกโมเดล เพราะ LLM Stats แสดงอีกด้านว่า Claude Opus 4.7 ชนะ GPT-5.5 ในบางชุดทดสอบด้าน reasoning และ software engineering
Claude Opus 4.7 ดูแข็งเป็นพิเศษในงานที่ต้องใช้ reasoning หนักและการตรวจซอฟต์แวร์เชิงลึก ใน Humanity’s Last Exam แบบไม่ใช้เครื่องมือ VentureBeat ให้ Claude 46.9%, GPT-5.5 41.4% และ DeepSeek 37.7%; เมื่อเปิดใช้เครื่องมือ Claude ได้ 54.7%, GPT-5.5 ได้ 52.2% และ DeepSeek ได้ 48.2%
ด้าน coding ระดับแก้ปัญหาซอฟต์แวร์จริง DataCamp ให้ Claude Opus 4.7 ได้ 64.3% ใน SWE-Bench Pro เทียบกับ 58.6% ของ GPT-5.5 และ 55.4% ของ DeepSeek V4 Pro ภาพนี้สอดคล้องกับ LLM Stats ที่ระบุว่า Claude นำ GPT-5.5 ใน GPQA, HLE แบบไม่ใช้เครื่องมือ, HLE แบบใช้เครื่องมือ, SWE-Bench Pro, MCP Atlas และ FinanceAgent v1.1
Kimi K2.6 ยังจัดเข้าตารางเดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4 แบบครบทุกสนามได้ยาก เพราะไม่ได้ปรากฏในทุกแหล่งข้อมูลเดียวกัน ใน Artificial Analysis รุ่นนี้ได้ 54 ต่ำกว่า GPT-5.5 medium ที่ 57 แต่สูงกว่า Claude Opus 4.7 non-reasoning high ที่ 52
ใน coding benchmark ของ AkitaOnRails Kimi K2.6 ได้ 87 ต่ำกว่า Claude Opus 4.7 ที่ 97 และ GPT-5.5 xHigh/Codex ที่ 96 แต่สูงกว่า DeepSeek V4 Flash ที่ 78 และ DeepSeek V4 Pro ที่ 69 ส่วน Verdent ให้ตัวเลข SWE-Bench Verified ของ Kimi K2.6 ที่ 80.2% เทียบกับ 87.6% ของ Claude Opus 4.7
จุดต่างสำคัญของ Kimi คือเส้นทาง open-weight Verdent ระบุว่า weights ของ K2.6 อยู่บน Hugging Face และรันได้ผ่าน vLLM, SGLang หรือ KTransformers โดยคอนฟิกขั้นต่ำที่พอใช้งานได้สำหรับรุ่น INT4 เมื่อย่อ context คือ 4× H100 README บน Hugging Face ยังระบุเมตริกด้าน agentic ของ Kimi K2.6 เช่น HLE-Full แบบใช้เครื่องมือ 54.0, BrowseComp 83.2, DeepSearchQA f1-score 92.5, Toolathlon 50.0 และ MCPMark 55.9 แต่ตารางนั้นเทียบ Kimi เป็นหลักกับ GPT-5.4, Claude Opus 4.6 และ Gemini 3.1 Pro ไม่ใช่ชุดโมเดลครบทั้ง 4 รุ่นในบทความนี้
ในข้อมูลชุดนี้ DeepSeek V4 มักดูเป็นโมเดลสาย value มากกว่าผู้นำคะแนนดิบ VentureBeat ให้ DeepSeek ต่ำกว่า GPT-5.5 และ Claude Opus 4.7 ใน HLE ทั้งแบบไม่ใช้เครื่องมือและแบบใช้เครื่องมือ รวมถึง Terminal-Bench 2.0 DataCamp ให้ DeepSeek V4 Pro ได้ 55.4% ใน SWE-Bench Pro เทียบกับ 58.6% ของ GPT-5.5 และ 64.3% ของ Claude Opus 4.7
ขณะที่ AkitaOnRails ให้ DeepSeek V4 Flash 78 และ DeepSeek V4 Pro 69 ต่ำกว่า Kimi K2.6, GPT-5.5 xHigh/Codex และ Claude Opus 4.7 ในตารางเดียวกัน
แต่ถ้ามองเรื่องต้นทุน DeepSeek V4 เปลี่ยนสมการได้ Mashable ระบุราคา DeepSeek V4 ที่ $1.74 ต่อ input tokens 1 ล้าน และ $3.48 ต่อ output tokens 1 ล้าน ขณะที่ GPT-5.5 อยู่ที่ $5/$30 และ Claude Opus 4.7 อยู่ที่ $5/$25 นี่ไม่ได้ทำให้ DeepSeek เป็นแชมป์เบนช์มาร์ก แต่ทำให้มันเป็นตัวเลือกที่ควรทดลองสำหรับงานปริมาณมาก งานร่างเบื้องต้น งานความเสี่ยงต่ำ หรือการทำ eval ภายในที่ต้องคุมค่าใช้จ่าย
ถ้ามองเฉพาะเบนช์มาร์ก คู่บนสุดคือ GPT-5.5 กับ Claude Opus 4.7 แต่ทั้งสองเด่นคนละสนาม GPT-5.5 ดูแข็งกว่าใน ARC และ Terminal-Bench ส่วน Claude Opus 4.7 ดูแข็งกว่าใน HLE และ SWE-Bench Pro Kimi K2.6 เป็นตัวเลือก coding/agentic ที่น่าสนใจ โดยเฉพาะเมื่อต้องการเส้นทาง open-weight แต่ข้อมูลเทียบตรงกับทุกโมเดลยังน้อยกว่า
ส่วน DeepSeek V4 ในชุดข้อมูลนี้มักตามหลังด้าน raw score แต่ราคา API ทำให้ยังเป็นตัวเลือกสำคัญสำหรับการทดลองแบบ price-performance
Comments
0 comments