คำว่า ไม่มีข้อมูล ในตารางนี้หมายถึงแหล่งอ้างอิงไม่ได้รายงานค่านั้น ไม่ได้แปลว่าโมเดลได้คะแนนศูนย์
ใน GPQA Diamond ช่องว่างระหว่าง Claude Opus 4.7 กับ GPT-5.5 ค่อนข้างเล็ก: Claude ได้ 94.2% เทียบกับ 93.6% ของ GPT-5.5 ส่วน DeepSeek-V4-Pro-Max ได้ 90.1% .
แต่ใน Humanity’s Last Exam แบบไม่ใช้เครื่องมือ Claude นำชัดกว่า โดยได้ 46.9% เทียบกับ 41.4% ของ GPT-5.5, 43.1% ของ GPT-5.5 Pro และ 37.7% ของ DeepSeek-V4-Pro-Max . ถ้าโจทย์ของคุณเป็นการให้เหตุผลล้วน ๆ โดยไม่เรียกเครื่องมือภายนอก Claude Opus 4.7 จึงเป็นตัวเริ่มต้นที่น่าทดสอบที่สุดในชุดข้อมูลนี้
ภาพเปลี่ยนทันทีเมื่อ HLE เปิดให้ใช้เครื่องมือ GPT-5.5 Pro ได้ 57.2%, Claude Opus 4.7 ได้ 54.7%, GPT-5.5 ได้ 52.2% และ DeepSeek-V4-Pro-Max ได้ 48.2% . บทสรุปที่แม่นกว่าจึงไม่ใช่ Claude หรือ GPT ชนะเสมอ แต่คือ Claude เด่นกว่าใน reasoning แบบไม่ใช้เครื่องมือ ขณะที่ GPT-5.5 Pro เด่นกว่าใน reasoning ที่มีเครื่องมือช่วยตามแถว HLE ที่รายงาน
.
ช่องว่างที่ชัดที่สุดของ GPT-5.5 ในข้อมูลชุดนี้คือ Terminal-Bench 2.0 ซึ่งวัดงานลักษณะเอเจนต์ในสภาพแวดล้อมเทอร์มินัล GPT-5.5 ทำได้ 82.7% เทียบกับ 69.4% ของ Claude Opus 4.7 และ 67.9% ของ DeepSeek-V4-Pro-Max .
ฝั่ง Kimi K2.6 model card ระบุคะแนน Terminal-Bench 2.0 ที่ 66.7 และลีดเดอร์บอร์ด LLM Stats ระบุ 0.667 สำหรับ Kimi K2.6 เทียบกับ 0.694 ของ Claude Opus 4.7 . ตัวเลขนี้ทำให้ Kimi อยู่ใกล้ Claude และ DeepSeek ในสเกลนี้ แต่ยังต่ำกว่า GPT-5.5 อย่างเห็นได้ชัดเมื่ออิงตารางรวม
.
ใน SWE-Bench Pro / SWE Pro ภาพไม่เหมือน Terminal-Bench: Claude Opus 4.7 นำด้วย 64.3%, GPT-5.5 ได้ 58.6% และ DeepSeek-V4-Pro-Max ได้ 55.4% . Kimi K2.6 ก็มีค่า 58.6 บน SWE-Bench Pro ใน Hugging Face model card แต่ตัวเลขนี้ไม่ได้มาจากการรันทดสอบชุดเดียวกับตารางรวมของ GPT-5.5, Claude และ DeepSeek
.
ส่วน SWE-Bench Verified ไม่ควรใช้จัดอันดับรวมของทั้งสี่โมเดล Kimi K2.6 มีค่า 80.2 ใน model card และไฟล์ eval . ขณะเดียวกัน แหล่งข้อมูล DeepSeek V4 อีกแหล่งระบุ Claude Opus 4.7 ที่ 87.6% และ DeepSeek V4-Pro ที่ 80.6% แต่ไม่ได้ให้แถวครบสำหรับ GPT-5.5 และยังอ้างถึง V4-Pro ไม่ใช่ V4-Pro-Max
.
GPT-5.5 เด่นที่สุดใน Terminal-Bench 2.0 ด้วยคะแนน 82.7% ซึ่งเป็นผลดีที่สุดในแถวนี้ของตารางรวม . ส่วน GPT-5.5 Pro ไม่ได้มีข้อมูลครบทุกเบนช์มาร์ก แต่ในแถวที่มีข้อมูลก็ขึ้นนำ ได้แก่ 57.2% ใน HLE แบบใช้เครื่องมือ และ 90.1% ใน BrowseComp
.
ถ้าต้องเลือกจุดเริ่มต้นสำหรับ eval ภายในทีม GPT-5.5 เหมาะกับงาน agentic ในเทอร์มินัล ส่วน GPT-5.5 Pro เหมาะกับงานที่ต้อง reasoning พร้อมใช้เครื่องมือหรือ browsing .
Claude Opus 4.7 นำหลายแถวในตารางรวม ได้แก่ 94.2% ใน GPQA Diamond, 46.9% ใน HLE แบบไม่ใช้เครื่องมือ, 64.3% ใน SWE-Bench Pro / SWE Pro และ 79.1% ใน MCP Atlas / MCPAtlas Public . อย่างไรก็ตาม Claude ยังตามหลัง GPT-5.5 ใน Terminal-Bench 2.0 และตามหลัง GPT-5.5 Pro ใน HLE แบบใช้เครื่องมือกับ BrowseComp
.
ถ้างานหลักคือ reasoning ยาก ๆ แบบไม่พึ่งเครื่องมือ หรือ coding ที่ใกล้กับรูปแบบของ SWE-Bench Pro, Claude Opus 4.7 เป็นตัวเลือกแรกที่ควรทดสอบตามข้อมูลชุดนี้ .
Kimi K2.6 ยังจัดอันดับตรง ๆ กับทุกโมเดลในบทความนี้ไม่ได้ เพราะตัวเลขมาจาก Hugging Face model card และไฟล์ eval แยก ไม่ใช่การรันทดสอบเดียวกับตารางรวม . ถึงอย่างนั้น โปรไฟล์ด้าน coding ของ Kimi ก็น่าสนใจ: model card ระบุ 80.2 บน SWE-Bench Verified, 58.6 บน SWE-Bench Pro, 76.7 บน SWE-Bench Multilingual, 66.7 บน Terminal-Bench 2.0 และ 73.1 บน OSWorld-Verified
.
จุดที่ทำให้ Kimi แตกต่างในเชิงปฏิบัติคือแหล่งข้อมูลระบุว่าน้ำหนักโมเดลมีบน Hugging Face และสามารถรันผ่าน vLLM, SGLang หรือ KTransformers ได้ . นี่ไม่ได้แปลว่า Kimi ชนะตารางเบนช์มาร์กรวม แต่ทำให้เป็นตัวเลือกที่ควรลองสำหรับทีมที่ต้องการทดลองแบบโฮสต์เองหรือควบคุมสภาพแวดล้อมการรันมากกว่าเรียก API เพียงอย่างเดียว
.
ในตารางรวม DeepSeek ถูกแทนด้วย DeepSeek-V4-Pro-Max . ในแถวที่รายงาน DeepSeek-V4-Pro-Max ไม่ได้ขึ้นอันดับหนึ่ง: 90.1% ใน GPQA Diamond, 37.7% ใน HLE แบบไม่ใช้เครื่องมือ, 48.2% ใน HLE แบบใช้เครื่องมือ, 67.9% ใน Terminal-Bench 2.0, 55.4% ใน SWE-Bench Pro / SWE Pro, 83.4% ใน BrowseComp และ 73.6% ใน MCP Atlas / MCPAtlas Public
.
จุดแข็งของ DeepSeek V4 ในข้อมูลชุดนี้จึงไม่ใช่การเป็นแชมป์คะแนน แต่เป็นราคา API ที่แหล่งข่าวระบุ Mashable และ DataCamp ให้ราคา DeepSeek V4 ที่ $1.74 ต่อ 1 ล้าน input tokens และ $3.48 ต่อ 1 ล้าน output tokens ขณะที่ GPT-5.5 อยู่ที่ $5/$30 และ Claude Opus 4.7 อยู่ที่ $5/$25 . ถ้างบประมาณเป็นข้อจำกัดหลัก DeepSeek V4 ควรถูกใส่ไว้ใน eval ของทีม แต่ไม่ควรถูกประกาศว่าเป็นผู้นำเบนช์มาร์กจากตารางนี้
.
ถ้าดูเฉพาะแถวที่เปรียบเทียบได้ในตารางรวม Claude Opus 4.7 ชนะ GPQA Diamond, HLE แบบไม่ใช้เครื่องมือ, SWE-Bench Pro และ MCP Atlas; GPT-5.5 ชนะ Terminal-Bench 2.0; และ GPT-5.5 Pro ชนะ HLE แบบใช้เครื่องมือกับ BrowseComp . Kimi K2.6 เป็นตัวเลือกที่น่าสนใจสำหรับงาน coding และการทดลองแบบมีน้ำหนักโมเดลให้ใช้งาน แต่ยังไม่ควรถูกจัดอันดับรวมกับโมเดลอื่นโดยไม่มีการรันทดสอบชุดเดียวกัน
. DeepSeek V4 ไม่ใช่ผู้นำคะแนนในแถวหลัก แต่ด้วยราคา API ที่ต่ำกว่าในแหล่งข้อมูลที่อ้างถึง จึงยังเป็นโมเดลที่ควรทดสอบในงานที่อ่อนไหวต่อต้นทุน
.
Comments
0 comments