ส่วน Grok 4.3 และ DeepSeek V4 ยังจัดอันดับได้ยากกว่า เนื่องจากความแตกต่างของวิธีประเมินและความโปร่งใสของข้อมูล
หนึ่งในสนามที่แข่งขันกันชัดที่สุดคือความสามารถด้านโปรแกรมมิง
Claude Opus 4.7 มีสัญญาณที่ชัดเจนที่สุดในหมวดนี้ โดยได้
ด้าน GPT‑5.5 ได้คะแนน 58.6% บน SWE‑Bench Pro ต่ำกว่าเล็กน้อย แต่กลับทำผลงานดีมากในงานวิศวกรรมที่เกี่ยวกับ workflow จริง เช่น
Gemini 3.5 Flash ได้
สำหรับ Grok 4.3 ตัวเลขที่เผยแพร่มี เช่น
อย่างไรก็ตาม การทดสอบเหล่านี้วัดความสามารถเฉพาะด้าน จึงเทียบกับ SWE‑Bench หรือ Terminal‑Bench โดยตรงไม่ได้
ในกรณีของ DeepSeek V4 เบนช์มาร์กด้านโค้ดที่ตรวจสอบได้อย่างอิสระยังมีจำกัด หลายตัวเลขมาจากการทดสอบภายในหรือรายงานรอง ซึ่งยังไม่มีการทำซ้ำโดยผู้ประเมินภายนอก
เบนช์มาร์กสมัยใหม่ไม่ได้วัดแค่ความรู้ แต่ดูด้วยว่าโมเดลสามารถใช้เครื่องมือและทำงานหลายขั้นตอนได้ดีแค่ไหน
ในหมวดนี้ Gemini 3.5 Flash ทำผลงานโดดเด่น โดย Google รายงานว่าโมเดลนำในหลายการทดสอบ เช่น
ด้าน GPT‑5.5 ก็ทำผลงานแข็งแรงในงานลักษณะเดียวกัน ตัวอย่างคือ
Claude Opus 4.7 ก็มีผลลัพธ์ที่ดีในงานควบคุมคอมพิวเตอร์ เช่น
ผลเบนช์มาร์กไม่ใช่ปัจจัยเดียวในการเลือกโมเดล
Grok 4.3 เน้นจุดขายเรื่อง context ยาวและต้นทุนต่ำ เอกสารของ xAI ระบุว่าโมเดลมี
ด้าน Gemini 3.5 Flash ถูกออกแบบให้เป็นโมเดล inference ความเร็วสูง และมักถูกอธิบายว่าเร็วกว่าโมเดล frontier หลายตัวอย่างมาก ในขณะที่ยังรักษาความสามารถใกล้เคียงกันในหลายเบนช์มาร์ก
ส่วน DeepSeek มักเน้นกลยุทธ์ open‑weight หรือค่าใช้จ่ายต่ำ ทำให้บางองค์กรสามารถรันโมเดลเองบน infrastructure ภายในได้
หนึ่งในงานประเมินที่น่าเชื่อถือที่สุดสำหรับ DeepSeek V4 มาจาก NIST (National Institute of Standards and Technology) ของสหรัฐ ผ่านโปรแกรม CAISI
ผลประเมินระบุว่า
รายงานยังตั้งข้อสังเกตว่า
แม้จะมีตัวเลขมากมาย แต่การจัดอันดับแบบชัดเจนยังทำได้ยาก เพราะ
ดังนั้นการจัดอันดับแบบ “ดีที่สุดอันดับ 1–5” ควรตีความอย่างระมัดระวัง
จากข้อมูลสาธารณะที่น่าเชื่อถือที่สุดในตอนนี้
ในทางปฏิบัติ โมเดลที่ "ดีที่สุด" มักขึ้นอยู่กับงานที่ต้องการ เช่น
แต่ละกรณีอาจทำให้โมเดลคนละตัวกลายเป็นตัวเลือกที่เหมาะที่สุด
Comments
0 comments