ใน benchmark ด้าน knowledge work อย่าง GDPval โมเดลนี้สามารถ เทียบหรือชนะผู้เชี่ยวชาญในประมาณ 84.9% ของกรณีทดสอบ ครอบคลุมอาชีพกว่า 40 สาขา
ผลรวมชี้ว่า GPT‑5.5 แข็งแกร่งมากในงานประเภท agentic workflows และ automation ที่ซับซ้อน
Claude Opus 4.7 จาก Anthropic ถูกยกให้เป็นหนึ่งในโมเดลที่ดีที่สุดสำหรับงานซอฟต์แวร์
ตัวเลข benchmark ที่โดดเด่น ได้แก่
SWE‑bench เป็น benchmark สำคัญที่ใช้ ปัญหาจริงจาก GitHub เช่น bug report หรือ issue ในโปรเจกต์โอเพนซอร์ส
Claude Opus 4.7 สามารถแก้ได้ 87.6% ของงานใน SWE‑bench Verified ซึ่งถือว่าสูงมากสำหรับงานวิศวกรรมซอฟต์แวร์จริง
แม้คะแนน Terminal‑Bench จะตาม GPT‑5.5 แต่ใน benchmark ที่เน้น coding โดยตรง Opus 4.7 ยังอยู่ในกลุ่มที่แข็งแกร่งที่สุด
Gemini 3.5 Flash ของ Google มีตำแหน่งทางการตลาดต่างจากคู่แข่ง เพราะถูกออกแบบให้ เร็วและประหยัดต้นทุน มากกว่าเป็น flagship
แต่ผล benchmark ก็ยังแข่งขันได้ เช่น
Google ระบุว่าโมเดลนี้สามารถสร้าง output ได้ เร็วกว่า frontier model ระดับเดียวกันประมาณ 4 เท่า พร้อมทำคะแนนดีกว่า Gemini 3.1 Pro ในหลาย benchmark ด้าน agent และ coding
จุดเด่นหลักของ Gemini 3.5 Flash จึงอยู่ที่
ความเร็วสูง + ประสิทธิภาพใกล้ flagship ซึ่งเหมาะกับงาน production ที่ต้องการ latency ต่ำ
DeepSeek V4 ถือเป็นหนึ่งในโมเดล open‑weight ที่ทรงพลังที่สุดในช่วงนี้
โมเดลมีสองเวอร์ชันหลัก
ในโหมด reasoning สูงสุด V4‑Pro มีตัวเลข benchmark เช่น
อย่างไรก็ตาม การประเมินอิสระจาก NIST ผ่านโครงการ CAISI พบว่าความสามารถของ DeepSeek V4 ยังตามหลัง frontier models ประมาณ 8 เดือน
ดังนั้นจึงยังมีช่องว่างระหว่างผล benchmark ที่ผู้พัฒนาเผยแพร่กับการทดสอบอิสระ
Grok 4.3 จาก xAI เป็นการอัปเกรดครั้งใหญ่เมื่อเทียบกับรุ่นก่อน โดยเฉพาะในงาน agent และ automation
ตัวเลขที่เผยแพร่ ได้แก่
คะแนน GDPval‑AA เพิ่มขึ้นมากกว่า 300 Elo จากเวอร์ชันก่อน แสดงถึงความก้าวหน้าในงาน automation โลกจริง
อย่างไรก็ตาม การวิเคราะห์จากองค์กรภายนอกหลายแห่งยังจัดให้ Grok 4.3 อยู่ ต่ำกว่าระบบล่าสุดของ OpenAI และ Anthropic ใน benchmark ด้านความสามารถรวม
เมื่อดูจาก benchmark หลายชุด แนวโน้มที่เห็นได้ค่อนข้างชัดคือ
แต่ข้อสรุปเหล่านี้ควรถูกมองเป็น แนวโน้ม มากกว่าคำตอบสุดท้าย เพราะ benchmark ที่ใช้เปรียบเทียบยังไม่เหมือนกัน
การเปรียบเทียบ frontier models ในยุคปัจจุบันซับซ้อนขึ้นด้วยเหตุผลหลายอย่าง เช่น
ด้วยเหตุนี้ อันดับที่แท้จริงของโมเดล frontier มักจะชัดเจนขึ้น หลังจากผ่านการทดสอบอิสระหลายเดือน
ข้อมูล benchmark ล่าสุดไม่ได้แสดงว่าโมเดลใดครองอันดับหนึ่งในทุกด้าน
แต่ภาพรวมในปี 2026 คือ
เมื่อมี benchmark อิสระและการทดสอบแบบ apples‑to‑apples เพิ่มขึ้น ลำดับของโมเดล frontier เหล่านี้ก็อาจเปลี่ยนได้อีกในอนาคต
Comments
0 comments