ถ้าจะใช้ผล benchmark เลือกโมเดล AI สำหรับงานจริง คำถามแรกไม่ควรเป็นว่า “รุ่นไหนชนะ” แต่ควรถามก่อนว่า “คะแนนไหนวัดด้วยวิธีเดียวกันจริง ๆ” เพราะตัวเลขจากคนละแหล่ง คนละ harness หรือคนละชุดงาน เอามาบวกเป็นอันดับรวมแล้วมักทำให้เข้าใจผิด
ในชุดข้อมูลที่อ้างอิงได้สำหรับบทความนี้ การเปรียบเทียบที่สะอาดที่สุดคือ GPT-5.5 กับ Claude Opus 4.7 เพราะ OpenAI มีตารางเดียวกันที่ใส่คะแนนของทั้งสองรุ่นใน SWE-Bench Pro และ Terminal-Bench 2.0 [21] ส่วน Kimi K2.6 มีข้อมูลจากหน้า Hugging Face และบทความบุคคลที่สาม ส่วน DeepSeek V4 ยังไม่มี benchmark ที่ตรวจสอบได้พอในแหล่งข้อมูลชุดนี้ [
32][
34]
ตารางเปรียบเทียบ benchmark
เครื่องหมาย — ในตารางหมายถึง “ไม่มีตัวเลขที่อ้างได้จากแหล่งข้อมูลในบทความนี้” ไม่ได้แปลว่าโมเดลทำงานประเภทนั้นไม่ได้ และไม่ควรนำคะแนนจากคนละแหล่งไปสรุปเป็นคะแนนรวมเดียวโดยตรง
| โมเดล | SWE-Bench Pro | SWE-Bench Verified | Terminal-Bench 2.0 | ข้อมูลอื่นที่เห็นได้ | ระดับหลักฐานและวิธีอ่าน |
|---|---|---|---|---|---|
| GPT-5.5 | 58.6% [ | — | 82.7% [ | Expert-SWE Internal 73.1%; OpenAI ระบุว่าห้องแล็บอื่นพบ memorization evidence ใน eval นี้ [ | A-: SWE-Bench Pro และ Terminal-Bench 2.0 อยู่ในตาราง OpenAI เดียวกับ Claude Opus 4.7 จึงเทียบกันได้ตรงที่สุดในบทความนี้ แต่ Expert-SWE เป็น internal eval จึงควรอ่านแบบระมัดระวัง [ |
| Claude Opus 4.7 | 64.3% [ | 87.6% [ | 69.4% [ | CursorBench 70% [ | A-/B: SWE-Bench Pro และ Terminal-Bench 2.0 เทียบกับ GPT-5.5 ได้จากตารางเดียวกัน ส่วน SWE-Bench Verified และ CursorBench มาจากบทความรวบรวม/สรุปของบุคคลที่สาม โดย Verdent ระบุว่า Verified เป็น Anthropic-conducted และ CursorBench เป็น partner eval [ |
| Kimi K2.6 | 58.6% [ | 80.2% [ | — | Hugging Face ระบุว่า Kimi K2.6 เป็น open-source, native multimodal agentic model [ | B แบบจำกัด: ตัวเลข SWE-Bench มาจากบทความบุคคลที่สาม ยังไม่ใช่ตารางทางการชุดเดียวกับ GPT-5.5 และ Claude Opus 4.7 จึงเหมาะเป็นสัญญาณเบื้องต้นมากกว่าหลักฐานตัดสินแพ้ชนะ [ |
| DeepSeek V4 | — | — | — | — | C ข้อมูลไม่พอ: แหล่งข้อมูลที่ใช้ในบทความนี้ยังไม่มี benchmark ของ DeepSeek V4 ที่อ้างและตรวจสอบได้พอ จึงไม่จัดอันดับเชิงตัวเลข |
benchmark ไหนตอบคำถามอะไร
SWE-Bench Pro: Claude Opus 4.7 นำ GPT-5.5 ในข้อมูลที่เทียบตรงกัน
ในตารางประเมินของ OpenAI, Claude Opus 4.7 ได้ SWE-Bench Pro 64.3% ส่วน GPT-5.5 ได้ 58.6% [21] นี่เป็นหนึ่งในจุดเปรียบเทียบที่แข็งแรงที่สุดของบทความนี้ เพราะทั้งสองรุ่นอยู่ในตารางเดียวกัน
สำหรับผู้อ่านที่ไม่ได้ตามวงการ coding agent ตลอดเวลา ให้มอง SWE-Bench Pro เป็นสัญญาณของงานวิศวกรรมซอฟต์แวร์ที่ใกล้กับการแก้ issue หรือบั๊กใน repository จริงมากกว่าการให้โมเดลเขียนโค้ดสั้น ๆ จากโจทย์เดียว บทวิเคราะห์ของ Vellum ก็อธิบายคู่เปรียบเทียบนี้ในบริบท real GitHub issue resolution [24]
Kimi K2.6 ถูกบทความของ Kilo AI ระบุว่าได้ SWE-Bench Pro 58.6% ซึ่งดูใกล้ GPT-5.5 [34] แต่ตัวเลขนี้ไม่ได้อยู่ในตารางอ้างอิงเดียวกับ GPT-5.5 และ Claude Opus 4.7 จึงควรใช้เป็นข้อมูลประกอบ ไม่ใช่หลักฐานว่าเทียบกันแบบ apples-to-apples แล้วเสมอกัน
Terminal-Bench 2.0: GPT-5.5 นำ Claude Opus 4.7 ชัดเจน
ในตาราง OpenAI เดียวกัน GPT-5.5 ได้ Terminal-Bench 2.0 ที่ 82.7% ขณะที่ Claude Opus 4.7 ได้ 69.4% [21] ถ้างานของคุณใกล้กับเอเจนต์ที่ต้องทำงานใน terminal ใช้คำสั่ง command line รัน test และจัดการ workflow ของโค้ด GPT-5.5 ควรถูกใส่ไว้ในรายชื่อทดลองก่อน
อย่างไรก็ตาม บทความนี้ไม่มีตัวเลข Terminal-Bench 2.0 ที่อ้างได้สำหรับ Kimi K2.6 หรือ DeepSeek V4 ดังนั้น benchmark ช่องนี้ยังใช้จัดอันดับครบทั้ง 4 รุ่นไม่ได้
SWE-Bench Verified: Claude สูงกว่า Kimi แต่แหล่งข้อมูลคนละระดับ
Claude Opus 4.7 มีคะแนน SWE-Bench Verified 87.6% ในบทความรวบรวมของบุคคลที่สาม และ Verdent ระบุว่าคะแนนนี้เป็น Anthropic-conducted พร้อม memorization screens applied [4][
6] ส่วน Kimi K2.6 มีคะแนน SWE-Bench Verified 80.2% จากบทความของ Kilo AI [
34]
ตัวเลขทั้งสองชุดมีประโยชน์ แต่ไม่แข็งแรงเท่าการเปรียบเทียบ GPT-5.5 กับ Claude Opus 4.7 ในตาราง OpenAI เดียวกัน [21] ถ้าจะใช้ประกอบการตัดสินใจ ควรมองเป็นสัญญาณว่าโมเดลน่าทดลอง ไม่ใช่คำตัดสินสุดท้าย
Expert-SWE: ใช้เป็นสัญญาณได้ แต่ไม่ควรใช้จัดอันดับรวม
GPT-5.5 ได้ Expert-SWE Internal 73.1% แต่ OpenAI ระบุเองว่าเป็น internal eval และมีหมายเหตุว่าห้องแล็บอื่นพบ memorization evidence ใน eval นี้ [21] ดังนั้นคะแนนนี้อาจบอกทิศทางความสามารถภายในชุดทดสอบของ OpenAI ได้ แต่ไม่ควรใช้เป็นแกนหลักในการประกาศว่า GPT-5.5 เหนือกว่าหรือด้อยกว่าทุกโมเดลโดยรวม
เลือกโมเดลตามงาน ไม่ใช่ตามอันดับรวม
ถ้างานหลักคือแก้ issue ในโค้ดหรือทำงานวิศวกรรมซอฟต์แวร์ซับซ้อน ให้เริ่มทดสอบ Claude Opus 4.7 ก่อน เพราะใน SWE-Bench Pro ที่เทียบได้จากตารางเดียวกัน Claude Opus 4.7 ได้ 64.3% สูงกว่า GPT-5.5 ที่ 58.6% [21] และ Vellum ก็วาง benchmark นี้ในบริบทของการแก้ GitHub issue จริง [
24]
ถ้างานหลักคือ coding agent ที่ต้องทำงานผ่าน terminal ให้เริ่มทดสอบ GPT-5.5 ก่อน เพราะ GPT-5.5 ได้ Terminal-Bench 2.0 ที่ 82.7% สูงกว่า Claude Opus 4.7 ที่ 69.4% [21] นี่ไม่ได้แปลว่า GPT-5.5 ชนะทุกงานเขียนโค้ด แต่แปลว่ามีสัญญาณเด่นใน benchmark ประเภทนี้
ถ้าต้องการโมเดลเปิดหรืออยากมีตัวเลือกที่ไม่ใช่เฉพาะโมเดลปิด Kimi K2.6 ควรอยู่ใน shortlist หน้า Hugging Face ระบุว่า Kimi K2.6 เป็น open-source, native multimodal agentic model และบทความของ Kilo AI ระบุคะแนน SWE-Bench Pro 58.6% กับ SWE-Bench Verified 80.2% [32][
34] แต่ควรนำมาทดสอบกับชุดงานของคุณเองก่อนตัดสินใจ เพราะหลักฐานยังไม่เทียบตรงกับตาราง OpenAI
ถ้ากำลังประเมิน DeepSeek V4 วิธีที่ปลอดภัยที่สุดคือรอ benchmark ที่อ้างได้หรือรัน eval เอง ในชุดแหล่งข้อมูลของบทความนี้ยังไม่มีตัวเลขที่ตรวจสอบได้เพียงพอ การฝืนใส่คะแนนหรือจัดอันดับจะทำให้ตารางดูสมบูรณ์ขึ้น แต่ความจริงอาจทำให้ตัดสินใจผิดมากกว่าเดิม
ทำไมบทความนี้ไม่ให้ตำแหน่งแชมป์รวม
การอ่าน benchmark ของ LLM คล้ายดูคะแนนสอบหลายวิชา: คะแนนสูงในข้อสอบหนึ่งไม่ได้แปลว่าชนะทุกสถานการณ์ โดยเฉพาะเมื่อข้อสอบมาจากคนละแหล่งและวัดคนละพฤติกรรม บทความนี้จึงแยกระดับหลักฐานเป็น 3 ชั้น
- ตัวเลขในตารางเดียวกันและ benchmark เดียวกัน เช่น GPT-5.5 กับ Claude Opus 4.7 ใน SWE-Bench Pro และ Terminal-Bench 2.0 ของ OpenAI ข้อมูลชุดนี้เหมาะกับการเทียบตรงที่สุดในบทความนี้ [
21]
- ตัวเลขจากบทความรวบรวมหรือ vendor/partner eval เช่น SWE-Bench Verified และ CursorBench ของ Claude Opus 4.7 ยังมีประโยชน์ แต่ต้องดูว่าใครรัน test และใช้เงื่อนไขอะไร [
4][
6]
- ตัวเลขที่ยังขาดการ cross-check หรือยังไม่มีแหล่งอ้างพอ เช่น Kimi K2.6 ที่ตอนนี้ในบทความนี้พึ่งพาคะแนนจากบุคคลที่สามเป็นหลัก และ DeepSeek V4 ที่ยังไม่มี benchmark พอให้จัดอันดับ [
32][
34]
ข้อสรุปที่ยืนได้จากหลักฐานตอนนี้คือ: Claude Opus 4.7 นำ GPT-5.5 ใน SWE-Bench Pro, GPT-5.5 นำ Claude Opus 4.7 ใน Terminal-Bench 2.0, Kimi K2.6 มีตัวเลข SWE-Bench ที่น่าสนใจแต่หลักฐานยังจำกัด และ DeepSeek V4 ควรถูกจัดเป็นข้อมูลไม่พอในตอนนี้ [21][
32][
34]
หลังจากใช้ตารางนี้ทำ shortlist แล้ว ขั้นตอนสำคัญกว่าคือทดสอบกับงานของคุณเอง เช่น repository ที่ใช้จริง ภาษาโปรแกรมที่ใช้จริง วิธีรัน test การเรียกเครื่องมือ latency ค่าใช้จ่าย และวิธีฟื้นตัวเมื่อ agent ทำพลาด ผลลัพธ์แบบนั้นจะบอกความเหมาะสมในผลิตภัณฑ์จริงได้ดีกว่าการถามว่าโมเดลใดเป็นที่หนึ่งของทุก benchmark




