ก่อนจะเลือกโมเดลจากคะแนน ควรถามก่อนว่าคะแนนนั้นวัดงานแบบไหน และมาจากแหล่งทางการหรือรายงานภายนอก ในชุดข้อมูลที่ใช้บทความนี้ OpenAI ให้ตัวเลขทางการของ GPT-5.5 ที่ 82.7% บน Terminal-Bench 2.0 และ 58.6% บน SWE-Bench Pro [24]. ส่วน DeepSeek ยืนยันว่า V4-Pro และ V4-Flash ใช้งานผ่าน DeepSeek API ได้แล้ว แต่เอกสารนั้นไม่ได้ให้ตารางเบนช์มาร์กสี่รุ่นเทียบกัน [
25]. ตัวเลขเปรียบเทียบ Claude Opus 4.7 และ Kimi K2.6 ที่ชัดที่สุดในที่นี้จึงควรอ่านในฐานะข้อมูลจากแหล่งภายนอกเป็นหลัก [
4][
6].
สรุปเร็วตามงานที่ต้องใช้
- ถ้าเน้นแก้โค้ดและปิด GitHub issue: Claude Opus 4.7 ดูแข็งกว่าในตัวเลข SWE-Bench Pro, SWE-Bench Verified และ CursorBench ที่อ้างโดย LushBinary [
4].
- ถ้าเน้น terminal agent และ computer use: GPT-5.5 มีหลักฐานทางการชัดที่สุด โดย OpenAI ระบุ 82.7% บน Terminal-Bench 2.0 [
24].
- ถ้าเน้นต้นทุนต่อรอบทดลอง: Kimi K2.6 ถูก CodeRouter วางเป็นผู้เล่นด้าน cost/quality ที่ $0.60 อินพุต และ $4.00 เอาต์พุต ต่อ 1 ล้านโทเคน [
6].
- ถ้าสนใจ DeepSeek V4: ยืนยันได้ว่า V4-Pro และ V4-Flash เปิดใช้ผ่าน API แล้ว แต่ยังไม่มีตารางเบนช์มาร์กสี่รุ่นจากแหล่งทางการในข้อมูลชุดนี้ [
25].
อ่านตัวเลขอย่างไรให้ไม่หลงทาง
เบนช์มาร์กของ LLM ไม่เหมือนคะแนนสอบกลางที่ตัดสินได้จบในครั้งเดียว งานโค้ด งานใช้เทอร์มินัล งานอ่านเอกสาร และงานเรียกเครื่องมือ ล้วนวัดคนละมุมของโมเดลเดียวกัน ตัวเลขที่มาจากผู้พัฒนาโมเดลเองก็ควรแยกจากตัวเลขของเว็บไซต์วิเคราะห์ภายนอก เพราะเงื่อนไขการรัน benchmark อาจต่างกันได้
OpenAI อธิบาย Terminal-Bench 2.0 ว่าเป็นการทดสอบ workflow บน command line ที่ต้องมีการวางแผน ทำซ้ำ และประสานงานกับเครื่องมือ โดย GPT-5.5 ได้ 82.7% [24]. OpenAI ยังระบุว่า SWE-Bench Pro ใช้วัดการแก้ปัญหา GitHub issue ในโลกจริง และ GPT-5.5 ได้ 58.6% [
24].
ฝั่ง DeepSeek เอกสาร API ระบุว่า V4-Pro และ V4-Flash ใช้งานได้ผ่านทั้ง OpenAI ChatCompletions interface และ Anthropic interface โดยตั้งค่า model เป็น deepseek-v4-pro หรือ deepseek-v4-flash [25]. นี่เป็นหลักฐานเรื่อง availability ไม่ใช่หลักฐานว่า DeepSeek V4 ชนะ benchmark ใด benchmark หนึ่ง
ตารางเปรียบเทียบค่าที่มีหลักฐานในแหล่งข้อมูลชุดนี้
คำว่า ไม่มีข้อมูลเทียบตรง หมายถึง แหล่งข้อมูลที่ใช้ในบทความนี้ไม่มีตัวเลขที่น่าเทียบกันโดยตรงสำหรับคู่โมเดลและ benchmark นั้น ไม่ได้แปลว่าโมเดลทำงานประเภทนั้นไม่ได้
| Benchmark / เกณฑ์ | DeepSeek V4 | Kimi K2.6 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|---|
| SWE-Bench Pro | ไม่มีข้อมูลเทียบตรง | CodeRouter ระบุว่าอยู่ระดับ GPT-5.5 [ | 64.3% [ | 58.6% [ |
| SWE-Bench Verified | ไม่มีข้อมูลเทียบตรง | ไม่มีข้อมูลเทียบตรง | 87.6% [ | ราว 85% [ |
| Terminal-Bench 2.0 | ไม่มีข้อมูลเทียบตรง | ไม่มีข้อมูลเทียบตรง | ราว 72% [ | 82.7% [ |
| GDPval / Knowledge Work | ไม่มีข้อมูลเทียบตรง | ไม่มีข้อมูลเทียบตรง | ราว 78% [ | 84.9% [ |
| OSWorld-Verified / Computer Use | ไม่มีข้อมูลเทียบตรง | ไม่มีข้อมูลเทียบตรง | ราว 65% [ | 78.7% [ |
| GPQA Diamond | ไม่มีข้อมูลเทียบตรง | ไม่มีข้อมูลเทียบตรง | 94.2% [ | ราว 93% [ |
| CursorBench | ไม่มีข้อมูลเทียบตรง | ไม่มีข้อมูลเทียบตรง | 70% [ | ราว 65% [ |
| Tau2-bench Telecom | ไม่มีข้อมูลเทียบตรง | ไม่มีข้อมูลเทียบตรง | ราว 90% [ | 98.0% [ |
| Vision & Document Arena | ไม่มีข้อมูลเทียบตรง | ไม่มีข้อมูลเทียบตรง | อันดับ 1 ตามรายงาน Arena ที่ถูกอ้างถึง [ | ไม่มีข้อมูลเทียบตรง |
| ราคา / context ที่มีในแหล่งข้อมูล | V4 Flash: $0.14 อินพุต / $0.28 เอาต์พุต ต่อ 1 ล้านโทเคน และ context 1M [ | $0.60 อินพุต / $4.00 เอาต์พุต ต่อ 1 ล้านโทเคน [ | ไม่มีข้อมูลในชุดนี้ | ไม่มีข้อมูลในชุดนี้ |
งานโค้ด: Claude นำคะแนน แต่ Kimi น่าสนใจถ้าต้องรันหลายรอบ
ถ้าโจทย์คือใช้โมเดลช่วยแก้บั๊ก ปิด issue หรือทำงานกับ codebase จริง ตัวเลขที่มีอยู่ชี้ไปทาง Claude Opus 4.7 มากที่สุด LushBinary ระบุ Claude Opus 4.7 ที่ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ OpenAI ระบุไว้ 58.6% [4][
24]. แหล่งเดียวกันยังให้ Claude Opus 4.7 นำ GPT-5.5 บน SWE-Bench Verified และ CursorBench ด้วย [
4].
แต่ Kimi K2.6 ไม่ควรถูกมองข้าม โดยเฉพาะทีมที่มี agent ทำงานหลายรอบ ลองหลาย draft หรือยอมให้ retry ได้ CodeRouter ระบุว่า Kimi K2.6 อยู่ระดับ GPT-5.5 บน SWE-Bench Pro และให้ราคาที่ $0.60 อินพุต / $4.00 เอาต์พุต ต่อ 1 ล้านโทเคน [6]. นี่ไม่ใช่ข้อสรุปว่า Kimi จะชนะทุก repo แต่เป็นสัญญาณที่ควรเอาไปทดสอบกับงานจริง หากต้นทุนต่อรอบมีความสำคัญ
สำหรับ DeepSeek V4 ข้อมูลทางการในชุดนี้บอกได้เพียงว่า V4-Pro และ V4-Flash เปิดให้ใช้ผ่าน API แล้ว [25]. ยังไม่พอจะสรุปคะแนน coding benchmark เทียบกับอีกสามรุ่นอย่างเป็นธรรม
Terminal agent และ computer use: GPT-5.5 มีหลักฐานแน่นที่สุด
ถ้างานของคุณเป็นเอเจนต์ที่ต้องพิมพ์คำสั่ง shell เอง แก้ไฟล์ เรียกเครื่องมือ และวนรอบจนงานจบ GPT-5.5 เป็นตัวเลือกที่มีหลักฐานสาธารณะชัดที่สุด OpenAI ระบุว่า GPT-5.5 ได้ 82.7% บน Terminal-Bench 2.0 ซึ่งวัด workflow บน command line ที่ต้องใช้การวางแผน การทำซ้ำ และการประสานงานกับเครื่องมือ [24]. LushBinary ให้ Claude Opus 4.7 อยู่ที่ราว 72% ใน benchmark เดียวกัน [
4].
ในตัวชี้วัดที่ใกล้กับงาน knowledge work และ computer use แหล่งภายนอกเดียวกันก็ให้ GPT-5.5 นำ Claude Opus 4.7 เช่น 84.9% บน GDPval เทียบกับราว 78% และ 78.7% บน OSWorld-Verified เทียบกับราว 65% [4]. ถ้างานจริงของคุณคือให้โมเดลประสานหลายเครื่องมือ หรือทำงานใกล้เคียง GUI และระบบปฏิบัติการ GPT-5.5 จึงเป็นจุดเริ่มต้นที่มีหลักฐานรองรับมากที่สุดในชุดข้อมูลนี้
Vision และเอกสาร: Claude มีสัญญาณบวกชัด แต่ยังไม่ใช่ตารางสี่รุ่น
สำหรับงานอ่านภาพ เอกสาร แผนภาพ หรือ OCR แหล่งข้อมูลที่มีไม่ได้ให้ตารางเทียบครบทั้ง DeepSeek V4, Kimi K2.6, Claude Opus 4.7 และ GPT-5.5 อย่างเป็นระบบ สัญญาณที่เด่นที่สุดอยู่ที่ Claude Opus 4.7 โดยรายงาน Arena ที่ถูกอ้างถึงโดย Latent Space/AINews ระบุว่า Claude Opus 4.7 ได้อันดับ 1 ใน Vision & Document Arena [1].
LLM Stats ยังรายงานว่า Claude Opus 4.7 รองรับภาพได้ถึง 2,576 พิกเซลด้านยาว หรือประมาณ 3.75 เมกะพิกเซล ส่วน GPT-5.5 รองรับ image input และถูกระบุคะแนน MMMU-Pro ที่ 81.2% แบบไม่ใช้เครื่องมือ และ 83.2% แบบใช้เครื่องมือ [5]. ตัวเลขนี้ช่วยให้เห็นภาพระหว่าง Claude กับ GPT-5.5 แต่ยังไม่ควรใช้แทนการเปรียบเทียบสี่รุ่นเต็มรูปแบบกับ Kimi K2.6 และ DeepSeek V4
ราคา: อย่าดูแค่ดอลลาร์ต่อ 1 ล้านโทเคน
จุดขายด้านราคาที่ชัดที่สุดคือ Kimi K2.6 เพราะ CodeRouter วางให้เป็นผู้ชนะด้าน cost/quality และระบุราคาที่ $0.60 อินพุต กับ $4.00 เอาต์พุต ต่อ 1 ล้านโทเคน [6]. สำหรับทีมที่ต้องรัน agent จำนวนมาก ราคาแบบนี้อาจเปลี่ยนสมการได้มาก
DeepSeek V4 Flash ก็เป็นอีกตัวที่ควรอยู่ในชุดทดสอบ หากเป้าหมายคือทำงานซ้ำจำนวนมากในงบจำกัด CodeRouter ระบุราคา $0.14 อินพุต และ $0.28 เอาต์พุต ต่อ 1 ล้านโทเคน พร้อม context 1M [6]. เอกสาร DeepSeek ยังยืนยันว่า V4-Pro และ V4-Flash ใช้งานผ่าน API ปัจจุบันได้ [
25].
อย่างไรก็ตาม ราคาต่อโทเคนไม่ใช่ต้นทุนสุดท้ายของงานจริง โมเดลที่ถูกกว่าอาจคุ้มมากถ้าทำงานถูกต้องตั้งแต่ไม่กี่รอบ แต่ถ้าต้อง retry บ่อย หรือสร้างบั๊กที่ต้องให้มนุษย์แก้ ต้นทุนแฝงอาจสูงกว่าที่เห็นในตารางราคา
วิธีทดสอบสี่รุ่นนี้ให้แฟร์กับงานของคุณ
สำหรับการเลือกใช้ในโปรดักชัน อย่าใช้ ranking เดียวตัดสินทั้งหมด ควรสร้าง eval set ขนาดเล็กจากงานจริงของทีม เช่น issue ที่เคยแก้แล้ว เอกสารภายในที่ต้องสรุป หรือ workflow ที่ agent ต้องใช้เครื่องมือหลายตัว จากนั้นรันทั้งสี่โมเดลด้วย prompt, context, tool permission และเกณฑ์ตัดสินเดียวกัน
ตัวชี้วัดที่ควรเก็บไม่ใช่แค่คำตอบแรกถูกหรือผิด แต่รวมถึงค่าใช้จ่ายต่อผลลัพธ์ที่ยอมรับได้ จำนวน retry เวลาในการรัน ความรุนแรงของข้อผิดพลาด และภาระตรวจทานของมนุษย์ แยกด้วยว่าอะไรคือค่าทางการจากผู้พัฒนาโมเดล เช่น GPT-5.5 บน Terminal-Bench 2.0 และ SWE-Bench Pro [24] และอะไรคือข้อมูลจากแหล่งภายนอก เช่นตาราง Claude/Kimi ที่ใช้ในบทความนี้ [
4][
6].
บทสรุป
คำตอบที่แม่นที่สุดไม่ใช่รุ่นใดรุ่นหนึ่งชนะทุกสนาม แต่เป็นการเลือกตามงาน: Claude Opus 4.7 ดูแข็งสุดในตัวเลขด้าน coding ที่อ้างถึง, GPT-5.5 มีหลักฐานแน่นสุดสำหรับ terminal agent และ computer use, Kimi K2.6 มีเรื่องเล่าด้านราคา/คุณภาพที่ชัดเจน และ DeepSeek V4 เป็นตัวเลือก API ที่ควรถูกนำไปวัดกับงานจริงมากกว่าจะสรุปชัยชนะจาก benchmark ที่ยังไม่มีครบในชุดข้อมูลนี้ [4][
24][
6][
25].




