ถ้าดูเฉพาะเบนช์มาร์กที่เปิดเผยต่อสาธารณะ คำตอบที่ตรงไปตรงมาคือ “ยังไม่มีผู้ชนะคนเดียวในทุกสนาม” GPT-5.5 และ Claude Opus 4.7 มีตัวเลขที่ถูกนำมาเทียบในตารางเดียวกันค่อนข้างมาก แต่ Kimi K2.6 มีทั้งคะแนนจากโมเดลการ์ดและตัวเลขจากฮาร์เนสเฉพาะ ส่วน DeepSeek V4 ยังไม่มีตัวเลขร่วมในเบนช์มาร์กโค้ดหลักหลายรายการมากพอในแหล่งข้อมูลชุดนี้ [1][
2][
5][
6].
ดังนั้น วิธีอ่านที่เป็นประโยชน์กว่าคือไม่ถามว่า “โมเดลไหนเก่งสุด” แต่ถามว่า “งานของเราควรเริ่มทดลองกับโมเดลไหนก่อน”
สรุปเร็ว: งานแบบไหนควรลองโมเดลไหนก่อน
- เอเจนต์โค้ดที่ทำงานผ่านเทอร์มินัล: เริ่มจาก GPT-5.5 ได้เลย OpenAI ระบุว่า GPT-5.5 ทำคะแนน Terminal-Bench 2.0 ได้ 82.7% ขณะที่ตารางเปรียบเทียบสาธารณะให้ Claude Opus 4.7 อยู่ที่ 69.4% และ Kimi K2.6 อยู่ที่ 66.7% [
19][
8][
13][
6].
- แก้ issue จริงบน GitHub หรือซ่อมโค้ดแบบ SWE-Bench: Claude Opus 4.7 เป็นตัวเลือกแรกที่น่าทดสอบ เพราะมีรายงาน SWE-Bench Pro 64.3% และ SWE-Bench Verified 87.6% สูงกว่า SWE-Bench Pro 58.6% ของ GPT-5.5 [
27][
19].
- คอนเท็กซ์ยาวพร้อมอินพุตหลายสื่อ: ควรใส่ Kimi K2.6 ไว้ใน shortlist เพราะมีการระบุว่ารองรับข้อความ รูปภาพ วิดีโอ และ route สำหรับ context 256k [
7].
- งานเรียก API ปริมาณมากที่ไวต่อต้นทุน: DeepSeek V4 โดดเด่นด้านราคา โดย Mashable ระบุราคาต่อ 1 ล้านโทเค็นไว้ที่ DeepSeek V4 อินพุต $1.74 และเอาต์พุต $3.48 เทียบกับ GPT-5.5 อินพุต $5 และเอาต์พุต $30 และ Claude Opus 4.7 อินพุต $5 และเอาต์พุต $25 [
3].
ตารางเปรียบเทียบเบนช์มาร์กสำคัญ
เครื่องหมาย — หมายถึงในแหล่งข้อมูลสาธารณะที่ใช้ในบทความนี้ ยังไม่พบตัวเลขที่เทียบกันตรง ๆ ในเบนช์มาร์กเดียวกัน ไม่ได้แปลว่าโมเดลนั้นทำงานประเภทนั้นไม่ได้
| เบนช์มาร์ก | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | อ่านอย่างไร |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% [ | 69.4% [ | 66.7% [ | — | งานเทอร์มินัลและ command-line workflow ให้คะแนนสาธารณะของ GPT-5.5 สูงสุด |
| SWE-Bench Pro | 58.6% [ | 64.3% [ | 58.6% [ | — | งานแก้โค้ดและ issue จริงฝั่ง GitHub มี Claude Opus 4.7 นำหน้า |
| SWE-Bench Verified | — | 87.6% [ | 80.2% [ | — | ในแหล่งข้อมูลชุดนี้ มีคะแนนที่ยืนยันได้สำหรับ Claude Opus 4.7 และ Kimi K2.6 |
| GPQA Diamond | 93.6% [ | 94.2% [ | — | — | GPT-5.5 กับ Claude Opus 4.7 ใกล้กันมาก โดยคะแนนสาธารณะของ Claude สูงกว่าเล็กน้อย |
| HLE with tools | 52.2% [ | 54.7% [ | 54.0% [ | — | Claude และ Kimi มีตัวเลขสูงกว่า แต่คะแนน Kimi อาจอยู่คนละเงื่อนไขการเปรียบเทียบ [ |
| BrowseComp | 84.4% [ | 79.3% [ | — | — | งานค้นเว็บหรือ browsing คะแนนสาธารณะของ GPT-5.5 นำหน้า |
| OSWorld-Verified | 78.7% [ | 78.0% [ | — | — | ส่วนต่างของ GPT-5.5 และ Claude Opus 4.7 ค่อนข้างเล็ก |
| MCP Atlas | 75.3% [ | 79.1% [ | — | — | งานเชื่อมต่อเครื่องมือแบบ MCP คะแนนของ Claude Opus 4.7 สูงกว่า |
GPT-5.5: ตัวเลือกแข็งแรงสำหรับเอเจนต์ที่ต้องอยู่ในเทอร์มินัลนาน ๆ
OpenAI ระบุว่า GPT-5.5 ทำคะแนน Terminal-Bench 2.0 ได้ 82.7% และ SWE-Bench Pro ได้ 58.6% [19]. ตามคำอธิบายของ OpenAI, Terminal-Bench 2.0 ใช้วัด workflow ผ่าน command line ที่ซับซ้อน ต้องวางแผน ทำซ้ำ และประสานการใช้เครื่องมือ ส่วน SWE-Bench Pro วัดความสามารถในการแก้ issue จริงบน GitHub [
19].
ถ้างานของคุณคือให้เอเจนต์รันสคริปต์ แก้ไฟล์ ทวน log สร้างไฟล์ใหม่ แก้ command ที่พลาด หรือไล่ปัญหาใน CI หลายรอบ คะแนน Terminal-Bench 2.0 ทำให้ GPT-5.5 เป็นโมเดลที่ควรลองก่อน อย่างไรก็ตาม ใน SWE-Bench Pro มีรายงานว่า Claude Opus 4.7 ได้ 64.3% สูงกว่า GPT-5.5 ที่ 58.6% จึงยังไม่ควรสรุปว่า GPT-5.5 เหนือกว่าในงานโค้ดทุกแบบ [19][
27].
Claude Opus 4.7: เด่นในงานซ่อมโค้ดและตรวจงานแบบละเอียด
Claude Opus 4.7 มีรายงานคะแนน SWE-Bench Pro 64.3% และ SWE-Bench Verified 87.6% [27]. DataCamp ระบุว่า Opus 4.7 ถูกประเมินใน 14 เบนช์มาร์ก ครอบคลุม coding, reasoning, tool use, computer use และ visual reasoning [
27].
เมื่อเทียบกับ GPT-5.5 ในตัวเลขร่วม Claude Opus 4.7 นำใน GPQA Diamond ที่ 94.2% ต่อ 93.6% และ MCP Atlas ที่ 79.1% ต่อ 75.3% [8][
13]. แต่ใน Terminal-Bench 2.0 และ BrowseComp คะแนนสาธารณะของ GPT-5.5 สูงกว่า [
8][
13][
19].
ภาพรวมจึงไม่ใช่ว่า Claude Opus 4.7 ชนะงานเอเจนต์ทุกประเภท แต่ถ้างานคือการแก้ issue จริง ซ่อมโค้ด ตรวจความสอดคล้อง หรือทำงานที่ต้องระวังรายละเอียดเชิงวิศวกรรม Claude Opus 4.7 เป็นโมเดลที่ควรถูกทดสอบตั้งแต่รอบแรก
Kimi K2.6: น่าสนใจเมื่ออินพุตยาวและมีหลายสื่อ แต่ต้องดูเงื่อนไขคะแนน
Kimi K2.6 ถูกระบุว่าทำคะแนน SWE-Bench Pro 58.6% และ SWE-Bench Verified 80.2% และในอีกคู่มือหนึ่งมีตัวเลข Terminal-Bench 2.0 66.7% กับ HLE with tools 54.0% [1][
6]. อย่างไรก็ตาม คู่มือนั้นระบุว่าคะแนน K2.6 มาจากโมเดลการ์ดทางการของ Moonshot AI และสำหรับ SWE-Bench Pro มีหมายเหตุว่าเป็น Moonshot in-house harness [
6].
เพราะฉะนั้น แม้ Kimi K2.6 กับ GPT-5.5 จะมีตัวเลข SWE-Bench Pro 58.6% เท่ากันบนกระดาษ ก็ยังไม่ควรสรุปว่าเป็นการเสมอกันภายใต้เงื่อนไขประเมินเดียวกันทุกประการ [1][
6][
19]. จุดที่ทำให้ Kimi K2.6 ควรถูกมองต่างออกไปคือมีการระบุว่ารองรับอินพุตข้อความ รูปภาพ วิดีโอ และ route สำหรับ context 256k ซึ่งเหมาะกับการทดลองในงานที่มีข้อมูลยาวหรือมีหลายรูปแบบสื่อ [
7].
DeepSeek V4: ราคาเด่น แต่ต้องคุมความเสี่ยงด้านความถูกต้อง
สำหรับ DeepSeek V4 แหล่งข้อมูลชุดนี้ยังไม่มีตัวเลขที่เทียบตรงในหลายเบนช์มาร์กหลักของตาราง เช่น Terminal-Bench, SWE-Bench Pro, SWE-Bench Verified และ GPQA Diamond มากพอที่จะจัดอันดับร่วมกับอีกสามโมเดลได้อย่างมั่นใจ แต่ Artificial Analysis รายงานว่า DeepSeek V4 Pro (Max) ได้คะแนน AA-Omniscience ที่ -10 ดีขึ้น 11 คะแนนจาก V3.2 และ V4 Flash (Max) ได้ -23 [2]. แหล่งเดียวกันรายงานอัตรา hallucination ของ V4 Pro และ V4 Flash ที่ 94% และ 96% ตามลำดับ พร้อมตีความว่าเมื่อไม่รู้คำตอบ โมเดลมีแนวโน้มจะตอบออกมาแทบทุกครั้ง [
2].
ด้านสถาปัตยกรรม DataCamp ระบุว่า DeepSeek V4 ใช้โครงสร้าง Mixture of Experts หรือ MoE โดยรุ่น Pro มีพารามิเตอร์รวม 1.6 ล้านล้านตัว และมีพารามิเตอร์ active 49 พันล้านตัว ส่วนรุ่น Flash มีพารามิเตอร์รวม 284 พันล้านตัว และมีพารามิเตอร์ active 13 พันล้านตัว [4]. ด้านราคา Mashable ระบุว่า API ของ DeepSeek V4 ถูกกว่า GPT-5.5 และ Claude Opus 4.7 ในราคาต่อโทเค็นที่นำมาเทียบ [
3].
ดังนั้น DeepSeek V4 เหมาะจะถูกพิจารณาในงานปริมาณมากที่ไวต่อต้นทุน งานที่มีระบบตรวจคำตอบภายใน หรือ workflow ที่ยอมให้มีการตรวจทานและ post-processing ได้ แต่ถ้างานต้องการความถูกต้องสูงตั้งแต่คำตอบแรก ต้องมีการประเมินเอง ตรวจจับความล้มเหลว และตั้ง guardrail เพิ่มเติม [2][
3][
4].
เลือกใช้อย่างไรตาม use case
| Use case | โมเดลที่ควรทดลองก่อน | เหตุผล |
|---|---|---|
| เทอร์มินัลอัตโนมัติระยะยาว, shell agent, การจำลอง CI | GPT-5.5 | Terminal-Bench 2.0 มีคะแนน GPT-5.5 82.7%, Claude Opus 4.7 69.4% และ Kimi K2.6 66.7% [ |
| แก้ issue จริงบน GitHub, ซ่อมโค้ด, งานแนว SWE-Bench | Claude Opus 4.7 | Claude Opus 4.7 มีรายงาน SWE-Bench Pro 64.3% และ SWE-Bench Verified 87.6% [ |
| งาน browsing หรือค้นเว็บ | GPT-5.5 | BrowseComp มีรายงาน GPT-5.5 84.4% และ Claude Opus 4.7 79.3% [ |
| งานเชื่อมต่อเครื่องมือหรือ MCP | Claude Opus 4.7 | MCP Atlas มีรายงาน Claude Opus 4.7 79.1% และ GPT-5.5 75.3% [ |
| คอนเท็กซ์ยาวและอินพุตหลายสื่อ | Kimi K2.6 | Kimi K2.6 ถูกระบุว่ารองรับข้อความ รูปภาพ วิดีโอ และ route สำหรับ context 256k [ |
| งานเรียก API จำนวนมากที่ต้องคุมต้นทุน | DeepSeek V4 | ราคาต่อโทเค็นของ DeepSeek V4 ในข้อมูล Mashable ต่ำกว่า GPT-5.5 และ Claude Opus 4.7 แต่ต้องอ่านคู่กับรายงาน hallucination สูงของ Artificial Analysis [ |
ทำไมยังฟันธงแชมป์รวมไม่ได้
ข้อแรก ยังไม่มีหลักฐานสาธารณะมากพอว่าโมเดลทั้งสี่ถูกประเมินด้วย prompt เดียวกัน การเข้าถึงเครื่องมือแบบเดียวกัน งบ reasoning แบบเดียวกัน และตัวให้คะแนนเดียวกัน GPT-5.5 กับ Claude Opus 4.7 มีข้อมูลเปรียบเทียบร่วมกันมากกว่า แต่ Kimi K2.6 มีคะแนนจากโมเดลการ์ดและ in-house harness ปะปน ส่วน DeepSeek V4 มีช่องว่างในแถวเบนช์มาร์กหลักหลายรายการ [1][
2][
5][
6].
ข้อสอง ชื่อเบนช์มาร์กเดียวกันไม่ได้แปลว่าเงื่อนไขการรันเหมือนกันเสมอไป แหล่งรวบรวมหนึ่งชี้ว่า แม้คะแนน GPT-5.5 และ Claude Opus 4.7 จะดูเปรียบเทียบกันได้ในเชิงรูปแบบ แต่ไม่ได้หมายความว่าวิธีประเมินเหมือนกันทุกขั้นตอน [5]. Anthropic เองก็ระบุว่าในการประเมิน Terminal-Bench 2.0 ใช้ Terminus-2 harness พร้อมเงื่อนไขทรัพยากรเฉพาะ [
31].
ข้อสาม คะแนนเบนช์มาร์กเป็นเพียงส่วนหนึ่งของคุณภาพในผลิตภัณฑ์จริง การนำไปใช้ควรดูทั้งความแม่นยำ รูปแบบความล้มเหลว hallucination, latency, ต้นทุน, ความเสถียรของ tool call, นโยบายความปลอดภัย และการย้อนรอย log ได้ ExplainX เตือนว่า leaderboard definitions, prompt และ tool policies สามารถทำให้คะแนนเปลี่ยนได้ จึงไม่ควรใช้คะแนนสาธารณะแทน eval harness ของทีมเอง [28].
บทสรุป
จากหลักฐานสาธารณะตอนนี้ กลยุทธ์ที่สมเหตุสมผลคือ งานเอเจนต์ผ่านเทอร์มินัลให้เริ่มจาก GPT-5.5, งานซ่อมโค้ดแนว SWE-Bench ให้เริ่มจาก Claude Opus 4.7, งานคอนเท็กซ์ยาวหลายสื่อให้ทดลอง Kimi K2.6, และ งานเรียก API ปริมาณมากที่ไวต่อต้นทุนให้พิจารณา DeepSeek V4 พร้อมระบบตรวจทาน [19][
27][
7][
3].
แต่ถ้าต้องเลือก “โมเดลที่ดีที่สุดโดยรวม” คำตอบที่ปลอดภัยกว่ายังเป็นการชะลอไว้ก่อน เพราะคะแนนสาธารณะสามารถเปลี่ยนตาม prompt, tool access, reasoning setting และ evaluation harness ได้ [5][
28][
31].




