ตาราง Benchmark ทำให้การเทียบโมเดลดูเหมือนการแข่งขันที่ต้องมีผู้ชนะหนึ่งเดียว แต่ในทางใช้งานจริง คำถามที่สำคัญกว่าไม่ใช่รุ่นไหนชนะทั้งหมด หากเป็นรุ่นไหนควรเอาไปทดสอบก่อนกับงานของคุณ ข้อมูลเปรียบเทียบร่วมที่ใกล้เคียงที่สุดในแหล่งอ้างอิงครอบคลุม GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max ส่วน Kimi K2.6 มาจากแหล่งข้อมูลเฉพาะของ Kimi เช่นข่าวเปิดตัว model card และ leaderboard แยกต่างหาก [1][
6][
24].
หมายเหตุเรื่องชื่อรุ่น: บทความนี้ใช้ชื่อ DeepSeek-V4-Pro-Max สำหรับ DeepSeek V4 เพราะเป็นตัวแปรที่มีแถว Benchmark และต้นทุนในแหล่งอ้างอิง [18][
24]. และจะแยก GPT-5.5 Pro ออกจาก GPT-5.5 รุ่นฐานทุกครั้งที่แหล่งข้อมูลรายงานคะแนนคนละชุด [
24].
สรุปเร็วตามประเภทงาน
- Coding agent ที่ทำงานหนักบนเทอร์มินัล: GPT-5.5 มีคะแนน Terminal-Bench 2.0 สูงสุดในตารางเปรียบเทียบร่วมที่อ้างถึง อยู่ที่ 82.7% [
24].
- งานซ่อมซอฟต์แวร์ตาม Benchmark: Claude Opus 4.7 นำในแถว SWE-Bench Pro ที่ 64.3% และแถว SWE-Bench Verified ที่ 87.6% ในข้อมูลที่อ้างถึง [
18][
24].
- เหตุผลเชิงยากโดยไม่ใช้เครื่องมือ: Claude Opus 4.7 นำใน GPQA Diamond และ Humanity’s Last Exam แบบไม่ใช้เครื่องมือในตารางเปรียบเทียบร่วม [
24].
- เหตุผลเชิงยากแบบใช้เครื่องมือและการค้นเว็บ: GPT-5.5 Pro นำ Humanity’s Last Exam แบบใช้เครื่องมือที่ 57.2% และ BrowseComp ที่ 90.1% ในจุดที่มีการรายงานรุ่น Pro แยก [
24].
- การ deploy แบบ open-weight: Kimi K2.6 เป็นตัวเลือก open-weight ที่ชัดที่สุดในแหล่งอ้างอิง โดยถูกอธิบายว่าเป็นโมเดล MoE ขนาด 1T parameters มี 32B active parameters และ context window 256K [
1].
- Hosted inference ที่ต้องคุมต้นทุน: DeepSeek-V4-Pro-Max เป็นตัวเลือกด้านความคุ้มค่าที่ควรนำไปทดสอบ โดย LLM Stats ระบุ context 1M, คะแนน SWE-Bench Verified 80.6% และ cost columns $1.74/$3.48 [
18].
ตารางเปรียบเทียบ Benchmark
เครื่องหมายขีดหมายถึงไม่พบคะแนนของโมเดลนั้นในแหล่งอ้างอิงที่ใช้ ไม่ได้แปลว่าคะแนนเป็นศูนย์ แถวของ GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max ส่วนใหญ่มาจากตารางเปรียบเทียบร่วม ส่วนตัวเลขของ Kimi K2.6 มาจากแหล่งข้อมูล Kimi แยกต่างหาก [1][
6][
24].
| Benchmark | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | Kimi K2.6 | DeepSeek-V4-Pro-Max |
|---|---|---|---|---|---|
| GPQA Diamond | 93.6% [ | — | 94.2% [ | ≈91% [ | 90.1% [ |
| Humanity’s Last Exam, ไม่ใช้เครื่องมือ | 41.4% [ | 43.1% [ | 46.9% [ | — | 37.7% [ |
| Humanity’s Last Exam, ใช้เครื่องมือ | 52.2% [ | 57.2% [ | 54.7% [ | 54.0% [ | 48.2% [ |
| Terminal-Bench 2.0 | 82.7% [ | — | 69.4% [ | 66.7% [ | 67.9% [ |
| SWE-Bench Pro | 58.6% [ | — | 64.3% [ | 58.6% [ | 55.4% [ |
| BrowseComp | 84.4% [ | 90.1% [ | 79.3% [ | 83.2% [ | 83.4% [ |
| MCP Atlas / MCPAtlas Public | 75.3% [ | — | 79.1% [ | — | 73.6% [ |
| SWE-Bench Verified | — | — | 87.6% [ | 80.2% [ | 80.6% [ |
ควรเริ่มทดสอบจากรุ่นไหน
| โจทย์หลัก | เริ่มจาก | เหตุผล |
|---|---|---|
| Coding agent ที่ใช้เทอร์มินัลเยอะ | GPT-5.5 | ได้คะแนน Terminal-Bench 2.0 สูงสุดในตารางเปรียบเทียบร่วมที่ 82.7% [ |
| ซ่อมโค้ดและแก้ปัญหาซอฟต์แวร์ | Claude Opus 4.7 | นำทั้งแถว SWE-Bench Pro และ SWE-Bench Verified ในข้อมูลที่อ้างถึง [ |
| เหตุผลเชิงยากโดยไม่ใช้เครื่องมือ | Claude Opus 4.7 | นำ GPQA Diamond และ Humanity’s Last Exam แบบไม่ใช้เครื่องมือในตารางเปรียบเทียบร่วม [ |
| งาน reasoning หรือ browsing แบบใช้เครื่องมือ | GPT-5.5 Pro | นำ Humanity’s Last Exam แบบใช้เครื่องมือและ BrowseComp ในจุดที่มีรายงาน GPT-5.5 Pro แยก [ |
| ต้องการ open-weight deployment | Kimi K2.6 | ถูกอธิบายว่าเป็น open-weight MoE ขนาด 1T parameters และ model card บน Hugging Face รายงานคะแนน coding benchmark แข็งแรง [ |
| ใช้ API/hosted inference แบบคุมต้นทุน | DeepSeek-V4-Pro-Max | LLM Stats ระบุ context 1M, SWE-Bench Verified 80.6% และ cost columns ต่ำกว่าแถว Claude Opus 4.7 บน leaderboard เดียวกัน [ |
| งาน long-context | GPT-5.5, Claude Opus 4.7 หรือ DeepSeek-V4-Pro-Max | แหล่งอ้างอิงระบุ context 1M สำหรับ GPT-5.5, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max ส่วน Kimi K2.6 อยู่ราว 256K–262K [ |
อ่านแต่ละโมเดลแบบใช้งานจริง
GPT-5.5
OpenAI อธิบาย GPT-5.5 ว่าสร้างมาเพื่องานซับซ้อน เช่น coding, research และ data analysis [38]. ในตารางเปรียบเทียบร่วมของ VentureBeat, GPT-5.5 ทำคะแนน Terminal-Bench 2.0 ได้ 82.7% สูงกว่า Claude Opus 4.7 ที่ 69.4% และ DeepSeek-V4-Pro-Max ที่ 67.9% [
24]. ตารางเดียวกันยังรายงาน GPT-5.5 ที่ 93.6% บน GPQA Diamond, 58.6% บน SWE-Bench Pro และ 84.4% บน BrowseComp [
24].
ข้อควรระวังคือ GPT-5.5 Pro เป็นจุดเปรียบเทียบแยก ไม่ควรนำคะแนนไปรวมกับรุ่นฐานแบบเหมารวม ในตารางเดียวกัน GPT-5.5 Pro ทำ BrowseComp ได้ 90.1% และ Humanity’s Last Exam แบบใช้เครื่องมือได้ 57.2% แต่ตัวเลขเหล่านี้ควรแยกจาก GPT-5.5 รุ่นฐานเมื่อนำไปเทียบต้นทุน latency หรือการตั้งค่าโมเดล [24].
ด้านการจัดซื้อหรือวางงบ BenchLM ระบุ GPT-5.5 มี context window 1M token ส่วนรายงานราคาหนึ่งระบุ GPT-5.5 ที่ $5 ต่อ 1 ล้าน input tokens และ $30 ต่อ 1 ล้าน output tokens [27][
36]. ควรมองราคานี้เป็นสัญญาณเบื้องต้น และตรวจสอบราคาปัจจุบันกับผู้ให้บริการก่อนทำงบจริง.
Claude Opus 4.7
Claude Opus 4.7 มีสัญญาณด้าน software repair แข็งที่สุดในกลุ่มนี้ตามแหล่งอ้างอิง LLM Stats ระบุคะแนน 87.6% บน SWE-Bench Verified และตารางเปรียบเทียบร่วมรายงาน 64.3% บน SWE-Bench Pro [18][
24]. รุ่นนี้ยังนำ GPQA Diamond ที่ 94.2%, Humanity’s Last Exam แบบไม่ใช้เครื่องมือที่ 46.9% และ MCP Atlas ที่ 79.1% ในตารางเปรียบเทียบร่วม [
24].
LLM Stats รายงาน context window 1M token และราคา $5/$25 ต่อ 1 ล้าน token สำหรับ Claude Opus 4.7 [16]. แต่เรื่องความเทียบกันได้ของ Benchmark สำคัญมาก: Anthropic ระบุว่าบางผลทดสอบใช้ internal implementation หรือมีการปรับ harness parameters และบางคะแนนจึงไม่สามารถเทียบตรงกับ public leaderboard ได้ [
17].
Kimi K2.6
Kimi K2.6 เป็นตัวเลือก open-weight ที่เด่นที่สุดในข้อมูลที่อ้างถึง ข่าวเปิดตัวอธิบายว่าเป็น open-weight MoE ขนาด 1T parameters, มี 32B active parameters, 384 experts, native multimodality, INT4 quantization และ context 256K [1]. Model card บน Hugging Face รายงาน 80.2% บน SWE-Bench Verified, 58.6% บน SWE-Bench Pro, 66.7% บน Terminal-Bench 2.0 และ 89.6 บน LiveCodeBench v6 [
6].
แหล่งข่าวเปิดตัวเดียวกันรายงาน Kimi K2.6 ที่ 54.0 บน Humanity’s Last Exam แบบใช้เครื่องมือ และ 83.2 บน BrowseComp [1]. ส่วน LLM Stats ระบุ Kimi K2.6 มี context 262K, cost columns $0.95/$4.00 และติดป้าย Open Source [
11]. ข้อจำกัดคือคะแนนของ Kimi ไม่ได้มาจากตารางเปรียบเทียบร่วมชุดเดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max ดังนั้นส่วนต่างคะแนนที่ห่างกันเล็กน้อยควรใช้เป็นเหตุผลให้ทดสอบต่อ ไม่ใช่ตัดสินผู้ชนะทันที [
1][
6][
24].
DeepSeek-V4-Pro-Max
DeepSeek-V4-Pro-Max ดูเหมือนตัวเลือกสายคุ้มค่ามากกว่าจะเป็นผู้ชนะทุกสนาม LLM Stats ระบุขนาด 1.6T, context 1M, คะแนน SWE-Bench Verified 80.6% และ cost columns $1.74/$3.48 [18]. ในตารางเปรียบเทียบร่วม รุ่นนี้ได้ 90.1% บน GPQA Diamond, 37.7% บน Humanity’s Last Exam แบบไม่ใช้เครื่องมือ, 48.2% บน Humanity’s Last Exam แบบใช้เครื่องมือ, 67.9% บน Terminal-Bench 2.0, 55.4% บน SWE-Bench Pro, 83.4% บน BrowseComp และ 73.6% บน MCP Atlas [
24].
ตัวเลขเหล่านี้ทำให้ DeepSeek-V4-Pro-Max น่าลองสำหรับงานที่ต้นทุนเป็นเงื่อนไขใหญ่ แต่ตารางเดียวกันยังแสดงให้เห็นว่า GPT-5.5, GPT-5.5 Pro หรือ Claude Opus 4.7 นำในแถว Benchmark ส่วนใหญ่ที่รายงาน ดังนั้นก่อนใช้แทนโมเดลพรีเมียมใน production ควรทดสอบกับงานของตัวเองให้ชัดเจน [24].
สัญญาณเรื่อง context และราคา
ราคาและ context window ไม่ได้มาจากแหล่งเดียวกันเสมอไป และอาจเปลี่ยนตามผู้ให้บริการหรือแพ็กเกจ ควรใช้ตารางนี้เป็นสัญญาณเพื่อคัด shortlist ไม่ใช่ใบเสนอราคาสุดท้าย.
| โมเดล | สัญญาณ context และราคาในแหล่งอ้างอิง | อ่านเชิงปฏิบัติ |
|---|---|---|
| GPT-5.5 | BenchLM ระบุ context 1M; รายงานราคาหนึ่งระบุ $5 input และ $30 output ต่อ 1 ล้าน token [ | ตัวเลือก hosted ระดับพรีเมียม ควรเช็กราคาปัจจุบันอีกครั้ง. |
| Claude Opus 4.7 | LLM Stats รายงาน context 1M และราคา $5/$25 ต่อ 1 ล้าน token [ | ตัวเลือกพรีเมียมสำหรับ coding, reasoning และ long-context. |
| Kimi K2.6 | ข่าวเปิดตัวรายงาน context 256K; LLM Stats ระบุ context 262K และ cost columns $0.95/$4.00 [ | ตัวเลือก open-weight ที่แข็งแรง ราคาบน hosted provider อาจต่างกัน. |
| DeepSeek-V4-Pro-Max | LLM Stats ระบุ context 1M, ขนาด 1.6T, SWE-Bench Verified 80.6% และ cost columns $1.74/$3.48 [ | ตัวเลือกคุ้มค่าหากคุณภาพยังผ่านเมื่อทดสอบกับ workload จริง. |
ทำไมอันดับถึงไม่ตรงกันทุกตาราง
Benchmark แต่ละตัววัดคนละทักษะ GPQA Diamond และ Humanity’s Last Exam เน้น reasoning ยาก ส่วน Terminal-Bench 2.0 และตระกูล SWE-Bench เน้น coding และงานซอฟต์แวร์แบบ agentic ขณะที่ BrowseComp วัดความสามารถแนวค้นหา/ท่องเว็บในตารางเปรียบเทียบร่วม [24]. โมเดลหนึ่งจึงอาจชนะบางแถวและตามหลังในอีกแถวได้ เพราะโจทย์ การให้เครื่องมือ และ harness ที่ใช้วัดต่างกัน.
แม้ Benchmark ชื่อเดียวกันก็อาจต่างกันตามวิธีรัน LLM Stats ระบุ Claude Opus 4.7 ที่ 87.6% บน SWE-Bench Verified ขณะที่ LMCouncil ระบุ Claude Opus 4.7 ที่ 83.5% ± 1.7 ภายใต้ setup ของตนเอง [18][
30]. Anthropic เองยังระบุว่าบางผลใช้ internal implementation หรือปรับ harness parameters ทำให้เทียบตรงกับ public leaderboard บางชุดไม่ได้ [
17].
ดังนั้นช่องว่าง 1–2 จุดไม่ควรเป็นเหตุผลเดียวในการเปลี่ยนโมเดลใน production ใช้ public benchmark เพื่อคัดรายชื่อให้สั้นลง แล้วให้การทดสอบกับงานจริงเป็นตัวตัดสิน.
วิธีประเมินก่อนตัดสินใจ
ก่อนเลือกโมเดลเดียว ควรทดสอบผู้เข้ารอบ 2–3 รุ่นกับงานที่ใกล้เคียงของจริงที่สุด.
- ใช้ prompt, ไฟล์ และ repository จริง เพราะ prompt ใน Benchmark มักไม่สะท้อน codebase เอกสาร นโยบาย หรือพฤติกรรมผู้ใช้ของคุณ.
- จัด environment ให้เหมือนงานจริง ผลของ coding agent เปลี่ยนได้มากเมื่อมีหรือไม่มี terminal, browsing, retrieval, context ของ repo หรือ internal API.
- วัดต้นทุนและ latency ด้วย setting เดียวกัน โหมด Pro หรือ effort สูงอาจเพิ่มคุณภาพ แต่ก็อาจเพิ่ม token และเวลาตอบ.
- ตรวจ failure ด้วยคน งานโค้ดควรดู test, diff, maintainability, security regression และ dependency ที่โมเดลแต่งขึ้น.
- ใส่ challenger ที่ถูกกว่าหรือเปิดน้ำหนักได้อย่างน้อยหนึ่งตัว ถ้า open weights หรือต้นทุน inference สำคัญ Kimi K2.6 และ DeepSeek-V4-Pro-Max ควรได้อยู่ในชุดทดสอบ [
1][
18].
บทสรุป
ถ้าต้องการ shortlist ระดับบน ให้ทดสอบ GPT-5.5 และ Claude Opus 4.7 คู่กัน: GPT-5.5 มีคะแนน Terminal-Bench 2.0 ที่เด่นที่สุดในข้อมูลที่อ้างถึง ส่วน Claude Opus 4.7 มีคะแนน SWE-Bench Pro และ SWE-Bench Verified ที่แข็งที่สุดในข้อมูลชุดนี้ [18][
24]. ถ้าต้องการ open weights ให้เริ่มจาก Kimi K2.6 [
1][
6]. ถ้าข้อจำกัดหลักคือต้นทุน ให้ใส่ DeepSeek-V4-Pro-Max ในการทดสอบด้วย แต่ควรพิสูจน์กับ workload ของตัวเองก่อนถือว่าใช้แทนโมเดลพรีเมียมได้ทันที [
18][
24].




