ก่อนดูตัวเลข คำถามที่ควรถามไม่ใช่ “โมเดลไหนเก่งที่สุด” แต่คือ “เราจะให้มันทำงานแบบไหน” เพราะเบนช์มาร์กสาธารณะของ LLM มักไม่ได้วัดภายใต้เงื่อนไขเดียวกันทั้งหมด ทั้งระดับ reasoning ที่เปิดใช้ ช่วงเวลาที่ประเมิน และคะแนนที่มาจากผู้ให้บริการเองหรือจากบุคคลที่สาม หากนำทุกอย่างมารวมเป็นอันดับเดียว อาจได้ข้อสรุปที่ชวนเข้าใจผิด [4][
18]
ในบทความนี้ ส่วนของ DeepSeek จะยึด DeepSeek V4 Pro เป็นหลักเมื่อพูดถึงตัวเลขที่ตรวจสอบได้ เพราะ Artificial Analysis มีข้อมูลของ DeepSeek V4 Pro แบบ Reasoning, Max Effort เทียบกับ Kimi K2.6 ในตารางโมเดลโอเพนเวต ทั้งคะแนน Intelligence, context, ราคา และความเร็วเอาต์พุต [23]
สรุปเร็ว: ถ้าต้องเลือกตามงาน
| งานที่ต้องทำ | ตัวเลือกแรกที่ควรลอง | เหตุผล |
|---|---|---|
| งานทั่วไป งานเชิงเศรษฐกิจ และงานที่ต้องการความสามารถรวมสูง | GPT-5.5 | GPT-5.5 high ได้คะแนน 59 ใน Artificial Analysis Intelligence Index และ GPT-5.5 xhigh ได้ Elo 1785 ใน GDPval-AA [ |
| งาน reasoning ลึก รีวิวโค้ด ตรวจตราความถูกต้อง งานเฉพาะทาง | Claude Opus 4.7 | LLM Stats สรุปว่าใน 10 เบนช์มาร์กที่ GPT-5.5 และ Claude Opus 4.7 มีร่วมกัน Claude นำ 6 รายการ ส่วน GPT-5.5 นำ 4 รายการ [ |
| งานใช้เครื่องมือระยะยาว เช่น terminal, browser, agent workflow | GPT-5.5 | LLM Stats ระบุว่า GPT-5.5 แข็งแรงกว่าใน Terminal-Bench 2.0, BrowseComp, OSWorld-Verified และ CyberGym [ |
| งานโอเพนเวตที่เน้นความเร็วและความคุ้มค่า | Kimi K2.6 | ตารางโอเพนโมเดลของ Artificial Analysis ให้ Kimi K2.6 มี Intelligence 54, context 256k, Price $1.7 และความเร็ว 112 tokens/s [ |
| งาน context ยาวมากและต้องการต้นทุน API ต่ำ | DeepSeek V4 Pro / ตระกูล DeepSeek V4 | Artificial Analysis ระบุ DeepSeek V4 Pro มี context 1M ส่วน Mashable รายงานว่าราคา API ของ DeepSeek V4 ต่ำกว่า GPT-5.5 และ Claude Opus 4.7 [ |
ภาพรวม 4 รุ่น: จุดเด่นที่เห็นจากข้อมูลสาธารณะ
| โมเดล | จุดแข็งจากเบนช์มาร์ก | จุดที่ต้องดูด้านราคาและการใช้งาน |
|---|---|---|
| GPT-5.5 | GPT-5.5 high ได้ Intelligence 59 ใน Artificial Analysis และ GPT-5.5 xhigh ได้ Elo 1785 ใน GDPval-AA ซึ่งรายงานว่านำ Claude Opus 4.7 max อยู่ราว 30 คะแนน [ | Mashable รายงานราคา API ที่ $5 ต่อ 1 ล้าน input tokens และ $30 ต่อ 1 ล้าน output tokens [ |
| Claude Opus 4.7 | LLM Stats สรุปเบนช์มาร์กร่วม 10 รายการว่า Claude นำ GPT-5.5 6 ต่อ 4 ส่วน Mashable รายงานตัวเลข เช่น SWE-Bench Pro 64.3%, GPQA Diamond 94.2% และ HLE with tools 54.7% [ | Mashable รายงานราคา API ที่ $5 ต่อ 1 ล้าน input tokens และ $25 ต่อ 1 ล้าน output tokens [ |
| Kimi K2.6 | Artificial Analysis ให้ Intelligence 54 ในตารางโอเพนโมเดล ขณะที่ The Decoder รายงานค่าที่ Moonshot AI ประกาศ เช่น HLE with Tools 54.0, SWE-Bench Pro 58.6 และ BrowseComp 83.2 [ | Artificial Analysis ระบุ context 256k, Price $1.7 และความเร็ว 112 tokens/s [ |
| DeepSeek V4 Pro | Artificial Analysis ให้ Intelligence 52 ส่วน DataCamp สรุปว่า DeepSeek V4 ยังไม่ได้เหนือกว่า GPT-5.5 หรือ Claude Opus 4.7 ในความสามารถล้วน ๆ [ | Artificial Analysis ระบุ context 1M, Price $2.2 และความเร็ว 36 tokens/s ส่วน Mashable รายงานราคา API ของ DeepSeek V4 ที่ $1.74 ต่อ 1 ล้าน input tokens และ $3.48 ต่อ 1 ล้าน output tokens [ |
GPT-5.5 vs Claude Opus 4.7: รุ่น frontier ชนะกันคนละสนาม
ถ้าเทียบเฉพาะ GPT-5.5 กับ Claude Opus 4.7 ภาพจะไม่ใช่ฝ่ายใดฝ่ายหนึ่งกวาดเรียบ แต่เป็นการผลัดกันนำตามประเภทงาน ตัวเลขหลักที่ Mashable รายงานมีดังนี้ [9]
| เบนช์มาร์ก | GPT-5.5 | Claude Opus 4.7 | รุ่นที่นำ |
|---|---|---|---|
| SWE-Bench Pro | 58.6% | 64.3% | Claude Opus 4.7 |
| Terminal-Bench 2.0 | 82.7% | 69.4% | GPT-5.5 |
| Humanity's Last Exam | 40.6% | 31.2% | GPT-5.5 |
| Humanity's Last Exam with tools | 52.2% | 54.7% | Claude Opus 4.7 |
| BrowseComp | 84.4% | 79.3% | GPT-5.5 |
| GPQA Diamond | 93.6% | 94.2% | Claude Opus 4.7 |
| ARC-AGI-1 Verified | 94.5% | 92.0% | GPT-5.5 |
LLM Stats มองภาพรวมของ 10 เบนช์มาร์กร่วมว่า Claude Opus 4.7 นำ 6 รายการ และ GPT-5.5 นำ 4 รายการ โดยกลุ่มที่ Claude แข็งคือ reasoning และงานระดับรีวิว ส่วนกลุ่มที่ GPT-5.5 เด่นคือการใช้เครื่องมือยาว ๆ เช่น terminal, browsing และงาน agent ที่ต้องทำหลายขั้นตอน [4]
แต่มีข้อควรระวังสำคัญ: LLM Stats ระบุว่าคะแนนเหล่านี้เป็นคะแนนแบบ self-reported ของแต่ละผู้ให้บริการใน tier reasoning สูง จึง “พอเทียบรูปทรงได้” แต่ไม่ใช่การทดสอบที่มีวิธีวิทยาเหมือนกันทุกจุด [4] นอกจากนี้ บางรายการอย่าง Humanity's Last Exam อาจให้ภาพการนำที่ต่างกันเมื่อดูคนละแหล่งข้อมูล [
4][
9]
Kimi K2.6 vs DeepSeek V4 Pro: ฝั่งโอเพนเวตเลือกความเร็วหรือ context ยาว
Kimi K2.6 และ DeepSeek V4 Pro ควรถูกมองเป็นตัวเลือกฝั่งโอเพนเวตมากกว่าจะนำไปชนกับโมเดลปิดระดับ frontier แบบตารางเดียวจบ ข้อมูลจาก Artificial Analysis ให้ภาพที่ค่อนข้างชัดว่า Kimi เร็วกว่า ส่วน DeepSeek ได้เปรียบเรื่อง context [23]
| ตัวชี้วัด | Kimi K2.6 | DeepSeek V4 Pro |
|---|---|---|
| Artificial Analysis Intelligence | 54 | 52 |
| Context window | 256k | 1.00M |
| Price | $1.7 | $2.2 |
| Output speed | 112 tokens/s | 36 tokens/s |
ถ้าดูเฉพาะตารางนี้ Kimi K2.6 ได้เปรียบด้านคะแนน Intelligence และความเร็วเอาต์พุต ขณะที่ DeepSeek V4 Pro ได้เปรียบชัดเจนเรื่อง context 1M [23] The Decoder ยังรายงานค่าที่ Moonshot AI ประกาศสำหรับ Kimi K2.6 เช่น HLE with Tools 54.0, SWE-Bench Pro 58.6 และ BrowseComp 83.2 [
20]
อย่างไรก็ตาม การทดลองสาธารณะของ Kimi K2.6 ไม่ใช่การเทียบแบบเงื่อนไขเดียวกันทั้งหมดกับ GPT-5.5 หรือ Claude Opus 4.7 โดยโมเดลการ์ดบน Hugging Face ระบุว่า Kimi K2.6 ถูกประเมินด้วย thinking mode, temperature 1.0, top-p 1.0 และ context length 262,144 tokens ขณะที่คู่เทียบหลักในโมเดลการ์ดเป็น Claude Opus 4.6, GPT-5.4 และ Gemini 3.1 Pro [18]
สำหรับ DeepSeek V4 Pro จุดขายจึงไม่ใช่การเป็นแชมป์ความสามารถล้วน ๆ แต่เป็นการให้ประสิทธิภาพใกล้ frontier ในต้นทุนที่ต่ำกว่า DataCamp สรุปว่า DeepSeek V4 ยังไม่ได้เหนือกว่า GPT-5.5 หรือ Claude Opus 4.7 ใน pure capability แต่มีตำแหน่งที่น่าสนใจในฐานะโมเดล near-frontier ราคาต่ำ [16]
ราคา: อย่าผสมตัวเลขคนละชนิด
เวลาพูดว่าโมเดลไหน “ถูกกว่า” ต้องแยกตัวเลขอย่างน้อย 3 ประเภท
-
ราคา API ต่อโทเคน — Mashable รายงานว่า DeepSeek V4 อยู่ที่ $1.74 ต่อ 1 ล้าน input tokens และ $3.48 ต่อ 1 ล้าน output tokens ส่วน GPT-5.5 อยู่ที่ $5/$30 และ Claude Opus 4.7 อยู่ที่ $5/$25 [
3]
-
คอลัมน์ Price ของ Artificial Analysis — ในตารางโอเพนโมเดล Kimi K2.6 อยู่ที่ $1.7 และ DeepSeek V4 Pro อยู่ที่ $2.2 แต่ไม่ควรนำไปเทียบตรง ๆ กับราคา API ต่อ 1 ล้านโทเคนของ Mashable เพราะเป็นคนละตัวชี้วัด [
23]
-
ต้นทุนในการรันเบนช์มาร์ก — Artificial Analysis รายงานว่าการรัน Intelligence Index มีต้นทุน $1,071 สำหรับ DeepSeek V4 Pro, $948 สำหรับ Kimi K2.6 และ $4,811 สำหรับ Claude Opus 4.7 [
2]
ดังนั้นคำสรุปอย่าง “DeepSeek ถูกกว่า” หรือ “Claude แพงกว่า” ต้องถามต่อเสมอว่าหมายถึงราคา API, ต้นทุนประเมินเบนช์มาร์ก หรือค่าใช้จ่ายจริงใน workflow ที่มีจำนวน output tokens และจำนวนรอบการเรียกโมเดลต่างกัน [2][
3][
23]
ความปลอดภัยและความน่าเชื่อถือ: เป็นอีกแกนหนึ่ง ไม่ใช่คะแนนเดียวกับความเก่ง
Claude Opus 4.7 มีสัญญาณด้านความน่าเชื่อถือที่น่าสนใจ Mashable รายงานตามคำกล่าวของ Anthropic ว่า Claude Opus 4.7 มี honesty rate 92% และมีแนวโน้ม sycophancy น้อยลง [15] ฝั่ง Anthropic ยังระบุว่า Claude Opus 4.7 ทำคะแนนรวม 0.715 ใน internal research-agent benchmark แบบ 6 โมดูล ซึ่งเป็นคะแนนร่วมอันดับสูงสุด และในโมดูล General Finance เพิ่มจาก 0.767 ของ Opus 4.6 เป็น 0.813 [
17]
แต่ตัวเลขเหล่านี้ไม่ใช่คะแนนชนิดเดียวกับ SWE-Bench Pro, GPQA Diamond หรือ BrowseComp เมื่อใช้งานจริง ควรแยกดูอย่างน้อย 5 เรื่อง: ความสามารถ, ราคา, ความเร็ว, ความเสี่ยงด้าน hallucination และความง่ายในการตรวจสอบย้อนหลัง [15][
17]
ใช้งานจริง: routing หลายโมเดลมักปลอดภัยกว่ายึดโมเดลเดียว
ใน production การเลือกโมเดลเดียวให้ทำทุกอย่างอาจไม่คุ้มที่สุด MindStudio รายงานว่าในงาน coding ชุดเดียวกัน GPT-5.5 ใช้ output tokens น้อยกว่า Claude Opus 4.7 ถึง 72% แต่ก็ระบุด้วยว่าในงานโค้ดเบสขนาดใหญ่ที่ซับซ้อนและต้องใช้ reasoning สูง ความละเอียดรอบคอบของ Opus 4.7 อาจคุ้มกับต้นทุนที่สูงขึ้น [28]
แนวทางที่สมเหตุสมผลคือใช้ routing: งานสร้างหรือแก้ไขมาตรฐาน งาน terminal และงานที่ต้องเรียกหลายรอบเริ่มจาก GPT-5.5; งานรีวิวลึก งานตัดสินใจเชิงผู้เชี่ยวชาญ หรือเคสที่ต้องการความละเอียดเริ่มจาก Claude Opus 4.7; งานทดลองโอเพนเวตที่เน้นความเร็วและราคาลอง Kimi K2.6; ส่วนงานเอกสารยาวมากหรือ batch ปริมาณสูงให้ลอง DeepSeek V4 Pro [3][
4][
23][
28]
บทสรุป: ไม่มีผู้ชนะเดี่ยว มีแต่ผู้ชนะตามงาน
จากข้อมูลสาธารณะตอนนี้ การเลือก GPT-5.5, Claude Opus 4.7, DeepSeek V4 Pro หรือ Kimi K2.6 แบบผู้ชนะเดียวไม่ใช่วิธีที่ปลอดภัยที่สุด ภาพที่ชัดกว่าคือ GPT-5.5 เด่นในงานรวมและงานมูลค่าทางเศรษฐกิจ, Claude Opus 4.7 เด่นใน reasoning และงานรีวิว, Kimi K2.6 เด่นในความเร็วและความคุ้มค่าฝั่งโอเพนเวต, ส่วน DeepSeek V4 Pro เด่นที่ context ยาวและราคา API ของตระกูล DeepSeek V4 ที่ต่ำกว่าโมเดลปิดชั้นนำ [3][
4][
23][
26][
27]
ยังมีรายละเอียดที่ต้องอ่านอย่างระวัง แม้ใน Artificial Analysis เอง หน้าโมเดล GPT-5.5 high ระบุ Intelligence 59 ขณะที่หน้ารวมโมเดลระบุ Claude Opus 4.7 Adaptive Reasoning, Max Effort ที่ Intelligence 57 เป็นผู้นำ ซึ่งสะท้อนว่าช่วงเวลาอัปเดตและการตั้งค่า reasoning มีผลต่อภาพที่เห็น [27][
30] ทางเลือกที่มั่นคงที่สุดคือใช้เบนช์มาร์กเป็นจุดเริ่มต้น แล้วรันงานจริงของคุณเองแบบเล็ก ๆ เทียบกัน โดยดูงบประมาณ latency และระดับความผิดพลาดที่ยอมรับได้ควบคู่กัน [
4][
18][
28]




