| Kimi K2.6 | $0.60–$0.95 | $3.00–$4.00 | $0.10 | 262K |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | 1M |
| Grok 4.3 | $1.25 | $2.50 | $0.30 | 1M |
| DeepSeek V4-Flash | $0.14 | $0.28 | $0.0028 | 1M |
| DeepSeek V4-Pro | $0.435 (ส่วนลดถาวร) | $0.87 (ส่วนลดถาวร) | $0.0036 | 1M |
ข้อมูลเชิงลึกด้านราคาที่สำคัญ:
คะแนนสอบวัดผลจะมีประโยชน์ก็ต่อเมื่อเราเข้าใจบริบท เราจึงจัดกลุ่มผลลัพธ์ตามสิ่งที่ข้อสอบวัดจริงๆ — ความฉลาดทั่วไป, ความสามารถในการเขียนโค้ด, และประสิทธิภาพแบบเอเจนต์ — แทนที่จะเชื่อคะแนนรวมเพียงตัวเลขเดียวซึ่งมักทำให้เข้าใจผิด
หมวดหมู่นี้วัดความรู้พื้นฐาน, คณิตศาสตร์, และการใช้เหตุผลเชิงวิทยาศาสตร์
Claude Opus 4.8 ทิ้งห่าง GPT-5.5 ในด้านความฉลาดทั่วไปเล็กน้อยแต่ชัดเจน โดยเฉพาะผลงานคณิตศาสตร์ที่พุ่งขึ้น 27.4 จุดเมื่อเทียบกับรุ่นก่อน ส่วน Qwen3.7-Max โดดเด่นในฐานะโมเดลจีนอันดับหนึ่ง เกือบจะตามจ่าฝูงได้ในด้านการใช้เหตุผลเชิงวิทยาศาสตร์ระดับสูง (GPQA Diamond)
การวัดผลที่สำคัญที่สุดสำหรับนักพัฒนา
| การวัดผล | DeepSeek V4-Pro | Kimi K2.6 | GPT-5.5 | Claude Opus 4.8 | Qwen3.7-Max |
|---|---|---|---|---|---|
| SWE-bench Verified | 80.6% | 80.2% | 88.7% | 88.6% | 72.5% |
| SWE-bench Pro | ~58% | 58.6% | 58.6% | 69.2% | 60.6% |
| LiveCodeBench v6 | 93.5% | 89.6% | — | — | — |
การวัดผลด้านการเขียนโค้ดสร้างการแบ่งส่วนที่ชัดเจน Claude Opus 4.8 และ GPT-5.5 เสมอกันที่จุดสูงสุดสำหรับการแก้ไขบั๊กทั่วไป (SWE-bench Verified) แต่คล็อดนำแบบขาดลอยกว่า 10 จุดในการทดสอบชุด Pro ที่ยากกว่า สำหรับประสิทธิภาพการเขียนโค้ดล้วนๆ ต่อเงินที่จ่าย DeepSeek V4-Pro คือไร้เทียมทาน ด้วยความสามารถระดับ GPT-5.4 ในราคาที่ถูกกว่าถึง 30 เท่า
ความสามารถของโมเดลในการทำงานอย่างอิสระในสภาพแวดล้อมจริง
| การวัดผล | GPT-5.5 | Gemini 3.5 Flash | Claude Opus 4.8 | Qwen3.7-Max | Grok 4.3 |
|---|---|---|---|---|---|
| GDPval-AA Elo | 1769 | 1656 | 1890 | — | 1500 |
| Terminal-Bench 2.0/2.1 | 82.7% | 76.2% | 74.6% | 69.7% | — |
| τ²-Bench (การทำตามคำสั่ง) | — | — | — | — | 98% |
GPT-5.5 ยังคงครองมงกุฎสำหรับงานเอเจนต์บนเทอร์มินอลแบบปลายเปิด แต่คะแนน GDPval-AA Elo ที่เหนือกว่าบนงานในโลกจริงของ Claude Opus 4.8 บ่งชี้ถึงคู่หูเอเจนต์ที่น่าเชื่อถือและพร้อมใช้สำหรับธุรกิจมากกว่า Grok 4.3 เสนอตัวเลือกที่คุ้มค่าสำหรับงานที่ทำตามคำสั่งปริมาณมาก
นับเป็นครั้งแรกที่โมเดลจีนไม่ได้แข่งขันแค่ด้านราคา แต่รวมถึงด้านขีดความสามารถ Qwen3.7-Max นำทุกโมเดลในการวัดผลการเขียนโค้ดแบบเอเจนต์ SWE-bench Pro ที่ 60.6% Kimi K2.6 มีประสิทธิภาพเทียบเท่า GPT-5.5 ในการทดสอบเดียวกัน และนำโมเดลอื่นๆ ในการสอบ Humanity's Last Exam (HLE) แบบใช้เครื่องมือที่ 54.0%
ท้าทายขีดสุดด้านเหตุผลหลักของฝั่งอเมริกาในขณะที่ราคาถูกกว่าอย่างมาก
การเปรียบเทียบแบบตรงไปตรงมาแบบเต็มตัวของทั้ง 7 โมเดล เป็นไปไม่ได้ในขณะนี้ เนื่องจากผู้ให้บริการแต่ละรายเลือกที่จะรายงานผลการวัดประสิทธิภาพบางส่วน มีปัจจัยสำคัญหลายข้อที่บั่นทอนการเลือกโดยใช้แต่ตัวเลข:
สิ่งที่คุณให้ความสำคัญควรเป็นแนวทางในการเลือก:
สำหรับการนำไปใช้จริงในงานสำคัญใดๆ คุณควรทดสอบกับชุดข้อมูลเฉพาะของคุณเอง ผลการวัดประสิทธิภาพที่ผู้ให้บริการรายงานเองนั้นเป็นเพียงจุดเริ่มต้นที่เป็นประโยชน์ ไม่ใช่คำตอบสุดท้าย
Comments
0 comments