เครื่องหมายขีดหมายถึงไม่พบคะแนนของโมเดลนั้นในแหล่งอ้างอิงที่ใช้ ไม่ได้แปลว่าคะแนนเป็นศูนย์ แถวของ GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max ส่วนใหญ่มาจากตารางเปรียบเทียบร่วม ส่วนตัวเลขของ Kimi K2.6 มาจากแหล่งข้อมูล Kimi แยกต่างหาก .
OpenAI อธิบาย GPT-5.5 ว่าสร้างมาเพื่องานซับซ้อน เช่น coding, research และ data analysis . ในตารางเปรียบเทียบร่วมของ VentureBeat, GPT-5.5 ทำคะแนน Terminal-Bench 2.0 ได้ 82.7% สูงกว่า Claude Opus 4.7 ที่ 69.4% และ DeepSeek-V4-Pro-Max ที่ 67.9%
. ตารางเดียวกันยังรายงาน GPT-5.5 ที่ 93.6% บน GPQA Diamond, 58.6% บน SWE-Bench Pro และ 84.4% บน BrowseComp
.
ข้อควรระวังคือ GPT-5.5 Pro เป็นจุดเปรียบเทียบแยก ไม่ควรนำคะแนนไปรวมกับรุ่นฐานแบบเหมารวม ในตารางเดียวกัน GPT-5.5 Pro ทำ BrowseComp ได้ 90.1% และ Humanity’s Last Exam แบบใช้เครื่องมือได้ 57.2% แต่ตัวเลขเหล่านี้ควรแยกจาก GPT-5.5 รุ่นฐานเมื่อนำไปเทียบต้นทุน latency หรือการตั้งค่าโมเดล .
ด้านการจัดซื้อหรือวางงบ BenchLM ระบุ GPT-5.5 มี context window 1M token ส่วนรายงานราคาหนึ่งระบุ GPT-5.5 ที่ $5 ต่อ 1 ล้าน input tokens และ $30 ต่อ 1 ล้าน output tokens . ควรมองราคานี้เป็นสัญญาณเบื้องต้น และตรวจสอบราคาปัจจุบันกับผู้ให้บริการก่อนทำงบจริง.
Claude Opus 4.7 มีสัญญาณด้าน software repair แข็งที่สุดในกลุ่มนี้ตามแหล่งอ้างอิง LLM Stats ระบุคะแนน 87.6% บน SWE-Bench Verified และตารางเปรียบเทียบร่วมรายงาน 64.3% บน SWE-Bench Pro . รุ่นนี้ยังนำ GPQA Diamond ที่ 94.2%, Humanity’s Last Exam แบบไม่ใช้เครื่องมือที่ 46.9% และ MCP Atlas ที่ 79.1% ในตารางเปรียบเทียบร่วม
.
LLM Stats รายงาน context window 1M token และราคา $5/$25 ต่อ 1 ล้าน token สำหรับ Claude Opus 4.7 . แต่เรื่องความเทียบกันได้ของ Benchmark สำคัญมาก: Anthropic ระบุว่าบางผลทดสอบใช้ internal implementation หรือมีการปรับ harness parameters และบางคะแนนจึงไม่สามารถเทียบตรงกับ public leaderboard ได้
.
Kimi K2.6 เป็นตัวเลือก open-weight ที่เด่นที่สุดในข้อมูลที่อ้างถึง ข่าวเปิดตัวอธิบายว่าเป็น open-weight MoE ขนาด 1T parameters, มี 32B active parameters, 384 experts, native multimodality, INT4 quantization และ context 256K . Model card บน Hugging Face รายงาน 80.2% บน SWE-Bench Verified, 58.6% บน SWE-Bench Pro, 66.7% บน Terminal-Bench 2.0 และ 89.6 บน LiveCodeBench v6
.
แหล่งข่าวเปิดตัวเดียวกันรายงาน Kimi K2.6 ที่ 54.0 บน Humanity’s Last Exam แบบใช้เครื่องมือ และ 83.2 บน BrowseComp . ส่วน LLM Stats ระบุ Kimi K2.6 มี context 262K, cost columns $0.95/$4.00 และติดป้าย Open Source
. ข้อจำกัดคือคะแนนของ Kimi ไม่ได้มาจากตารางเปรียบเทียบร่วมชุดเดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max ดังนั้นส่วนต่างคะแนนที่ห่างกันเล็กน้อยควรใช้เป็นเหตุผลให้ทดสอบต่อ ไม่ใช่ตัดสินผู้ชนะทันที
.
DeepSeek-V4-Pro-Max ดูเหมือนตัวเลือกสายคุ้มค่ามากกว่าจะเป็นผู้ชนะทุกสนาม LLM Stats ระบุขนาด 1.6T, context 1M, คะแนน SWE-Bench Verified 80.6% และ cost columns $1.74/$3.48 . ในตารางเปรียบเทียบร่วม รุ่นนี้ได้ 90.1% บน GPQA Diamond, 37.7% บน Humanity’s Last Exam แบบไม่ใช้เครื่องมือ, 48.2% บน Humanity’s Last Exam แบบใช้เครื่องมือ, 67.9% บน Terminal-Bench 2.0, 55.4% บน SWE-Bench Pro, 83.4% บน BrowseComp และ 73.6% บน MCP Atlas
.
ตัวเลขเหล่านี้ทำให้ DeepSeek-V4-Pro-Max น่าลองสำหรับงานที่ต้นทุนเป็นเงื่อนไขใหญ่ แต่ตารางเดียวกันยังแสดงให้เห็นว่า GPT-5.5, GPT-5.5 Pro หรือ Claude Opus 4.7 นำในแถว Benchmark ส่วนใหญ่ที่รายงาน ดังนั้นก่อนใช้แทนโมเดลพรีเมียมใน production ควรทดสอบกับงานของตัวเองให้ชัดเจน .
ราคาและ context window ไม่ได้มาจากแหล่งเดียวกันเสมอไป และอาจเปลี่ยนตามผู้ให้บริการหรือแพ็กเกจ ควรใช้ตารางนี้เป็นสัญญาณเพื่อคัด shortlist ไม่ใช่ใบเสนอราคาสุดท้าย.
Benchmark แต่ละตัววัดคนละทักษะ GPQA Diamond และ Humanity’s Last Exam เน้น reasoning ยาก ส่วน Terminal-Bench 2.0 และตระกูล SWE-Bench เน้น coding และงานซอฟต์แวร์แบบ agentic ขณะที่ BrowseComp วัดความสามารถแนวค้นหา/ท่องเว็บในตารางเปรียบเทียบร่วม . โมเดลหนึ่งจึงอาจชนะบางแถวและตามหลังในอีกแถวได้ เพราะโจทย์ การให้เครื่องมือ และ harness ที่ใช้วัดต่างกัน.
แม้ Benchmark ชื่อเดียวกันก็อาจต่างกันตามวิธีรัน LLM Stats ระบุ Claude Opus 4.7 ที่ 87.6% บน SWE-Bench Verified ขณะที่ LMCouncil ระบุ Claude Opus 4.7 ที่ 83.5% ± 1.7 ภายใต้ setup ของตนเอง . Anthropic เองยังระบุว่าบางผลใช้ internal implementation หรือปรับ harness parameters ทำให้เทียบตรงกับ public leaderboard บางชุดไม่ได้
.
ดังนั้นช่องว่าง 1–2 จุดไม่ควรเป็นเหตุผลเดียวในการเปลี่ยนโมเดลใน production ใช้ public benchmark เพื่อคัดรายชื่อให้สั้นลง แล้วให้การทดสอบกับงานจริงเป็นตัวตัดสิน.
ก่อนเลือกโมเดลเดียว ควรทดสอบผู้เข้ารอบ 2–3 รุ่นกับงานที่ใกล้เคียงของจริงที่สุด.
ถ้าต้องการ shortlist ระดับบน ให้ทดสอบ GPT-5.5 และ Claude Opus 4.7 คู่กัน: GPT-5.5 มีคะแนน Terminal-Bench 2.0 ที่เด่นที่สุดในข้อมูลที่อ้างถึง ส่วน Claude Opus 4.7 มีคะแนน SWE-Bench Pro และ SWE-Bench Verified ที่แข็งที่สุดในข้อมูลชุดนี้ . ถ้าต้องการ open weights ให้เริ่มจาก Kimi K2.6
. ถ้าข้อจำกัดหลักคือต้นทุน ให้ใส่ DeepSeek-V4-Pro-Max ในการทดสอบด้วย แต่ควรพิสูจน์กับ workload ของตัวเองก่อนถือว่าใช้แทนโมเดลพรีเมียมได้ทันที
.
Comments
0 comments