| งาน reasoning ยาก การตรวจทาน หรือการตัดสินใจที่รับความผิดพลาดได้น้อย | Claude Opus 4.7 | Claude Opus 4.7 ได้ GPQA Diamond 94.2% และ Humanity’s Last Exam แบบ no-tools 46.9% สูงสุดในตารางเดียวกัน |
ชื่อรุ่นของ DeepSeek ในแหล่งข้อมูลไม่ได้ใช้คำเดียวกันทั้งหมด: แหล่งราคามักเขียน DeepSeek V4 หรือ DeepSeek V4 Pro ส่วน benchmark บางจุดใช้ DeepSeek-V4-Pro-Max ดังนั้นตารางนี้จึงเก็บชื่อแบบที่แหล่งข้อมูลใช้ไว้ ไม่เหมารวมว่าเป็น configuration เดียวกันทุกกรณี
สรุปของ Artificial Analysis แสดงอันดับต้นของ Intelligence Index เป็น GPT-5.5 xhigh ที่ 60, GPT-5.5 high ที่ 59 และ Claude Opus 4.7 ในโหมด Adaptive Reasoning, Max Effort ที่ 57 โดยมี Gemini 3.1 Pro Preview และ GPT-5.4 xhigh อยู่ที่ 57 เช่นกัน
ข้อสรุปที่ปลอดภัยคือ ในสรุป Intelligence Index ที่มองเห็นได้ GPT-5.5 อยู่หน้า Claude Opus 4.7 แต่ยังสรุปเป็นอันดับรวมของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 ทั้งหมดไม่ได้ เพราะสรุปเดียวกันไม่ได้ให้คะแนน DeepSeek V4 และ Kimi K2.6 ในรูปแบบเดียวกัน
BrowseComp ใช้วัดความสามารถของ agentic AI web browsing หรือการให้โมเดลไล่หาข้อมูลบนเว็บแบบมีเป้าหมาย VentureBeat ระบุคะแนน GPT-5.5 ที่ 84.4%, DeepSeek-V4-Pro-Max ที่ 83.4% และ Claude Opus 4.7 ที่ 79.3% ภาพที่เห็นคือ DeepSeek-V4-Pro-Max ไล่ GPT-5.5 ใกล้มากในงาน browsing แต่ Claude Opus 4.7 ตามหลังในตารางนี้
Terminal-Bench 2.0 ให้ภาพต่างออกไปมากกว่า VentureBeat ระบุ GPT-5.5 ที่ 82.7%, Claude Opus 4.7 ที่ 69.4% และ DeepSeek ที่ 67.9% ขณะที่ Yahoo / Investing.com อธิบายว่า Terminal-Bench 2.0 ทดสอบ command-line workflows และระบุคะแนน GPT-5.5 ที่ 82.7% เช่นกัน
ส่วน Kimi K2.6 มีตัวเลข Terminal-Bench 2.0 ที่ 66.70% แต่แหล่งข้อมูลนั้นเทียบ Kimi K2.6 กับ Claude Opus 4.6 และ GPT-5.4 ไม่ใช่ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4 ในสนามเดียวกัน
ตารางของ DataCamp ระบุ SWE-Bench Pro เป็น DeepSeek V4 Pro 55.4%, GPT-5.5 58.6% และ Claude Opus 4.7 64.3% Yahoo / Investing.com ระบุเช่นกันว่า GPT-5.5 ได้ 58.6% ใน SWE-Bench Pro ซึ่งเป็นการทดสอบการแก้ปัญหา GitHub issue
Kimi K2.6 มีตัวเลข coding ที่น่าสนใจ: Verdent ระบุ SWE-Bench Pro 58.60%, SWE-Bench Verified 80.20% และ LiveCodeBench v6 89.60% แต่แหล่งเดียวกันชี้ว่าตัวเลขของ Kimi K2.6 มาจาก model card ของ Moonshot AI และ SWE-Bench Pro ใช้ Moonshot in-house harness จึงไม่ควรนำไปปักลงในตารางรวมสี่รุ่นแบบแข็ง ๆ
ถ้างานของคุณคือซ่อม repo ขนาดใหญ่ ทำ code review หรือปล่อย coding agent ทำงานต่อเนื่องหลายชั่วโมง คะแนน SWE เพียงตัวเดียวไม่พอ Claude Opus 4.7 สูงสุดใน SWE-Bench Pro ที่มองเห็นได้, GPT-5.5 นำชัดใน Terminal-Bench 2.0 ที่สะท้อนงานเครื่องมือแบบยาว ส่วน Kimi K2.6 ควรทดสอบกับ repo และ toolchain ของคุณเองก่อนตัดสิน
VentureBeat ระบุ GPQA Diamond เป็น Claude Opus 4.7 94.2%, GPT-5.5 93.6% และ DeepSeek-V4-Pro-Max 90.1% ใน Humanity’s Last Exam แบบ no-tools แหล่งเดียวกันระบุ Claude Opus 4.7 46.9%, GPT-5.5 41.4%, GPT-5.5 Pro 43.1% และ DeepSeek-V4-Pro-Max 37.7%
ภาพนี้สอดคล้องกับข้อสรุปของ LLM Stats: ใน 10 benchmark ที่ทั้ง GPT-5.5 และ Claude Opus 4.7 รายงาน Claude Opus 4.7 นำ 6 รายการ ส่วน GPT-5.5 นำ 4 รายการ โดย Claude เด่นในกลุ่ม reasoning-heavy และ review-grade tests ขณะที่ GPT-5.5 เด่นใน long-running tool-use tests อย่างไรก็ดี LLM Stats ย้ำว่าคะแนนเหล่านี้ส่วนหนึ่งเป็น self-reported ใน reasoning tier สูง จึงเทียบแนวโน้มได้มากกว่าเทียบวิธีวิจัยตรงตัว
Mashable ระบุราคา API ของ DeepSeek V4 ที่ 1.74 ดอลลาร์สหรัฐต่อ 1 ล้าน input token และ 3.48 ดอลลาร์ต่อ 1 ล้าน output token พร้อม context window 1 ล้าน token ในแหล่งเดียวกัน GPT-5.5 อยู่ที่ 5 ดอลลาร์ต่อ 1 ล้าน input token และ 30 ดอลลาร์ต่อ 1 ล้าน output token ส่วน Claude Opus 4.7 อยู่ที่ 5 ดอลลาร์ต่อ 1 ล้าน input token และ 25 ดอลลาร์ต่อ 1 ล้าน output token โดยทั้งคู่ระบุ context window 1 ล้าน token
DataCamp ใช้ราคาแบบเดียวกันในการเทียบ DeepSeek V4 Pro, GPT-5.5 และ Claude Opus 4.7 และระบุ context window ประมาณ 1 ล้าน token สำหรับทั้งสาม ดังนั้นในข้อมูลราคาที่เห็น DeepSeek V4 ถูกกว่า GPT-5.5 และ Claude Opus 4.7 อย่างชัดเจน และเมื่อรวมกับ BrowseComp 83.4% ของ DeepSeek-V4-Pro-Max ที่ใกล้ GPT-5.5 ที่ 84.4% จึงเหมาะเป็นตัวเลือกชุดแรกสำหรับงาน API ที่อ่อนไหวต่อต้นทุน
สำหรับ Kimi K2.6 แหล่งข้อมูลที่ให้มาไม่มีราคา API แบบเดียวกันกับอีกสามรุ่น DocsBot ระบุว่า Kimi K2.6 มี context 256K และวางตำแหน่งเป็น open-source agentic model สำหรับ long-horizon coding, coding-driven design, autonomous execution และ swarm-based orchestration
แทนที่จะถามว่าควรซื้อโมเดลเดียวตัวไหน คำตอบที่ใช้งานได้จริงกว่าคือทำ routing และ regression test ตั้งแต่ต้น
ถ้าต้องคัดรายชื่อจากข้อมูลสาธารณะที่เห็นตอนนี้ GPT-5.5 คือผู้สมัครที่แข็งแรงสุดสำหรับ agentic tool-use และคะแนนรวมที่มองเห็นได้; Claude Opus 4.7 เด่นที่สุดในงาน reasoning และ review-grade; DeepSeek V4 เป็นตัวเลือกคุ้มค่าที่สุดด้านราคา; ส่วน Kimi K2.6 ควรอยู่ในชุดทดลองโอเพนซอร์สและ coding-agent แต่หลักฐานยังไม่พอจะจัดอันดับรวมกับอีกสามรุ่นอย่างยุติธรรม
ก่อนซื้อหรือขึ้น production ควรทำ regression test ด้วยงานจริงชุดเดียวกัน: prompt เดียวกัน สิทธิ์ใช้เครื่องมือเท่ากัน context เท่ากัน และเกณฑ์สำเร็จเดียวกัน Benchmark สาธารณะมีค่ามากในการบอกว่าควรเริ่มทดสอบใคร แต่คำตอบสุดท้ายควรมาจากงานของคุณเอง ต้นทุนความผิดพลาด และต้นทุน token ที่เกิดขึ้นจริง
Comments
0 comments