คำตอบสั้น ๆ คือ อย่าอ่านคะแนนเหล่านี้เหมือนตารางลีกเดียวกัน เพราะหลายตัวเลขมาจากคนละแหล่ง คนละชุดทดสอบ และบางกรณีอาจต่างกันที่สิทธิ์ใช้เครื่องมือหรือระดับ reasoning effort ด้วย ถ้าต้องเลือกใช้งานจริง ภาพที่ชัดกว่าคือเลือกตามงาน: งาน Terminal/CLI ให้เริ่มดู GPT-5.5, งานซ่อมโค้ดแบบ SWE-Bench และงาน vision/computer-use ให้ใส่ Claude Opus 4.7 ไว้ต้น ๆ, งานความรู้และคณิตศาสตร์ในสายโมเดลเปิดให้ดู DeepSeek V4-Pro และถ้าทีมรัน agent workflow บน Workers AI ให้ใส่ Kimi K2.6 ใน shortlist [27][
4][
1][
5][
58][
64][
36].
ภาพรวมคะแนนที่อ้างอิงได้
เครื่องหมาย — ในตารางหมายถึงแหล่งข้อมูลชุดนี้ไม่มีคะแนนที่อ้างได้ในช่องนั้น ไม่ได้แปลว่าโมเดลทำไม่ได้หรือได้ศูนย์ ที่สำคัญกว่านั้นคือคะแนนเหล่านี้ไม่ได้มาจาก official harness เดียวกันทั้งหมด จึงเหมาะสำหรับคัดกรองเบื้องต้นมากกว่าการประกาศอันดับรวมแบบเด็ดขาด
| งานหรือเบนช์มาร์ก | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro | อ่านอย่างไรในทางปฏิบัติ |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% [ | 69.4% [ | 66.7 [ | 67.9 [ | ในคะแนนที่อ้างได้ GPT-5.5 เด่นสุดสำหรับ command-line workflow |
| SWE-Bench Pro | 58.6% [ | 64.3% [ | 58.6 [ | 55.4 [ | Claude นำในแถวนี้ แต่ตัวเลขมาจากแหล่งรวบรวมที่อ้าง AWS จึงควรรันซ้ำกับ repo ของตัวเอง |
| SWE-Bench Verified / Resolved | — | 87.6% [ | 80.2 [ | 80.6 [ | Claude สูงสุดในข้อมูลที่มี แต่ไม่มีคะแนน GPT-5.5 ในแถวเทียบตรง และชื่อชุดทดสอบในแหล่งข้อมูลไม่เหมือนกันทั้งหมด |
| Graphwalks 256k: BFS / parents | 73.7 / 90.1 [ | 76.9 / 93.6 [ | — | — | ในตาราง long context ของ OpenAI ที่ 256k Claude Opus 4.7 สูงกว่า GPT-5.5 ทั้งสองรายการ |
| Graphwalks 1M: BFS / parents | 45.4 / 58.5 [ | — | — | — | ใช้อ้างความสามารถ long context 1M ของ GPT-5.5 ได้ แต่ในตารางเดียวกันฝั่ง Opus ที่ 1M ระบุเป็น Opus 4.6 จึงไม่ควรใช้ตัดสิน Opus 4.7 [ |
| ความรู้และคณิตศาสตร์ | — | — | — | GPQA Diamond 90.1, GSM8K 92.6, MMLU-Pro 87.5, HLE 37.7 [ | DeepSeek V4-Pro มีชุดคะแนน model card ที่ครบที่สุดในกลุ่มนี้ |
| Vision, screenshot, computer-use | — | vision-heavy gains, พิกัดภาพ 1:1, XBOW visual-acuity 98.5% [ | Cloudflare ระบุว่าเป็น native multimodal agentic model แต่ไม่มีคะแนน vision benchmark ชุดเดียวกัน [ | — | Claude Opus 4.7 มีหลักฐานตรงที่สุดสำหรับงานที่ต้องอ่านหน้าจอ เอกสาร และ UI |
ทำไมยังไม่ควรจัดอันดับรวม
-
แหล่งข้อมูลไม่ใช่ชั้นเดียวกัน ตัวเลข Terminal-Bench 2.0 และ SWE-Bench Pro ของ GPT-5.5 มาจากรายงาน Yahoo Finance / Investing.com ที่ระบุว่าเป็นผล benchmark ที่ OpenAI ให้มา [
27] ส่วนตัวเลข SWE-Bench Pro, SWE-Bench Verified และ Terminal-Bench 2.0 ของ Claude Opus 4.7 มาจากบทความรวบรวมที่อ้าง AWS [
4] ขณะที่คะแนนบางส่วนของ Kimi K2.6 และ DeepSeek V4-Pro มาจาก model card บน Hugging Face [
84][
64].
-
สิทธิ์ใช้เครื่องมือเปลี่ยนผลได้ รายงาน HLE ที่ Mashable อ้างแสดงให้เห็นว่าในโหมดไม่มีเครื่องมือ Claude Opus 4.7 ได้ 46.9% และ GPT-5.4 Pro ได้ 42.7% แต่เมื่อมีเครื่องมือ GPT-5.4 Pro ได้ 58.7% ขณะที่ Claude Opus 4.7 ได้ 54.7% ตัวเลขนี้ไม่ใช่ GPT-5.5 แต่ชี้ชัดว่า with tools และ without tools ไม่ควรเอามาปนในอันดับเดียวกัน [
6].
-
รุ่นย่อยและ effort มีผลต่อทั้งคะแนนและต้นทุน DeepSeek V4 แยกเป็น V4-Pro และ V4-Flash โดย Yahoo Finance รายงานว่า DeepSeek ระบุ V4-Flash เป็นทางเลือกที่มีประสิทธิภาพและประหยัดกว่า ส่วนคะแนนละเอียดที่ใช้ในบทความนี้อ้างอิง DeepSeek-V4-Pro เป็นหลัก [
57][
64] ด้าน GPT-5.5 ทาง Artificial Analysis แยกตาม effort variants และระบุว่า GPT-5.5 xhigh มีต้นทุนรัน Index สูงกว่ารุ่นก่อนราว 20% แต่ต่ำกว่า Claude Opus 4.7 max ราว 30% [
24].
GPT-5.5: เด่นสุดเมื่อโจทย์อยู่ในเทอร์มินัลและ context ยาว
จุดแข็งที่ชัดที่สุดของ GPT-5.5 ในข้อมูลชุดนี้คือ Terminal-Bench 2.0 ซึ่งใช้วัด command-line workflows โดยรายงาน Yahoo Finance / Investing.com ระบุว่า GPT-5.5 ทำได้ 82.7% และทำ SWE-Bench Pro ซึ่งวัดการแก้ GitHub issue ได้ 58.6% [27].
ฝั่ง long context ตารางของ OpenAI ให้รายละเอียดมากขึ้น: GPT-5.5 ได้ Graphwalks BFS ที่ 256k และ 1M เท่ากับ 73.7 และ 45.4 ตามลำดับ และได้ Graphwalks parents ที่ 256k และ 1M เท่ากับ 90.1 และ 58.5 ตามลำดับ ตารางเดียวกันยังระบุว่า GPT-5.4 ได้ Graphwalks BFS 1M เพียง 9.4 ขณะที่ GPT-5.5 ได้ 45.4 [21].
ในมุมมองบุคคลที่สาม Artificial Analysis เรียก GPT-5.5 ว่าเป็นโมเดล AI ชั้นนำชุดใหม่ โดยระบุว่า OpenAI นำใน headline evaluations 5 รายการ และเป็นอันดับสองรองจาก Gemini 3.1 Pro Preview ใน 3 รายการ อีกทั้ง GPT-5.5 xhigh ใช้ output tokens น้อยกว่ารุ่นก่อนราว 40% ในการรัน Index ของ Artificial Analysis [24].
เหมาะเริ่มทดสอบเมื่อ: ทีมต้องทำ CLI automation, terminal agents, agentic coding ที่ต้องควบคุม output tokens หรือ workflow ที่ต้องอ่าน context ยาวมาก [27][
21][
24].
Claude Opus 4.7: คะแนน coding แข็ง และหลักฐาน vision/computer-use ชัดที่สุด
Claude Opus 4.7 มีหลักฐานทางการที่ชัดมากในงาน vision และ UI operation เอกสาร API ของ Anthropic ระบุว่าการเปลี่ยนแปลงนี้ควรช่วยให้ performance ดีขึ้นใน vision-heavy workloads โดยเฉพาะ computer use, screenshot, artifact และ document understanding workflows อีกทั้งพิกัดของโมเดลยังแมปกับพิกเซลจริงแบบ 1:1 ทำให้ไม่ต้องคำนวณ scale factor เพิ่ม [1].
หน้า launch ของ Anthropic ยังอ้างผล benchmark ของ XBOW ว่า Claude Opus 4.7 ได้ visual-acuity 98.5% เทียบกับ 54.5% ของ Opus 4.6 [5] ดังนั้นถ้าโจทย์เกี่ยวกับการอ่าน screenshot, เข้าใจ layout เอกสาร, คลิกหรือควบคุม UI บนหน้าจอ Claude Opus 4.7 มีหลักฐานตรงกว่าอีกสามตัวในชุดข้อมูลนี้ [
1][
5].
ด้าน coding benchmark บทความรวบรวมระบุว่า AWS cites Claude Opus 4.7 ที่ 64.3% บน SWE-Bench Pro, 87.6% บน SWE-Bench Verified และ 69.4% บน Terminal-Bench 2.0 [4] ตัวเลขเหล่านี้ทำให้ Claude นำใน SWE-Bench Pro และ Verified/Resolved ที่อ้างได้ในบทความนี้ แต่เพราะเป็นแหล่งรอง การตัดสินใจระดับ production ควรทดสอบซ้ำกับ repo, test suite และ policy ของทีมเอง
ข้อควรระวังคือภาพความละเอียดสูงใช้ tokens มากขึ้น Anthropic แนะนำว่าถ้าไม่ต้องการรายละเอียดภาพระดับสูง ควร downsample ภาพก่อนส่งให้ Claude เพื่อลด token usage [1].
เหมาะเริ่มทดสอบเมื่อ: งานซ่อม GitHub issue, coding agent, screenshot หรือ document understanding, computer-use agent และงาน UI ที่ต้องการพิกัดพิกเซลแม่น ๆ [1][
4][
5].
Kimi K2.6: ตัวเลือกน่าลองสำหรับ multimodal agent บน Workers AI
Cloudflare changelog ระบุว่า Moonshot AI Kimi K2.6 พร้อมใช้งานบน Workers AI ตั้งแต่วันที่ 20 เมษายน 2026 ด้วย model ID @cf/moonshotai/kimi-k2.6 และ Cloudflare เรียกการเปิดตัวนี้ว่า Day 0 support ร่วมกับ Moonshot AI [36].
แหล่งเดียวกันอธิบาย Kimi K2.6 ว่าเป็น native multimodal agentic model ที่เน้น long-horizon coding, coding-driven design, proactive autonomous execution และ swarm-based task orchestration พร้อมสถาปัตยกรรม Mixture-of-Experts ที่มีพารามิเตอร์รวม 1T และ active 32B ต่อ token [36].
สำหรับคะแนนที่เปิดเผย model card ของ Kimi K2.6 บน Hugging Face ระบุ Terminal-Bench 2.0 ที่ 66.7, SWE-Bench Pro ที่ 58.6 และ SWE-Bench Multilingual ที่ 76.7 [84] ส่วน MarkTechPost รายงานว่า Kimi K2.6 ได้ SWE-Bench Verified 80.2 [
45].
เหมาะเริ่มทดสอบเมื่อ: ทีมใช้ Cloudflare Workers AI อยู่แล้ว หรือต้องการลอง workflow ที่ผสม long-horizon coding, coding-driven design, multimodal agent และ multi-agent orchestration [36][
84].
DeepSeek V4-Pro: model card ความรู้และคณิตศาสตร์ครบที่สุดในชุดนี้
DeepSeek V4 ในแหล่งข้อมูลแยกเป็น V4-Pro และ V4-Flash โดย Yahoo Finance รายงานว่า DeepSeek ระบุ V4-Pro นำหน้า open-source models อื่นอย่างชัดเจนใน world knowledge benchmarks และตามหลังเพียงเล็กน้อยเมื่อเทียบกับโมเดลปิดระดับบนอย่าง Gemini-Pro-3.1 ส่วน V4-Flash ถูกวางเป็นทางเลือกที่มีประสิทธิภาพและประหยัดกว่า [57].
model card ของ DeepSeek-V4-Pro บน Hugging Face ให้ชุดตัวเลขที่ครบที่สุดสำหรับความรู้ คณิตศาสตร์ coding และ terminal ในบทความนี้ ได้แก่ GPQA Diamond 90.1, GSM8K 92.6, HLE 37.7, MMLU-Pro 87.5, SWE-Bench Pro 55.4, SWE-Bench Verified/Resolved 80.6 และ TerminalBench 2.0 67.9 [64].
CNBC รายงานว่า DeepSeek ระบุ V4 ถูกปรับให้เหมาะกับ agent tools อย่าง Claude Code และ OpenClaw และ Wei Sun นักวิเคราะห์หลักด้าน AI ของ Counterpoint เห็นว่า benchmark profile ของ V4 บ่งชี้ว่าอาจให้ agent capability ที่ดีในต้นทุนต่ำกว่ามาก [58].
เหมาะเริ่มทดสอบเมื่อ: ทีมให้ความสำคัญกับสายโมเดลเปิด คะแนนความรู้และคณิตศาสตร์ ความคุ้มค่าของ agent tooling หรือการประเมินโมเดลที่ดาวน์โหลดไปรันในสภาพแวดล้อมที่ควบคุมเองได้ [58][
64].
เลือกตามงาน: shortlist ที่ใช้ได้จริง
- Terminal automation / command-line agents: เริ่มที่ GPT-5.5 ในข้อมูลที่อ้างได้ GPT-5.5 ทำ Terminal-Bench 2.0 ได้ 82.7% สูงกว่า Claude Opus 4.7 ที่ 69.4%, DeepSeek V4-Pro ที่ 67.9 และ Kimi K2.6 ที่ 66.7 [
27][
4][
64][
84].
- Software engineering repair / งานแบบ SWE-Bench Pro: เริ่มที่ Claude Opus 4.7 แต่ต้องรัน repo ของตัวเอง คะแนนที่อ้างได้คือ Claude Opus 4.7 ที่ 64.3%, GPT-5.5 และ Kimi K2.6 ที่ 58.6 และ DeepSeek V4-Pro ที่ 55.4 แต่คะแนนของ Claude ในแถวนี้มาจากแหล่งรอง [
4][
27][
84][
64].
- Screenshot, document understanding, computer-use: ให้ Claude Opus 4.7 มาก่อน เพราะ Anthropic ระบุชัดเรื่อง vision-heavy workflows, computer use และพิกัด 1:1 ขณะที่ launch page อ้างผล XBOW visual-acuity 98.5% [
1][
5].
- Knowledge/math และเส้นทางโมเดลเปิด: ใส่ DeepSeek V4-Pro ไว้ใน shortlist เพราะ model card ให้คะแนน GPQA Diamond, GSM8K, HLE, MMLU-Pro, SWE-Bench และ TerminalBench 2.0 ครบในที่เดียว [
64].
- Multimodal agentic workflow บน Workers AI: Kimi K2.6 น่าทดสอบ Cloudflare เปิดให้ใช้ Kimi K2.6 บน Workers AI และวางตำแหน่งเป็น native multimodal agentic model สำหรับ long-horizon coding และ swarm-based task orchestration [
36].
ก่อนนำไปใช้จริง ควรรันซ้ำภายใต้เงื่อนไขเดียวกัน
ถ้าต้องการข้อสรุปที่อธิบายต่อทีมได้ ควรทดสอบทุกโมเดลด้วยเวอร์ชันหรือ API model ID ที่ชัดเจน ใช้ context length เดียวกัน สิทธิ์ใช้เครื่องมือเดียวกัน reasoning effort เดียวกัน temperature เดียวกัน token budget เดียวกัน และ scoring harness เดียวกัน โดยเฉพาะสิทธิ์ใช้เครื่องมือ เพราะตัวอย่าง HLE แสดงให้เห็นว่า with tools และ without tools สามารถเปลี่ยนลำดับผลลัพธ์ได้ [6].
ต้นทุนก็ควรวัดพร้อมความสามารถ Artificial Analysis ระบุว่า GPT-5.5 xhigh มีต้นทุนรัน Index สูงกว่ารุ่นก่อนราว 20% แต่ต่ำกว่า Claude Opus 4.7 max ราว 30% และใช้ output tokens น้อยกว่ารุ่นก่อนราว 40% [24] ขณะที่ Anthropic เตือนว่าภาพความละเอียดสูงจะใช้ tokens มากขึ้นใน Claude [
1]. สำหรับ production agent ความเร็ว token usage อัตราเรียกเครื่องมือสำเร็จ และอัตราแก้ error ได้จริงมักสำคัญพอ ๆ กับคะแนน benchmark เดี่ยว
สรุปสุดท้าย
ตอนนี้ข้อสรุปที่แข็งแรงที่สุดไม่ใช่การมอบมงกุฎให้โมเดลเดียว แต่คือการเลือกตามงาน: Terminal-Bench ให้ดู GPT-5.5, SWE-Bench และ vision/computer-use ให้ดู Claude Opus 4.7, knowledge/math model card ให้ดู DeepSeek V4-Pro และ multimodal agentic coding บน Workers AI ให้ใส่ Kimi K2.6 ในรายชื่อทดลอง [27][
4][
1][
5][
64][
36]. การจัดอันดับรวมที่ยุติธรรมควรรอจนทั้งสี่โมเดลมีคะแนนร่วมใน harness เดียวกัน ภายใต้เครื่องมือ เวอร์ชัน และการตั้งค่าเดียวกันครบถ้วนก่อน




