GPT-5.5 เป็นตัวเลือกภาพรวมที่มีหลักฐานแน่นที่สุดในชุดข้อมูลนี้ ในตัวอย่างจาก Artificial Analysis รุ่น GPT-5.5 xhigh ได้ 60 คะแนน ตามด้วย GPT-5.5 high ที่ 59 คะแนน และ Claude Opus 4.7 ที่ 57 คะแนน ส่วน BrowseComp ให้ GPT-5.5 อยู่ที่ 84.4% นำ DeepSeek V4 ที่ 83.4% เล็กน้อย และนำ Claude Opus 4.7 ที่ 79.3%
Claude Opus 4.7 ไม่ได้ชนะทุกสนาม แต่ชนะสนามสำคัญหลายสนาม โดยเฉพาะงานซอฟต์แวร์และความรู้เชิงลึก: Claude Opus 4.7 ได้ 64.3% ใน SWE-Bench Pro สูงกว่า GPT-5.5 ที่ 58.6% และได้ 94.2% ใน GPQA Diamond สูงกว่า GPT-5.5 ที่ 93.6% เล็กน้อย แต่ใน Terminal-Bench 2.0 ภาพกลับกัน เพราะ GPT-5.5 ได้ 82.7% เทียบกับ Claude Opus 4.7 ที่ 69.4%
DeepSeek V4 คือผู้ท้าชิงด้านราคาและความคุ้มค่า VentureBeat ระบุว่า DeepSeek V4 ได้ 83.4% ใน BrowseComp ต่ำกว่า GPT-5.5 เพียง 1.0 จุดเปอร์เซ็นต์ และสูงกว่า Claude Opus 4.7 ขณะเดียวกัน Mashable ระบุราคา API ของ DeepSeek V4 ที่ 1.74 ดอลลาร์สหรัฐต่อ 1 ล้าน input tokens และ 3.48 ดอลลาร์สหรัฐต่อ 1 ล้าน output tokens เทียบกับ GPT-5.5 ที่ 5/30 ดอลลาร์สหรัฐ และ Claude Opus 4.7 ที่ 5/25 ดอลลาร์สหรัฐต่อ 1 ล้าน tokens ตามลำดับ
Kimi K2.6 ควรถูกมองว่าเป็นรุ่นที่น่าทดสอบ ไม่ใช่รุ่นที่จัดอันดับได้แน่ชัดจากข้อมูลชุดนี้ DocsBot อธิบาย Kimi K2.6 ว่าเป็นโมเดลโอเพนซอร์ส แบบ multimodal และ agentic มีสถาปัตยกรรม MoE ขนาด 1T parameters, เปิดใช้งาน 32B parameters และ context 256K tokens แต่แหล่งข้อมูลที่ให้มาไม่มีตัวเลขเบนช์มาร์กตรงพอสำหรับเทียบกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4 แบบตารางเดียว
ข้อจำกัดใหญ่ที่สุดคือข้อมูลไม่ได้มาจากการทดสอบเดียวกันทั้งหมด DataCamp เตือนในบริบทการเปรียบเทียบโมเดลระดับ frontier ว่าค่าบางเบนช์มาร์กเป็น vendor-reported และอาจใช้ harness หรือวิธีรันทดสอบต่างกัน แปลเป็นภาษาง่าย ๆ คือ ตัวเลข 1 จุดไม่ได้แปลว่าชนะเด็ดขาดเสมอไป เพราะสนาม กติกา และโหมดการทดสอบอาจไม่เหมือนกัน
อีกประเด็นคือชื่อรุ่นที่นำมาเทียบไม่ใช่รุ่นเดียวกันเป๊ะทุกครั้ง Artificial Analysis ระบุ GPT-5.5 xhigh, GPT-5.5 high และ Claude Opus 4.7 แบบ Adaptive Reasoning กับ Max Effort ส่วน VentureBeat พูดถึง DeepSeek-V4-Pro-Max
ความต่างเหล่านี้มีผลมากในงาน reasoning, coding และ agentic เพราะระดับความพยายามของโมเดล การใช้เครื่องมือ และชุดทดสอบสามารถเปลี่ยนคะแนนได้
ดังนั้นคำถามที่ดีกว่าไม่ใช่แค่ว่าใครเป็นอันดับหนึ่ง แต่ควรถามว่า งานของคุณเหมือนเบนช์มาร์กชุดไหนมากที่สุด
ตัวชี้วัดภาพรวมที่ชัดที่สุดในชุดข้อมูลนี้คือ Artificial Analysis Intelligence Index บางส่วน ซึ่งจัด GPT-5.5 xhigh ไว้ที่ 60 คะแนน เป็นอันดับ 1, GPT-5.5 high ที่ 59 คะแนน เป็นอันดับ 2 และ Claude Opus 4.7 แบบ Adaptive Reasoning กับ Max Effort ที่ 57 คะแนน เป็นอันดับ 3
ตัวเลขนี้สนับสนุนว่า GPT-5.5 มีข้อได้เปรียบเหนือ Claude Opus 4.7 ในดัชนีดังกล่าว แต่แหล่งเดียวกันในส่วนที่ให้มาไม่ได้มีค่า Intelligence Index ที่อ้างได้ครบถ้วนสำหรับ DeepSeek V4 และ Kimi K2.6 จึงยังสรุปเป็นตาราง 4 รุ่นแบบเต็มไม่ได้
BrowseComp เป็นจุดที่เห็นภาพการเทียบสามรุ่นได้ชัดที่สุดระหว่าง GPT-5.5, Claude Opus 4.7 และ DeepSeek V4 โดย VentureBeat ระบุว่า GPT-5.5 Pro ได้ 90.1%, GPT-5.5 ได้ 84.4%, DeepSeek V4 ได้ 83.4% และ Claude Opus 4.7 ได้ 79.3%
VentureBeat ยังประเมินว่า DeepSeek-V4-Pro-Max แม้ทำคะแนนได้ใกล้ระดับแนวหน้า แต่ยังไม่ได้โค่น GPT-5.5 หรือ Claude Opus 4.7 ในภาพรวมของเบนช์มาร์กที่เทียบตรงได้ ดังนั้นควรอ่านว่า DeepSeek V4 โดดเด่นมากใน BrowseComp แต่คะแนนดีในสนามเดียวไม่เท่ากับชนะภาพรวม
ในกลุ่ม coding benchmark ไม่มีผู้ชนะขาดลอยทุกด้าน Claude Opus 4.7 ได้ 64.3% ใน SWE-Bench Pro สูงกว่า GPT-5.5 ที่ 58.6% และ Vellum ยังระบุว่า Claude Opus 4.7 ได้ 87.6% ใน SWE-Bench Verified
แต่ใน Terminal-Bench 2.0 GPT-5.5 นำชัดที่ 82.7% เทียบกับ Claude Opus 4.7 ที่ 69.4%
สำหรับ DeepSeek V4 และ Kimi K2.6 แหล่งข้อมูลที่ให้มายังไม่พอทำตาราง coding แบบเดียวกัน VentureBeat ระบุว่า DeepSeek V4 เข้าใกล้โมเดลชั้นนำในหลายเบนช์มาร์กที่เทียบตรงได้ แต่ตัวเลขที่ชัดที่สุดในส่วนที่อ้างได้คือ BrowseComp ส่วน Kimi K2.6 มีข้อมูลเชิงสถาปัตยกรรมและความสามารถเชิง agentic มากกว่าเมทริกซ์เบนช์มาร์กเทียบกับอีกสามรุ่น
ในงานความรู้และ reasoning คะแนนของ GPT-5.5 กับ Claude Opus 4.7 สูสีกันมาก แต่ผลลัพธ์ขึ้นกับเบนช์มาร์กและการใช้เครื่องมือ Vellum ระบุว่า GPQA Diamond ให้ GPT-5.5 ที่ 93.6% และ Claude Opus 4.7 ที่ 94.2% Mashable ให้ค่าชุดเดียวกัน และเสริมว่า Humanity’s Last Exam แบบไม่ใช้เครื่องมือ GPT-5.5 ได้ 40.6% สูงกว่า Claude Opus 4.7 ที่ 31.2% แต่เมื่อใช้เครื่องมือ Claude Opus 4.7 ได้ 54.7% สูงกว่า GPT-5.5 ที่ 52.2% เล็กน้อย
ในงานมืออาชีพและงาน agentic ภาพก็ยังผสมกัน Vellum ระบุว่า GPT-5.5 ได้ 84.9% ใน GDPval เทียบกับ Claude Opus 4.7 ที่ 80.3%, ได้ 78.7% ใน OSWorld-Verified เทียบกับ 78.0% และได้ 75.3% ใน MCP Atlas เทียบกับ Claude ที่ 79.1% ขณะที่ OpenAI ระบุใน FinanceAgent v1.1 ว่า GPT-5.5 ได้ 60.0% และ Claude Opus 4.7 ได้ 64.4%
| Benchmark | GPT-5.5 | Claude Opus 4.7 | ข้อสรุป |
|---|---|---|---|
| GDPval | 84.9% | 80.3% | GPT-5.5 นำ |
| OSWorld-Verified | 78.7% | 78.0% | GPT-5.5 นำเล็กน้อย |
| MCP Atlas | 75.3% | 79.1% | Claude Opus 4.7 นำ |
| FinanceAgent v1.1 | 60.0% | 64.4% | Claude Opus 4.7 นำ |
Anthropic ยังอ้างถึง internal research-agent benchmark ของตัวเอง โดยระบุว่า Claude Opus 4.7 ทำคะแนนรวมสูงสุดร่วมที่ 0.715 ใน 6 โมดูล และในโมดูล General Finance ได้ 0.813 เทียบกับ Opus 4.6 ที่ 0.767 แต่เพราะเป็นเบนช์มาร์กภายในและไม่ได้ครอบคลุมทั้ง 4 โมเดลในเงื่อนไขเดียวกัน จึงควรใช้เป็นสัญญาณว่า Claude แข็งแรงด้าน agentic มากกว่าจะใช้เป็นตารางจัดอันดับอิสระ
สำหรับการใช้งานจริง คะแนนเบนช์มาร์กไม่ใช่ทุกอย่าง ราคา API ต่อ tokens มีผลมาก โดยเฉพาะงานที่ต้องประมวลผลเอกสารจำนวนมากหรือเรียกโมเดลซ้ำ ๆ Mashable ระบุว่า DeepSeek V4 มีราคา 1.74 ดอลลาร์สหรัฐต่อ 1 ล้าน input tokens และ 3.48 ดอลลาร์สหรัฐต่อ 1 ล้าน output tokens พร้อม context window 1 ล้าน tokens แหล่งเดียวกันให้ GPT-5.5 ที่ 5 ดอลลาร์สหรัฐต่อ 1 ล้าน input tokens และ 30 ดอลลาร์สหรัฐต่อ 1 ล้าน output tokens ส่วน Claude Opus 4.7 อยู่ที่ 5 ดอลลาร์สหรัฐต่อ 1 ล้าน input tokens และ 25 ดอลลาร์สหรัฐต่อ 1 ล้าน output tokens โดยทั้งคู่ระบุ context 1 ล้าน tokens เช่นกัน
Kimi K2.6 เป็นกรณีพิเศษ DocsBot ระบุว่าโมเดลนี้มี context 256K tokens, สถาปัตยกรรม 1T-parameter MoE, 32B activated parameters และรองรับการจัด orchestration ของ agent สูงสุด 300 sub-agents กับ 4,000 coordinated steps สำหรับงานซับซ้อนแบบ end-to-end ข้อมูลเหล่านี้มีประโยชน์มากในการคัดกรองเชิงเทคนิค แต่ยังแทนตัวเลขเบนช์มาร์กและราคาที่เทียบตรงกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4 ไม่ได้
ข้อสรุปที่แข็งแรงที่สุดไม่ใช่ว่ามีโมเดลเดียวชนะทุกอย่าง แต่คือแต่ละโมเดลเด่นคนละสนาม GPT-5.5 เป็นออลราวด์เดอร์ที่มีหลักฐานดีที่สุดในชุดข้อมูลนี้ เพราะนำในตัวอย่าง Artificial Analysis และแข็งแรงใน BrowseComp รวมถึงหลายเบนช์มาร์กงานมืออาชีพ Claude Opus 4.7 ยังเป็นโมเดลระดับหัวตาราง โดยเฉพาะ SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond และงาน agentic ด้านการเงินบางชุด
DeepSeek V4 เป็นตัวเลือกความคุ้มค่าที่น่าจับตามากที่สุด เพราะเข้าใกล้ GPT-5.5 ใน BrowseComp และมีราคา API ที่อ้างอิงต่ำกว่ามาก
ส่วน Kimi K2.6 ยังไม่ควรถูกตัดสินว่าดีกว่าหรือแย่กว่าจากข้อมูลชุดนี้ เพราะต้องการตัวเลขเบนช์มาร์กและราคาที่เทียบตรงมากกว่านี้
ถ้าใช้กับงานจริง วิธีที่ปลอดภัยที่สุดคือเลือก 2–3 รุ่นที่เข้ากับงานของคุณ แล้วทดสอบด้วยชุดงานของตัวเอง ไม่ใช่ดูแค่คะแนนสูงสุดในตารางเดียว เพราะในระดับโมเดล frontier ส่วนต่างเล็ก ๆ มักแพ้หรือชนะได้ตามชนิดงาน งบประมาณ และวิธีรันทดสอบ
Comments
0 comments