รายงานเผยแพร่แล้ว3 เดือนที่ผ่านมาLast edited 2 เดือนที่ผ่านมา18 แหล่งที่มา

GPT-5.5, Claude Opus 4.7, Kimi K2.6 และ DeepSeek V4: โมเดลไหนนำในแต่ละเบนช์มาร์ก

Claude Opus 4.7 นำ GPQA Diamond ที่ 94.2% และ HLE แบบไม่ใช้เครื่องมือที่ 46.9%, GPT 5.5 นำ Terminal Bench 2.0 ที่ 82.7%, ส่วน GPT 5.5 Pro นำ HLE แบบใช้เครื่องมือที่ 57.2% และ BrowseComp ที่ 90.1% [6]. Kimi K2.6 ไม่ได้อยู่ใน head to head ชุดเดียวกัน แต่เป็นตัวเลือกน่าสนใจสำหรับงาน coding และการทดลองแบบมีน้ำหนักโมเดล:...

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI ดูหน้าที่กำลังมาแรงเพิ่มเติม

Сравнение AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахИллюстрация к сравнению GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по ключевым AI-бенчмаркам.
AI พรอมต์
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond — 94.2% — и HLE без инструментов — 46.9%, GPT 5.5 — в Terminal Bench 2.0 с 82.7%, а GPT 5.5 Pro — в HLE с инструментами и BrowseComp.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2.6 vs GPT-5.5 vs DeepSeek V4](https://www.youtube.com/watch?v=hqPVqQtgWOc). 🤯xCreate 8.4K views • 1 day ago Live Playlist ()Mix (50+)](https://www.youtube.com/watch?v=3928" source context "Kimi K2.6 vs GPT-5.5 vs DeepSeek V4 - YouTube" Reference image 2: visual subject "# GPT-5.5vs Claude Opus 4.7. Get a detailed comparison of AI language modelsOpenAI's GPT-5.5andAnthropic's
openai.com

คำตอบสั้น ๆ คือ ยังไม่มีผู้ชนะคนเดียวในทุกสนาม เบนช์มาร์กแต่ละชุดวัดคนละทักษะ และข้อมูลที่เทียบกันได้ก็ไม่ได้มาจากการทดสอบชุดเดียวกันทั้งหมด

ตารางที่เทียบกันได้มากที่สุดครอบคลุม GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max ส่วน Kimi K2.6 ต้องนำตัวเลขจาก Hugging Face model card และไฟล์ eval แยกมาต่อภาพรวม จึงไม่ควรอ่านเหมือนเป็นการแข่ง head-to-head รอบเดียวกัน .

อีกจุดที่ต้องระวังคือชื่อ DeepSeek V4 ในแต่ละแหล่งไม่ได้หมายถึงรุ่นย่อยเดียวกันเสมอไป ตารางรวมใช้ DeepSeek-V4-Pro-Max ขณะที่ตัวเลข SWE-Bench Verified จากอีกแหล่งเป็น DeepSeek V4-Pro ไม่ใช่ Pro-Max . ดังนั้นบทสรุปที่ปลอดภัยกว่าคือ รุ่นย่อยต่าง ๆ ของ DeepSeek V4 ทำคะแนนต่างกันในแหล่งข้อมูลต่างกัน ไม่ใช่มีตัวเลขเดียวแทนทั้งตระกูล

เลือกเร็วตามงาน

reasoning ยาก ๆ แบบไม่ใช้เครื่องมือ: เริ่มทดสอบ Claude Opus 4.7 ก่อน เพราะนำทั้ง GPQA Diamond และ Humanity’s Last Exam แบบไม่ใช้เครื่องมือในตารางรวม .
งาน agentic ในเทอร์มินัล: GPT-5.5 เด่นที่สุดใน Terminal-Bench 2.0 ด้วยคะแนน 82.7% เทียบกับ 69.4% ของ Claude Opus 4.7 และ 67.9% ของ DeepSeek-V4-Pro-Max .
reasoning ที่เปิดให้ใช้เครื่องมือหรือ browsing: GPT-5.5 Pro นำในแถวที่มีข้อมูล ได้แก่ 57.2% บน HLE แบบใช้เครื่องมือ และ 90.1% บน BrowseComp .
coding และการทดลองกับโมเดลที่มีน้ำหนักให้ใช้งาน: Kimi K2.6 ควรถูกทดสอบแยกต่างหาก เพราะ model card ระบุ 80.2 บน SWE-Bench Verified, 58.6 บน SWE-Bench Pro และ 66.7 บน Terminal-Bench 2.0 . แหล่งข้อมูลของ Kimi ยังระบุว่าน้ำหนักโมเดลอยู่บน Hugging Face และรันผ่าน vLLM, SGLang หรือ KTransformers ได้ .
งานที่ต้นทุนสำคัญกว่าการชนะอันดับหนึ่ง: DeepSeek V4 ไม่ได้เป็นผู้นำในตารางเบนช์มาร์กหลัก แต่แหล่งข่าวระบุราคา API ที่ $1.74 ต่อ 1 ล้าน input tokens และ $3.48 ต่อ 1 ล้าน output tokens เทียบกับ $5/$30 ของ GPT-5.5 และ $5/$25 ของ Claude Opus 4.7 .

ตารางสรุปคะแนนที่มีข้อมูล

เบนช์มาร์ก	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	ผู้นำตามข้อมูลที่มี
GPQA Diamond	93.6%	ไม่มีข้อมูล	94.2%	90.1% สำหรับ DeepSeek-V4-Pro-Max	ไม่มีข้อมูล	Claude Opus 4.7
Humanity’s Last Exam, ไม่ใช้เครื่องมือ	41.4%	43.1%	46.9%	37.7% สำหรับ DeepSeek-V4-Pro-Max	ไม่มีข้อมูล	Claude Opus 4.7
Humanity’s Last Exam, ใช้เครื่องมือ	52.2%	57.2%	54.7%	48.2% สำหรับ DeepSeek-V4-Pro-Max	ไม่มีข้อมูล	GPT-5.5 Pro
Terminal-Bench 2.0	82.7%	ไม่มีข้อมูล	69.4%	67.9% สำหรับ DeepSeek-V4-Pro-Max	66.7	GPT-5.5
SWE-Bench Pro / SWE Pro	58.6%	ไม่มีข้อมูล	64.3%	55.4% สำหรับ DeepSeek-V4-Pro-Max	58.6	Claude Opus 4.7
BrowseComp	84.4%	90.1%	79.3%	83.4% สำหรับ DeepSeek-V4-Pro-Max	ไม่มีข้อมูล	GPT-5.5 Pro
MCP Atlas / MCPAtlas Public	75.3%	ไม่มีข้อมูล	79.1%	73.6% สำหรับ DeepSeek-V4-Pro-Max	ไม่มีข้อมูล	Claude Opus 4.7
SWE-Bench Verified	ไม่มีข้อมูล	ไม่มีข้อมูล	87.6% ในการเทียบแยก	80.6% สำหรับ DeepSeek V4-Pro ไม่ใช่ Pro-Max	80.2	ไม่มีแถวรวมเดียวกันสำหรับทุกโมเดล

คำว่า ไม่มีข้อมูล ในตารางนี้หมายถึงแหล่งอ้างอิงไม่ได้รายงานค่านั้น ไม่ได้แปลว่าโมเดลได้คะแนนศูนย์

Reasoning: Claude นำเมื่อไม่ใช้เครื่องมือ, GPT-5.5 Pro นำเมื่อใช้เครื่องมือ

ใน GPQA Diamond ช่องว่างระหว่าง Claude Opus 4.7 กับ GPT-5.5 ค่อนข้างเล็ก: Claude ได้ 94.2% เทียบกับ 93.6% ของ GPT-5.5 ส่วน DeepSeek-V4-Pro-Max ได้ 90.1% .

แต่ใน Humanity’s Last Exam แบบไม่ใช้เครื่องมือ Claude นำชัดกว่า โดยได้ 46.9% เทียบกับ 41.4% ของ GPT-5.5, 43.1% ของ GPT-5.5 Pro และ 37.7% ของ DeepSeek-V4-Pro-Max . ถ้าโจทย์ของคุณเป็นการให้เหตุผลล้วน ๆ โดยไม่เรียกเครื่องมือภายนอก Claude Opus 4.7 จึงเป็นตัวเริ่มต้นที่น่าทดสอบที่สุดในชุดข้อมูลนี้

ภาพเปลี่ยนทันทีเมื่อ HLE เปิดให้ใช้เครื่องมือ GPT-5.5 Pro ได้ 57.2%, Claude Opus 4.7 ได้ 54.7%, GPT-5.5 ได้ 52.2% และ DeepSeek-V4-Pro-Max ได้ 48.2% . บทสรุปที่แม่นกว่าจึงไม่ใช่ Claude หรือ GPT ชนะเสมอ แต่คือ Claude เด่นกว่าใน reasoning แบบไม่ใช้เครื่องมือ ขณะที่ GPT-5.5 Pro เด่นกว่าใน reasoning ที่มีเครื่องมือช่วยตามแถว HLE ที่รายงาน .

Coding และงานแบบเอเจนต์: GPT-5.5 ทิ้งห่างใน Terminal-Bench

ช่องว่างที่ชัดที่สุดของ GPT-5.5 ในข้อมูลชุดนี้คือ Terminal-Bench 2.0 ซึ่งวัดงานลักษณะเอเจนต์ในสภาพแวดล้อมเทอร์มินัล GPT-5.5 ทำได้ 82.7% เทียบกับ 69.4% ของ Claude Opus 4.7 และ 67.9% ของ DeepSeek-V4-Pro-Max .

ฝั่ง Kimi K2.6 model card ระบุคะแนน Terminal-Bench 2.0 ที่ 66.7 และลีดเดอร์บอร์ด LLM Stats ระบุ 0.667 สำหรับ Kimi K2.6 เทียบกับ 0.694 ของ Claude Opus 4.7 . ตัวเลขนี้ทำให้ Kimi อยู่ใกล้ Claude และ DeepSeek ในสเกลนี้ แต่ยังต่ำกว่า GPT-5.5 อย่างเห็นได้ชัดเมื่ออิงตารางรวม .

ใน SWE-Bench Pro / SWE Pro ภาพไม่เหมือน Terminal-Bench: Claude Opus 4.7 นำด้วย 64.3%, GPT-5.5 ได้ 58.6% และ DeepSeek-V4-Pro-Max ได้ 55.4% . Kimi K2.6 ก็มีค่า 58.6 บน SWE-Bench Pro ใน Hugging Face model card แต่ตัวเลขนี้ไม่ได้มาจากการรันทดสอบชุดเดียวกับตารางรวมของ GPT-5.5, Claude และ DeepSeek .

ส่วน SWE-Bench Verified ไม่ควรใช้จัดอันดับรวมของทั้งสี่โมเดล Kimi K2.6 มีค่า 80.2 ใน model card และไฟล์ eval . ขณะเดียวกัน แหล่งข้อมูล DeepSeek V4 อีกแหล่งระบุ Claude Opus 4.7 ที่ 87.6% และ DeepSeek V4-Pro ที่ 80.6% แต่ไม่ได้ให้แถวครบสำหรับ GPT-5.5 และยังอ้างถึง V4-Pro ไม่ใช่ V4-Pro-Max .

อ่านทีละโมเดล

GPT-5.5 และ GPT-5.5 Pro

GPT-5.5 เด่นที่สุดใน Terminal-Bench 2.0 ด้วยคะแนน 82.7% ซึ่งเป็นผลดีที่สุดในแถวนี้ของตารางรวม . ส่วน GPT-5.5 Pro ไม่ได้มีข้อมูลครบทุกเบนช์มาร์ก แต่ในแถวที่มีข้อมูลก็ขึ้นนำ ได้แก่ 57.2% ใน HLE แบบใช้เครื่องมือ และ 90.1% ใน BrowseComp .

ถ้าต้องเลือกจุดเริ่มต้นสำหรับ eval ภายในทีม GPT-5.5 เหมาะกับงาน agentic ในเทอร์มินัล ส่วน GPT-5.5 Pro เหมาะกับงานที่ต้อง reasoning พร้อมใช้เครื่องมือหรือ browsing .

Claude Opus 4.7

Claude Opus 4.7 นำหลายแถวในตารางรวม ได้แก่ 94.2% ใน GPQA Diamond, 46.9% ใน HLE แบบไม่ใช้เครื่องมือ, 64.3% ใน SWE-Bench Pro / SWE Pro และ 79.1% ใน MCP Atlas / MCPAtlas Public . อย่างไรก็ตาม Claude ยังตามหลัง GPT-5.5 ใน Terminal-Bench 2.0 และตามหลัง GPT-5.5 Pro ใน HLE แบบใช้เครื่องมือกับ BrowseComp .

ถ้างานหลักคือ reasoning ยาก ๆ แบบไม่พึ่งเครื่องมือ หรือ coding ที่ใกล้กับรูปแบบของ SWE-Bench Pro, Claude Opus 4.7 เป็นตัวเลือกแรกที่ควรทดสอบตามข้อมูลชุดนี้ .

Kimi K2.6

Kimi K2.6 ยังจัดอันดับตรง ๆ กับทุกโมเดลในบทความนี้ไม่ได้ เพราะตัวเลขมาจาก Hugging Face model card และไฟล์ eval แยก ไม่ใช่การรันทดสอบเดียวกับตารางรวม . ถึงอย่างนั้น โปรไฟล์ด้าน coding ของ Kimi ก็น่าสนใจ: model card ระบุ 80.2 บน SWE-Bench Verified, 58.6 บน SWE-Bench Pro, 76.7 บน SWE-Bench Multilingual, 66.7 บน Terminal-Bench 2.0 และ 73.1 บน OSWorld-Verified .

จุดที่ทำให้ Kimi แตกต่างในเชิงปฏิบัติคือแหล่งข้อมูลระบุว่าน้ำหนักโมเดลมีบน Hugging Face และสามารถรันผ่าน vLLM, SGLang หรือ KTransformers ได้ . นี่ไม่ได้แปลว่า Kimi ชนะตารางเบนช์มาร์กรวม แต่ทำให้เป็นตัวเลือกที่ควรลองสำหรับทีมที่ต้องการทดลองแบบโฮสต์เองหรือควบคุมสภาพแวดล้อมการรันมากกว่าเรียก API เพียงอย่างเดียว .

DeepSeek V4

ในตารางรวม DeepSeek ถูกแทนด้วย DeepSeek-V4-Pro-Max . ในแถวที่รายงาน DeepSeek-V4-Pro-Max ไม่ได้ขึ้นอันดับหนึ่ง: 90.1% ใน GPQA Diamond, 37.7% ใน HLE แบบไม่ใช้เครื่องมือ, 48.2% ใน HLE แบบใช้เครื่องมือ, 67.9% ใน Terminal-Bench 2.0, 55.4% ใน SWE-Bench Pro / SWE Pro, 83.4% ใน BrowseComp และ 73.6% ใน MCP Atlas / MCPAtlas Public .

จุดแข็งของ DeepSeek V4 ในข้อมูลชุดนี้จึงไม่ใช่การเป็นแชมป์คะแนน แต่เป็นราคา API ที่แหล่งข่าวระบุ Mashable และ DataCamp ให้ราคา DeepSeek V4 ที่ $1.74 ต่อ 1 ล้าน input tokens และ $3.48 ต่อ 1 ล้าน output tokens ขณะที่ GPT-5.5 อยู่ที่ $5/$30 และ Claude Opus 4.7 อยู่ที่ $5/$25 . ถ้างบประมาณเป็นข้อจำกัดหลัก DeepSeek V4 ควรถูกใส่ไว้ใน eval ของทีม แต่ไม่ควรถูกประกาศว่าเป็นผู้นำเบนช์มาร์กจากตารางนี้ .

ข้อจำกัดที่ต้องจำก่อนตัดสินใจ

ไม่มีการรันทดสอบเดียวที่ครอบคลุมทุกโมเดลในทุกแถว ตารางหลักครอบคลุม GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max ส่วน Kimi K2.6 มาจากแหล่งแยก .
DeepSeek V4 มีหลายรุ่นย่อยในแหล่งข้อมูล ตารางหลักใช้ DeepSeek-V4-Pro-Max แต่ตัวเลข SWE-Bench Verified จากอีกแหล่งเป็น DeepSeek V4-Pro .
GPT-5.5 Pro ไม่ได้มีข้อมูลครบทุกเบนช์มาร์ก จึงไม่ควรเอาคะแนนจากแถวที่มีข้อมูลไปสรุปแทนแถวที่ไม่ได้รายงาน .
Kimi K2.6 ควรทดสอบด้วย eval ของงานจริง ตัวเลขจาก Hugging Face มีประโยชน์มาก แต่ไม่ได้มาจากตารางรวมเดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max .

บทสรุป

ถ้าดูเฉพาะแถวที่เปรียบเทียบได้ในตารางรวม Claude Opus 4.7 ชนะ GPQA Diamond, HLE แบบไม่ใช้เครื่องมือ, SWE-Bench Pro และ MCP Atlas; GPT-5.5 ชนะ Terminal-Bench 2.0; และ GPT-5.5 Pro ชนะ HLE แบบใช้เครื่องมือกับ BrowseComp . Kimi K2.6 เป็นตัวเลือกที่น่าสนใจสำหรับงาน coding และการทดลองแบบมีน้ำหนักโมเดลให้ใช้งาน แต่ยังไม่ควรถูกจัดอันดับรวมกับโมเดลอื่นโดยไม่มีการรันทดสอบชุดเดียวกัน . DeepSeek V4 ไม่ใช่ผู้นำคะแนนในแถวหลัก แต่ด้วยราคา API ที่ต่ำกว่าในแหล่งข้อมูลที่อ้างถึง จึงยังเป็นโมเดลที่ควรทดสอบในงานที่อ่อนไหวต่อต้นทุน .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5, Claude Opus 4.7, Kimi K2.6 และ DeepSeek V4: โมเดลไหนนำในแต่ละเบนช์มาร์ก" คืออะไร

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

DeepSeek V4 ไม่ได้ชนะในแถวหลักของตารางเปรียบเทียบ แต่แหล่งข้อมูลระบุราคา API ต่ำกว่า: $1.74 ต่อ 1 ล้าน input tokens และ $3.48 ต่อ 1 ล้าน output tokens เทียบกับ $5/$30 ของ GPT 5.5 และ $5/$25 ของ Claude Opus 4.7 [6][14]...

แหล่งที่มา

← Back to Trending