studioglobal
ค้นพบเทรนด์
รายงานเผยแพร่แล้ว9 แหล่งที่มา

GPT-5.5, Claude Opus 4.7, Kimi K2.6 และ DeepSeek V4: เทียบเบนช์มาร์กแบบใช้งานจริง

ไม่มีผู้ชนะหนึ่งเดียว: GPT 5.5 นำใน ARC AGI 2 ที่ 85% เทียบกับ Claude 75.8% และ Terminal Bench 2.0 ที่ 82.7%; Claude Opus 4.7 นำใน HLE และ SWE Bench Pro Kimi K2.6 ควรถูกมองเป็นตัวเลือก coding/agentic และ open weight ที่น่าสนใจ: ได้ 54 ใน Artificial Analysis และ 87 ใน AkitaOnRails แต่ข้อมูลเทียบตรงครบทั้ง 4 โมเดลยังน...

18K0
Сравнение четырёх AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 на фоне графиков бенчмарков
GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахСравнение бенчмарков показывает не одного абсолютного лидера, а разные сильные стороны моделей.
AI พรอมต์

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro; вывод ограничен тем, что источники сравнивают разные режим.... Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.

openai.com

ถ้าจะหาว่า GPT-5.5, Claude Opus 4.7, Kimi K2.6 และ DeepSeek V4 ใครเป็นแชมป์เบนช์มาร์กแบบเด็ดขาด คำตอบคือยังสรุปแบบนั้นไม่ได้ เพราะแหล่งข้อมูลใช้คนละชุดทดสอบ คนละโหมดของโมเดล และหลายตารางไม่ได้มีครบทั้ง 4 รุ่น แต่ภาพรวมสำหรับคนเลือกใช้งานค่อนข้างชัด: GPT-5.5 ดูแข็งใน ARC และงานเอเจนต์ที่ทำผ่านเทอร์มินัล, Claude Opus 4.7 เด่นใน HLE และ SWE-Bench Pro, Kimi K2.6 เป็นตัวเลือก coding/agentic ที่น่าสนใจโดยเฉพาะสาย open-weight ส่วน DeepSeek V4 มักไม่ใช่ผู้นำคะแนนสูงสุดในชุดข้อมูลเหล่านี้ แต่ได้เปรียบเรื่องราคา API อย่างชัดเจน[1][2][3][6][8][9][13]

สรุปเร็ว: เลือกตามงาน ไม่ใช่ตามชื่อรุ่น

  • GPT-5.5 เหมาะเริ่มทดสอบก่อนถ้างานของคุณคล้าย ARC หรือเอเจนต์ที่ต้องสั่งงานผ่าน shell/terminal: DocsBot ให้ GPT-5.5 ได้ 85% ใน ARC-AGI-2 เทียบกับ 75.8% ของ Claude Opus 4.7 ส่วน VentureBeat ให้ GPT-5.5 ได้ 82.7% ใน Terminal-Bench 2.0 เทียบกับ 69.4% ของ Claude และ 67.9% ของ DeepSeek[1][3]
  • Claude Opus 4.7 เด่นเมื่องานต้องใช้ reasoning หนักหรือการตรวจโค้ดเชิงลึก: VentureBeat ให้ Claude นำ GPT-5.5 และ DeepSeek ใน Humanity’s Last Exam ทั้งแบบไม่ใช้เครื่องมือและแบบเปิดใช้เครื่องมือ ส่วน DataCamp ให้ Claude ได้ 64.3% ใน SWE-Bench Pro เทียบกับ 58.6% ของ GPT-5.5 และ 55.4% ของ DeepSeek V4 Pro[3][9]
  • Kimi K2.6 ยังมีข้อมูลเทียบตรงกับทุกคู่ไม่มากเท่า GPT และ Claude แต่ตัวเลขที่มีถือว่าสู้ได้: Artificial Analysis ให้ Kimi 54 เทียบกับ GPT-5.5 medium ที่ 57 และ Claude Opus 4.7 non-reasoning high ที่ 52; AkitaOnRails ให้ Kimi 87 ใน coding benchmark[13][8]
  • DeepSeek V4 ควรถูกมองเป็นตัวเลือก price-performance มากกว่าตัวเต็งคะแนนสูงสุด: Mashable ระบุราคา $1.74 ต่อ input tokens 1 ล้าน และ $3.48 ต่อ output tokens 1 ล้าน เทียบกับ GPT-5.5 ที่ $5/$30 และ Claude Opus 4.7 ที่ $5/$25[2]

ตารางเทียบเบนช์มาร์กสำคัญ

เครื่องหมาย หมายถึงในข้อมูลที่มี ไม่มีผลลัพธ์ที่เทียบกันได้โดยตรงสำหรับโมเดลนั้น

เบนช์มาร์ก / แหล่งข้อมูลGPT-5.5Claude Opus 4.7Kimi K2.6DeepSeek V4อ่านผลอย่างไร
ARC-AGI-2, DocsBot85%75.8%GPT-5.5 นำ Claude 9.2 จุดเปอร์เซ็นต์[1]
ARC-AGI-1, DocsBot95%93.5%GPT-5.5 สูงกว่า Claude เล็กน้อย[1]
Artificial Analysis leaderboard57, GPT-5.5 medium52, Claude Opus 4.7 non-reasoning high54ในสไลซ์นี้ GPT-5.5 สูงกว่า Kimi และโหมด Claude ที่ถูกนำมาเทียบ; ไม่มี DeepSeek V4 ในข้อมูลที่ให้มา[13]
Humanity’s Last Exam ไม่ใช้เครื่องมือ, VentureBeat41.4%46.9%37.7%Claude นำในแถวพื้นฐานที่แสดง[3]
Humanity’s Last Exam เปิดใช้เครื่องมือ, VentureBeat52.2%; GPT-5.5 Pro 57.2%54.7%48.2%Claude สูงกว่า GPT-5.5 แถวพื้นฐาน แต่ GPT-5.5 Pro สูงกว่า Claude[3]
Terminal-Bench 2.0, VentureBeat82.7%69.4%67.9%เป็นหนึ่งในแถวที่ GPT-5.5 ทิ้งห่างชัดที่สุด[3]
SWE-Bench Pro, DataCamp58.6%64.3%55.4%, DeepSeek V4 ProClaude สูงกว่า GPT-5.5 และ DeepSeek V4 Pro[9]
SWE-Bench Verified, Verdent87.6%80.2%Claude สูงกว่า Kimi ในมุม coding นี้[6]
Coding benchmark, AkitaOnRails96, GPT-5.5 xHigh/Codex978778, V4 Flash; 69, V4 ProClaude และ GPT-5.5 ใกล้กันมาก; Kimi สูงกว่า DeepSeek V4 ทั้งสองแถว[8]

ทำไมยังไม่ควรประกาศแชมป์รวม

จุดยากไม่ใช่ตัวเลขน้อยเกินไป แต่เป็นตัวเลขที่มาจากคนละเงื่อนไข ตัวอย่างเช่น Artificial Analysis เทียบ GPT-5.5 medium, Kimi K2.6 และ Claude Opus 4.7 non-reasoning high; AkitaOnRails ใช้ GPT-5.5 xHigh/Codex และแยก DeepSeek V4 เป็น Flash กับ Pro; ส่วน VentureBeat ยังแยก GPT-5.5 และ GPT-5.5 Pro ออกเป็นคนละแถว[13][8][3]

แม้เทียบเฉพาะ GPT-5.5 กับ Claude Opus 4.7 ภาพก็ยังไม่ใช่เกมขาด LLM Stats ระบุว่าใน 10 เบนช์มาร์กที่ทั้งสองผู้ให้บริการรายงาน Claude Opus 4.7 นำ 6 รายการ ส่วน GPT-5.5 นำ 4 รายการ โดยจุดแข็งของ Claude กระจุกอยู่ที่งาน reasoning-heavy และ review-grade ขณะที่ GPT-5.5 เด่นในงาน long-running tool-use และ shell-driven tasks[4]

GPT-5.5 เด่นตรงไหน

สัญญาณที่ชัดที่สุดของ GPT-5.5 อยู่ที่ ARC และ Terminal-Bench ใน ARC-AGI-2 โมเดลนี้ได้ 85% เทียบกับ 75.8% ของ Claude Opus 4.7 และใน ARC-AGI-1 ได้ 95% เทียบกับ 93.5% ของ Claude[1] ส่วน Terminal-Bench 2.0 ให้ GPT-5.5 ที่ 82.7% สูงกว่า Claude Opus 4.7 ที่ 69.4% และ DeepSeek ที่ 67.9% อย่างเห็นได้ชัด[3]

Artificial Analysis ก็ให้ GPT-5.5 medium สูงกว่าสองคู่แข่งที่อยู่ในสไลซ์เดียวกัน: 57 เทียบกับ 54 ของ Kimi K2.6 และ 52 ของ Claude Opus 4.7 non-reasoning high[13] อย่างไรก็ตาม นี่ไม่ใช่ตารางสรุปทุกโหมดของทุกโมเดล เพราะ LLM Stats แสดงอีกด้านว่า Claude Opus 4.7 ชนะ GPT-5.5 ในบางชุดทดสอบด้าน reasoning และ software engineering[4]

Claude Opus 4.7 เด่นตรงไหน

Claude Opus 4.7 ดูแข็งเป็นพิเศษในงานที่ต้องใช้ reasoning หนักและการตรวจซอฟต์แวร์เชิงลึก ใน Humanity’s Last Exam แบบไม่ใช้เครื่องมือ VentureBeat ให้ Claude 46.9%, GPT-5.5 41.4% และ DeepSeek 37.7%; เมื่อเปิดใช้เครื่องมือ Claude ได้ 54.7%, GPT-5.5 ได้ 52.2% และ DeepSeek ได้ 48.2%[3]

ด้าน coding ระดับแก้ปัญหาซอฟต์แวร์จริง DataCamp ให้ Claude Opus 4.7 ได้ 64.3% ใน SWE-Bench Pro เทียบกับ 58.6% ของ GPT-5.5 และ 55.4% ของ DeepSeek V4 Pro[9] ภาพนี้สอดคล้องกับ LLM Stats ที่ระบุว่า Claude นำ GPT-5.5 ใน GPQA, HLE แบบไม่ใช้เครื่องมือ, HLE แบบใช้เครื่องมือ, SWE-Bench Pro, MCP Atlas และ FinanceAgent v1.1[4]

Kimi K2.6 ควรถูกอ่านอย่างไร

Kimi K2.6 ยังจัดเข้าตารางเดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4 แบบครบทุกสนามได้ยาก เพราะไม่ได้ปรากฏในทุกแหล่งข้อมูลเดียวกัน ใน Artificial Analysis รุ่นนี้ได้ 54 ต่ำกว่า GPT-5.5 medium ที่ 57 แต่สูงกว่า Claude Opus 4.7 non-reasoning high ที่ 52[13]

ใน coding benchmark ของ AkitaOnRails Kimi K2.6 ได้ 87 ต่ำกว่า Claude Opus 4.7 ที่ 97 และ GPT-5.5 xHigh/Codex ที่ 96 แต่สูงกว่า DeepSeek V4 Flash ที่ 78 และ DeepSeek V4 Pro ที่ 69[8] ส่วน Verdent ให้ตัวเลข SWE-Bench Verified ของ Kimi K2.6 ที่ 80.2% เทียบกับ 87.6% ของ Claude Opus 4.7[6]

จุดต่างสำคัญของ Kimi คือเส้นทาง open-weight Verdent ระบุว่า weights ของ K2.6 อยู่บน Hugging Face และรันได้ผ่าน vLLM, SGLang หรือ KTransformers โดยคอนฟิกขั้นต่ำที่พอใช้งานได้สำหรับรุ่น INT4 เมื่อย่อ context คือ 4× H100[6] README บน Hugging Face ยังระบุเมตริกด้าน agentic ของ Kimi K2.6 เช่น HLE-Full แบบใช้เครื่องมือ 54.0, BrowseComp 83.2, DeepSearchQA f1-score 92.5, Toolathlon 50.0 และ MCPMark 55.9 แต่ตารางนั้นเทียบ Kimi เป็นหลักกับ GPT-5.4, Claude Opus 4.6 และ Gemini 3.1 Pro ไม่ใช่ชุดโมเดลครบทั้ง 4 รุ่นในบทความนี้[25]

DeepSeek V4: คะแนนไม่สุด แต่ราคาน่าคิด

ในข้อมูลชุดนี้ DeepSeek V4 มักดูเป็นโมเดลสาย value มากกว่าผู้นำคะแนนดิบ VentureBeat ให้ DeepSeek ต่ำกว่า GPT-5.5 และ Claude Opus 4.7 ใน HLE ทั้งแบบไม่ใช้เครื่องมือและแบบใช้เครื่องมือ รวมถึง Terminal-Bench 2.0[3] DataCamp ให้ DeepSeek V4 Pro ได้ 55.4% ใน SWE-Bench Pro เทียบกับ 58.6% ของ GPT-5.5 และ 64.3% ของ Claude Opus 4.7[9] ขณะที่ AkitaOnRails ให้ DeepSeek V4 Flash 78 และ DeepSeek V4 Pro 69 ต่ำกว่า Kimi K2.6, GPT-5.5 xHigh/Codex และ Claude Opus 4.7 ในตารางเดียวกัน[8]

แต่ถ้ามองเรื่องต้นทุน DeepSeek V4 เปลี่ยนสมการได้ Mashable ระบุราคา DeepSeek V4 ที่ $1.74 ต่อ input tokens 1 ล้าน และ $3.48 ต่อ output tokens 1 ล้าน ขณะที่ GPT-5.5 อยู่ที่ $5/$30 และ Claude Opus 4.7 อยู่ที่ $5/$25[2] นี่ไม่ได้ทำให้ DeepSeek เป็นแชมป์เบนช์มาร์ก แต่ทำให้มันเป็นตัวเลือกที่ควรทดลองสำหรับงานปริมาณมาก งานร่างเบื้องต้น งานความเสี่ยงต่ำ หรือการทำ eval ภายในที่ต้องคุมค่าใช้จ่าย

ถ้าต้องเริ่มทดสอบ ควรเริ่มจากตัวไหน

  • ARC, visual reasoning และโจทย์จับแพตเทิร์นเชิงนามธรรม: เริ่มจาก GPT-5.5 เพราะในข้อมูล DocsBot โมเดลนี้สูงกว่า Claude Opus 4.7 ทั้ง ARC-AGI-2 และ ARC-AGI-1[1]
  • Hard reasoning และงานสไตล์ Humanity’s Last Exam: เริ่มจาก Claude Opus 4.7 ถ้าเทียบแถวพื้นฐาน แต่ควรจำไว้ว่าใน VentureBeat แถว GPT-5.5 Pro สูงกว่า Claude เมื่อเปิดใช้เครื่องมือ[3]
  • Terminal, shell-driven agents และ tool-use ระยะยาว: เริ่มจาก GPT-5.5 เพราะ Terminal-Bench 2.0 เป็นผลลัพธ์ตรงที่โดดเด่นที่สุดของ GPT-5.5 ในชุดข้อมูลนี้[3][4]
  • SWE-Bench Pro และ software engineering ที่เน้น review: เริ่มจาก Claude Opus 4.7 เพราะทั้ง DataCamp และ LLM Stats ชี้ว่า Claude ได้เปรียบใน SWE-Bench Pro[9][4]
  • งาน coding/agentic ที่ต้องการ open-weight หรือ self-hosted: ทดสอบ Kimi K2.6 ถ้าการรันผ่าน Hugging Face, vLLM, SGLang หรือ KTransformers สำคัญกว่าการเรียกใช้ผ่าน API เพียงอย่างเดียว[6]
  • งานปริมาณสูงที่งบสำคัญกว่าคะแนนสูงสุด: พิจารณา DeepSeek V4 โดยเฉพาะเมื่อค่าใช้จ่ายต่อการลองหนึ่งครั้งสำคัญกว่า benchmark score สูงสุด[2][3][9]

บทสรุป

ถ้ามองเฉพาะเบนช์มาร์ก คู่บนสุดคือ GPT-5.5 กับ Claude Opus 4.7 แต่ทั้งสองเด่นคนละสนาม GPT-5.5 ดูแข็งกว่าใน ARC และ Terminal-Bench ส่วน Claude Opus 4.7 ดูแข็งกว่าใน HLE และ SWE-Bench Pro[1][3][4][9] Kimi K2.6 เป็นตัวเลือก coding/agentic ที่น่าสนใจ โดยเฉพาะเมื่อต้องการเส้นทาง open-weight แต่ข้อมูลเทียบตรงกับทุกโมเดลยังน้อยกว่า[6][8][13] ส่วน DeepSeek V4 ในชุดข้อมูลนี้มักตามหลังด้าน raw score แต่ราคา API ทำให้ยังเป็นตัวเลือกสำคัญสำหรับการทดลองแบบ price-performance[2][3][9]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

  • ไม่มีผู้ชนะหนึ่งเดียว: GPT 5.5 นำใน ARC AGI 2 ที่ 85% เทียบกับ Claude 75.8% และ Terminal Bench 2.0 ที่ 82.7%; Claude Opus 4.7 นำใน HLE และ SWE Bench Pro
  • Kimi K2.6 ควรถูกมองเป็นตัวเลือก coding/agentic และ open weight ที่น่าสนใจ: ได้ 54 ใน Artificial Analysis และ 87 ใน AkitaOnRails แต่ข้อมูลเทียบตรงครบทั้ง 4 โมเดลยังน้อย
  • DeepSeek V4 คะแนนดิบมักไม่ใช่สูงสุดในแหล่งข้อมูลนี้ แต่ราคาถูกกว่า: $1.74 ต่อ input 1 ล้าน token และ $3.48 ต่อ output 1 ล้าน token เทียบกับ GPT 5.5 ที่ $5/$30 และ Claude Opus 4.7 ที่ $5/$25

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5, Claude Opus 4.7, Kimi K2.6 และ DeepSeek V4: เทียบเบนช์มาร์กแบบใช้งานจริง" คืออะไร

ไม่มีผู้ชนะหนึ่งเดียว: GPT 5.5 นำใน ARC AGI 2 ที่ 85% เทียบกับ Claude 75.8% และ Terminal Bench 2.0 ที่ 82.7%; Claude Opus 4.7 นำใน HLE และ SWE Bench Pro

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ไม่มีผู้ชนะหนึ่งเดียว: GPT 5.5 นำใน ARC AGI 2 ที่ 85% เทียบกับ Claude 75.8% และ Terminal Bench 2.0 ที่ 82.7%; Claude Opus 4.7 นำใน HLE และ SWE Bench Pro Kimi K2.6 ควรถูกมองเป็นตัวเลือก coding/agentic และ open weight ที่น่าสนใจ: ได้ 54 ใน Artificial Analysis และ 87 ใน AkitaOnRails แต่ข้อมูลเทียบตรงครบทั้ง 4 โมเดลยังน้อย

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

DeepSeek V4 คะแนนดิบมักไม่ใช่สูงสุดในแหล่งข้อมูลนี้ แต่ราคาถูกกว่า: $1.74 ต่อ input 1 ล้าน token และ $3.48 ต่อ output 1 ล้าน token เทียบกับ GPT 5.5 ที่ $5/$30 และ Claude Opus 4.7 ที่ $5/$25

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ

คำถามวิจัย

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI27 แหล่งที่มา

อ้างถึงคำตอบ

По доступным фрагментам доказательств полноценное сравнение всех четырёх моделей “один к одному” сделать нельзя: есть частичные данные для GPT-5.5, Claude Opus 4.7 и Kimi K2.6, но в предоставленных источниках нет сопоставимых бенчмарков для DeepSeek V4. В имеющихся данных GPT-5.5 выглядит сильнее Claude Opus 4.7 на ARC-AGI-2 и немного выше Kimi K2.6 в общем рейтинге Artificial Analysis, а Kimi K2.6 имеет сильные отдельные результаты на агентных и coding-бенчмарках.

Key findings

МодельЧто есть по бенчмаркам в доступных данныхВывод
GPT-5.585% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium [5][6]Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.775.8% на ARC-AGI-2 против 85% у GPT-5.5 [5]В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.654 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual [6][3]Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам [7]Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

  • На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта [5].

  • В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе [6].

  • Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual [3].

  • Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя [7].

Evidence notes

  • Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% [5].

  • Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 [6].

  • Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках [3].

Limitations / uncertainty

  • Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.

  • Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score [7].

  • Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Если опираться только на предоставленные данные, GPT-5.5 выглядит лидером в имеющихся прямых сравнениях: он выше Claude Opus 4.7 на ARC-AGI-2 и выше Kimi K2.6 в фрагменте Artificial Analysis [5][6]. Kimi K2.6 имеет сильные подтверждённые результаты на агентных и coding-бенчмарках, включая SWE-bench Verified 65.8 [3]. Для DeepSeek V4 в предоставленных данных недостаточно benchmark-информации, поэтому корректно сравнить его с остальными по бенчмаркам невозможно [7].

แหล่งที่มา