studioglobal
ค้นพบเทรนด์
คำตอบเผยแพร่แล้ว6 แหล่งที่มา

DeepSeek V4, Kimi K2.6, Claude Opus 4.7 และ GPT-5.5: ใครชนะเบนช์มาร์กไหน

ยังไม่มีผู้ชนะรวมแบบชัดเจน: GPT 5.5 มีตัวเลขทางการที่ 82.7% บน Terminal Bench 2.0 และ 58.6% บน SWE Bench Pro ขณะที่ข้อมูลเทียบ Claude/Kimi ส่วนใหญ่เป็นแหล่งภายนอก [24][4][6]. งานแก้โค้ดและ GitHub issue: Claude Opus 4.7 ดูเด่นกว่าใน SWE Bench Pro, SWE Bench Verified และ CursorBench ตามข้อมูลของ LushBinary [4].

18K0
Illustration eines Benchmark-Dashboards für DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5
DeepSeek V4 vsBenchmark-Vergleiche zwischen Frontier-Modellen sind nur sinnvoll, wenn offizielle Werte, Sekundärdaten und eigene Evals getrennt betrachtet werden.
AI พรอมต์

Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 vs. Kimi K2.6 vs. Claude Opus 4.7 vs. GPT-5.5: Benchmark-Vergleich. Article summary: Es gibt keinen sauber belegten Gesamtsieger: GPT 5.5 ist offiziell mit 82,7% auf Terminal Bench 2.0 und 58,6% auf SWE Bench Pro belegt, während Claude Opus 4.7 in Sekundärdaten bei SWE bench stärker wirkt; für Kimi K2.... Topic tags: ai, llm, ai benchmarks, coding agents, developer tools. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.yo

openai.com

ก่อนจะเลือกโมเดลจากคะแนน ควรถามก่อนว่าคะแนนนั้นวัดงานแบบไหน และมาจากแหล่งทางการหรือรายงานภายนอก ในชุดข้อมูลที่ใช้บทความนี้ OpenAI ให้ตัวเลขทางการของ GPT-5.5 ที่ 82.7% บน Terminal-Bench 2.0 และ 58.6% บน SWE-Bench Pro [24]. ส่วน DeepSeek ยืนยันว่า V4-Pro และ V4-Flash ใช้งานผ่าน DeepSeek API ได้แล้ว แต่เอกสารนั้นไม่ได้ให้ตารางเบนช์มาร์กสี่รุ่นเทียบกัน [25]. ตัวเลขเปรียบเทียบ Claude Opus 4.7 และ Kimi K2.6 ที่ชัดที่สุดในที่นี้จึงควรอ่านในฐานะข้อมูลจากแหล่งภายนอกเป็นหลัก [4][6].

สรุปเร็วตามงานที่ต้องใช้

  • ถ้าเน้นแก้โค้ดและปิด GitHub issue: Claude Opus 4.7 ดูแข็งกว่าในตัวเลข SWE-Bench Pro, SWE-Bench Verified และ CursorBench ที่อ้างโดย LushBinary [4].
  • ถ้าเน้น terminal agent และ computer use: GPT-5.5 มีหลักฐานทางการชัดที่สุด โดย OpenAI ระบุ 82.7% บน Terminal-Bench 2.0 [24].
  • ถ้าเน้นต้นทุนต่อรอบทดลอง: Kimi K2.6 ถูก CodeRouter วางเป็นผู้เล่นด้าน cost/quality ที่ $0.60 อินพุต และ $4.00 เอาต์พุต ต่อ 1 ล้านโทเคน [6].
  • ถ้าสนใจ DeepSeek V4: ยืนยันได้ว่า V4-Pro และ V4-Flash เปิดใช้ผ่าน API แล้ว แต่ยังไม่มีตารางเบนช์มาร์กสี่รุ่นจากแหล่งทางการในข้อมูลชุดนี้ [25].

อ่านตัวเลขอย่างไรให้ไม่หลงทาง

เบนช์มาร์กของ LLM ไม่เหมือนคะแนนสอบกลางที่ตัดสินได้จบในครั้งเดียว งานโค้ด งานใช้เทอร์มินัล งานอ่านเอกสาร และงานเรียกเครื่องมือ ล้วนวัดคนละมุมของโมเดลเดียวกัน ตัวเลขที่มาจากผู้พัฒนาโมเดลเองก็ควรแยกจากตัวเลขของเว็บไซต์วิเคราะห์ภายนอก เพราะเงื่อนไขการรัน benchmark อาจต่างกันได้

OpenAI อธิบาย Terminal-Bench 2.0 ว่าเป็นการทดสอบ workflow บน command line ที่ต้องมีการวางแผน ทำซ้ำ และประสานงานกับเครื่องมือ โดย GPT-5.5 ได้ 82.7% [24]. OpenAI ยังระบุว่า SWE-Bench Pro ใช้วัดการแก้ปัญหา GitHub issue ในโลกจริง และ GPT-5.5 ได้ 58.6% [24].

ฝั่ง DeepSeek เอกสาร API ระบุว่า V4-Pro และ V4-Flash ใช้งานได้ผ่านทั้ง OpenAI ChatCompletions interface และ Anthropic interface โดยตั้งค่า model เป็น deepseek-v4-pro หรือ deepseek-v4-flash [25]. นี่เป็นหลักฐานเรื่อง availability ไม่ใช่หลักฐานว่า DeepSeek V4 ชนะ benchmark ใด benchmark หนึ่ง

ตารางเปรียบเทียบค่าที่มีหลักฐานในแหล่งข้อมูลชุดนี้

คำว่า ไม่มีข้อมูลเทียบตรง หมายถึง แหล่งข้อมูลที่ใช้ในบทความนี้ไม่มีตัวเลขที่น่าเทียบกันโดยตรงสำหรับคู่โมเดลและ benchmark นั้น ไม่ได้แปลว่าโมเดลทำงานประเภทนั้นไม่ได้

Benchmark / เกณฑ์DeepSeek V4Kimi K2.6Claude Opus 4.7GPT-5.5
SWE-Bench Proไม่มีข้อมูลเทียบตรงCodeRouter ระบุว่าอยู่ระดับ GPT-5.5 [6]64.3% [4]58.6% [24]
SWE-Bench Verifiedไม่มีข้อมูลเทียบตรงไม่มีข้อมูลเทียบตรง87.6% [4]ราว 85% [4]
Terminal-Bench 2.0ไม่มีข้อมูลเทียบตรงไม่มีข้อมูลเทียบตรงราว 72% [4]82.7% [24]
GDPval / Knowledge Workไม่มีข้อมูลเทียบตรงไม่มีข้อมูลเทียบตรงราว 78% [4]84.9% [4]
OSWorld-Verified / Computer Useไม่มีข้อมูลเทียบตรงไม่มีข้อมูลเทียบตรงราว 65% [4]78.7% [4]
GPQA Diamondไม่มีข้อมูลเทียบตรงไม่มีข้อมูลเทียบตรง94.2% [4]ราว 93% [4]
CursorBenchไม่มีข้อมูลเทียบตรงไม่มีข้อมูลเทียบตรง70% [4]ราว 65% [4]
Tau2-bench Telecomไม่มีข้อมูลเทียบตรงไม่มีข้อมูลเทียบตรงราว 90% [4]98.0% [4]
Vision & Document Arenaไม่มีข้อมูลเทียบตรงไม่มีข้อมูลเทียบตรงอันดับ 1 ตามรายงาน Arena ที่ถูกอ้างถึง [1]ไม่มีข้อมูลเทียบตรง
ราคา / context ที่มีในแหล่งข้อมูลV4 Flash: $0.14 อินพุต / $0.28 เอาต์พุต ต่อ 1 ล้านโทเคน และ context 1M [6]$0.60 อินพุต / $4.00 เอาต์พุต ต่อ 1 ล้านโทเคน [6]ไม่มีข้อมูลในชุดนี้ไม่มีข้อมูลในชุดนี้

งานโค้ด: Claude นำคะแนน แต่ Kimi น่าสนใจถ้าต้องรันหลายรอบ

ถ้าโจทย์คือใช้โมเดลช่วยแก้บั๊ก ปิด issue หรือทำงานกับ codebase จริง ตัวเลขที่มีอยู่ชี้ไปทาง Claude Opus 4.7 มากที่สุด LushBinary ระบุ Claude Opus 4.7 ที่ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ OpenAI ระบุไว้ 58.6% [4][24]. แหล่งเดียวกันยังให้ Claude Opus 4.7 นำ GPT-5.5 บน SWE-Bench Verified และ CursorBench ด้วย [4].

แต่ Kimi K2.6 ไม่ควรถูกมองข้าม โดยเฉพาะทีมที่มี agent ทำงานหลายรอบ ลองหลาย draft หรือยอมให้ retry ได้ CodeRouter ระบุว่า Kimi K2.6 อยู่ระดับ GPT-5.5 บน SWE-Bench Pro และให้ราคาที่ $0.60 อินพุต / $4.00 เอาต์พุต ต่อ 1 ล้านโทเคน [6]. นี่ไม่ใช่ข้อสรุปว่า Kimi จะชนะทุก repo แต่เป็นสัญญาณที่ควรเอาไปทดสอบกับงานจริง หากต้นทุนต่อรอบมีความสำคัญ

สำหรับ DeepSeek V4 ข้อมูลทางการในชุดนี้บอกได้เพียงว่า V4-Pro และ V4-Flash เปิดให้ใช้ผ่าน API แล้ว [25]. ยังไม่พอจะสรุปคะแนน coding benchmark เทียบกับอีกสามรุ่นอย่างเป็นธรรม

Terminal agent และ computer use: GPT-5.5 มีหลักฐานแน่นที่สุด

ถ้างานของคุณเป็นเอเจนต์ที่ต้องพิมพ์คำสั่ง shell เอง แก้ไฟล์ เรียกเครื่องมือ และวนรอบจนงานจบ GPT-5.5 เป็นตัวเลือกที่มีหลักฐานสาธารณะชัดที่สุด OpenAI ระบุว่า GPT-5.5 ได้ 82.7% บน Terminal-Bench 2.0 ซึ่งวัด workflow บน command line ที่ต้องใช้การวางแผน การทำซ้ำ และการประสานงานกับเครื่องมือ [24]. LushBinary ให้ Claude Opus 4.7 อยู่ที่ราว 72% ใน benchmark เดียวกัน [4].

ในตัวชี้วัดที่ใกล้กับงาน knowledge work และ computer use แหล่งภายนอกเดียวกันก็ให้ GPT-5.5 นำ Claude Opus 4.7 เช่น 84.9% บน GDPval เทียบกับราว 78% และ 78.7% บน OSWorld-Verified เทียบกับราว 65% [4]. ถ้างานจริงของคุณคือให้โมเดลประสานหลายเครื่องมือ หรือทำงานใกล้เคียง GUI และระบบปฏิบัติการ GPT-5.5 จึงเป็นจุดเริ่มต้นที่มีหลักฐานรองรับมากที่สุดในชุดข้อมูลนี้

Vision และเอกสาร: Claude มีสัญญาณบวกชัด แต่ยังไม่ใช่ตารางสี่รุ่น

สำหรับงานอ่านภาพ เอกสาร แผนภาพ หรือ OCR แหล่งข้อมูลที่มีไม่ได้ให้ตารางเทียบครบทั้ง DeepSeek V4, Kimi K2.6, Claude Opus 4.7 และ GPT-5.5 อย่างเป็นระบบ สัญญาณที่เด่นที่สุดอยู่ที่ Claude Opus 4.7 โดยรายงาน Arena ที่ถูกอ้างถึงโดย Latent Space/AINews ระบุว่า Claude Opus 4.7 ได้อันดับ 1 ใน Vision & Document Arena [1].

LLM Stats ยังรายงานว่า Claude Opus 4.7 รองรับภาพได้ถึง 2,576 พิกเซลด้านยาว หรือประมาณ 3.75 เมกะพิกเซล ส่วน GPT-5.5 รองรับ image input และถูกระบุคะแนน MMMU-Pro ที่ 81.2% แบบไม่ใช้เครื่องมือ และ 83.2% แบบใช้เครื่องมือ [5]. ตัวเลขนี้ช่วยให้เห็นภาพระหว่าง Claude กับ GPT-5.5 แต่ยังไม่ควรใช้แทนการเปรียบเทียบสี่รุ่นเต็มรูปแบบกับ Kimi K2.6 และ DeepSeek V4

ราคา: อย่าดูแค่ดอลลาร์ต่อ 1 ล้านโทเคน

จุดขายด้านราคาที่ชัดที่สุดคือ Kimi K2.6 เพราะ CodeRouter วางให้เป็นผู้ชนะด้าน cost/quality และระบุราคาที่ $0.60 อินพุต กับ $4.00 เอาต์พุต ต่อ 1 ล้านโทเคน [6]. สำหรับทีมที่ต้องรัน agent จำนวนมาก ราคาแบบนี้อาจเปลี่ยนสมการได้มาก

DeepSeek V4 Flash ก็เป็นอีกตัวที่ควรอยู่ในชุดทดสอบ หากเป้าหมายคือทำงานซ้ำจำนวนมากในงบจำกัด CodeRouter ระบุราคา $0.14 อินพุต และ $0.28 เอาต์พุต ต่อ 1 ล้านโทเคน พร้อม context 1M [6]. เอกสาร DeepSeek ยังยืนยันว่า V4-Pro และ V4-Flash ใช้งานผ่าน API ปัจจุบันได้ [25].

อย่างไรก็ตาม ราคาต่อโทเคนไม่ใช่ต้นทุนสุดท้ายของงานจริง โมเดลที่ถูกกว่าอาจคุ้มมากถ้าทำงานถูกต้องตั้งแต่ไม่กี่รอบ แต่ถ้าต้อง retry บ่อย หรือสร้างบั๊กที่ต้องให้มนุษย์แก้ ต้นทุนแฝงอาจสูงกว่าที่เห็นในตารางราคา

วิธีทดสอบสี่รุ่นนี้ให้แฟร์กับงานของคุณ

สำหรับการเลือกใช้ในโปรดักชัน อย่าใช้ ranking เดียวตัดสินทั้งหมด ควรสร้าง eval set ขนาดเล็กจากงานจริงของทีม เช่น issue ที่เคยแก้แล้ว เอกสารภายในที่ต้องสรุป หรือ workflow ที่ agent ต้องใช้เครื่องมือหลายตัว จากนั้นรันทั้งสี่โมเดลด้วย prompt, context, tool permission และเกณฑ์ตัดสินเดียวกัน

ตัวชี้วัดที่ควรเก็บไม่ใช่แค่คำตอบแรกถูกหรือผิด แต่รวมถึงค่าใช้จ่ายต่อผลลัพธ์ที่ยอมรับได้ จำนวน retry เวลาในการรัน ความรุนแรงของข้อผิดพลาด และภาระตรวจทานของมนุษย์ แยกด้วยว่าอะไรคือค่าทางการจากผู้พัฒนาโมเดล เช่น GPT-5.5 บน Terminal-Bench 2.0 และ SWE-Bench Pro [24] และอะไรคือข้อมูลจากแหล่งภายนอก เช่นตาราง Claude/Kimi ที่ใช้ในบทความนี้ [4][6].

บทสรุป

คำตอบที่แม่นที่สุดไม่ใช่รุ่นใดรุ่นหนึ่งชนะทุกสนาม แต่เป็นการเลือกตามงาน: Claude Opus 4.7 ดูแข็งสุดในตัวเลขด้าน coding ที่อ้างถึง, GPT-5.5 มีหลักฐานแน่นสุดสำหรับ terminal agent และ computer use, Kimi K2.6 มีเรื่องเล่าด้านราคา/คุณภาพที่ชัดเจน และ DeepSeek V4 เป็นตัวเลือก API ที่ควรถูกนำไปวัดกับงานจริงมากกว่าจะสรุปชัยชนะจาก benchmark ที่ยังไม่มีครบในชุดข้อมูลนี้ [4][24][6][25].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

  • ยังไม่มีผู้ชนะรวมแบบชัดเจน: GPT 5.5 มีตัวเลขทางการที่ 82.7% บน Terminal Bench 2.0 และ 58.6% บน SWE Bench Pro ขณะที่ข้อมูลเทียบ Claude/Kimi ส่วนใหญ่เป็นแหล่งภายนอก [24][4][6].
  • งานแก้โค้ดและ GitHub issue: Claude Opus 4.7 ดูเด่นกว่าใน SWE Bench Pro, SWE Bench Verified และ CursorBench ตามข้อมูลของ LushBinary [4].
  • Kimi K2.6 ถูกวางเป็นตัวเลือกคุ้มราคา ส่วน DeepSeek V4 Pro/V4 Flash ยืนยันได้เรื่องการใช้งานผ่าน API มากกว่าชัยชนะในเบนช์มาร์ก [6][25].

คนยังถาม

คำตอบสั้น ๆ สำหรับ "DeepSeek V4, Kimi K2.6, Claude Opus 4.7 และ GPT-5.5: ใครชนะเบนช์มาร์กไหน" คืออะไร

ยังไม่มีผู้ชนะรวมแบบชัดเจน: GPT 5.5 มีตัวเลขทางการที่ 82.7% บน Terminal Bench 2.0 และ 58.6% บน SWE Bench Pro ขณะที่ข้อมูลเทียบ Claude/Kimi ส่วนใหญ่เป็นแหล่งภายนอก [24][4][6].

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ยังไม่มีผู้ชนะรวมแบบชัดเจน: GPT 5.5 มีตัวเลขทางการที่ 82.7% บน Terminal Bench 2.0 และ 58.6% บน SWE Bench Pro ขณะที่ข้อมูลเทียบ Claude/Kimi ส่วนใหญ่เป็นแหล่งภายนอก [24][4][6]. งานแก้โค้ดและ GitHub issue: Claude Opus 4.7 ดูเด่นกว่าใน SWE Bench Pro, SWE Bench Verified และ CursorBench ตามข้อมูลของ LushBinary [4].

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

Kimi K2.6 ถูกวางเป็นตัวเลือกคุ้มราคา ส่วน DeepSeek V4 Pro/V4 Flash ยืนยันได้เรื่องการใช้งานผ่าน API มากกว่าชัยชนะในเบนช์มาร์ก [6][25].

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Security รุ่นเบต้า: Anthropic ใช้ AI สแกนช่องโหว่โค้ดองค์กรอย่างไร" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "Grok 4.3 API ของ xAI: 1M context ราคาต่ำ และเกมรุกสู่แพลตฟอร์มเสียง"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ

คำถามวิจัย

Vergleiche die Benchmarks von DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5.

Studio Global AI26 แหล่งที่มา

อ้างถึงคำตอบ

Ein sauberer Benchmark-Vergleich ist derzeit nur eingeschränkt möglich: Für Claude Opus 4.7 und GPT-5.5 kursieren konkrete Vergleichswerte, aber für DeepSeek V4 und Kimi K2.6 finde ich keine gleichwertig belastbaren offiziellen Benchmark-Tabellen in den verfügbaren Quellen. Daher: Claude Opus 4.7 wirkt bei SWE-bench stärker, GPT-5.5 bei Terminal-/Agent-/Computer-Use-Benchmarks; Kimi K2.6 wird vor allem als Preis-Leistungs-Modell beschrieben; DeepSeek V4 ist laut DeepSeek-API-Changelog verfügbar, aber ohne robuste öffentliche Benchmark-Abdeckung in den gefundenen Quellen [4][6].

Benchmark / KriteriumDeepSeek V4Kimi K2.6Claude Opus 4.7GPT-5.5
SWE-bench ProInsufficient evidencelaut Sekundärquelle etwa auf GPT-5.5-Niveau bzw. starkes Preis-Leistungs-Profil [6]64.3% [4]58.6% [4]
SWE-bench VerifiedInsufficient evidenceInsufficient evidence87.6% [4]ca. 85% [4]
Terminal-Bench 2.0Insufficient evidenceInsufficient evidenceca. 72% [4]82.7% [4]
GDPval / Knowledge WorkInsufficient evidenceInsufficient evidenceca. 78% [4]84.9% [4]
OSWorld-Verified / Computer UseInsufficient evidenceInsufficient evidenceca. 65% [4]78.7% [4]
Vision / Document ArenaInsufficient evidenceInsufficient evidencelaut Arena-Bericht Platz 1 in Vision & Document Arena [1]Insufficient evidence
Preis-LeistungInsufficient evidenceals starker Kosten-/Qualitäts-Kandidat beschrieben [6]teuer/stark, aber nicht als Kostenführer beschrieben [6]stark, aber nicht Kostenführer laut Vergleich [6]
  • Coding: Claude Opus 4.7 liegt in den gefundenen Zahlen bei SWE-bench Pro und SWE-bench Verified vor GPT-5.5 [4].

  • Agentic / Terminal / Computer Use: GPT-5.5 liegt in den gefundenen Vergleichswerten bei Terminal-Bench 2.0, GDPval und OSWorld-Verified vor Claude Opus 4.7 [4].

  • Multimodal/Vision: Claude Opus 4.7 wird in den gefundenen Arena-Berichten als führend in Vision & Document Arena beschrieben [1].

  • Kimi K2.6: Die verfügbaren Quellen beschreiben Kimi K2.6 eher als Preis-Leistungs- bzw. Open-Model-Kandidat; belastbare direkte Zahlen für alle Benchmarks neben den anderen drei Modellen fehlen in den gefundenen Quellen [6][8].

  • DeepSeek V4: DeepSeek V4-Pro und V4-Flash werden im DeepSeek-API-Changelog als verfügbar genannt, aber ich finde in den verfügbaren Quellen keine ausreichend belastbare offizielle Benchmark-Tabelle für einen fairen direkten Vergleich [6].

  • Wichtig: Die beste belastbare Aussage ist nicht “ein Modell gewinnt alles”, sondern: Claude Opus 4.7 ist nach den gefundenen Zahlen stärker bei SWE-bench, GPT-5.5 stärker bei Terminal-/Agent-/Computer-Use, Kimi K2.6 wahrscheinlich attraktiver bei Kosten pro Leistung, und DeepSeek V4 bleibt mangels öffentlicher Benchmark-Daten schwer einzuordnen [4][6].

แหล่งที่มา

  • [1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space

    Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...

  • [4] GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding ...lushbinary.com

    Benchmark GPT-5.5 Opus 4.7 Gemini 3.1 Pro --- --- SWE-bench Pro 58.6% 64.3% 54.2% SWE-bench Verified 85% 87.6% 80% Terminal-Bench 2.0 82.7% 72% 68% GDPval (Knowledge Work) 84.9% 78% 75% OSWorld-Verified (Computer Use) 78.7% 65% 60% GPQA Diamond 93% 94.2% 91...

  • [5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com

    Vision: 3.75 MP vs Standard Opus 4.7 reads images at roughly 3.3× the resolution of any comparable model. Up to 2,576 pixels on the long edge ( 3.75 megapixels), versus 1,568 px ( 1.15 MP) on prior Claude models. Scores align: Opus 4.7 reports 91.0% on Char...

  • [6] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io

    TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...

  • [24] Introducing GPT-5.5 - OpenAIopenai.com

    Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...

  • [25] Change Log | DeepSeek API Docsapi-docs.deepseek.com

    DeepSeek API Docs Logo DeepSeek API Docs Logo Change Log Date: 2026-04-24​ DeepSeek-V4​ The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the bas...