รายงานเผยแพร่แล้ว28 เม.ย. 2026Last edited 6 พ.ค. 20266 แหล่งที่มา

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: benchmark และระดับหลักฐาน

ยังไม่ควรประกาศแชมป์รวมของทั้ง 4 โมเดล: ในตาราง OpenAI ที่เทียบได้ตรงกัน Claude Opus 4.7 ได้ SWE Bench Pro 64.3% สูงกว่า GPT 5.5 ที่ 58.6% แต่ GPT 5.5 ได้ Terminal Bench 2.0 82.7% สูงกว่า Claude ที่ 69.4% [21] Kimi K2.6 เหมาะใส่รายชื่อทดลองถ้าต้องการโมเดลเปิด: Hugging Face ระบุว่าเป็น open source, native multimodal...

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

17K0

四個 AI 模型基準測試比較的抽象儀表板插圖 — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4：基準測試比較表與證據等級AI 生成示意圖；本文聚焦可核驗 benchmark 分數與來源等級。
AI พรอมต์
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4：基準測試比較表與證據等級. Article summary: 目前不能公平排出四模型總冠軍：同表可比數據顯示 Claude Opus 4.7 在 SWE Bench Pro 64.3% vs GPT 5.5 58.6% 領先，但 GPT 5.5 在 Terminal Bench 2.0 82.7% vs 69.4% 領先；Kimi K2.6 與 DeepSeek V4 缺少同等級交叉驗證。[21]. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "OpenAI’s GPT-5.5, Anthropic’s Claude Opus 4.7, and DeepSeek V4 arrived close enough together to look like a clean three-way race. **GPT-5.5 is OpenAI’s bet on execution-heavy profe" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different ..." Reference image 2: visual subject "# DeepSeek V4 Pro vs Claude Opus 4.7 vs GPT-5.5: The Frontier in April 2026. DeepSeek V4 Pro undercuts GPT-5.5 by ~9x on outpu
openai.com

ถ้าจะใช้ผล benchmark เลือกโมเดล AI สำหรับงานจริง คำถามแรกไม่ควรเป็นว่า “รุ่นไหนชนะ” แต่ควรถามก่อนว่า “คะแนนไหนวัดด้วยวิธีเดียวกันจริง ๆ” เพราะตัวเลขจากคนละแหล่ง คนละ harness หรือคนละชุดงาน เอามาบวกเป็นอันดับรวมแล้วมักทำให้เข้าใจผิด

ในชุดข้อมูลที่อ้างอิงได้สำหรับบทความนี้ การเปรียบเทียบที่สะอาดที่สุดคือ GPT-5.5 กับ Claude Opus 4.7 เพราะ OpenAI มีตารางเดียวกันที่ใส่คะแนนของทั้งสองรุ่นใน SWE-Bench Pro และ Terminal-Bench 2.0 ^[21] ส่วน Kimi K2.6 มีข้อมูลจากหน้า Hugging Face และบทความบุคคลที่สาม ส่วน DeepSeek V4 ยังไม่มี benchmark ที่ตรวจสอบได้พอในแหล่งข้อมูลชุดนี้ ^[32]^[34]

ตารางเปรียบเทียบ benchmark

เครื่องหมาย — ในตารางหมายถึง “ไม่มีตัวเลขที่อ้างได้จากแหล่งข้อมูลในบทความนี้” ไม่ได้แปลว่าโมเดลทำงานประเภทนั้นไม่ได้ และไม่ควรนำคะแนนจากคนละแหล่งไปสรุปเป็นคะแนนรวมเดียวโดยตรง

โมเดล	SWE-Bench Pro	SWE-Bench Verified	Terminal-Bench 2.0	ข้อมูลอื่นที่เห็นได้	ระดับหลักฐานและวิธีอ่าน
GPT-5.5	58.6% ^[21]	—	82.7% ^[21]	Expert-SWE Internal 73.1%; OpenAI ระบุว่าห้องแล็บอื่นพบ memorization evidence ใน eval นี้ ^[21]	A-: SWE-Bench Pro และ Terminal-Bench 2.0 อยู่ในตาราง OpenAI เดียวกับ Claude Opus 4.7 จึงเทียบกันได้ตรงที่สุดในบทความนี้ แต่ Expert-SWE เป็น internal eval จึงควรอ่านแบบระมัดระวัง ^[21]
Claude Opus 4.7	64.3% ^[21]	87.6% ^[4]^[6]	69.4% ^[21]	CursorBench 70% ^[4]^[6]	A-/B: SWE-Bench Pro และ Terminal-Bench 2.0 เทียบกับ GPT-5.5 ได้จากตารางเดียวกัน ส่วน SWE-Bench Verified และ CursorBench มาจากบทความรวบรวม/สรุปของบุคคลที่สาม โดย Verdent ระบุว่า Verified เป็น Anthropic-conducted และ CursorBench เป็น partner eval ^[6]^[21]
Kimi K2.6	58.6% ^[34]	80.2% ^[34]	—	Hugging Face ระบุว่า Kimi K2.6 เป็น open-source, native multimodal agentic model ^[32]	B แบบจำกัด: ตัวเลข SWE-Bench มาจากบทความบุคคลที่สาม ยังไม่ใช่ตารางทางการชุดเดียวกับ GPT-5.5 และ Claude Opus 4.7 จึงเหมาะเป็นสัญญาณเบื้องต้นมากกว่าหลักฐานตัดสินแพ้ชนะ ^[32]^[34]
DeepSeek V4	—	—	—	—	C ข้อมูลไม่พอ: แหล่งข้อมูลที่ใช้ในบทความนี้ยังไม่มี benchmark ของ DeepSeek V4 ที่อ้างและตรวจสอบได้พอ จึงไม่จัดอันดับเชิงตัวเลข

benchmark ไหนตอบคำถามอะไร

SWE-Bench Pro: Claude Opus 4.7 นำ GPT-5.5 ในข้อมูลที่เทียบตรงกัน

ในตารางประเมินของ OpenAI, Claude Opus 4.7 ได้ SWE-Bench Pro 64.3% ส่วน GPT-5.5 ได้ 58.6% ^[21] นี่เป็นหนึ่งในจุดเปรียบเทียบที่แข็งแรงที่สุดของบทความนี้ เพราะทั้งสองรุ่นอยู่ในตารางเดียวกัน

สำหรับผู้อ่านที่ไม่ได้ตามวงการ coding agent ตลอดเวลา ให้มอง SWE-Bench Pro เป็นสัญญาณของงานวิศวกรรมซอฟต์แวร์ที่ใกล้กับการแก้ issue หรือบั๊กใน repository จริงมากกว่าการให้โมเดลเขียนโค้ดสั้น ๆ จากโจทย์เดียว บทวิเคราะห์ของ Vellum ก็อธิบายคู่เปรียบเทียบนี้ในบริบท real GitHub issue resolution ^[24]

Kimi K2.6 ถูกบทความของ Kilo AI ระบุว่าได้ SWE-Bench Pro 58.6% ซึ่งดูใกล้ GPT-5.5 ^[34] แต่ตัวเลขนี้ไม่ได้อยู่ในตารางอ้างอิงเดียวกับ GPT-5.5 และ Claude Opus 4.7 จึงควรใช้เป็นข้อมูลประกอบ ไม่ใช่หลักฐานว่าเทียบกันแบบ apples-to-apples แล้วเสมอกัน

Terminal-Bench 2.0: GPT-5.5 นำ Claude Opus 4.7 ชัดเจน

ในตาราง OpenAI เดียวกัน GPT-5.5 ได้ Terminal-Bench 2.0 ที่ 82.7% ขณะที่ Claude Opus 4.7 ได้ 69.4% ^[21] ถ้างานของคุณใกล้กับเอเจนต์ที่ต้องทำงานใน terminal ใช้คำสั่ง command line รัน test และจัดการ workflow ของโค้ด GPT-5.5 ควรถูกใส่ไว้ในรายชื่อทดลองก่อน

อย่างไรก็ตาม บทความนี้ไม่มีตัวเลข Terminal-Bench 2.0 ที่อ้างได้สำหรับ Kimi K2.6 หรือ DeepSeek V4 ดังนั้น benchmark ช่องนี้ยังใช้จัดอันดับครบทั้ง 4 รุ่นไม่ได้

SWE-Bench Verified: Claude สูงกว่า Kimi แต่แหล่งข้อมูลคนละระดับ

Claude Opus 4.7 มีคะแนน SWE-Bench Verified 87.6% ในบทความรวบรวมของบุคคลที่สาม และ Verdent ระบุว่าคะแนนนี้เป็น Anthropic-conducted พร้อม memorization screens applied ^[4]^[6] ส่วน Kimi K2.6 มีคะแนน SWE-Bench Verified 80.2% จากบทความของ Kilo AI ^[34]

ตัวเลขทั้งสองชุดมีประโยชน์ แต่ไม่แข็งแรงเท่าการเปรียบเทียบ GPT-5.5 กับ Claude Opus 4.7 ในตาราง OpenAI เดียวกัน ^[21] ถ้าจะใช้ประกอบการตัดสินใจ ควรมองเป็นสัญญาณว่าโมเดลน่าทดลอง ไม่ใช่คำตัดสินสุดท้าย

Expert-SWE: ใช้เป็นสัญญาณได้ แต่ไม่ควรใช้จัดอันดับรวม

GPT-5.5 ได้ Expert-SWE Internal 73.1% แต่ OpenAI ระบุเองว่าเป็น internal eval และมีหมายเหตุว่าห้องแล็บอื่นพบ memorization evidence ใน eval นี้ ^[21] ดังนั้นคะแนนนี้อาจบอกทิศทางความสามารถภายในชุดทดสอบของ OpenAI ได้ แต่ไม่ควรใช้เป็นแกนหลักในการประกาศว่า GPT-5.5 เหนือกว่าหรือด้อยกว่าทุกโมเดลโดยรวม

เลือกโมเดลตามงาน ไม่ใช่ตามอันดับรวม

ถ้างานหลักคือแก้ issue ในโค้ดหรือทำงานวิศวกรรมซอฟต์แวร์ซับซ้อน ให้เริ่มทดสอบ Claude Opus 4.7 ก่อน เพราะใน SWE-Bench Pro ที่เทียบได้จากตารางเดียวกัน Claude Opus 4.7 ได้ 64.3% สูงกว่า GPT-5.5 ที่ 58.6% ^[21] และ Vellum ก็วาง benchmark นี้ในบริบทของการแก้ GitHub issue จริง ^[24]

ถ้างานหลักคือ coding agent ที่ต้องทำงานผ่าน terminal ให้เริ่มทดสอบ GPT-5.5 ก่อน เพราะ GPT-5.5 ได้ Terminal-Bench 2.0 ที่ 82.7% สูงกว่า Claude Opus 4.7 ที่ 69.4% ^[21] นี่ไม่ได้แปลว่า GPT-5.5 ชนะทุกงานเขียนโค้ด แต่แปลว่ามีสัญญาณเด่นใน benchmark ประเภทนี้

ถ้าต้องการโมเดลเปิดหรืออยากมีตัวเลือกที่ไม่ใช่เฉพาะโมเดลปิด Kimi K2.6 ควรอยู่ใน shortlist หน้า Hugging Face ระบุว่า Kimi K2.6 เป็น open-source, native multimodal agentic model และบทความของ Kilo AI ระบุคะแนน SWE-Bench Pro 58.6% กับ SWE-Bench Verified 80.2% ^[32]^[34] แต่ควรนำมาทดสอบกับชุดงานของคุณเองก่อนตัดสินใจ เพราะหลักฐานยังไม่เทียบตรงกับตาราง OpenAI

ถ้ากำลังประเมิน DeepSeek V4 วิธีที่ปลอดภัยที่สุดคือรอ benchmark ที่อ้างได้หรือรัน eval เอง ในชุดแหล่งข้อมูลของบทความนี้ยังไม่มีตัวเลขที่ตรวจสอบได้เพียงพอ การฝืนใส่คะแนนหรือจัดอันดับจะทำให้ตารางดูสมบูรณ์ขึ้น แต่ความจริงอาจทำให้ตัดสินใจผิดมากกว่าเดิม

ทำไมบทความนี้ไม่ให้ตำแหน่งแชมป์รวม

การอ่าน benchmark ของ LLM คล้ายดูคะแนนสอบหลายวิชา: คะแนนสูงในข้อสอบหนึ่งไม่ได้แปลว่าชนะทุกสถานการณ์ โดยเฉพาะเมื่อข้อสอบมาจากคนละแหล่งและวัดคนละพฤติกรรม บทความนี้จึงแยกระดับหลักฐานเป็น 3 ชั้น

ตัวเลขในตารางเดียวกันและ benchmark เดียวกัน เช่น GPT-5.5 กับ Claude Opus 4.7 ใน SWE-Bench Pro และ Terminal-Bench 2.0 ของ OpenAI ข้อมูลชุดนี้เหมาะกับการเทียบตรงที่สุดในบทความนี้ ^[21]
ตัวเลขจากบทความรวบรวมหรือ vendor/partner eval เช่น SWE-Bench Verified และ CursorBench ของ Claude Opus 4.7 ยังมีประโยชน์ แต่ต้องดูว่าใครรัน test และใช้เงื่อนไขอะไร ^[4]^[6]
ตัวเลขที่ยังขาดการ cross-check หรือยังไม่มีแหล่งอ้างพอ เช่น Kimi K2.6 ที่ตอนนี้ในบทความนี้พึ่งพาคะแนนจากบุคคลที่สามเป็นหลัก และ DeepSeek V4 ที่ยังไม่มี benchmark พอให้จัดอันดับ ^[32]^[34]

ข้อสรุปที่ยืนได้จากหลักฐานตอนนี้คือ: Claude Opus 4.7 นำ GPT-5.5 ใน SWE-Bench Pro, GPT-5.5 นำ Claude Opus 4.7 ใน Terminal-Bench 2.0, Kimi K2.6 มีตัวเลข SWE-Bench ที่น่าสนใจแต่หลักฐานยังจำกัด และ DeepSeek V4 ควรถูกจัดเป็นข้อมูลไม่พอในตอนนี้ ^[21]^[32]^[34]

หลังจากใช้ตารางนี้ทำ shortlist แล้ว ขั้นตอนสำคัญกว่าคือทดสอบกับงานของคุณเอง เช่น repository ที่ใช้จริง ภาษาโปรแกรมที่ใช้จริง วิธีรัน test การเรียกเครื่องมือ latency ค่าใช้จ่าย และวิธีฟื้นตัวเมื่อ agent ทำพลาด ผลลัพธ์แบบนั้นจะบอกความเหมาะสมในผลิตภัณฑ์จริงได้ดีกว่าการถามว่าโมเดลใดเป็นที่หนึ่งของทุก benchmark

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

ยังไม่ควรประกาศแชมป์รวมของทั้ง 4 โมเดล: ในตาราง OpenAI ที่เทียบได้ตรงกัน Claude Opus 4.7 ได้ SWE Bench Pro 64.3% สูงกว่า GPT 5.5 ที่ 58.6% แต่ GPT 5.5 ได้ Terminal Bench 2.0 82.7% สูงกว่า Claude ที่ 69.4% [21]
Kimi K2.6 เหมาะใส่รายชื่อทดลองถ้าต้องการโมเดลเปิด: Hugging Face ระบุว่าเป็น open source, native multimodal agentic model และบทความบุคคลที่สามให้คะแนน SWE Bench Pro 58.6% กับ SWE Bench Verified 80.2% แต่ยังไม่ควรนำไปเท...
GPT 5.5 มี Expert SWE 73.1% แต่เป็น internal eval และ OpenAI ระบุว่าห้องแล็บอื่นพบ memorization evidence ใน eval นี้ จึงไม่เหมาะใช้เป็นแกนจัดอันดับรวม [21]

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: benchmark และระดับหลักฐาน" คืออะไร

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

GPT 5.5 มี Expert SWE 73.1% แต่เป็น internal eval และ OpenAI ระบุว่าห้องแล็บอื่นพบ memorization evidence ใน eval นี้ จึงไม่เหมาะใช้เป็นแกนจัดอันดับรวม [21]

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7 เทียบ GPT-5.5, DeepSeek V4 และ Kimi K2.6: อ่านเบนช์มาร์กปี 2026 แบบไม่หลงตัวเลข

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: สรุปเบนช์มาร์กปี 2026 และคำตัดสิน

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา

DeepSeek V4 ไม่ใช่แค่โมเดล 1M context

โจทย์ความยืดหยุ่น Northwest vs. Southeast Timber: ทำไมคำตอบคือ larger; larger

Northwest กับ Southeast Timber: ทำไมแทนกันได้มากขึ้นแล้วต้องตอบ larger; larger

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek จะโค่น OpenAI, Claude, Gemini และ Grok ได้ไหม? เกมจริงอยู่ที่ต้นทุนและความไว้วางใจ

การสนทนาการวิจัย

คุณ25 เม.ย. 2026

คำถามวิจัย

研究 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 的基準測試，並為我以比較表形式展示。

Studio Global AI25 เม.ย. 202640 แหล่งที่มา

อ้างถึงคำตอบ

先給你可用結論：在本次可核實資料裡，GPT-5.5 與 Claude Opus 4.7 的 benchmark 最完整，且在 OpenAI 同一張對照表上，Claude Opus 4.7 在 SWE-Bench Pro 以 64.3% 高於 GPT-5.5 的 58.6%，但 GPT-5.5 在 Terminal-Bench 2.0 以 82.7% 高於 Claude Opus 4.7 的 69.4%。^[14] Kimi K2.6 目前只看到第三方摘要數值，DeepSeek V4 則缺乏足夠可核實 benchmark，因此我把「分數」與「證據等級」一起標在表裡。^[4]

Key findings

模型	SWE-Bench Pro	SWE-Bench Verified	Terminal-Bench 2.0	其他可見 benchmark	證據等級 / 備註
GPT-5.5	58.6% ^[14]	—	82.7% ^[14]	Expert-SWE（Internal）73.1% ^[14]	OpenAI 官方資料；OpenAI 也註記 Expert-SWE 有 memorization 風險提示，需保守解讀。^[14]
Claude Opus 4.7	64.3% ^[14]	87.6% ^[10]	69.4% ^[14]	CursorBench 70% ^[10]	SWE-Bench Pro / Terminal-Bench 2.0 可與 GPT-5.5 同口徑比較。^[14] Verified / CursorBench 來自第三方對 vendor/partner eval 的摘要，不是獨立 leaderboard。^[10]
Kimi K2.6	58.6% ^[4]	80.2% ^[4]	—	—	目前僅見第三方摘要，未在本次證據集中交叉核實到官方完整 benchmark 頁面。^[4]
DeepSeek V4	Insufficient evidence	Insufficient evidence	Insufficient evidence	—	本次檢索未取得足夠可核實 benchmark，暫不做數值比較。

如果只看目前可同口徑對照的共享 benchmark，Claude Opus 4.7 在 SWE-Bench Pro 高於 GPT-5.5，而 GPT-5.5 在 Terminal-Bench 2.0 高於 Claude Opus 4.7。^[14]
GPT-5.5 的 73.1% Expert-SWE 屬於 internal eval，且 OpenAI 自己提醒有 memorization caveat，因此不宜單獨把它當作總體排名依據。^[14]
Claude Opus 4.7 的 87.6% SWE-Bench Verified 很強，但本次可用資料中，這個數值來自第三方摘要的 vendor/partner-eval 描述，可信度仍低於同張官方對照表裡的共享 benchmark。^[10]^[14]
Kimi K2.6 依目前可見摘要，在 SWE-Bench Pro 與 GPT-5.5 同為 58.6%，且 SWE-Bench Verified 為 80.2%，但因缺乏同等級官方交叉驗證，我不建議直接把它與 GPT-5.5、Claude Opus 4.7 做嚴格總排名。^[4]^[14]

Evidence notes

OpenAI 的比較表同時列出 GPT-5.5、GPT-5.4、Claude Opus 4.7 與 Gemini 3.1 Pro 在 SWE-Bench Pro 與 Terminal-Bench 2.0 的成績，所以這兩欄是本次最乾淨的 apples-to-apples 子集。^[14]
Claude Opus 4.7 的 87.6% SWE-Bench Verified 與 70% CursorBench，在本次資料中來自第三方摘要，且摘要本身把它描述為 Anthropic-conducted / partner eval。^[10]
Kimi K2.6 的數值來自本次檢索到的第三方結果摘要，而不是我已核實的官方 benchmark 表。^[4]

Limitations / uncertainty

四個模型沒有在完全一致的 benchmark 集上都公布足夠數字，因此如果你要的是「四家嚴格總排名」，目前證據不足。^[14]^[10]^[4]
目前可見的多數數據仍帶有廠商自報、合作方摘要或單一來源片段的限制，獨立重跑結果可能不同。^[14]^[10]
DeepSeek V4：Insufficient evidence.

Summary

目前最穩妥的比較方式，是只拿共享 benchmark 來看：Claude Opus 4.7 在 SWE-Bench Pro 領先，GPT-5.5 在 Terminal-Bench 2.0 領先。^[14] Kimi K2.6 看起來在 SWE-Bench 系列有競爭力，但證據等級較低。^[4] DeepSeek V4 目前無法公平放入同一張排名表，因為可核實資料不足。

如果你要，我下一步可以幫你做兩個延伸版本：

只保留「官方來源」的極保守比較表。
擴充到 Artificial Analysis、Vals AI 等第三方榜單，做一版「更完整但混合來源」的比較表。

แหล่งที่มา

[4] Claude Opus 4.7: Full Review, Benchmarks & Features (2026)buildfastwithai.com
Claude Opus 4.7 Benchmarks: The Full Picture Claude Opus 4.7 leads all publicly available (non-preview) models on five major benchmarks as of April 16, 2026. The one exception is BrowseComp, which I will address in detail below. The headline: SWE-bench Pro...
[6] Claude Opus 4.7: What Changed for Coding Agents (April 2026)verdent.ai
Benchmark Opus 4.6 Opus 4.7 GPT-5.4 Notes --- --- SWE-bench Verified 80.80% 87.60% — Anthropic-conducted; memorization screens applied SWE-bench Pro 53.50% 64.30% 57.70% Multi-language real-world tasks CursorBench 58% 70% — Source: Cursor CEO Michael Truell...
[21] Introducing GPT-5.5openai.com
Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...
[24] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
SWE-bench Pro: the coding crown stays with Anthropic Claude Opus 4.7 scores 64.3% versus GPT-5.5's 58.6% — a 5.7-point gap on real GitHub issue resolution. OpenAI's system card includes an asterisk noting "evidence of memorization" from other labs on this e...
[32] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
Kimi K2.6 is an open-source, native multimodal agentic model that advances practical capabilities in long-horizon coding, coding-driven design, ... 5 days ago
[34] Kimi K2.6 Has Arrived: An Open-Weight Powerhouse for Agentic Workblog.kilo.ai
It scored an impressive 80.2% on SWE-Bench Verified and 58.6% on SWE-Bench Pro, showcasing its deep understanding of real-world software ... 5 days ago

ค้นพบเทรนด์

รายงานเผยแพร่แล้ว28 เม.ย. 2026Last edited 6 พ.ค. 20266 แหล่งที่มา

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: benchmark และระดับหลักฐาน

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

17K0

ตารางเปรียบเทียบ benchmark

โมเดล	SWE-Bench Pro	SWE-Bench Verified	Terminal-Bench 2.0	ข้อมูลอื่นที่เห็นได้	ระดับหลักฐานและวิธีอ่าน
GPT-5.5	58.6% ^[21]	—	82.7% ^[21]	Expert-SWE Internal 73.1%; OpenAI ระบุว่าห้องแล็บอื่นพบ memorization evidence ใน eval นี้ ^[21]	A-: SWE-Bench Pro และ Terminal-Bench 2.0 อยู่ในตาราง OpenAI เดียวกับ Claude Opus 4.7 จึงเทียบกันได้ตรงที่สุดในบทความนี้ แต่ Expert-SWE เป็น internal eval จึงควรอ่านแบบระมัดระวัง ^[21]
Claude Opus 4.7	64.3% ^[21]	87.6% ^[4]^[6]	69.4% ^[21]	CursorBench 70% ^[4]^[6]	A-/B: SWE-Bench Pro และ Terminal-Bench 2.0 เทียบกับ GPT-5.5 ได้จากตารางเดียวกัน ส่วน SWE-Bench Verified และ CursorBench มาจากบทความรวบรวม/สรุปของบุคคลที่สาม โดย Verdent ระบุว่า Verified เป็น Anthropic-conducted และ CursorBench เป็น partner eval ^[6]^[21]
Kimi K2.6	58.6% ^[34]	80.2% ^[34]	—	Hugging Face ระบุว่า Kimi K2.6 เป็น open-source, native multimodal agentic model ^[32]	B แบบจำกัด: ตัวเลข SWE-Bench มาจากบทความบุคคลที่สาม ยังไม่ใช่ตารางทางการชุดเดียวกับ GPT-5.5 และ Claude Opus 4.7 จึงเหมาะเป็นสัญญาณเบื้องต้นมากกว่าหลักฐานตัดสินแพ้ชนะ ^[32]^[34]
DeepSeek V4	—	—	—	—	C ข้อมูลไม่พอ: แหล่งข้อมูลที่ใช้ในบทความนี้ยังไม่มี benchmark ของ DeepSeek V4 ที่อ้างและตรวจสอบได้พอ จึงไม่จัดอันดับเชิงตัวเลข

benchmark ไหนตอบคำถามอะไร

SWE-Bench Pro: Claude Opus 4.7 นำ GPT-5.5 ในข้อมูลที่เทียบตรงกัน

Terminal-Bench 2.0: GPT-5.5 นำ Claude Opus 4.7 ชัดเจน

SWE-Bench Verified: Claude สูงกว่า Kimi แต่แหล่งข้อมูลคนละระดับ

Expert-SWE: ใช้เป็นสัญญาณได้ แต่ไม่ควรใช้จัดอันดับรวม

เลือกโมเดลตามงาน ไม่ใช่ตามอันดับรวม

ทำไมบทความนี้ไม่ให้ตำแหน่งแชมป์รวม

ตัวเลขในตารางเดียวกันและ benchmark เดียวกัน เช่น GPT-5.5 กับ Claude Opus 4.7 ใน SWE-Bench Pro และ Terminal-Bench 2.0 ของ OpenAI ข้อมูลชุดนี้เหมาะกับการเทียบตรงที่สุดในบทความนี้ ^[21]
ตัวเลขจากบทความรวบรวมหรือ vendor/partner eval เช่น SWE-Bench Verified และ CursorBench ของ Claude Opus 4.7 ยังมีประโยชน์ แต่ต้องดูว่าใครรัน test และใช้เงื่อนไขอะไร ^[4]^[6]
ตัวเลขที่ยังขาดการ cross-check หรือยังไม่มีแหล่งอ้างพอ เช่น Kimi K2.6 ที่ตอนนี้ในบทความนี้พึ่งพาคะแนนจากบุคคลที่สามเป็นหลัก และ DeepSeek V4 ที่ยังไม่มี benchmark พอให้จัดอันดับ ^[32]^[34]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

ยังไม่ควรประกาศแชมป์รวมของทั้ง 4 โมเดล: ในตาราง OpenAI ที่เทียบได้ตรงกัน Claude Opus 4.7 ได้ SWE Bench Pro 64.3% สูงกว่า GPT 5.5 ที่ 58.6% แต่ GPT 5.5 ได้ Terminal Bench 2.0 82.7% สูงกว่า Claude ที่ 69.4% [21]
Kimi K2.6 เหมาะใส่รายชื่อทดลองถ้าต้องการโมเดลเปิด: Hugging Face ระบุว่าเป็น open source, native multimodal agentic model และบทความบุคคลที่สามให้คะแนน SWE Bench Pro 58.6% กับ SWE Bench Verified 80.2% แต่ยังไม่ควรนำไปเท...
GPT 5.5 มี Expert SWE 73.1% แต่เป็น internal eval และ OpenAI ระบุว่าห้องแล็บอื่นพบ memorization evidence ใน eval นี้ จึงไม่เหมาะใช้เป็นแกนจัดอันดับรวม [21]

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: benchmark และระดับหลักฐาน" คืออะไร

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ25 เม.ย. 2026

คำถามวิจัย

研究 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 的基準測試，並為我以比較表形式展示。

Studio Global AI25 เม.ย. 202640 แหล่งที่มา

อ้างถึงคำตอบ

Key findings

模型	SWE-Bench Pro	SWE-Bench Verified	Terminal-Bench 2.0	其他可見 benchmark	證據等級 / 備註
GPT-5.5	58.6% ^[14]	—	82.7% ^[14]	Expert-SWE（Internal）73.1% ^[14]	OpenAI 官方資料；OpenAI 也註記 Expert-SWE 有 memorization 風險提示，需保守解讀。^[14]
Claude Opus 4.7	64.3% ^[14]	87.6% ^[10]	69.4% ^[14]	CursorBench 70% ^[10]	SWE-Bench Pro / Terminal-Bench 2.0 可與 GPT-5.5 同口徑比較。^[14] Verified / CursorBench 來自第三方對 vendor/partner eval 的摘要，不是獨立 leaderboard。^[10]
Kimi K2.6	58.6% ^[4]	80.2% ^[4]	—	—	目前僅見第三方摘要，未在本次證據集中交叉核實到官方完整 benchmark 頁面。^[4]
DeepSeek V4	Insufficient evidence	Insufficient evidence	Insufficient evidence	—	本次檢索未取得足夠可核實 benchmark，暫不做數值比較。

如果只看目前可同口徑對照的共享 benchmark，Claude Opus 4.7 在 SWE-Bench Pro 高於 GPT-5.5，而 GPT-5.5 在 Terminal-Bench 2.0 高於 Claude Opus 4.7。^[14]
GPT-5.5 的 73.1% Expert-SWE 屬於 internal eval，且 OpenAI 自己提醒有 memorization caveat，因此不宜單獨把它當作總體排名依據。^[14]
Claude Opus 4.7 的 87.6% SWE-Bench Verified 很強，但本次可用資料中，這個數值來自第三方摘要的 vendor/partner-eval 描述，可信度仍低於同張官方對照表裡的共享 benchmark。^[10]^[14]
Kimi K2.6 依目前可見摘要，在 SWE-Bench Pro 與 GPT-5.5 同為 58.6%，且 SWE-Bench Verified 為 80.2%，但因缺乏同等級官方交叉驗證，我不建議直接把它與 GPT-5.5、Claude Opus 4.7 做嚴格總排名。^[4]^[14]

Evidence notes

OpenAI 的比較表同時列出 GPT-5.5、GPT-5.4、Claude Opus 4.7 與 Gemini 3.1 Pro 在 SWE-Bench Pro 與 Terminal-Bench 2.0 的成績，所以這兩欄是本次最乾淨的 apples-to-apples 子集。^[14]
Claude Opus 4.7 的 87.6% SWE-Bench Verified 與 70% CursorBench，在本次資料中來自第三方摘要，且摘要本身把它描述為 Anthropic-conducted / partner eval。^[10]
Kimi K2.6 的數值來自本次檢索到的第三方結果摘要，而不是我已核實的官方 benchmark 表。^[4]

Limitations / uncertainty

四個模型沒有在完全一致的 benchmark 集上都公布足夠數字，因此如果你要的是「四家嚴格總排名」，目前證據不足。^[14]^[10]^[4]
目前可見的多數數據仍帶有廠商自報、合作方摘要或單一來源片段的限制，獨立重跑結果可能不同。^[14]^[10]
DeepSeek V4：Insufficient evidence.

Summary

如果你要，我下一步可以幫你做兩個延伸版本：

只保留「官方來源」的極保守比較表。
擴充到 Artificial Analysis、Vals AI 等第三方榜單，做一版「更完整但混合來源」的比較表。

แหล่งที่มา

[4] Claude Opus 4.7: Full Review, Benchmarks & Features (2026)buildfastwithai.com
Claude Opus 4.7 Benchmarks: The Full Picture Claude Opus 4.7 leads all publicly available (non-preview) models on five major benchmarks as of April 16, 2026. The one exception is BrowseComp, which I will address in detail below. The headline: SWE-bench Pro...
[6] Claude Opus 4.7: What Changed for Coding Agents (April 2026)verdent.ai
Benchmark Opus 4.6 Opus 4.7 GPT-5.4 Notes --- --- SWE-bench Verified 80.80% 87.60% — Anthropic-conducted; memorization screens applied SWE-bench Pro 53.50% 64.30% 57.70% Multi-language real-world tasks CursorBench 58% 70% — Source: Cursor CEO Michael Truell...
[21] Introducing GPT-5.5openai.com
Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...
[24] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
SWE-bench Pro: the coding crown stays with Anthropic Claude Opus 4.7 scores 64.3% versus GPT-5.5's 58.6% — a 5.7-point gap on real GitHub issue resolution. OpenAI's system card includes an asterisk noting "evidence of memorization" from other labs on this e...
[32] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
Kimi K2.6 is an open-source, native multimodal agentic model that advances practical capabilities in long-horizon coding, coding-driven design, ... 5 days ago
[34] Kimi K2.6 Has Arrived: An Open-Weight Powerhouse for Agentic Workblog.kilo.ai
It scored an impressive 80.2% on SWE-Bench Verified and 58.6% on SWE-Bench Pro, showcasing its deep understanding of real-world software ... 5 days ago

ค้นพบเทรนด์

รายงานเผยแพร่แล้ว28 เม.ย. 2026Last edited 6 พ.ค. 20266 แหล่งที่มา

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: benchmark และระดับหลักฐาน

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

17K0

ตารางเปรียบเทียบ benchmark

โมเดล	SWE-Bench Pro	SWE-Bench Verified	Terminal-Bench 2.0	ข้อมูลอื่นที่เห็นได้	ระดับหลักฐานและวิธีอ่าน
GPT-5.5	58.6% ^[21]	—	82.7% ^[21]	Expert-SWE Internal 73.1%; OpenAI ระบุว่าห้องแล็บอื่นพบ memorization evidence ใน eval นี้ ^[21]	A-: SWE-Bench Pro และ Terminal-Bench 2.0 อยู่ในตาราง OpenAI เดียวกับ Claude Opus 4.7 จึงเทียบกันได้ตรงที่สุดในบทความนี้ แต่ Expert-SWE เป็น internal eval จึงควรอ่านแบบระมัดระวัง ^[21]
Claude Opus 4.7	64.3% ^[21]	87.6% ^[4]^[6]	69.4% ^[21]	CursorBench 70% ^[4]^[6]	A-/B: SWE-Bench Pro และ Terminal-Bench 2.0 เทียบกับ GPT-5.5 ได้จากตารางเดียวกัน ส่วน SWE-Bench Verified และ CursorBench มาจากบทความรวบรวม/สรุปของบุคคลที่สาม โดย Verdent ระบุว่า Verified เป็น Anthropic-conducted และ CursorBench เป็น partner eval ^[6]^[21]
Kimi K2.6	58.6% ^[34]	80.2% ^[34]	—	Hugging Face ระบุว่า Kimi K2.6 เป็น open-source, native multimodal agentic model ^[32]	B แบบจำกัด: ตัวเลข SWE-Bench มาจากบทความบุคคลที่สาม ยังไม่ใช่ตารางทางการชุดเดียวกับ GPT-5.5 และ Claude Opus 4.7 จึงเหมาะเป็นสัญญาณเบื้องต้นมากกว่าหลักฐานตัดสินแพ้ชนะ ^[32]^[34]
DeepSeek V4	—	—	—	—	C ข้อมูลไม่พอ: แหล่งข้อมูลที่ใช้ในบทความนี้ยังไม่มี benchmark ของ DeepSeek V4 ที่อ้างและตรวจสอบได้พอ จึงไม่จัดอันดับเชิงตัวเลข

benchmark ไหนตอบคำถามอะไร

SWE-Bench Pro: Claude Opus 4.7 นำ GPT-5.5 ในข้อมูลที่เทียบตรงกัน

Terminal-Bench 2.0: GPT-5.5 นำ Claude Opus 4.7 ชัดเจน

SWE-Bench Verified: Claude สูงกว่า Kimi แต่แหล่งข้อมูลคนละระดับ

Expert-SWE: ใช้เป็นสัญญาณได้ แต่ไม่ควรใช้จัดอันดับรวม

เลือกโมเดลตามงาน ไม่ใช่ตามอันดับรวม

ทำไมบทความนี้ไม่ให้ตำแหน่งแชมป์รวม

ตัวเลขในตารางเดียวกันและ benchmark เดียวกัน เช่น GPT-5.5 กับ Claude Opus 4.7 ใน SWE-Bench Pro และ Terminal-Bench 2.0 ของ OpenAI ข้อมูลชุดนี้เหมาะกับการเทียบตรงที่สุดในบทความนี้ ^[21]
ตัวเลขจากบทความรวบรวมหรือ vendor/partner eval เช่น SWE-Bench Verified และ CursorBench ของ Claude Opus 4.7 ยังมีประโยชน์ แต่ต้องดูว่าใครรัน test และใช้เงื่อนไขอะไร ^[4]^[6]
ตัวเลขที่ยังขาดการ cross-check หรือยังไม่มีแหล่งอ้างพอ เช่น Kimi K2.6 ที่ตอนนี้ในบทความนี้พึ่งพาคะแนนจากบุคคลที่สามเป็นหลัก และ DeepSeek V4 ที่ยังไม่มี benchmark พอให้จัดอันดับ ^[32]^[34]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

ยังไม่ควรประกาศแชมป์รวมของทั้ง 4 โมเดล: ในตาราง OpenAI ที่เทียบได้ตรงกัน Claude Opus 4.7 ได้ SWE Bench Pro 64.3% สูงกว่า GPT 5.5 ที่ 58.6% แต่ GPT 5.5 ได้ Terminal Bench 2.0 82.7% สูงกว่า Claude ที่ 69.4% [21]
Kimi K2.6 เหมาะใส่รายชื่อทดลองถ้าต้องการโมเดลเปิด: Hugging Face ระบุว่าเป็น open source, native multimodal agentic model และบทความบุคคลที่สามให้คะแนน SWE Bench Pro 58.6% กับ SWE Bench Verified 80.2% แต่ยังไม่ควรนำไปเท...
GPT 5.5 มี Expert SWE 73.1% แต่เป็น internal eval และ OpenAI ระบุว่าห้องแล็บอื่นพบ memorization evidence ใน eval นี้ จึงไม่เหมาะใช้เป็นแกนจัดอันดับรวม [21]

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: benchmark และระดับหลักฐาน" คืออะไร

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "DeepSeek V4: 1M context, MoE และเช็กลิสต์ย้าย API สำหรับนักพัฒนา"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ25 เม.ย. 2026

คำถามวิจัย

研究 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 的基準測試，並為我以比較表形式展示。

Studio Global AI25 เม.ย. 202640 แหล่งที่มา

อ้างถึงคำตอบ

Key findings

模型	SWE-Bench Pro	SWE-Bench Verified	Terminal-Bench 2.0	其他可見 benchmark	證據等級 / 備註
GPT-5.5	58.6% ^[14]	—	82.7% ^[14]	Expert-SWE（Internal）73.1% ^[14]	OpenAI 官方資料；OpenAI 也註記 Expert-SWE 有 memorization 風險提示，需保守解讀。^[14]
Claude Opus 4.7	64.3% ^[14]	87.6% ^[10]	69.4% ^[14]	CursorBench 70% ^[10]	SWE-Bench Pro / Terminal-Bench 2.0 可與 GPT-5.5 同口徑比較。^[14] Verified / CursorBench 來自第三方對 vendor/partner eval 的摘要，不是獨立 leaderboard。^[10]
Kimi K2.6	58.6% ^[4]	80.2% ^[4]	—	—	目前僅見第三方摘要，未在本次證據集中交叉核實到官方完整 benchmark 頁面。^[4]
DeepSeek V4	Insufficient evidence	Insufficient evidence	Insufficient evidence	—	本次檢索未取得足夠可核實 benchmark，暫不做數值比較。

如果只看目前可同口徑對照的共享 benchmark，Claude Opus 4.7 在 SWE-Bench Pro 高於 GPT-5.5，而 GPT-5.5 在 Terminal-Bench 2.0 高於 Claude Opus 4.7。^[14]
GPT-5.5 的 73.1% Expert-SWE 屬於 internal eval，且 OpenAI 自己提醒有 memorization caveat，因此不宜單獨把它當作總體排名依據。^[14]
Claude Opus 4.7 的 87.6% SWE-Bench Verified 很強，但本次可用資料中，這個數值來自第三方摘要的 vendor/partner-eval 描述，可信度仍低於同張官方對照表裡的共享 benchmark。^[10]^[14]
Kimi K2.6 依目前可見摘要，在 SWE-Bench Pro 與 GPT-5.5 同為 58.6%，且 SWE-Bench Verified 為 80.2%，但因缺乏同等級官方交叉驗證，我不建議直接把它與 GPT-5.5、Claude Opus 4.7 做嚴格總排名。^[4]^[14]

Evidence notes

OpenAI 的比較表同時列出 GPT-5.5、GPT-5.4、Claude Opus 4.7 與 Gemini 3.1 Pro 在 SWE-Bench Pro 與 Terminal-Bench 2.0 的成績，所以這兩欄是本次最乾淨的 apples-to-apples 子集。^[14]
Claude Opus 4.7 的 87.6% SWE-Bench Verified 與 70% CursorBench，在本次資料中來自第三方摘要，且摘要本身把它描述為 Anthropic-conducted / partner eval。^[10]
Kimi K2.6 的數值來自本次檢索到的第三方結果摘要，而不是我已核實的官方 benchmark 表。^[4]

Limitations / uncertainty

四個模型沒有在完全一致的 benchmark 集上都公布足夠數字，因此如果你要的是「四家嚴格總排名」，目前證據不足。^[14]^[10]^[4]
目前可見的多數數據仍帶有廠商自報、合作方摘要或單一來源片段的限制，獨立重跑結果可能不同。^[14]^[10]
DeepSeek V4：Insufficient evidence.

Summary

如果你要，我下一步可以幫你做兩個延伸版本：

只保留「官方來源」的極保守比較表。
擴充到 Artificial Analysis、Vals AI 等第三方榜單，做一版「更完整但混合來源」的比較表。

แหล่งที่มา

[4] Claude Opus 4.7: Full Review, Benchmarks & Features (2026)buildfastwithai.com
Claude Opus 4.7 Benchmarks: The Full Picture Claude Opus 4.7 leads all publicly available (non-preview) models on five major benchmarks as of April 16, 2026. The one exception is BrowseComp, which I will address in detail below. The headline: SWE-bench Pro...
[6] Claude Opus 4.7: What Changed for Coding Agents (April 2026)verdent.ai
Benchmark Opus 4.6 Opus 4.7 GPT-5.4 Notes --- --- SWE-bench Verified 80.80% 87.60% — Anthropic-conducted; memorization screens applied SWE-bench Pro 53.50% 64.30% 57.70% Multi-language real-world tasks CursorBench 58% 70% — Source: Cursor CEO Michael Truell...
[21] Introducing GPT-5.5openai.com
Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...
[24] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
SWE-bench Pro: the coding crown stays with Anthropic Claude Opus 4.7 scores 64.3% versus GPT-5.5's 58.6% — a 5.7-point gap on real GitHub issue resolution. OpenAI's system card includes an asterisk noting "evidence of memorization" from other labs on this e...
[32] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
Kimi K2.6 is an open-source, native multimodal agentic model that advances practical capabilities in long-horizon coding, coding-driven design, ... 5 days ago
[34] Kimi K2.6 Has Arrived: An Open-Weight Powerhouse for Agentic Workblog.kilo.ai
It scored an impressive 80.2% on SWE-Bench Verified and 58.6% on SWE-Bench Pro, showcasing its deep understanding of real-world software ... 5 days ago