studioglobal
인기 있는 발견
보고서게시됨16 소스

เทียบ Claude Opus 4.7, GPT-5.5, DeepSeek V4 และ Kimi K2.6: ทำไม “อันดับ 1” ยังไม่ใช่คำตอบสุดท้าย

ยังสรุปอันดับ 1 ถึง 4 แบบเด็ดขาดไม่ได้ เพราะแหล่งข้อมูลสาธารณะไม่ได้ทดสอบทั้งสี่โมเดลด้วยเบนช์มาร์ก การตั้งค่า และต้นทุนเดียวกันทั้งหมด [19]. ตัวเลขที่ชัดเจนคือ Claude Opus 4.7 ได้ BenchLM 97/100 และ SWE bench Verified 82.4% ส่วน GPT 5.5 มี GDPval 84.9%, OSWorld Verified 78.7% และ Tau2 bench Telecom 98.0% [2][3][29].

16K0
네 개의 최신 AI 모델을 벤치마크 차트와 비교하는 추상적 에디토리얼 이미지
Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6의 2026 벤치마크 비교를 표현한 AI 생성 이미지.
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교. Article summary: 네 모델의 ‘절대 1위’를 확정하기는 어렵습니다. 공개 자료 기준 Claude Opus 4.7은 BenchLM 97/100·SWE bench Verified 82.4%가 가장 뚜렷하고, GPT 5.5는 GDPval 84.9% 등 업무형 공식 수치가 강하지만 평가 체계가 달라 직접 합산할 수 없습니다 [2][3][29].. Topic tags: ai, ai benchmarks, llm, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "# Kimi K2.6 vs Claude Opus 4.7: Which Model Wins in 2026? Kimi K2.6 ties Opus 4.7 on multilingual SWE-bench but trails by 7 points on Verified — at 1/5th the cost. Two weeks after" source context "Kimi K2.6 vs Claude Opus 4.7 (2026): Benchmarks, Cost, When Each Wins" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www

openai.com

ถ้าดูแค่ตารางคะแนน โมเดลระดับท็อปในปี 2026 อาจดูเหมือนแข่งกันที่เลขหลังจุดทศนิยม แต่สำหรับคนที่ต้องเลือกใช้จริง ไม่ว่าจะเป็นทีมพัฒนา ทีมข้อมูล หรือทีมปฏิบัติการ คำถามสำคัญกว่า “ใครชนะทั้งหมด” คือ “โมเดลไหนชนะในงานของเรา”

ในรายชื่อของ Vals AI มี DeepSeek V4 และ GPT-5.5 เป็นรายการวันที่ 23 เมษายน 2026, Kimi K2.6 วันที่ 20 เมษายน 2026 และ Claude Opus 4.7 วันที่ 16 เมษายน 2026 [19]. อย่างไรก็ตาม ข้อมูลสาธารณะที่มีไม่ได้จับทั้งสี่โมเดลมาทดสอบแบบขนานภายใต้เบนช์มาร์กเดียวกัน การตั้งค่าเดียวกัน และเงื่อนไขต้นทุนเดียวกันทั้งหมด [19]. ดังนั้นบทความนี้จะไม่พยายามฟันธงอันดับ 1-4 แบบเกินหลักฐาน แต่จะแยกดูว่าแต่ละโมเดลมีจุดแข็งที่ยืนยันได้จากข้อมูลส่วนไหน

ก่อนดูคะแนน: เบนช์มาร์ก AI ไม่ได้วัดเรื่องเดียวกัน

เบนช์มาร์ก AI ปี 2026 ไม่ใช่ข้อสอบชุดเดียวที่ใช้ตัดสินทุกอย่างได้ Kili Technology อธิบายว่า MMLU, MMLU-Pro, GPQA Diamond, SWE-Bench, Terminal-Bench, GAIA, WebArena, GDPval และการประเมินความปลอดภัย ล้วนวัดความสามารถคนละด้าน [8]. รายงาน AI Index ของ Stanford HAI ก็แยกประสิทธิภาพทางเทคนิคเป็นหลายแกน เช่น MMLU, MATH, GPQA Diamond, MMMU, OSWorld, AIME และ SWE-bench Verified [13].

ประเด็นคือ เบนช์มาร์กบางชุดเริ่มแยกโมเดลระดับบนได้ยากขึ้นแล้ว ตัวอย่างเช่น Nanonets ระบุว่า MMLU ใช้วิธี 5-shot และในปี 2026 โมเดลชั้นนำจำนวนมากทำคะแนนเกิน 88% จนความต่างระหว่างโมเดลแคบลงมาก [22]. เพราะฉะนั้น การเลือกโมเดลควรเริ่มจากงานจริงก่อน เช่น โค้ด งานเอกสารความรู้ การให้เหตุผลเชิงวิทยาศาสตร์ การควบคุมคอมพิวเตอร์ งานเอเจนต์ หรือต้นทุนการใช้งาน ไม่ใช่ดูคะแนนรวมตัวเดียวแล้วจบ [8][22].

ตารางสรุป: ตัวเลขสาธารณะที่เห็นได้ชัดที่สุด

โมเดลตัวเลขสำคัญจากข้อมูลสาธารณะจุดแข็งที่อ่านได้ข้อควรระวัง
Claude Opus 4.7BenchLM 97/100, provisional อันดับ 2 จาก 110; SWE-bench Verified 82.4%; FinanceBench 82.7%; MathVista เพิ่มขึ้น 9.5 คะแนน [2][3]โค้ด, ลีดเดอร์บอร์ดรวม, วิเคราะห์เอกสารการเงิน, การให้เหตุผลคณิตศาสตร์จากภาพคะแนน research-agent benchmark 0.715 ของ Anthropic เป็นการประเมินภายใน จึงเทียบตรงกับ GDPval ของ GPT-5.5 ไม่ได้ [7][29].
GPT-5.5BenchLM 89/100, provisional อันดับ 5 จาก 112; GDPval 84.9%; OSWorld-Verified 78.7%; Tau2-bench Telecom 98.0%; Vals Accuracy 67.76% ± 1.79 [28][29][31]งานความรู้, การใช้คอมพิวเตอร์, เวิร์กโฟลว์บริการลูกค้า, งานแบบเอเจนต์ประกาศของ OpenAI, BenchLM และ Vals Index เป็นคนละระบบประเมิน [28][29][31].
DeepSeek V4 / V4-Pro-Maxอยู่ในรายชื่อ Vals AI วันที่ 23 เมษายน 2026; V4-Pro-Max ได้ MMLU-Pro 87.5%, GPQA Diamond 90.1%, GSM8K 92.6% [15][19]คำถามวิทยาศาสตร์ คณิตศาสตร์ และการให้เหตุผลขั้นสูงDataCamp ระบุว่าตัวเลขดังกล่าวอิงผลภายในของ DeepSeek จึงควรแยกจากคะแนนที่ตรวจสอบโดยลีดเดอร์บอร์ดอิสระ [15].
Kimi K2.6BenchLM 85/100, provisional อันดับ 12 จาก 115; Vals Accuracy 63.94% ± 1.97, Latency 373.57s, Cost/Test $0.21; Artificial Analysis Intelligence Index 54, อันดับรวม 4 [36][37][39]กลุ่มโอเพนเวต, ต้นทุน, latency, ประสิทธิภาพเชิงปฏิบัติการแหล่งข้อมูลใช้ชื่อ Kimi 2.6, Kimi K2.6 และ K2.6 Thinking ปะปนกัน จึงต้องตรวจว่ากำลังเทียบการตั้งค่าเดียวกันหรือไม่ [37][39].

ถ้าดู BenchLM: Claude Opus 4.7 นำในกลุ่มที่มีข้อมูลเทียบได้

ในข้อมูล BenchLM ที่เห็นได้ชัดสำหรับสามโมเดล Claude Opus 4.7 มีคะแนนสูงสุด BenchLM ระบุว่า Claude Opus 4.7 อยู่ provisional leaderboard อันดับ 2 จาก 110 โมเดล ด้วย overall score 97/100 และอยู่ verified leaderboard อันดับ 2 จาก 14 โมเดล [3].

GPT-5.5 อยู่ provisional leaderboard อันดับ 5 จาก 112 โมเดล ด้วย overall score 89/100 และอยู่ verified leaderboard อันดับ 2 จาก 16 โมเดล [28]. ส่วน Kimi 2.6 ได้ 85/100 บน BenchLM provisional leaderboard อันดับ 12 จาก 115 โมเดล พร้อมคะแนนเบนช์มาร์กที่เผยแพร่ 27 รายการ [37].

แต่ต้องย้ำว่า นี่เป็นภาพจาก BenchLM เท่านั้น จำนวนโมเดลที่ใช้เทียบในแต่ละหน้าไม่เท่ากัน และข้อมูลชุดนี้ยังไม่มีคะแนน BenchLM ของ DeepSeek V4 ที่วางเทียบแบบเดียวกันได้ [3][28][37].

งานเขียนโค้ด: Claude Opus 4.7 มีตัวเลขที่ตรงและชัดที่สุด

ถ้าโจทย์คือการแก้โค้ดหรือช่วยงานวิศวกรรมซอฟต์แวร์ Claude Opus 4.7 มีตัวเลขสาธารณะที่อ่านง่ายที่สุด MindStudio ระบุว่า Claude Opus 4.7 ทำคะแนน SWE-bench Verified ได้ 82.4% เพิ่มขึ้นราว 11 คะแนนจาก Opus 4.6 [2]. แหล่งเดียวกันยังระบุว่าโมเดลนี้ได้ FinanceBench 82.7% และ MathVista เพิ่มขึ้น 9.5 คะแนนในกลุ่มการปรับปรุงด้านวิชัน [2].

สำหรับ GPT-5.5 ตัวเลขที่ OpenAI ยกขึ้นมาเด่นในข้อมูลที่มี ไม่ใช่ SWE-bench แต่เป็น GDPval, OSWorld-Verified และ Tau2-bench Telecom [29]. ฝั่ง Kimi K2.6 มีข้อมูลจาก GMI Cloud ที่ระบุว่าโดดเด่นบน SWE-Bench Pro แต่จากสรุปที่มี ยังไม่พอระบุคะแนนที่แน่นอนหรือยืนยันการเทียบแบบเงื่อนไขเดียวกันกับทั้งสี่โมเดล [35]. ส่วน DeepSeek V4 ในชุดข้อมูลนี้มีตัวเลขด้านเหตุผลและคณิตศาสตร์ที่ชัดกว่าโค้ด [15][16].

งานเอเจนต์และงานองค์กร: GPT-5.5 มีตัวเลขทางการที่ละเอียด

สำหรับงานที่คล้ายการทำงานจริงในองค์กร เช่น ผลิตงานความรู้ ใช้คอมพิวเตอร์ หรือจัดการเวิร์กโฟลว์บริการลูกค้า GPT-5.5 มีตัวเลขทางการที่ค่อนข้างเฉพาะเจาะจง OpenAI ระบุว่า GPT-5.5 ได้ 84.9% บน GDPval ซึ่งเป็นการทดสอบความสามารถของเอเจนต์ในการสร้างผลงานความรู้ตามโจทย์ที่กำหนดใน 44 อาชีพ [29]. OpenAI ยังระบุว่า GPT-5.5 ได้ 78.7% บน OSWorld-Verified ซึ่งวัดการทำงานในสภาพแวดล้อมคอมพิวเตอร์จริง และได้ 98.0% บน Tau2-bench Telecom ซึ่งทดสอบเวิร์กโฟลว์บริการลูกค้าที่ซับซ้อน [29].

Claude Opus 4.7 ก็มีข้อมูลด้านเอเจนต์เช่นกัน Anthropic ระบุว่าใน research-agent benchmark ภายใน Claude Opus 4.7 ทำคะแนนรวม 0.715 เสมออันดับสูงสุดใน 6 โมดูล และในโมดูล General Finance ได้ 0.813 สูงกว่า Opus 4.6 ที่ได้ 0.767 [7].

อย่างไรก็ตาม GDPval, OSWorld-Verified และ Tau2-bench ของ GPT-5.5 กับ research-agent benchmark ภายในของ Claude Opus 4.7 เป็นคนละระบบประเมิน [7][29]. ดังนั้นไม่ควรนำ 84.9% ของ GPT-5.5 ไปเทียบกับ 0.715 ของ Claude เหมือนเป็นสเกลเดียวกัน [7][29].

เหตุผลและความรู้: DeepSeek V4-Pro-Max กับ Kimi K2.6 Thinking มีตารางที่เทียบกันบางส่วน

สำหรับ DeepSeek V4 ตัวเลขที่ชัดที่สุดในข้อมูลนี้มาจากการตั้งค่า V4-Pro-Max DataCamp ระบุว่า ตามผลภายในของ DeepSeek นั้น DeepSeek V4-Pro-Max ได้ MMLU-Pro 87.5%, GPQA Diamond 90.1% และ GSM8K 92.6% [15]. ตัวเลขเหล่านี้เป็นจุดอ้างอิงที่มีประโยชน์ แต่เพราะ DataCamp ระบุว่าอิงผลภายใน จึงไม่ควรให้น้ำหนักเท่ากับลีดเดอร์บอร์ดอิสระโดยอัตโนมัติ [15].

เอกสาร DeepSeek-V4-Pro บน Hugging Face มีตารางที่วาง DeepSeek V4-Pro-Max และ Kimi K2.6 Thinking ไว้ร่วมกันบางส่วนในหมวดความรู้และการให้เหตุผล [16].

เบนช์มาร์กDeepSeek V4-Pro-MaxKimi K2.6 Thinkingใครสูงกว่าในตารางนี้
MMLU-Pro87.587.1DeepSeek V4-Pro-Max
SimpleQA-Verified57.936.9DeepSeek V4-Pro-Max
Chinese-SimpleQA84.475.9DeepSeek V4-Pro-Max
GPQA Diamond90.190.5Kimi K2.6 Thinking
HLE37.736.4DeepSeek V4-Pro-Max

จากตารางนี้ DeepSeek V4-Pro-Max สูงกว่า Kimi K2.6 Thinking ใน MMLU-Pro, SimpleQA-Verified, Chinese-SimpleQA และ HLE ขณะที่ Kimi K2.6 Thinking สูงกว่าเล็กน้อยใน GPQA Diamond [16]. แต่ตารางเดียวกันไม่ได้ใช้ Claude Opus 4.7 และ GPT-5.5 เป็นคู่เทียบโดยตรง หากแต่มีโมเดลอื่นอย่าง Opus-4.6 Max และ GPT-5.4 xHigh จึงยังสรุปอันดับรวมของทั้งสี่โมเดลไม่ได้ [16].

ต้นทุนและ latency: Kimi K2.6 น่าสนใจในมุมปฏิบัติการ

ข้อมูลจาก Vals AI ระบุว่า GPT-5.5 มี Accuracy 67.76% ± 1.79, Latency 409.09s และ context window 1M [31]. ส่วน Kimi K2.6 มี Accuracy 63.94% ± 1.97, Latency 373.57s และ Cost/Test $0.21 [39]. ถ้าเทียบเฉพาะสองรายการนี้ คะแนน accuracy ของ GPT-5.5 สูงกว่า ขณะที่ latency ที่แสดงของ Kimi K2.6 ต่ำกว่า [31][39].

Kimi K2.6 ยังมีความหมายสำหรับคนที่มองหาโมเดลกลุ่มโอเพนเวต Artificial Analysis เรียก Kimi K2.6 ของ Moonshot ว่าเป็น leading open weights model และให้ Artificial Analysis Intelligence Index 54 พร้อมอันดับรวมที่ 4 [36]. อย่างไรก็ตาม Artificial Analysis, Vals และ BenchLM เป็นคนละระบบประเมิน จึงไม่ควรนำคะแนน 54, Vals Accuracy 63.94% และ BenchLM 85/100 มารวมเหมือนเป็นคะแนนเดียวกัน [36][37][39].

เลือกใช้จริงควรเริ่มจากอะไร

  • ถ้างานหลักคือแก้โค้ดอัตโนมัติหรือช่วยวิศวกรรมซอฟต์แวร์ Claude Opus 4.7 ควรถูกพิจารณาก่อน เพราะตัวเลข SWE-bench Verified 82.4% และ BenchLM 97/100 ชัดเจนที่สุดในข้อมูลที่มี [2][3].
  • ถ้างานหลักคือผลิตงานความรู้ ใช้คอมพิวเตอร์ หรือจัดการเวิร์กโฟลว์บริการลูกค้า GPT-5.5 มีตัวเลขทางการที่ตรงกับงานเหล่านี้ ได้แก่ GDPval 84.9%, OSWorld-Verified 78.7% และ Tau2-bench Telecom 98.0% [29].
  • ถ้าต้องเทียบความสามารถด้านวิทยาศาสตร์ คณิตศาสตร์ หรือการให้เหตุผลขั้นสูง ควรดู DeepSeek V4-Pro-Max และ Kimi K2.6 Thinking ผ่าน MMLU-Pro, GPQA Diamond และ HLE ร่วมกัน [15][16].
  • ถ้าให้ความสำคัญกับโอเพนเวต ต้นทุน และการนำไปใช้งานในระบบจริง Kimi K2.6 มีจุดอ้างอิงจาก Artificial Analysis และ Vals เช่น $0.21/test กับ latency 373.57s [36][39].
  • อย่าพึ่ง MMLU เพียงตัวเดียว เพราะในปี 2026 โมเดลระดับท็อปจำนวนมากทำคะแนนสูงจนเบนช์มาร์กนี้แยกความต่างได้ยากขึ้น [22].

บทสรุป

จากหลักฐานสาธารณะที่มี Claude Opus 4.7 โดดเด่นด้านโค้ดและลีดเดอร์บอร์ด BenchLM, GPT-5.5 มีจุดแข็งในงานเอเจนต์ งานความรู้ และการใช้คอมพิวเตอร์, DeepSeek V4-Pro-Max มีตัวเลขด้านเหตุผลและคณิตศาสตร์ที่น่าสนใจ และ Kimi K2.6 เด่นในมุมโอเพนเวต ต้นทุน และ latency [2][3][15][16][28][29][36][37][39].

แต่ข้อมูลยังไม่สม่ำเสมอพอที่จะจัดอันดับแบบเด็ดขาดตั้งแต่ที่ 1 ถึงที่ 4 วิธีที่ปลอดภัยกว่าคือใช้ตารางเบนช์มาร์กเป็นจุดตั้งต้น แล้วทดสอบซ้ำด้วยงานจริงของคุณเอง เช่น งานโค้ด งานวิเคราะห์เอกสารการเงิน งานควบคุมเบราว์เซอร์หรือคอมพิวเตอร์ งานบริการลูกค้า หรือการรันเอเจนต์ระยะยาว [8][22].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • ยังสรุปอันดับ 1 ถึง 4 แบบเด็ดขาดไม่ได้ เพราะแหล่งข้อมูลสาธารณะไม่ได้ทดสอบทั้งสี่โมเดลด้วยเบนช์มาร์ก การตั้งค่า และต้นทุนเดียวกันทั้งหมด [19].
  • ตัวเลขที่ชัดเจนคือ Claude Opus 4.7 ได้ BenchLM 97/100 และ SWE bench Verified 82.4% ส่วน GPT 5.5 มี GDPval 84.9%, OSWorld Verified 78.7% และ Tau2 bench Telecom 98.0% [2][3][29].
  • DeepSeek V4 Pro Max มีตัวเลข MMLU Pro 87.5% และ GPQA Diamond 90.1% จากผลภายในที่ DataCamp อ้างถึง ขณะที่ Kimi K2.6 มี BenchLM 85/100 และ Vals Cost/Test $0.21 [15][37][39].

사람들은 또한 묻습니다.

"เทียบ Claude Opus 4.7, GPT-5.5, DeepSeek V4 และ Kimi K2.6: ทำไม “อันดับ 1” ยังไม่ใช่คำตอบสุดท้าย"에 대한 짧은 대답은 무엇입니까?

ยังสรุปอันดับ 1 ถึง 4 แบบเด็ดขาดไม่ได้ เพราะแหล่งข้อมูลสาธารณะไม่ได้ทดสอบทั้งสี่โมเดลด้วยเบนช์มาร์ก การตั้งค่า และต้นทุนเดียวกันทั้งหมด [19].

먼저 검증할 핵심 포인트는 무엇인가요?

ยังสรุปอันดับ 1 ถึง 4 แบบเด็ดขาดไม่ได้ เพราะแหล่งข้อมูลสาธารณะไม่ได้ทดสอบทั้งสี่โมเดลด้วยเบนช์มาร์ก การตั้งค่า และต้นทุนเดียวกันทั้งหมด [19]. ตัวเลขที่ชัดเจนคือ Claude Opus 4.7 ได้ BenchLM 97/100 และ SWE bench Verified 82.4% ส่วน GPT 5.5 มี GDPval 84.9%, OSWorld Verified 78.7% และ Tau2 bench Telecom 98.0% [2][3][29].

실무에서는 다음으로 무엇을 해야 합니까?

DeepSeek V4 Pro Max มีตัวเลข MMLU Pro 87.5% และ GPQA Diamond 90.1% จากผลภายในที่ DataCamp อ้างถึง ขณะที่ Kimi K2.6 มี BenchLM 85/100 และ Vals Cost/Test $0.21 [15][37][39].

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6의 벤치마크를 조사하고 가능한 한 종합적으로 비교해 주세요.

Studio Global AI40 소스

인용 답변

제공된 근거만으로는 네 모델을 동등한 수준으로 “종합 벤치마크 비교”하기에는 자료가 크게 부족합니다. 확인 가능한 정량 벤치마크는 사실상 Claude Opus 4.7에 집중되어 있고, GPT-5.5·DeepSeek V4·Kimi K2.6은 제공 근거 안에서 직접 비교 가능한 공식 점수나 일관된 벤치마크 결과가 없습니다. 따라서 아래 비교는 “확인 가능한 것”과 “증거 부족”을 명확히 나누어 정리합니다.

Key findings

  • Claude Opus 4.7은 제공된 자료 중 유일하게 구체적인 벤치마크 수치가 확인되는 모델입니다. SWE-bench Verified에서 82.4%를 기록했고, 이는 Opus 4.6 대비 약 11점 상승한 것으로 제시됩니다 [6].

  • Claude Opus 4.7은 BenchLM 기준 provisional leaderboard에서 110개 모델 중 2위, overall score 97/100으로 제시되며, verified leaderboard에서도 14개 모델 중 2위로 언급됩니다 [7].

  • Claude Opus 4.7은 비전 관련 개선 폭이 컸고, MathVista가 9.5점 상승했다는 자료가 있습니다 [6].

  • Kimi K2.6은 Vals AI의 모델 목록에서 Moonshot AI 모델로 확인되며, 제공된 스니펫에는 2026년 4월 20일 항목으로 표시됩니다 [5]. 다만 이 근거에는 Kimi K2.6의 실제 벤치마크 점수가 포함되어 있지 않습니다 [5].

  • Claude Opus 4.7 역시 Vals AI 목록에서 Anthropic 모델로 확인되며, 제공된 스니펫에는 2026년 4월 16일 항목으로 표시됩니다 [5].

  • GPT-5.5에 대해서는 제공된 근거 안에 직접적인 벤치마크 점수, 공식 발표, 리더보드 결과가 없습니다. Insufficient evidence.

  • DeepSeek V4에 대해서는 제공된 근거 중 Reddit 스니펫이 있으나, 해당 스니펫은 로컬 호스팅과 운영상 조언에 가까우며 비교 가능한 벤치마크 수치를 제공하지 않습니다 [40]. Insufficient evidence.

비교 표

모델확인 가능한 벤치마크 / 순위강점으로 볼 수 있는 영역증거 수준
Claude Opus 4.7SWE-bench Verified 82.4% [6]; BenchLM provisional 2/110, 97/100 [7]; verified 2/14 [7]코딩, 비전 수학 추론, 종합 리더보드 성능 [6][7]상대적으로 높음
GPT-5.5제공 근거 내 직접 점수 없음판단 불가Insufficient evidence
DeepSeek V4제공 근거 내 직접 점수 없음판단 불가Insufficient evidence
Kimi K2.6모델 목록 및 날짜 항목은 확인되나 점수 없음 [5]판단 불가낮음

벤치마크별 해석

  • SWE-bench Verified 기준으로는 Claude Opus 4.7만 비교 가능한 수치가 있습니다. Claude Opus 4.7의 82.4%는 제공 자료상 Opus 4.6 대비 약 11점 개선된 결과로 제시됩니다 [6].

  • 종합 리더보드 기준으로도 Claude Opus 4.7만 명확한 순위가 있습니다. BenchLM은 Claude Opus 4.7을 provisional leaderboard 110개 모델 중 2위, overall score 97/100으로 제시합니다 [7].

  • 비전·수학 영역에서는 Claude Opus 4.7의 MathVista 점수가 9.5점 상승했다는 자료가 있으나, GPT-5.5·DeepSeek V4·Kimi K2.6의 동등 지표가 제공되지 않아 상대 비교는 불가능합니다 [6].

  • 일반 지식·추론 벤치마크는 2026년 기준 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등이 주요 평가로 언급됩니다 [2]. 다만 MMLU는 상위 모델들이 이미 88% 이상을 기록해 2026년에는 변별력이 약하다는 지적이 있습니다 [3].

Evidence notes

  • Stanford HAI의 2026 AI Index 기술 성능 자료는 ImageNet, VQA, SuperGLUE, SQuAD 2.0 등 여러 벤치마크에서 AI 성능이 인간 성능과 비교되는 장기 추세를 다룹니다 [1]. 이는 개별 네 모델의 직접 비교 자료라기보다는 벤치마크 해석의 배경 자료에 가깝습니다 [1].

  • Kili Technology 자료는 2026년 주요 벤치마크로 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등을 언급하면서 벤치마크만으로 모델 성능을 충분히 설명하기 어렵다고 설명합니다 [2].

  • Nanonets 자료는 MMLU가 5-shot 방식으로 계산된다는 점과, 상위 모델들이 88% 이상을 기록하면서 2026년에는 변별력이 낮아졌다는 점을 지적합니다 [3].

  • DeepSeek V4 관련 제공 근거는 Reddit 스니펫뿐이며, 신뢰도 높은 공식·학술·독립 리더보드 근거가 아닙니다 [40].

Limitations / uncertainty

  • GPT-5.5, DeepSeek V4, Kimi K2.6에 대해 제공된 근거만으로는 SWE-bench, GPQA, MMLU-Pro, AIME, MathVista, Arena Elo 같은 동일 벤치마크 축에서 점수를 비교할 수 없습니다. Insufficient evidence.

  • Claude Opus 4.7의 수치도 출처별로 평가 방법과 리더보드 산식이 다를 수 있으므로, BenchLM의 97/100 및 순위와 SWE-bench Verified 82.4%는 서로 다른 평가 체계의 결과로 해석해야 합니다 [6][7].

  • Kimi K2.6은 모델 존재와 날짜 항목은 확인되지만, 제공 근거 안에는 성능 점수가 없습니다 [5]. Insufficient evidence.

  • DeepSeek V4는 제공 근거 안에서 벤치마크 수치가 확인되지 않습니다 [40]. Insufficient evidence.

Summary

현재 제공된 증거만 놓고 보면 Claude Opus 4.7이 네 모델 중 유일하게 구체적이고 비교 가능한 성능 자료를 갖고 있습니다. Claude Opus 4.7은 SWE-bench Verified 82.4%, BenchLM provisional 2위/110개 모델, overall score 97/100으로 제시되어 코딩과 종합 평가에서 매우 강한 모델로 볼 수 있습니다 [6][7].

반면 GPT-5.5, DeepSeek V4, Kimi K2.6은 제공 근거 안에서 직접 벤치마크 점수가 없으므로 Claude Opus 4.7보다 높다거나 낮다고 결론낼 수 없습니다. Insufficient evidence.

출처

  • [2] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai

    Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...

  • [3] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 According to BenchLM.ai, Claude Opus 4.7 ranks 2 out of 110 models on the provisional leaderboard with an overall score of 97/100. It also ranks 2 out of 14 on t...

  • [7] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

  • [8] AI Benchmarks 2026: Top Evaluations and Their Limitskili-technology.com

    Image 2: Kili Technology.png) Kili Technology · Apr 13, 2026 Image 3: AI Benchmarks Guide: The Top Evaluations in 2026 and Why They're Not Enough Table of contents Introduction What Are the Most Important AI Benchmarks in 2026? General knowledge and reasoni...

  • [13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu

    Technical Performance Benchmarks vs. Human Performance 76 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 0% 20% 40% 60% 80% 100% 120% Image classiLJcation (ImageNet Top-5) Visual reasoning (VQA) English language understanding (SuperGLU...

  • [15] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com

    DeepSeek V4 Benchmarks According to DeepSeek’s internal results, DeepSeek V4 demonstrates impressive performance, particularly when pushed to its maximum reasoning limits (DeepSeek-V4-Pro-Max). According to the official release notes, here is how the model...

  • [16] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co

    Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...

  • [19] DeepSeek V4 - Vals AIvals.ai

    Benchmarks Models Comparison Model Guide App Reports News About Benchmarks Models Comparison Model Guide App Reports About Release date Models 4/23/2026 DeepSeek DeepSeek V4 4/23/2026 OpenAI GPT 5.5 4/20/2026 Moonshot AI Kimi K2.6 4/16/2026 Anthropic Claude...

  • [22] AI Benchmarks Explained: GPQA, SWE-bench & Arena Elonanonets.com

    How the score is calculated: Before each question, the model is shown 5 example questions with correct answers, this is called 5-shot prompting. Then comes the real question. Score = correct answers ÷ total questions, expressed as a percentage. Why it's nea...

  • [28] GPT-5.5 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...

  • [29] Introducing GPT-5.5 - OpenAIopenai.com

    GPT‑5.5 reaches state-of-the-art performance across multiple benchmarks that reflect this kind of work. OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. On OSWorld-Verified, whic...

  • [31] GPT 5.5 - Vals AIvals.ai

    2/17/2026 Anthropic Claude Sonnet 4.6 2/16/2026 Alibaba Qwen 3.5 Plus 2/12/2026 MiniMax MiniMax-M2.5 2/12/2026 MiniMax MiniMax-M2.5 2/11/2026 zAI GLM 5 2/5/2026 Anthropic Claude Opus 4.6 (Nonthinking) 2/5/2026 Anthropic Claude Opus 4.6 (Thinking) 1/26/2026...

  • [35] Kimi K2.6 on GMI Cloud: Architecture, Benchmarks & API Accessgmicloud.ai

    Kimi K2.6 tops SWE-Bench Pro and runs 300 parallel sub-agents on 4x H100S. Learn the full architecture, benchmark results, and how to run it ... 3 days ago

  • [36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai

    Moonshot's Kimi K2.6 is the new leading open weights model. Kimi K2.6 lands at 4 on the Artificial Analysis Intelligence Index (54) behind ... 5 days ago

  • [37] Kimi 2.6 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Kimi 2.6 by Moonshot AI scores 85/100 on BenchLM's provisional leaderboard ( 12 of 115) with 27 published benchmark scores currently shown ... 6 days ago

  • [39] Kimi K2.6 - Vals AIvals.ai

    Kimi K2.6. Release Date: 4/20/2026. Vals Index. Accuracy (Vals Index). 63.94% ± 1.97. Latency (Vals Index). 373.57s. Cost/Test (Vals Index). $0.21.