รายงานเผยแพร่แล้ว3 เดือนที่ผ่านมาLast edited 2 เดือนที่ผ่านมา19 แหล่งที่มา

เลือก GPT-5.5, Claude Opus 4.7, DeepSeek V4 หรือ Kimi K2.6: คะแนน ราคา และงานที่เหมาะ

ข้อมูลสาธารณะยังไม่พอจัดอันดับรวมสี่รุ่นแบบยุติธรรม: GPT 5.5 นำใน Intelligence Index ที่มองเห็นได้ด้วยคะแนน 60/59 และเด่นใน BrowseComp กับ Terminal Bench 2.0 ขณะที่ Claude Opus 4.7 นำใน GPQA Diamond และ HLE no tools ส... DeepSeek V4 ชัดที่สุดเรื่องราคา: แหล่งข้อมูลสาธารณะระบุราคา 1.74 / 3.48 ดอลลาร์สหรัฐต่อ 1 ล้าน t...

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI ดูหน้าที่กำลังมาแรงเพิ่มเติม

四款 AI 模型在基準測試與 API 價格上比較的抽象儀表板 — GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 怎麼選？Benchmark 與價格比較AI 生成配圖：比較 GPT-5.5、Claude Opus 4.7、DeepSeek V4 與 Kimi K2.6 的性能與成本取捨。
AI พรอมต์
Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 怎麼選？Benchmark 與價格比較. Article summary: 公開數據不支持一個絕對總冠軍：GPT 5.5 在可見 Intelligence Index 60/59、BrowseComp 84.4% 與 Terminal Bench 2.0 82.7% 最突出；Claude Opus 4.7 在 GPQA Diamond 94.2% 與 HLE no tools 46.9% 領先，Kimi K2.6 則缺少完整四方同場數據。[2][7]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://
openai.com

การเอา GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 มาเรียงเป็นอันดับ 1-4 แบบตายตัวอาจพาไปผิดทาง คะแนนสาธารณะที่มีอยู่มาจากคนละแหล่งทดสอบ คนละโหมดใช้เหตุผล และคนละชุดวิธีรันทดสอบ หรือ harness; LLM Stats ยังเตือนว่าคะแนนบางส่วนของ GPT-5.5 และ Claude Opus 4.7 เป็นตัวเลขที่ผู้ให้บริการรายงานเองใน reasoning tier สูง จึงพอเทียบแนวโน้มได้ แต่เทียบวิธีวัดแบบหนึ่งต่อหนึ่งไม่ได้

คำถามที่มีประโยชน์กว่า คือ งานของคุณคืออะไร: ให้ AI เปิดเว็บและใช้ terminal แทนคน? ให้ตรวจ reasoning ที่พลาดไม่ได้? ต้องยิง API ปริมาณมาก? หรืออยากทดลอง coding agent แบบโอเพนซอร์ส? จากหลักฐานที่มี ควรเริ่มจาก GPT-5.5 สำหรับ tool-use agent, Claude Opus 4.7 สำหรับ reasoning และ review, DeepSeek V4 สำหรับงานคุมต้นทุน และ Kimi K2.6 สำหรับสนามทดลอง coding-agent โอเพนซอร์ส

คำตอบเร็ว: เริ่มทดสอบจากงานไหน

งานหลักของคุณ	ควรเริ่มทดสอบ	เหตุผล
งานเอเจนต์ที่เปิดเว็บ ค้นข้อมูล ใช้ terminal หรือข้ามหลายเครื่องมือ	GPT-5.5	GPT-5.5 ได้ BrowseComp 84.4% และ Terminal-Bench 2.0 82.7% สูงกว่าตัวเลขของ Claude Opus 4.7 และ DeepSeek-V4-Pro-Max ในสรุปของ VentureBeat
งาน reasoning ยาก การตรวจทาน หรือการตัดสินใจที่รับความผิดพลาดได้น้อย	Claude Opus 4.7	Claude Opus 4.7 ได้ GPQA Diamond 94.2% และ Humanity’s Last Exam แบบ no-tools 46.9% สูงสุดในตารางเดียวกัน
งานเรียก API ปริมาณมากและไวต่อค่าใช้จ่าย	DeepSeek V4	ราคา API ที่เผยแพร่คือ 1.74 ดอลลาร์สหรัฐต่อ 1 ล้าน input token และ 3.48 ดอลลาร์ต่อ 1 ล้าน output token ต่ำกว่า GPT-5.5 และ Claude Opus 4.7 ในราคาแบบเดียวกัน
ทดลอง coding-agent โอเพนซอร์สหรือเวิร์กโฟลว์เขียนโค้ดยาว ๆ	Kimi K2.6	DocsBot อธิบาย Kimi K2.6 ว่าเป็น open-source native multimodal agentic model ของ Moonshot AI พร้อม context 256K แต่ยังไม่มี benchmark สาธารณะครบสี่รุ่นในตารางเดียวกับอีกสามตัว

ตารางเทียบ benchmark และราคา

ชื่อรุ่นของ DeepSeek ในแหล่งข้อมูลไม่ได้ใช้คำเดียวกันทั้งหมด: แหล่งราคามักเขียน DeepSeek V4 หรือ DeepSeek V4 Pro ส่วน benchmark บางจุดใช้ DeepSeek-V4-Pro-Max ดังนั้นตารางนี้จึงเก็บชื่อแบบที่แหล่งข้อมูลใช้ไว้ ไม่เหมารวมว่าเป็น configuration เดียวกันทุกกรณี

ตัวชี้วัด	GPT-5.5	Claude Opus 4.7	DeepSeek V4 / V4-Pro-Max	Kimi K2.6
Artificial Analysis Intelligence Index	xhigh 60; high 59	Adaptive Reasoning, Max Effort 57	สรุปที่เห็นไม่ได้ให้คะแนนแบบเดียวกัน	สรุปที่เห็นไม่ได้ให้คะแนนแบบเดียวกัน
BrowseComp	84.4%	79.3%	DeepSeek-V4-Pro-Max 83.4%	ยังไม่พบคะแนนสี่รุ่นในสนามเดียวกัน
Terminal-Bench 2.0	82.7%	69.4%	67.9%	66.70% แต่เป็นอีกชุดเทียบกับ Claude Opus 4.6 และ GPT-5.4 ไม่ใช่สี่รุ่นนี้พร้อมกัน
SWE-Bench Pro	58.6%	64.3%	DeepSeek V4 Pro 55.4%	58.60% แต่ Verdent ระบุว่าใช้ Moonshot in-house harness และไม่ได้เป็นการเทียบครบสี่รุ่น
GPQA Diamond	93.6%	94.2%	DeepSeek-V4-Pro-Max 90.1%	ยังไม่พบคะแนนสี่รุ่นในสนามเดียวกัน
Humanity’s Last Exam, no tools	41.4%; GPT-5.5 Pro อยู่ที่ 43.1%	46.9%	37.7%	ยังไม่พบคะแนนสี่รุ่นในสนามเดียวกัน
ราคา API อินพุต / เอาต์พุต ต่อ 1 ล้าน token	5 / 30 ดอลลาร์สหรัฐ; context window 1 ล้าน token	5 / 25 ดอลลาร์สหรัฐ; context window 1 ล้าน token	1.74 / 3.48 ดอลลาร์สหรัฐ; context window 1 ล้าน token	แหล่งข้อมูลที่ให้มาไม่มีราคาแบบเดียวกัน; DocsBot ระบุ context 256K

อ่านคะแนนอย่างไรไม่ให้หลงทาง

1. คะแนนรวมที่มองเห็นได้: GPT-5.5 นำ แต่ยังไม่ใช่แชมป์รวมของทั้งสี่รุ่น

สรุปของ Artificial Analysis แสดงอันดับต้นของ Intelligence Index เป็น GPT-5.5 xhigh ที่ 60, GPT-5.5 high ที่ 59 และ Claude Opus 4.7 ในโหมด Adaptive Reasoning, Max Effort ที่ 57 โดยมี Gemini 3.1 Pro Preview และ GPT-5.4 xhigh อยู่ที่ 57 เช่นกัน

ข้อสรุปที่ปลอดภัยคือ ในสรุป Intelligence Index ที่มองเห็นได้ GPT-5.5 อยู่หน้า Claude Opus 4.7 แต่ยังสรุปเป็นอันดับรวมของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 ทั้งหมดไม่ได้ เพราะสรุปเดียวกันไม่ได้ให้คะแนน DeepSeek V4 และ Kimi K2.6 ในรูปแบบเดียวกัน

2. งานเอเจนต์ที่ใช้เว็บและ terminal: GPT-5.5 เด่นที่สุด, DeepSeek ไล่ใกล้ใน browsing

BrowseComp ใช้วัดความสามารถของ agentic AI web browsing หรือการให้โมเดลไล่หาข้อมูลบนเว็บแบบมีเป้าหมาย VentureBeat ระบุคะแนน GPT-5.5 ที่ 84.4%, DeepSeek-V4-Pro-Max ที่ 83.4% และ Claude Opus 4.7 ที่ 79.3% ภาพที่เห็นคือ DeepSeek-V4-Pro-Max ไล่ GPT-5.5 ใกล้มากในงาน browsing แต่ Claude Opus 4.7 ตามหลังในตารางนี้

Terminal-Bench 2.0 ให้ภาพต่างออกไปมากกว่า VentureBeat ระบุ GPT-5.5 ที่ 82.7%, Claude Opus 4.7 ที่ 69.4% และ DeepSeek ที่ 67.9% ขณะที่ Yahoo / Investing.com อธิบายว่า Terminal-Bench 2.0 ทดสอบ command-line workflows และระบุคะแนน GPT-5.5 ที่ 82.7% เช่นกัน

ส่วน Kimi K2.6 มีตัวเลข Terminal-Bench 2.0 ที่ 66.70% แต่แหล่งข้อมูลนั้นเทียบ Kimi K2.6 กับ Claude Opus 4.6 และ GPT-5.4 ไม่ใช่ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4 ในสนามเดียวกัน

3. Coding และ SWE: Claude นำใน SWE-Bench Pro ที่เห็น แต่ flow การใช้เครื่องมือต้องทดสอบแยก

ตารางของ DataCamp ระบุ SWE-Bench Pro เป็น DeepSeek V4 Pro 55.4%, GPT-5.5 58.6% และ Claude Opus 4.7 64.3% Yahoo / Investing.com ระบุเช่นกันว่า GPT-5.5 ได้ 58.6% ใน SWE-Bench Pro ซึ่งเป็นการทดสอบการแก้ปัญหา GitHub issue

Kimi K2.6 มีตัวเลข coding ที่น่าสนใจ: Verdent ระบุ SWE-Bench Pro 58.60%, SWE-Bench Verified 80.20% และ LiveCodeBench v6 89.60% แต่แหล่งเดียวกันชี้ว่าตัวเลขของ Kimi K2.6 มาจาก model card ของ Moonshot AI และ SWE-Bench Pro ใช้ Moonshot in-house harness จึงไม่ควรนำไปปักลงในตารางรวมสี่รุ่นแบบแข็ง ๆ

ถ้างานของคุณคือซ่อม repo ขนาดใหญ่ ทำ code review หรือปล่อย coding agent ทำงานต่อเนื่องหลายชั่วโมง คะแนน SWE เพียงตัวเดียวไม่พอ Claude Opus 4.7 สูงสุดใน SWE-Bench Pro ที่มองเห็นได้, GPT-5.5 นำชัดใน Terminal-Bench 2.0 ที่สะท้อนงานเครื่องมือแบบยาว ส่วน Kimi K2.6 ควรทดสอบกับ repo และ toolchain ของคุณเองก่อนตัดสิน

4. Reasoning และ review-grade tasks: Claude Opus 4.7 มีแต้มต่อชัดกว่า

VentureBeat ระบุ GPQA Diamond เป็น Claude Opus 4.7 94.2%, GPT-5.5 93.6% และ DeepSeek-V4-Pro-Max 90.1% ใน Humanity’s Last Exam แบบ no-tools แหล่งเดียวกันระบุ Claude Opus 4.7 46.9%, GPT-5.5 41.4%, GPT-5.5 Pro 43.1% และ DeepSeek-V4-Pro-Max 37.7%

ภาพนี้สอดคล้องกับข้อสรุปของ LLM Stats: ใน 10 benchmark ที่ทั้ง GPT-5.5 และ Claude Opus 4.7 รายงาน Claude Opus 4.7 นำ 6 รายการ ส่วน GPT-5.5 นำ 4 รายการ โดย Claude เด่นในกลุ่ม reasoning-heavy และ review-grade tests ขณะที่ GPT-5.5 เด่นใน long-running tool-use tests อย่างไรก็ดี LLM Stats ย้ำว่าคะแนนเหล่านี้ส่วนหนึ่งเป็น self-reported ใน reasoning tier สูง จึงเทียบแนวโน้มได้มากกว่าเทียบวิธีวิจัยตรงตัว

5. ราคาและ context: DeepSeek V4 เป็นตัวเลือกคุมต้นทุนที่ชัดที่สุด

Mashable ระบุราคา API ของ DeepSeek V4 ที่ 1.74 ดอลลาร์สหรัฐต่อ 1 ล้าน input token และ 3.48 ดอลลาร์ต่อ 1 ล้าน output token พร้อม context window 1 ล้าน token ในแหล่งเดียวกัน GPT-5.5 อยู่ที่ 5 ดอลลาร์ต่อ 1 ล้าน input token และ 30 ดอลลาร์ต่อ 1 ล้าน output token ส่วน Claude Opus 4.7 อยู่ที่ 5 ดอลลาร์ต่อ 1 ล้าน input token และ 25 ดอลลาร์ต่อ 1 ล้าน output token โดยทั้งคู่ระบุ context window 1 ล้าน token

DataCamp ใช้ราคาแบบเดียวกันในการเทียบ DeepSeek V4 Pro, GPT-5.5 และ Claude Opus 4.7 และระบุ context window ประมาณ 1 ล้าน token สำหรับทั้งสาม ดังนั้นในข้อมูลราคาที่เห็น DeepSeek V4 ถูกกว่า GPT-5.5 และ Claude Opus 4.7 อย่างชัดเจน และเมื่อรวมกับ BrowseComp 83.4% ของ DeepSeek-V4-Pro-Max ที่ใกล้ GPT-5.5 ที่ 84.4% จึงเหมาะเป็นตัวเลือกชุดแรกสำหรับงาน API ที่อ่อนไหวต่อต้นทุน

สำหรับ Kimi K2.6 แหล่งข้อมูลที่ให้มาไม่มีราคา API แบบเดียวกันกับอีกสามรุ่น DocsBot ระบุว่า Kimi K2.6 มี context 256K และวางตำแหน่งเป็น open-source agentic model สำหรับ long-horizon coding, coding-driven design, autonomous execution และ swarm-based orchestration

แนวทางเลือกสำหรับทีมที่ต้องใช้งานจริง

แทนที่จะถามว่าควรซื้อโมเดลเดียวตัวไหน คำตอบที่ใช้งานได้จริงกว่าคือทำ routing และ regression test ตั้งแต่ต้น

ใช้ GPT-5.5 เป็น baseline งาน agentic ระดับสูง เพราะมีตัวเลขแข็งแรงใน BrowseComp และ Terminal-Bench 2.0 รวมถึงตัวเลขทางการของ OpenAI ในงานความรู้และการใช้คอมพิวเตอร์ เช่น GDPval 84.9%, OSWorld-Verified 78.7% และ Tau2-bench Telecom 98.0%
ใช้ Claude Opus 4.7 ทดสอบงาน reasoning, review และงานที่ผิดพลาดแพง เพราะเด่นใน GPQA Diamond, Humanity’s Last Exam no-tools และกลุ่ม reasoning-heavy / review-grade tests ตามสรุปของ LLM Stats
ใช้ DeepSeek V4 เป็นเส้นทางลดต้นทุนสำหรับ API ปริมาณมาก เพราะราคา token ต่ำกว่า GPT-5.5 และ Claude Opus 4.7 ในข้อมูลที่เผยแพร่ และยังทำ BrowseComp ได้ใกล้ GPT-5.5
วาง Kimi K2.6 ไว้ในสนามทดลอง coding-agent โอเพนซอร์ส เพราะมีตัวเลข coding และ agentic ที่น่าติดตาม แต่ยังขาด benchmark สาธารณะแบบครบสี่รุ่น จึงควรทดสอบด้วย repo, เครื่องมือ และเงื่อนไข deploy ของคุณเอง

ข้อจำกัดที่ควรจำก่อนตัดสินใจ

ไม่ใช่ทุกโมเดลมี benchmark ในสนามเดียวกัน GPT-5.5, Claude Opus 4.7 และ DeepSeek-V4-Pro-Max มีตัวเลขร่วมบางส่วนในสรุปของ VentureBeat ส่วน Kimi K2.6 หลัก ๆ มาจากอีกชุดเปรียบเทียบกับ Claude Opus 4.6 และ GPT-5.4
configuration ของโมเดลอาจไม่เท่ากัน Artificial Analysis แยก GPT-5.5 เป็น xhigh / high และ Claude Opus 4.7 เป็น Adaptive Reasoning, Max Effort ขณะที่ VentureBeat ใช้ชื่อ DeepSeek-V4-Pro-Max ซึ่งไม่จำเป็นต้องตรงกับค่า default API ทั่วไป
คะแนน self-reported กับคะแนนบุคคลที่สามไม่ควรผสมแบบไม่ระวัง LLM Stats เตือนว่าคะแนนบางส่วนของ GPT-5.5 และ Claude Opus 4.7 เป็นตัวเลขที่ผู้ให้บริการรายงานเองใน reasoning tier สูง และวิธีวัดไม่เหมือนกันทั้งหมด
benchmark แต่ละตัววัดคนละงาน BrowseComp เน้น web browsing agent, Terminal-Bench 2.0 เน้น command-line workflows และ SWE-Bench Pro เน้นการแก้ GitHub issue จึงแทนงานจริงของคุณไม่ได้ทั้งหมด

สรุปสั้น

ถ้าต้องคัดรายชื่อจากข้อมูลสาธารณะที่เห็นตอนนี้ GPT-5.5 คือผู้สมัครที่แข็งแรงสุดสำหรับ agentic tool-use และคะแนนรวมที่มองเห็นได้; Claude Opus 4.7 เด่นที่สุดในงาน reasoning และ review-grade; DeepSeek V4 เป็นตัวเลือกคุ้มค่าที่สุดด้านราคา; ส่วน Kimi K2.6 ควรอยู่ในชุดทดลองโอเพนซอร์สและ coding-agent แต่หลักฐานยังไม่พอจะจัดอันดับรวมกับอีกสามรุ่นอย่างยุติธรรม

ก่อนซื้อหรือขึ้น production ควรทำ regression test ด้วยงานจริงชุดเดียวกัน: prompt เดียวกัน สิทธิ์ใช้เครื่องมือเท่ากัน context เท่ากัน และเกณฑ์สำเร็จเดียวกัน Benchmark สาธารณะมีค่ามากในการบอกว่าควรเริ่มทดสอบใคร แต่คำตอบสุดท้ายควรมาจากงานของคุณเอง ต้นทุนความผิดพลาด และต้นทุน token ที่เกิดขึ้นจริง

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

คนยังถาม

คำตอบสั้น ๆ สำหรับ "เลือก GPT-5.5, Claude Opus 4.7, DeepSeek V4 หรือ Kimi K2.6: คะแนน ราคา และงานที่เหมาะ" คืออะไร

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

แนวทางใช้งานจริงคือทำ routing ตามงาน: GPT 5.5 สำหรับ tool use agent, Claude Opus 4.7 สำหรับ reasoning และ review, DeepSeek V4 สำหรับ API ปริมาณมากที่ต้องคุมต้นทุน และ Kimi K2.6 สำหรับทดลอง coding agent โอเพนซอร์ส [3][...

แหล่งที่มา

← Back to Trending