ฝั่ง Anthropic หน้าเปิดตัว Claude Opus 4.7 เน้นการปรับปรุงในงาน tool calling, planning และ software engineering โดยยกตัวอย่างว่า Hebbia เห็นความแม่นยำด้านการเรียกเครื่องมือและการวางแผนเพิ่มขึ้นเป็นเลขสองหลัก และบน Rakuten-SWE-Bench Claude Opus 4.7 แก้ production tasks ได้มากกว่า Opus 4.6 ถึง 3 เท่า
กล่าวง่าย ๆ คือ เอกสารทางการช่วยบอกว่าแต่ละบริษัทอยากให้โมเดลของตนทำงานประเภทไหน ส่วนคะแนนเปรียบเทียบ GPT-5.5 กับ Claude Opus 4.7 แบบบรรทัดต่อบรรทัดในที่นี้พึ่งพาสรุปจากแหล่งภายนอกเป็นหลัก
คะแนนหลักด้านล่างอ้างอิงจากสรุปของ Vellum สำหรับ GPT-5.5 เป็นหลัก โดย GPQA Diamond มีลำดับคะแนนสอดคล้องกับ leaderboard ของ Vellum ด้วย
จุดที่ Claude ชนะชัดที่สุดคือ SWE-Bench Pro ซึ่ง Claude Opus 4.7 ทำได้ 64.3% เทียบกับ GPT-5.5 ที่ 58.6% หรือ领先 5.7 จุดเปอร์เซ็นต์ สำหรับทีมที่ต้องให้โมเดลแก้ issue จริงใน repo, ทำ patch, ไล่ dependency ข้ามหลายไฟล์ หรือช่วยอ่าน PR ที่ซับซ้อน Claude Opus 4.7 จึงควรถูกทดสอบตั้งแต่รอบแรก
อีกข้อมูลที่เกี่ยวข้องคือ SWE-bench Verified ซึ่ง BenchLM อธิบายว่าเป็นชุดย่อยของ SWE-bench ที่ผ่านการตรวจสอบโดยมนุษย์ ใช้ทดสอบความสามารถของโมเดลในการแก้ issue จริงจาก GitHub และระบุว่า Claude Opus 4.7 Adaptive ได้ 87.6% แต่แหล่งนี้ไม่ได้ให้คะแนน GPT-5.5 ในมาตรวัดเดียวกัน ดังนั้นจึงยังใช้ฟันธงไม่ได้ว่า Claude ชนะ GPT-5.5 บน SWE-bench Verified โดยตรง ข้อสรุปที่ปลอดภัยกว่าคือ Claude Opus 4.7 อยู่ในกลุ่มตัวเต็งมากสำหรับงานซ่อมซอฟต์แวร์จริง
จุดนำที่ใหญ่ที่สุดของ GPT-5.5 ในชุดข้อมูลสาธารณะคือ Terminal-Bench 2.0: GPT-5.5 ได้ 82.7% ส่วน Claude Opus 4.7 ได้ 69.4% ต่างกัน 13.3 จุดเปอร์เซ็นต์ GPT-5.5 ยังนำใน BrowseComp, GDPval และ OSWorld-Verified ที่ 84.4% ต่อ 79.3%, 84.9% ต่อ 80.3% และ 78.7% ต่อ 78.0% ตามลำดับ
ถ้าผลิตภัณฑ์ของคุณต้องให้โมเดลสั่ง shell, อ่านผลลัพธ์จาก terminal, ใช้เบราว์เซอร์, จัดการไฟล์, ควบคุม OS หรือทำ automation หลายขั้น GPT-5.5 จึงเป็นตัวเลือกที่ควรลองก่อนโดยธรรมชาติ
แต่ไม่ควรสรุปว่า “งานเอเจนต์ทั้งหมดต้องเลือก GPT” เพราะใน MCP Atlas Claude Opus 4.7 ได้ 79.1% สูงกว่า GPT-5.5 ที่ 75.3% และหน้าเปิดตัวของ Anthropic ก็ชูการพัฒนาเรื่อง tool calling และ planning ของ Claude Opus 4.7 โดยตรง
งานเชิงธุรกิจหรือมืออาชีพก็ไม่ได้เอนไปทางเดียวกัน Vellum ระบุว่า GPT-5.5 นำ Claude Opus 4.7 บน GDPval ที่ 84.9% ต่อ 80.3% แต่สรุปของ Kingy AI ระบุว่า Claude Opus 4.7 นำใน FinanceAgent v1.1 ที่ 64.4% ต่อ 60.0% ขณะที่ GPT-5.5 นำใน OfficeQA Pro ที่ 54.1% ต่อ 43.6%
ด้าน reasoning และคณิตศาสตร์ต้องดูชนิดโจทย์เช่นกัน บน GPQA Diamond Claude Opus 4.7 ได้ 94.2% ส่วน GPT-5.5 ได้ 93.6% Claude นำเพียง 0.6 จุดเปอร์เซ็นต์ แต่บน FrontierMath T1–3 GPT-5.5 ได้ 51.7% เทียบกับ Claude Opus 4.7 ที่ 43.8% ห่างกัน 7.9 จุดเปอร์เซ็นต์
Humanity’s Last Exam เป็นตัวอย่างที่ดีของข้อจำกัดในการใช้สรุปจากหลายแหล่ง Kingy AI ระบุผลแบบไม่ใช้เครื่องมือว่า GPT-5.5 ได้ 41.4% และ Claude Opus 4.7 ได้ 46.9% ขณะที่ Mashable ระบุผลแบบไม่ใช้เครื่องมือว่า GPT-5.5 ได้ 40.6% และ Claude Opus 4.7 ได้ 31.2% เมื่อสรุปสาธารณะในหัวข้อเดียวกันให้ทิศทางไม่ตรงกัน จึงไม่ควรใช้ benchmark นี้เป็นหลักฐานหลักในการเลือกโมเดล
ถ้างานหลักของคุณคือแก้โค้ดระดับ repo, แก้ GitHub issue จริง, ทำ patch หรือช่วย review PR ซับซ้อน ให้เริ่มทดสอบ Claude Opus 4.7 ก่อน เพราะ SWE-Bench Pro และ SWE-bench Verified สนับสนุนภาพว่าโมเดลนี้แข็งแรงมากในงาน software engineering repair
ถ้างานหลักคือรันคำสั่งใน terminal, ค้นเว็บ, ใช้ระบบปฏิบัติการ, คุม automation agent หรือทำงานมืออาชีพประเภทที่ GDPval ครอบคลุม ให้เริ่มทดสอบ GPT-5.5 ก่อน เพราะมีคะแนนนำแบบหัวต่อหัวใน Terminal-Bench 2.0, BrowseComp, OSWorld-Verified และ GDPval
ถ้า workflow ของคุณผสมทั้งโค้ด การเรียกเครื่องมือ การวางแผนหลายขั้น การอ่านเอกสาร และการสร้างรายงาน อย่าเลือกจากคำว่า “อันดับหนึ่ง” เพียงคำเดียว GPT-5.5 นำใน benchmark สาย execution หลายตัว ส่วน Claude Opus 4.7 เด่นใน SWE-Bench Pro, MCP Atlas และ narrative ทางการของ Anthropic เรื่อง tool planning ทั้งสองรุ่นจึงควรอยู่ใน shortlist
benchmark สาธารณะมีประโยชน์มากในการลดจำนวนตัวเลือก แต่ตอนตัดสินใจใช้จริง ควรเตรียมชุดงานจากระบบจริงของคุณเอง แล้วทดสอบแบบไม่เปิดชื่อโมเดล ใช้ prompt เดียวกัน สิทธิ์เครื่องมือเท่ากัน งบ context เท่ากัน งบเวลาเท่ากัน และ rubric เดียวกัน หากใช้ GPT-5.5 ควรกำหนดค่า reasoning.effort ให้ชัด เพราะเอกสาร OpenAI API ระบุว่าโมเดลนี้รองรับการควบคุมดังกล่าว
เวลาตรวจคะแนน อย่าดูเฉพาะค่าเฉลี่ย ควรจดอย่างน้อย 4 อย่าง: งานสำเร็จหรือไม่, คำตอบตรวจสอบได้แค่ไหน, มนุษย์ต้องเสียเวลาแก้ต่อเท่าไร, และ latency กับต้นทุนเรียกใช้งานเป็นอย่างไร สำหรับระบบจริง โมเดลที่ผิดน้อยในงานสำคัญของคุณอาจคุ้มกว่ารุ่นที่ชนะ benchmark ที่ไม่เกี่ยวข้องอยู่ไม่กี่จุดเปอร์เซ็นต์
ข้อสรุปจากข้อมูลสาธารณะตอนนี้ค่อนข้างชัด: GPT-5.5 กับ Claude Opus 4.7 ไม่มีผู้ชนะสมบูรณ์แบบ มีแต่โมเดลที่เหมาะกับงานคนละแบบ
Comments
0 comments