บนชุดทดสอบการเขียนโปรแกรมสำหรับเอเจนต์ที่กว้างขึ้น GPT-5.5 ยังคงเป็นผู้นำในบางด้าน บนมาตรวัด Terminal-Bench 2.1 สำหรับการเขียนโปรแกรมบนเทอร์มินัลของเอเจนต์ GPT-5.5 ทำคะแนน 78.2% นำหน้า Opus 4.8 ที่ 74.6% และ Gemini 3.1 Pro ที่ 70.3%
ผลทดสอบภายในของ Anthropic ยังรายงานถึงความก้าวหน้าในงานที่ใช้ความรู้ โมเดลนี้ทำคะแนนได้ 1890 บนการประเมิน GDPval-AA สำหรับงานความรู้ที่มีคุณค่าทางเศรษฐกิจ เทียบกับ 1769 ของ GPT-5.5 และ 1314 ของ Gemini ในชุดการทดสอบทั้งหมด Anthropic อ้างว่า Opus 4.8 มีประสิทธิภาพเหนือกว่าโมเดลคู่แข่งทั้งสองในหลายหมวดหมู่สำคัญ ถึงแม้ว่ามันจะไม่ได้เป็นผู้นำในทุกการทดสอบก็ตาม
ในการเปลี่ยนแปลงจากมาตรวัดความฉลาดดิบเพียงอย่างเดียว Anthropic ได้เน้นย้ำถึงการปรับปรุงในด้านความน่าเชื่อถือของโมเดล บริษัทรายงานว่า Opus 4.8 มีโอกาส น้อยลงประมาณสี่เท่า เมื่อเทียบกับ Opus 4.7 ที่จะปล่อยให้ข้อบกพร่องในโค้ดที่ตัวเองสร้างขึ้นผ่านไปโดยไม่ทักท้วง
ความคิดเห็นจากผู้ทดสอบในช่วงแรกเน้นว่า โมเดลนี้มีแนวโน้มที่จะส่งสัญญาณถึงความไม่แน่นอนมากขึ้น และมีแนวโน้มน้อยลงที่จะกล่าวอ้างโดยขาดการสนับสนุนในระหว่างเวิร์กโฟลว์ที่ซับซ้อนและมีหลายขั้นตอน บริษัทได้จัดวาง "ความซื่อตรง" ให้เป็นคุณสมบัติหลักของผลิตภัณฑ์ในการเปิดตัวครั้งนี้ โดยระบุว่าโมเดลมีโอกาสน้อยลงที่จะนำเสนอข้อมูลที่ขาดการสนับสนุนอย่างเพียงพอว่าเป็นข้อเท็จจริง
นอกเหนือจากโมเดลหลักแล้ว Anthropic ยังได้เปิดตัวฟีเจอร์ใหม่ที่ผู้ใช้สามารถใช้ได้โดยตรง ซึ่งออกแบบมาสำหรับนักพัฒนาและผู้ใช้ระดับสูง
Dynamic Workflows: มีให้ใช้งานในรูปแบบการทดสอบวิจัยใน Claude Code ฟีเจอร์นี้ช่วยให้โมเดลสามารถวางแผนงาน จัดการมันผ่าน Subagent ย่อยหลายร้อยตัวที่ทำงานคู่ขนาน และตรวจสอบผลลัพธ์ก่อนรายงานกลับ มันถูกออกแบบมาสำหรับงานขนาดใหญ่ เช่น การย้ายโค้ด การตรวจสอบ และการล่าบั๊กภายใน Session เดียว
การควบคุมระดับความพยายามที่ปรับได้: ตอนนี้ผู้ใช้สามารถกำหนดความลึกซึ้งของการให้เหตุผลของโมเดลได้ พารามิเตอร์ "effort" บน claude.ai และ Claude Code ช่วยให้สามารถแลกเปลี่ยนระหว่างความฉลาด ค่าใช้จ่ายของโทเค็น และความเร็ว เอกสารแนะนำให้ใช้ระดับ xhigh สำหรับงานเขียนโค้ดและงานเอเจนต์ที่ยากที่สุด และอย่างน้อยควรใช้ระดับ high สำหรับงานอื่นๆ ที่อ่อนไหวต่อความฉลาด
อัตราการแคชพร้อมท์กำหนดไว้ที่ $6.25 ต่อล้านโทเค็นสำหรับการเขียนแคช 5 นาที, $10 ต่อล้านโทเค็นสำหรับการเขียนแคช 1 ชั่วโมง, และ $0.50 ต่อล้านโทเค็นสำหรับการอ่านและรีเฟรชแคช
การเปิดตัว Opus 4.8 ไม่ได้เป็นเพียงการเพิ่มคะแนนมาตรวัดเพียงอย่างเดียว แต่มันคือการอัปเกรดที่เจาะจงสำหรับองค์กรและนักพัฒนา เรื่องราวของผลิตภัณฑ์นี้มุ่งเน้นไปที่ความน่าเชื่อถือสำหรับเอเจนต์ การจัดการความไม่แน่นอนอย่างชัดเจน และการให้โปรแกรมเมอร์ควบคุมการแลกเปลี่ยนระหว่างต้นทุนและประสิทธิภาพผ่านระดับความพยายามที่ชัดเจน เรื่องราวด้านราคายังคงอนุรักษ์นิยม โดยไม่มีการเพิ่มราคาสำหรับการเรียก API มาตรฐาน ในขณะที่การลดราคาโหมดเร็วทำให้การประมวลผลความเร็วสูงเข้าถึงได้ง่ายขึ้นสำหรับแอปพลิเคชันที่อ่อนไหวต่อความหน่วง
Comments
0 comments