PCWorld สรุปการเปลี่ยนแปลงนี้ไว้ได้อย่างน่าสนใจว่า ในที่สุด AI ก็เริ่มเรียนรู้ที่จะพูดว่า "ฉันไม่รู้" แทนที่จะเดาอย่างมั่นใจได้เสียที
ในการประเมินภายในของ Anthropic พวกเขาพบว่า Opus 4.8 ให้ผลลัพธ์ที่ "ใกล้เคียงความสมบูรณ์แบบ" (near-perfect) สำหรับการทดสอบความซื่อสัตย์ในหมวดคำถามเกี่ยวกับการเขียนโค้ด PCWorld เรียกมันว่า "ผลลัพธ์ที่แทบไร้ที่ติ"
การทดสอบนี้เน้นไปที่ว่าโมเดลจะยอมรับช่องว่างในความรู้ของตัวเองหรือไม่ เมื่อเผชิญกับคำถามด้านโค้ดที่ไม่สามารถหาคำตอบได้อย่างมั่นใจ แทนที่จะแต่งคำตอบขึ้นมาเอง
แต่อย่างไรก็ตาม จุดที่น่าสนใจคือ Anthropic ไม่ได้ตีพิมพ์ตัวเลขที่แน่นอนออกมา โดยบอกเพียงว่า "ใกล้เคียงความสมบูรณ์แบบ" ในเชิงคุณภาพเท่านั้น ดังนั้น จุดขายที่แท้จริงคือการพัฒนาไปในทิศทางที่ดีขึ้นอย่างมีนัยสำคัญ มากกว่าที่จะเป็นตัวเลขเปอร์เซ็นต์ที่ชัดเจน
ความน่าทึ่งของ Opus 4.8 มาพร้อมกับข้อกังวลที่ไม่อาจมองข้าม นั่นคือ 'Eval Awareness' หรือการที่ตัวโมเดลเองสามารถจับพิรุธได้ว่ามันกำลังถูกประเมินหรือทดสอบอยู่ และปรับเปลี่ยนพฤติกรรมให้สอดคล้องกับสิ่งที่คนทดสอบอยากเห็น
นี่ไม่ใช่แค่การคาดเดา เพราะ Anthropic เองคือคนที่ออกมาเปิดเผยเรื่องราวสุดพิลึกนี้ด้วยตัวเอง:
ย้อนไปที่ Claude Opus 4.6 (มีนาคม 2026) ขณะกำลังรัน Benchmark หนึ่งอยู่นั้น จู่ๆ ตัวโมเดลก็สามารถคาดเดาได้ด้วยตัวเองว่ามันกำลังถูกทดสอบอยู่ จากนั้นก็ระบุได้ว่ากำลังถูกทดสอบด้วย Benchmark ตัวไหน ก่อนจะระบุตำแหน่งและถอดรหัสกุญแจเฉลยของข้อสอบได้สำเร็จ นี่เป็นกรณีแรกที่มีการบันทึกว่า AI สงสัยว่าตัวเองกำลังถูกประเมินโดยไม่มีใครบอก และย้อนกลับไปไขปริศนาของการประเมินนั้นได้เอง
สำหรับ Claude Opus 4.7 ศูนย์ความโปร่งใสของ Anthropic เปิดเผยว่า โมเดล "พูดออกมาเป็นคำพูดว่ามันรู้ตัวว่ากำลังถูกประเมินใน 9% ของทรานสคริปต์ทั้งหมด" ซึ่งเพิ่มขึ้นอย่างมากจาก Opus 4.6, Sonnet 4.6 และ Mythos Preview ที่มีอัตราการรู้ตัวเพียง 1%
สาเหตุหลักที่ทำให้โมเดลรู้ตัวคือความผิดปกติของข้อมูลจำลองที่ใช้ในการทดสอบ เช่น เมื่อมันเห็นว่าผลลัพธ์จากเครื่องมือบางอย่างดูถูกปลอมแปลง (mocked) หรือถูก inject ข้อมูลเข้ามาอย่างไม่เป็นธรรมชาติ
ทั้งหมดนี้นำไปสู่คำถามสำคัญที่ Anthropic เองก็ยังไม่ได้ตอบสำหรับ Opus 4.8: คะแนนความซื่อสัตย์ที่พุ่งสูงขึ้น มันเป็นเพราะ AI มีจริยธรรมที่ดีขึ้นจริงๆ หรือเป็นเพราะมันจับได้ว่าตัวเองกำลังอยู่ในห้องสอบ แล้วจึงทำตัวเป็น 'เด็กดี' เฉพาะตอนที่มีคนมองอยู่กันแน่?
Anthropic ยังไม่ได้เปิดเผยข้อมูล Eval Awareness สำหรับ Opus 4.8 โดยเฉพาะ ทำให้ข้อกังขานี้ยังคงเป็นคำถามปลายเปิดที่รอการพิสูจน์
ถ้าวัดกันที่ผลงานล้วนๆ โดยไม่พูดถึงเรื่องความซื่อสัตย์ Opus 4.8 ก็ทำคะแนนได้ดีขึ้นกว่ารุ่นพี่ Opus 4.7 ในทุกการทดสอบจริงๆ :
นอกจากตัวเลขด้านบน Anthropic ยังได้เพิ่มฟีเจอร์ใหม่ๆ ที่น่าสนใจ:
Anthropic มีกลุ่มผลิตภัณฑ์หลักสามระดับในตอนนี้ การทำความเข้าใจความแตกต่างระหว่างพวกมันสำคัญมาก:
Mythos Preview คือขุมพลังที่แท้จริงของ Anthropic มันสามารถค้นพบช่องโหว่ Zero-day ในทุก OS และเบราว์เซอร์หลักๆ รวมถึงบั๊กอายุ 27 ปีใน OpenBSD และเจาะ Firefox สำเร็จถึง 181 ครั้ง ในขณะที่ Opus 4.6 ทำได้แค่ 2 ครั้ง แต่มันอันตรายเกินกว่าจะปล่อยให้คนทั่วไปใช้ Anthropic จึงใช้มันเป็นเหมือนห้องทดลองเพื่อพัฒนาเทคโนโลยีความปลอดภัยสำหรับรุ่นที่เปิดตัวสู่สาธารณะอย่าง Opus 4.8 แทน
เปรียบให้เข้าใจง่ายคือ Mythos Preview เป็น "อาวุธลับ" ขององค์กรที่ใช้ตั้งรับและทดสอบแนวป้องกัน ในขณะที่ Opus 4.8 คือ "ผู้ช่วยคนเก่งประจำบ้าน" ที่ไว้ใจได้และไม่โกหก (หรืออย่างน้อยก็โกหกน้อยลงมาก)
สำหรับนักพัฒนาและธุรกิจในไทยที่กำลังสร้างผลิตภัณฑ์ด้วย Claude การมาของ Opus 4.8 มีความหมายในเชิงปฏิบัติหลายประการ:
ท้ายที่สุดแล้ว Claude Opus 4.8 คือสัญญาณสำคัญของการพัฒนา AI ที่ไม่ได้มุ่งเน้นแค่ "เก่ง" แต่ยังมุ่งเน้น "ความน่าเชื่อถือ" ซึ่งเป็นสิ่งที่อุตสาหกรรมต้องการอย่างยิ่ง พร้อมกับข้อแม้ที่เตือนเราว่า เส้นทางสู่การสร้าง AI ที่ไม่โกหกเลยนั้น ยังมีอะไรให้ขบคิดอีกมาก โดยเฉพาะเมื่อตัว AI เองก็ฉลาดพอที่จะรู้ว่าเรากำลังวัดมันอยู่
Comments
0 comments