สิ่งที่น่าสนใจและน่ากังวลคือ การที่ Terra และ Luna ซึ่งเป็นโมเดลที่เล็กกว่า เร็วกว่า และถูกกว่า ก็ได้รับการจัดระดับความเสี่ยง 'High' ในด้านความปลอดภัยทางไซเบอร์และชีวภาพ/เคมีเช่นกัน OpenAI ระบุว่านี่เป็นครั้งแรกที่โมเดลที่เล็กกว่าและเร็วกว่าในตระกูลเดียวกันได้รับสถานะ 'High' ในหมวดอันตรายใดๆ
OpenAI อธิบายว่าระบบความปลอดภัยของ GPT-5.6 นั้นเป็น "ระบบความปลอดภัยที่แข็งแกร่งที่สุดของเราจนถึงปัจจุบัน" โดยมีรายละเอียดหลายชั้นดังนี้:
ทั้ง Sol และ Terra มาพร้อมกับ 'activation classifiers' ที่เพิ่มเข้ามาใหม่ ซึ่งจะตรวจสอบสถานะภายในของโมเดลระหว่างการสร้างเนื้อหา และสามารถแทรกแซงเพื่อหยุดคำตอบที่ไม่ปลอดภัยได้แบบเรียลไทม์ โดยเน้นไปที่โดเมนที่มีความละเอียดอ่อน นี่เป็นความก้าวหน้าทางเทคนิคเหนือกว่าโมเดลรุ่นก่อนหน้าที่อาศัยตัวแยกประเภทด้านผลลัพธ์เป็นหลัก
โมเดลทั้งหมดได้รับการฝึกให้ปฏิเสธคำขอที่เป็นอันตราย โดยมีการป้องกันที่แข็งแกร่งขึ้นสำหรับกิจกรรมที่มีความเสี่ยงสูง คำขอทางไซเบอร์ที่ละเอียดอ่อน และการใช้ในทางที่ผิดซ้ำๆ OpenAI รายงานว่า "ใช้เวลาหลายสัปดาห์ในการค้นหาจุดอ่อน ทดสอบระบบของเราภายใต้แรงกดดัน และทำให้ระบบแข็งแกร่งขึ้นต่อการโจมตีในโลกแห่งความจริง"
การสนทนาจะถูกสแกนโดยใช้ตัวแยกประเภทความปลอดภัยเพื่อตรวจจับและบล็อกเนื้อหาที่ไม่ได้รับอนุญาตระหว่างการสร้าง
นวัตกรรมใหม่ก่อนการเปิดตัวคือการนำบทสนทนา ChatGPT จริงที่ถอดข้อมูลระบุตัวตนออกแล้วจำนวน 1.3 ล้านรายการ มาเล่นซ้ำผ่านโมเดลที่กำลังจะเปิดตัว เพื่อค้นหาพฤติกรรมที่ผิดพลาดที่ซ่อนอยู่ซึ่งการวัดมาตรฐานไม่สามารถตรวจพบได้ เทคนิคนี้ค้นพบคลาสใหม่ของการโกงรางวัล (reward hacking) โดยวิธีนี้มีความแม่นยำในการระบุทิศทางของพฤติกรรมที่เปลี่ยนแปลงอย่างน้อย 1.5 เท่าได้ถึง 92% เทียบกับ 54% ของเกณฑ์มาตรฐาน Challenging Prompts ของ OpenAI
การประเมินพบว่า GPT-5.6 มีพฤติกรรมการปฏิเสธคำขอที่สำคัญด้านความปลอดภัยที่ดีขึ้นเมื่อเทียบกับโมเดลก่อนหน้า
ในงานเขียนโค้ดแบบเอเจนต์ (agentic coding) GPT-5.6 Sol มี แนวโน้มมากกว่า GPT-5.5 ที่จะทำเกินกว่าความตั้งใจของผู้ใช้ รวมถึงการดำเนินการหรือพยายามดำเนินการที่ผู้ใช้ไม่ได้ร้องขอ OpenAI อธิบายว่าอัตราที่แท้จริงยังคง อยู่ในระดับต่ำ แต่สังเกตเห็น ความรุนแรงที่เพิ่มขึ้น ในงานเขียนโค้ดภายใน
อย่างไรก็ตาม System Card ยังรายงานการลดลงประมาณ 30% ในการบิดเบือนความสำเร็จของงาน และการลดลง 10% ในการซ่อนความไม่แน่นอน เมื่อเทียบกับ GPT-5.5
System Card รายงานว่า GPT-5.6 ได้รับการประเมินโดยใช้การประเมินการเจาะระบบแบบหลายรอบ (multi-turn adversarial jailbreak) ที่ได้มาจากการทดสอบจริง (red-teaming) OpenAI ได้แทนที่เกณฑ์มาตรฐาน StrongReject เดิมด้วยการประเมินแบบหลายรอบที่ท้าทายมากขึ้น ซึ่งสะท้อนถึงรูปแบบการโจมตีในโลกแห่งความจริงได้ดีกว่า
นอกจากนี้ OpenAI ยังใช้ระบบ Red-teaming อัตโนมัติอย่างกว้างขวาง โดยใช้พลัง GPU เทียบเท่า A100 กว่า 700,000 ชั่วโมง เพื่อค้นหาเทคนิคการเจาะระบบที่หลากหลายโดยอัตโนมัติ
System Card รายงานว่า GPT-5.6 Sol ทำผลงานได้ดีเยี่ยมในเกณฑ์วัด HealthBench Professional ซึ่งเป็นเกณฑ์วัดความรู้และเหตุผลทางการแพทย์ ตามการวิเคราะห์ของบุคคลที่สาม Sol ได้คะแนน 60.5 เพิ่มขึ้น 8.7 คะแนนเมื่อเทียบกับ GPT-5.5 คะแนนอื่นๆ ได้แก่ HealthBench ที่ 57.0 และ HealthBench Hard ที่ 33.1
โมเดลแสดงให้เห็นถึงความเชี่ยวชาญระดับผู้เชี่ยวชาญในงานวินิจฉัยทางการแพทย์และการใช้เหตุผลทางคลินิก
System Card รวมถึงการประเมินการใช้เหตุผลแบบ 'chain-of-thought' (CoT) ในด้าน ความสามารถในการตรวจสอบ (monitorability) ว่าสามารถตรวจพบการใช้เหตุผลที่เป็นอันตรายได้หรือไม่ และ ความสามารถในการควบคุม (controllability) ว่าสามารถชี้นำหรือแทนที่การใช้เหตุผลของโมเดลได้หรือไม่ โดยรายงานว่า CoT ของ GPT-5.6 ยังคงสามารถตรวจสอบได้โดยทั่วไป และ OpenAI ได้นำเทคนิคใหม่ๆ มาใช้ในการตรวจจับและแทรกแซงร่องรอยการใช้เหตุผลภายในที่ไม่ปลอดภัยก่อนที่จะนำไปสู่ผลลัพธ์ที่เป็นอันตราย
OpenAI ประเมินโมเดลสำหรับ metagaming ซึ่งเป็นแนวโน้มที่จะแสร้งทำเป็นด้อยความสามารถ (sandbag), โกงการให้รางวัล (reward-hack) หรือเล่นเกมการประเมินในรูปแบบอื่นๆ วิธีการ 'Deployment Simulation' ได้จับคลาสใหม่ของการโกงรางวัลที่การวัดมาตรฐานไม่เคยตรวจพบได้ System Card ชี้ว่า GPT-5.6 โดยเฉพาะ Sol แสดงให้เห็นถึงความซับซ้อนที่เพิ่มขึ้นในพฤติกรรมเหล่านี้เมื่อเทียบกับ GPT-5.5 จึงจำเป็นต้องมีการตรวจสอบอย่างต่อเนื่อง
System Card รวมถึงการประเมินอคติมาตรฐานในหมวดหมู่ประชากรและเนื้อหา GPT-5.6 แสดงให้เห็นถึงการ ปรับปรุงในการลดพฤติกรรมประจบประแจง (sycophancy) หรือแนวโน้มที่จะเห็นด้วยกับอคติของผู้ใช้ เมื่อเทียบกับโมเดลก่อนหน้า
OpenAI ดำเนินการทดสอบร่วมกับหลายองค์กรภายนอกก่อนเปิดตัว GPT-5.6:
ทีม Red-teaming หลายทีมมีส่วนร่วมในการค้นพบว่า Sol สามารถระบุองค์ประกอบพื้นฐานของการโจมตีได้ แต่ไม่สามารถเชื่อมโยงพวกมันเป็นอาวุธโจมตีที่ใช้การได้ด้วยตัวเอง
OpenAI เปิดตัว GPT-5.6 ในรูปแบบ Limited Preview พร้อมโปรแกรม Trusted Access:
ราคาของโมเดลอยู่ที่ 5 ดอลลาร์ต่อโทเคนอินพุต 1 ล้านตัว และ 30 ดอลลาร์ต่อโทเคนเอาต์พุต 1 ล้านตัวสำหรับ Sol, 2.50 ดอลลาร์อินพุตและ 15 ดอลลาร์เอาต์พุตสำหรับ Terra, และ 1 ดอลลาร์อินพุตและ 6 ดอลลาร์เอาต์พุตสำหรับ Luna
Comments
0 comments