ความเจ๋งของ ASSERT คือการยกระดับ “ข้อกำหนดภาษาเขียนธรรมดา” ให้กลายเป็นข้อมูลป้อนเข้าขั้นแรก (First-class Input) สำหรับการประเมินผล ที่ไม่ใช่แค่เป็นพื้นหลังอีกต่อไป กระบวนการทำงาน 5 ขั้นตอนของมันมีดังนี้:
สิ่งสำคัญที่ทำให้ ASSERT แตกต่างจากเครื่องมือวัดผล AI ทั่วไป คือการโฟกัสไปที่ ขอบเขตพฤติกรรมเฉพาะของแอปพลิเคชัน ต่อให้ Agent คุณจะสอบผ่าน Benchmark ด้านความจริงและความมีประโยชน์มาเต็ม 100 แต่ถ้ามันหลุดทำอะไรผิดกฎง่ายๆ เช่น “ห้ามแชร์อีเมลลูกค้าให้บริการภายนอก” มันก็ยังนับว่าเป็นความล้มเหลว และ ASSERT ถูกสร้างมาเพื่อจัดการกับจุดบอดแบบนี้โดยเฉพาะ
ทาง Microsoft ยังได้วางตำแหน่งให้เฟรมเวิร์กนี้เน้นเรื่องความปลอดภัยเป็นศูนย์กลาง โดยระบุว่าวิธีการประเมินผลของมันผ่านการตรวจสอบมาแล้วว่ามีประสิทธิภาพสำหรับการประเมินด้านความปลอดภัยโดยเฉพาะ ไม่ใช่แค่เมตริกคุณภาพทั่วไป
ASSERT ไม่ได้มาแบบโดดเดี่ยว แต่มันมาพร้อมกับโปรเจกต์โอเพนซอร์สอีกตัวที่ชื่อว่า Agent Control Specification (ACS) ซึ่งเป็นมาตรฐานที่ให้ทีมพัฒนา, Compliance, และความปลอดภัย สามารถกำหนดไฟล์นโยบายให้ Agent ได้อย่างละเอียด เช่น Agent ทำอะไรได้-ไม่ได้บ้าง, การกระทำไหนต้องขออนุมัติจากคนก่อน, และข้อมูลอะไรที่ต้องถูกบันทึกไว้ตรวจสอบ
แนวทางการทำงานแบบบูรณาการที่ Microsoft ตั้งใจไว้คือ เริ่มจากการใช้ ASSERT ค้นหาจุดบกพร่อง ก่อน จากนั้นใช้ ACS วางระบบควบคุมตอนรันไทม์ แล้ว กลับมาใช้ ASSERT วัดผลซ้ำอีกครั้ง เพื่อดูว่าแก้ไขแล้วดีขึ้นแค่ไหนด้วยเมตริกก่อน-หลัง การวนลูปแบบนี้ (ระบุ → ประเมิน → ควบคุม → ประเมินใหม่) คือกระบวนการที่จะช่วยให้ทีมวิศวกรสร้างระบบ Agentic AI ที่แข็งแกร่งและเชื่อถือได้อย่างยั่งยืน
ในทางปฏิบัติ ภาพคือ นักพัฒนาอยากให้ “AI ผู้ช่วยค้นคว้าข้อมูล” ทำงานภายใต้กฎประมาณว่า “ห้ามส่งอีเมลหาคนนอกบริษัท, จำกัดการเข้าถึงข้อมูลลับไว้เฉพาะผู้บริหารระดับ C-Level, และต้องสรุปใจความสำคัญโดยอ้างอิงบริบทก่อนหน้าเท่านั้น” ASSERT จะช่วยสร้างกรณีทดสอบสุดโหดเพื่อจับผิดกฎเหล่านี้ให้อัตโนมัติเลย
สุดท้ายนี้ ASSERT เปิดให้ใช้งานฟรีในรูปแบบโอเพนซอร์สบน GitHub ที่ github.com/responsibleai/ASSERT และในวันเปิดตัว มีการสนับสนุนจากคอมมูนิตี้ใหญ่อย่าง CrewAI, Arize AI, LiteLLM, Pipecat, และ Pydantic
Comments
0 comments