สาม คำว่า 6% ในประกาศของ Baidu หมายถึง ต้นทุน pre-training หรือช่วงฝึกพื้นฐานของโมเดล ไม่ได้หมายความโดยอัตโนมัติว่าครอบคลุมต้นทุนพัฒนาทั้งหมด ต้นทุน post-training ต้นทุนการให้บริการจริง ต้นทุน inference ประสิทธิภาพของฮาร์ดแวร์ หรือราคาขายเชิงพาณิชย์
นอกจากนี้ บล็อกของ Baidu ยังระบุว่า ERNIE 5.1 ยกระดับความสามารถด้าน Agent, การให้เหตุผล และงานสร้างสรรค์ โดยอาศัย disaggregated fully-asynchronous reinforcement learning และ scaled agentic post-training พร้อมระบุว่าโมเดลขึ้นอันดับ 1 ในจีนบน Arena Search Arena
ในสนาม AI ระดับโลก การเล่าเรื่องมักวนอยู่กับสเกล: พารามิเตอร์มากขึ้น ข้อมูลมากขึ้น และกำลังประมวลผลมากขึ้น แต่ ERNIE 5.1 ทำให้เห็นอีกแนวทางหนึ่ง คือการพยายามรักษาความสามารถไว้ ขณะลดขนาดและลดภาระของการพรีเทรนรอบใหญ่
ถ้าแนวทางนี้ใช้ได้จริงในทางปฏิบัติ ความได้เปรียบอาจไม่ได้อยู่ที่การมีโมเดลใหญ่ที่สุดเพียงอย่างเดียว แต่อยู่ที่การออกแบบสมดุลระหว่างต้นทุนกับผลงาน เช่น การนำฐานเดิมกลับมาใช้ การเลือก sub-model ที่เหมาะสม การลดภาระคำนวณที่ถูกเรียกใช้จริง และการปรับพฤติกรรมของโมเดลผ่าน post-training
นี่คือเหตุผลที่ ERNIE 5.1 น่าสนใจ: Baidu ไม่ได้แค่บอกว่าโมเดลใหม่เก่งขึ้น แต่กำลังบอกว่าเส้นทางสู่โมเดลที่แข่งขันได้อาจไม่จำเป็นต้องแพงขึ้นแบบเส้นตรง
หัวใจของคำเคลมอยู่ตรงนี้ Baidu ระบุว่า ERNIE 5.1 สืบทอดฐาน pre-training ของ ERNIE 5.0 กล่าวอีกแบบคือ ERNIE 5.1 ถูกนำเสนอในฐานะโมเดลที่ต่อยอดจากฐานที่มีอยู่แล้ว ไม่ใช่โปรเจกต์ที่ต้องจ่ายต้นทุนพรีเทรนเต็มรูปแบบใหม่ตั้งแต่ต้น
Baidu ระบุว่า ERNIE 5.1 ลดพารามิเตอร์รวมเหลือประมาณหนึ่งในสาม และลด active parameters เหลือประมาณครึ่งหนึ่ง พารามิเตอร์รวมสะท้อนขนาดของโมเดลทั้งระบบ ส่วน active parameters คือส่วนที่ถูกใช้จริงในการคำนวณแต่ละครั้ง การลดได้ทั้งสองด้านจึงทำให้ประเด็นของ ERNIE 5.1 เป็นเรื่องประสิทธิภาพพอ ๆ กับเรื่องความสามารถ
รายงานเทคนิคของ ERNIE 5.0 อธิบายแนวทาง elastic training ซึ่งทำให้การ pre-training หนึ่งรอบสามารถสร้างตระกูลโมเดลหลายขนาด พร้อมสมดุลระหว่างความสามารถกับประสิทธิภาพที่ต่างกัน
รายงานดังกล่าวระบุว่าแนวทางนี้สุ่มเลือก sub-model ที่มีความลึก ความกว้าง และ routing sparsity แตกต่างกันระหว่างการฝึก และเปิดทางให้ sub-model รับทอดความรู้จากโมเดลเต็ม เพื่อนำไปใช้ในขั้น post-training ต่อไป
สำหรับ ERNIE 5.1 แนวคิดนี้ช่วยอธิบายตรรกะของคำเคลมจาก Baidu ว่าไม่ใช่แค่การฝึกโมเดลให้ใหญ่ขึ้น แต่เป็นการสร้างฐานที่ยืดหยุ่น แล้วดึงรูปแบบที่มีประสิทธิภาพกว่าออกมาใช้งาน
Baidu ระบุว่า ERNIE 5.1 ใช้ disaggregated fully-asynchronous reinforcement learning และ scaled agentic post-training เพื่อยกระดับความสามารถด้าน Agent, การให้เหตุผล และงานสร้างสรรค์
พูดให้เข้าใจง่ายขึ้น Baidu ไม่ได้อ้างเพียงว่าโมเดลเล็กลงแล้วจบ แต่กำลังบอกว่าการฝึกหลังจากมีฐานโมเดลแล้ว เป็นอีกส่วนสำคัญที่ช่วยกำหนดความสามารถสุดท้ายของ ERNIE 5.1
จุดที่ต้องระวังคือการตรวจสอบตัวเลข 6% เอกสารที่อ้างถึงยังไม่ได้ให้บัญชีต้นทุนแบบละเอียด เช่น งบฝึกจริง ชนิดและจำนวนฮาร์ดแวร์ ส่วนผสมข้อมูล ระยะเวลาฝึก อัตราการใช้ accelerator ต้นทุน post-training หรือรายชื่อโมเดลที่ Baidu ใช้เป็นฐานเปรียบเทียบของคำว่า comparable models
ดังนั้น ตัวเลขนี้ไม่ได้ไร้ความหมาย แต่ก็ยังไม่ควรถูกอ่านเป็นมาตรฐานอุตสาหกรรมที่ยืนยันแล้วโดยบุคคลที่สาม การอ่านที่ปลอดภัยที่สุดคือ Baidu กำลังอ้างว่า ERNIE 5.1 รักษาผลงานพื้นฐานระดับนำในสเกลของตัวเองได้ โดยลดพารามิเตอร์และต้นทุน pre-training ผ่านการสืบทอดฐานเดิม การบีบขนาด แนวคิด elastic training และ post-training
ความสำคัญของ ERNIE 5.1 อยู่ที่การเปลี่ยนกรอบการเล่าเรื่องจากใหญ่กว่าและแพงกว่า ไปสู่คุ้มกว่าและออกแบบประสิทธิภาพได้ดีกว่า Baidu ระบุว่าโมเดลนี้สืบทอดฐานจาก ERNIE 5.0 ลดพารามิเตอร์รวมและ active parameters และทำผลงานพื้นฐานระดับนำในสเกลของตัวเองด้วยต้นทุน pre-training ราว 6% ของโมเดลที่เทียบเคียงได้
อย่างไรก็ตาม คำเคลมนี้ยังไม่ปิดประเด็นทั้งหมด จนกว่าจะมีรายละเอียดเพิ่มเติมจาก Baidu หรือการประเมินอิสระเกี่ยวกับฐานเปรียบเทียบ ฮาร์ดแวร์ ข้อมูล และวิธีคิดต้นทุน ตัวเลข 6% ควรถูกมองเป็นคำเคลมด้านประสิทธิภาพที่น่าจับตา ไม่ใช่ benchmark ต้นทุนที่ยืนยันครบถ้วนแล้ว
Comments
0 comments