คำตอบเผยแพร่แล้ว2 เดือนที่ผ่านมาLast edited 2 เดือนที่ผ่านมา13 แหล่งที่มา

Baidu ERNIE 5.1: ทำไมคำเคลมต้นทุนฝึก 6% จึงสำคัญ

Baidu ระบุว่า ERNIE 5.1 ทำผลงานระดับนำในสเกลของตัวเอง โดยใช้ต้นทุนพรีเทรนเพียงราว 6% ของโมเดลที่เทียบเคียงได้ สูตรที่บริษัทชูคือสืบทอดฐานพรีเทรนจาก ERNIE 5.0 ลดพารามิเตอร์รวมเหลือประมาณหนึ่งในสาม ลด active parameters เหลือประมาณครึ่ง แล้วเสริมด้วยการฝึกหลังพรีเทรน ใจความสำคัญยังไม่ใช่การยืนยัน benchmark ต้นทุนใหม่ขอ...

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI ดูหน้าที่กำลังมาแรงเพิ่มเติม

Editorial illustration for Baidu ERNIE 5.1 and its 6% pre-training cost claim — Baidu ERNIE 5.1: Why Its 6% Training-Cost Claim MattersBaidu’s ERNIE 5.1 announcement centers on an efficiency claim: strong performance at its model scale with sharply reduced parameters and pre-training cost.
AI พรอมต์
Create a landscape editorial hero image for this Studio Global article: Baidu ERNIE 5.1: Why Its 6% Training-Cost Claim Matters. Article summary: Baidu’s ERNIE 5.1 matters because Baidu claims leading performance at its model scale with only about 6% of comparable pre training cost—a shift toward efficiency over raw scale, though the cost figure remains a compa.... Topic tags: ai, baidu, ernie, llm, model efficiency. Reference image context from search candidates: Reference image 1: visual subject "The model employs "Multi-Dimensional Elastic Pre-training" technology, compressing total parameters to about one-third of ERNIE 5.0 and active parameters to about one-half. Its pre" source context "Baidu Releases ERNIE 5.1, with Pre-training Cost Only 6% of ..." Reference image 2: visual subject "The model employs "Multi-Dimensional Elastic Pre-training" technology, compressing total parameter
openai.com

Baidu ERNIE 5.1 ควรถูกอ่านเป็นเรื่องของ ประสิทธิภาพ มากกว่าเรื่องของโมเดลที่ใหญ่กว่าเดิม ในเอกสารเปิดตัว Baidu ระบุว่า ERNIE 5.1 สืบทอดฐาน pre-training ของ ERNIE 5.0 ลดพารามิเตอร์รวมลงเหลือประมาณหนึ่งในสาม ลดพารามิเตอร์ที่ถูกใช้งานจริงหรือ active parameters เหลือประมาณครึ่งหนึ่ง และทำผลงานพื้นฐานระดับนำในสเกลของโมเดล ด้วยต้นทุน pre-training เพียงราว 6% ของโมเดลที่เทียบเคียงได้

ตัวเลข 6% จึงสะดุดตา เพราะมันบอกเล่าแนวทางที่ต่างจากการแข่งขันแบบเดิม ๆ ที่มักวัดกันว่าใครฝึกโมเดลใหญ่กว่า ใช้ข้อมูลมากกว่า หรือใช้คอมพิวต์มากกว่า Baidu กำลังเสนอว่า ความสามารถสูงอาจมาจากการใช้ฐานเดิมให้คุ้ม บีบขนาดโมเดลให้ฉลาดขึ้น และเติมความสามารถผ่าน post-training แทนการเริ่มพรีเทรนโมเดลยักษ์ใหม่ทั้งชุด

แต่ต้องย้ำให้ชัด: ตัวเลข 6% ยังเป็นคำกล่าวของบริษัท ไม่ใช่ตัวเลขต้นทุนที่ผ่านการตรวจสอบอิสระแล้ว เอกสารสาธารณะที่มีอยู่ยังไม่ได้เปิดรายละเอียดครบว่าเปรียบเทียบกับโมเดลใด ใช้ฮาร์ดแวร์แบบไหน นับค่าใช้จ่ายอย่างไร และรวมต้นทุนส่วนใดบ้าง

Baidu เคลมอะไรจริง ๆ

แกนกลางของคำประกาศมีสามส่วนสำคัญ

หนึ่ง Baidu บอกว่า ERNIE 5.1 ไม่ได้ถูกวางให้เป็นโมเดลฐานใหม่ที่เริ่มฝึกจากศูนย์ทั้งหมด แต่สืบทอดฐาน pre-training ของ ERNIE 5.0

สอง บริษัทระบุว่า ERNIE 5.1 บีบพารามิเตอร์รวมให้เหลือประมาณหนึ่งในสาม และลด active parameters หรือส่วนของพารามิเตอร์ที่ถูกเรียกใช้ในแต่ละครั้งของการคำนวณ ให้เหลือประมาณครึ่งหนึ่ง

สาม คำว่า 6% ในประกาศของ Baidu หมายถึง ต้นทุน pre-training หรือช่วงฝึกพื้นฐานของโมเดล ไม่ได้หมายความโดยอัตโนมัติว่าครอบคลุมต้นทุนพัฒนาทั้งหมด ต้นทุน post-training ต้นทุนการให้บริการจริง ต้นทุน inference ประสิทธิภาพของฮาร์ดแวร์ หรือราคาขายเชิงพาณิชย์

นอกจากนี้ บล็อกของ Baidu ยังระบุว่า ERNIE 5.1 ยกระดับความสามารถด้าน Agent, การให้เหตุผล และงานสร้างสรรค์ โดยอาศัย disaggregated fully-asynchronous reinforcement learning และ scaled agentic post-training พร้อมระบุว่าโมเดลขึ้นอันดับ 1 ในจีนบน Arena Search Arena

ทำไมตัวเลข 6% ถึงน่าจับตา

ในสนาม AI ระดับโลก การเล่าเรื่องมักวนอยู่กับสเกล: พารามิเตอร์มากขึ้น ข้อมูลมากขึ้น และกำลังประมวลผลมากขึ้น แต่ ERNIE 5.1 ทำให้เห็นอีกแนวทางหนึ่ง คือการพยายามรักษาความสามารถไว้ ขณะลดขนาดและลดภาระของการพรีเทรนรอบใหญ่

ถ้าแนวทางนี้ใช้ได้จริงในทางปฏิบัติ ความได้เปรียบอาจไม่ได้อยู่ที่การมีโมเดลใหญ่ที่สุดเพียงอย่างเดียว แต่อยู่ที่การออกแบบสมดุลระหว่างต้นทุนกับผลงาน เช่น การนำฐานเดิมกลับมาใช้ การเลือก sub-model ที่เหมาะสม การลดภาระคำนวณที่ถูกเรียกใช้จริง และการปรับพฤติกรรมของโมเดลผ่าน post-training

นี่คือเหตุผลที่ ERNIE 5.1 น่าสนใจ: Baidu ไม่ได้แค่บอกว่าโมเดลใหม่เก่งขึ้น แต่กำลังบอกว่าเส้นทางสู่โมเดลที่แข่งขันได้อาจไม่จำเป็นต้องแพงขึ้นแบบเส้นตรง

Baidu บอกว่าทำให้ถูกลงได้อย่างไร

1. ใช้ฐาน ERNIE 5.0 ต่อ ไม่เริ่มใหม่ทั้งหมด

หัวใจของคำเคลมอยู่ตรงนี้ Baidu ระบุว่า ERNIE 5.1 สืบทอดฐาน pre-training ของ ERNIE 5.0 กล่าวอีกแบบคือ ERNIE 5.1 ถูกนำเสนอในฐานะโมเดลที่ต่อยอดจากฐานที่มีอยู่แล้ว ไม่ใช่โปรเจกต์ที่ต้องจ่ายต้นทุนพรีเทรนเต็มรูปแบบใหม่ตั้งแต่ต้น

2. ลดทั้งพารามิเตอร์รวมและพารามิเตอร์ที่ใช้งานจริง

Baidu ระบุว่า ERNIE 5.1 ลดพารามิเตอร์รวมเหลือประมาณหนึ่งในสาม และลด active parameters เหลือประมาณครึ่งหนึ่ง พารามิเตอร์รวมสะท้อนขนาดของโมเดลทั้งระบบ ส่วน active parameters คือส่วนที่ถูกใช้จริงในการคำนวณแต่ละครั้ง การลดได้ทั้งสองด้านจึงทำให้ประเด็นของ ERNIE 5.1 เป็นเรื่องประสิทธิภาพพอ ๆ กับเรื่องความสามารถ

3. ใช้แนวคิด elastic training จาก ERNIE 5.0

รายงานเทคนิคของ ERNIE 5.0 อธิบายแนวทาง elastic training ซึ่งทำให้การ pre-training หนึ่งรอบสามารถสร้างตระกูลโมเดลหลายขนาด พร้อมสมดุลระหว่างความสามารถกับประสิทธิภาพที่ต่างกัน

รายงานดังกล่าวระบุว่าแนวทางนี้สุ่มเลือก sub-model ที่มีความลึก ความกว้าง และ routing sparsity แตกต่างกันระหว่างการฝึก และเปิดทางให้ sub-model รับทอดความรู้จากโมเดลเต็ม เพื่อนำไปใช้ในขั้น post-training ต่อไป

สำหรับ ERNIE 5.1 แนวคิดนี้ช่วยอธิบายตรรกะของคำเคลมจาก Baidu ว่าไม่ใช่แค่การฝึกโมเดลให้ใหญ่ขึ้น แต่เป็นการสร้างฐานที่ยืดหยุ่น แล้วดึงรูปแบบที่มีประสิทธิภาพกว่าออกมาใช้งาน

4. เติมความสามารถผ่าน post-training

Baidu ระบุว่า ERNIE 5.1 ใช้ disaggregated fully-asynchronous reinforcement learning และ scaled agentic post-training เพื่อยกระดับความสามารถด้าน Agent, การให้เหตุผล และงานสร้างสรรค์

พูดให้เข้าใจง่ายขึ้น Baidu ไม่ได้อ้างเพียงว่าโมเดลเล็กลงแล้วจบ แต่กำลังบอกว่าการฝึกหลังจากมีฐานโมเดลแล้ว เป็นอีกส่วนสำคัญที่ช่วยกำหนดความสามารถสุดท้ายของ ERNIE 5.1

อะไรที่ยังพิสูจน์ไม่ได้จากข้อมูลสาธารณะ

จุดที่ต้องระวังคือการตรวจสอบตัวเลข 6% เอกสารที่อ้างถึงยังไม่ได้ให้บัญชีต้นทุนแบบละเอียด เช่น งบฝึกจริง ชนิดและจำนวนฮาร์ดแวร์ ส่วนผสมข้อมูล ระยะเวลาฝึก อัตราการใช้ accelerator ต้นทุน post-training หรือรายชื่อโมเดลที่ Baidu ใช้เป็นฐานเปรียบเทียบของคำว่า comparable models

ดังนั้น ตัวเลขนี้ไม่ได้ไร้ความหมาย แต่ก็ยังไม่ควรถูกอ่านเป็นมาตรฐานอุตสาหกรรมที่ยืนยันแล้วโดยบุคคลที่สาม การอ่านที่ปลอดภัยที่สุดคือ Baidu กำลังอ้างว่า ERNIE 5.1 รักษาผลงานพื้นฐานระดับนำในสเกลของตัวเองได้ โดยลดพารามิเตอร์และต้นทุน pre-training ผ่านการสืบทอดฐานเดิม การบีบขนาด แนวคิด elastic training และ post-training

สรุป

ความสำคัญของ ERNIE 5.1 อยู่ที่การเปลี่ยนกรอบการเล่าเรื่องจากใหญ่กว่าและแพงกว่า ไปสู่คุ้มกว่าและออกแบบประสิทธิภาพได้ดีกว่า Baidu ระบุว่าโมเดลนี้สืบทอดฐานจาก ERNIE 5.0 ลดพารามิเตอร์รวมและ active parameters และทำผลงานพื้นฐานระดับนำในสเกลของตัวเองด้วยต้นทุน pre-training ราว 6% ของโมเดลที่เทียบเคียงได้

อย่างไรก็ตาม คำเคลมนี้ยังไม่ปิดประเด็นทั้งหมด จนกว่าจะมีรายละเอียดเพิ่มเติมจาก Baidu หรือการประเมินอิสระเกี่ยวกับฐานเปรียบเทียบ ฮาร์ดแวร์ ข้อมูล และวิธีคิดต้นทุน ตัวเลข 6% ควรถูกมองเป็นคำเคลมด้านประสิทธิภาพที่น่าจับตา ไม่ใช่ benchmark ต้นทุนที่ยืนยันครบถ้วนแล้ว

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

คนยังถาม

คำตอบสั้น ๆ สำหรับ "Baidu ERNIE 5.1: ทำไมคำเคลมต้นทุนฝึก 6% จึงสำคัญ" คืออะไร

Baidu ระบุว่า ERNIE 5.1 ทำผลงานระดับนำในสเกลของตัวเอง โดยใช้ต้นทุนพรีเทรนเพียงราว 6% ของโมเดลที่เทียบเคียงได้

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

ใจความสำคัญยังไม่ใช่การยืนยัน benchmark ต้นทุนใหม่ของอุตสาหกรรม แต่คือสัญญาณว่า Baidu กำลังผลักดันการแข่งขัน AI ไปทางประสิทธิภาพต่อค่าใช้จ่ายมากขึ้น

แหล่งที่มา

← Back to Trending