Điểm đáng chú ý nhất ở ERNIE 5.1 không phải là một cuộc đua “ai có mô hình to hơn”. Đây trước hết là câu chuyện kinh tế của AI: làm sao đạt hiệu năng mạnh mà không phải trả giá bằng một đợt tiền huấn luyện khổng lồ từ đầu.
Trong thông báo phát hành, Baidu nói ERNIE 5.1 kế thừa nền tiền huấn luyện của ERNIE 5.0, nén tổng tham số xuống còn khoảng một phần ba và tham số kích hoạt xuống còn khoảng một nửa, nhưng vẫn đạt hiệu năng nền tảng dẫn đầu ở quy mô của mô hình với chỉ khoảng 6% chi phí tiền huấn luyện so với các mô hình có thể so sánh [7]. Vì vậy, ý nghĩa của ERNIE 5.1 nằm ở một hướng đi khác: không chỉ phình to mô hình, mà khai thác lại nền tảng đã có, làm gọn cấu hình và tăng hiệu quả ở giai đoạn hậu huấn luyện.
Vấn đề chính: hiệu năng trên mỗi đồng chi phí
Trong vài năm qua, AI tạo sinh thường được kể bằng những con số lớn: nhiều tham số hơn, nhiều GPU hơn, nhiều dữ liệu hơn. ERNIE 5.1 khiến câu chuyện chuyển sang một câu hỏi thực dụng hơn: nếu có thể giữ phần lớn năng lực với chi phí tiền huấn luyện thấp hơn nhiều, lợi thế cạnh tranh sẽ nằm ở thiết kế huấn luyện và tối ưu chi phí, chứ không chỉ ở quy mô tuyệt đối.
Baidu cũng nói ERNIE 5.1 đứng đầu tại Trung Quốc trên Arena Search, đồng thời nâng cấp năng lực về tác tử AI, suy luận và sáng tạo nhờ hạ tầng học tăng cường tách rời, hoàn toàn bất đồng bộ và hậu huấn luyện hướng tác tử ở quy mô lớn [12]. Với độc giả không theo sát ngành AI, “tác tử” ở đây có thể hiểu là hệ thống AI không chỉ trả lời câu hỏi, mà còn có thể lập kế hoạch, dùng công cụ và thực hiện chuỗi bước để hoàn thành nhiệm vụ.
Điểm chiến lược là: Baidu đang công khai đặt cược vào hướng “hiệu quả trước, quy mô sau”. Nếu tuyên bố này đứng vững trong thực tế, nó gợi ý rằng cuộc đua AI toàn cầu có thể không chỉ thuộc về bên nào huấn luyện mô hình lớn nhất, mà còn thuộc về bên nào tận dụng tốt nhất một nền tảng đã huấn luyện.
Nên hiểu con số 6% như thế nào?
Con số 6% cần được đọc hẹp và cẩn thận. Baidu nói đây là chi phí tiền huấn luyện của ERNIE 5.1 so với các mô hình có thể so sánh [7]. “Tiền huấn luyện” là giai đoạn nền tảng, nơi mô hình học các mẫu ngôn ngữ, tri thức và cấu trúc dữ liệu ở quy mô lớn trước khi được tinh chỉnh cho các nhiệm vụ cụ thể.




