Theo thời gian:
Hiện tượng này đã được quan sát trong nhiều loại mô hình tạo sinh khác nhau, bao gồm:
Việc nhiều kiến trúc khác nhau đều gặp hiện tượng này cho thấy model collapse có thể là một đặc tính chung của học máy tạo sinh khi dùng dữ liệu tổng hợp lặp lại, chứ không phải lỗi của riêng một loại mô hình.
Nguyên nhân chính nằm ở cách lấy mẫu thống kê.
Khi một mô hình tạo dữ liệu tổng hợp, nó thường tái tạo các mẫu có xác suất cao nhiều hơn các mẫu hiếm. Những sự kiện hiếm vốn nằm ở phần “đuôi” của phân bố nên đã ít xuất hiện ngay từ đầu.
Khi thế hệ mô hình tiếp theo được huấn luyện trên dữ liệu đó:
Qua mỗi vòng lặp, sai lệch nhỏ ban đầu trở thành sai lệch lớn. Cuối cùng, phần đuôi của phân bố biến mất hoàn toàn, và mô hình chỉ còn giữ lại các mẫu phổ biến nhất.
Một khi những ví dụ hiếm không còn trong dữ liệu huấn luyện, các mô hình sau không thể tái tạo chúng, vì không còn bằng chứng nào cho thấy chúng từng tồn tại.
Một phát hiện đáng chú ý từ các phân tích gần đây là chỉ cần một lượng rất nhỏ dữ liệu thật cũng có thể ngăn model collapse.
Trong nghiên cứu về một nhóm mô hình thống kê gọi là exponential families, các nhà khoa học nhận thấy rằng chỉ cần một điểm dữ liệu từ phân bố thật cũng có thể đóng vai trò như “neo” cho quá trình học. Điểm dữ liệu này giữ lại bằng chứng rằng các mẫu hiếm tồn tại, ngăn vòng lặp huấn luyện hội tụ vào một phân bố sai.
Tương tự, kiến thức tiên nghiệm (prior knowledge) — tức các giả định hoặc ràng buộc được đưa sẵn vào mô hình — cũng có thể đóng vai trò tương tự. Khi mô hình bị giới hạn trong một số dạng phân bố hợp lý, nó khó bị trôi hoàn toàn theo dữ liệu tổng hợp lệch lạc.
Nói cách khác:
Ngay cả khi dữ liệu tổng hợp chiếm phần lớn tập huấn luyện, những “mỏ neo” này vẫn có thể ổn định quá trình học.
Nguy cơ model collapse trở nên nghiêm trọng hơn khi nội dung do AI tạo ra ngày càng nhiều trên internet.
Các mô hình ngôn ngữ lớn thường được huấn luyện từ dữ liệu web quy mô cực lớn. Nhưng khi ngày càng nhiều bài viết, hình ảnh hoặc đoạn văn trên internet được tạo bởi AI, những dữ liệu này có thể quay trở lại làm dữ liệu huấn luyện cho thế hệ AI tiếp theo.
Nếu điều đó xảy ra trên quy mô lớn, hậu quả có thể gồm:
Các nhà nghiên cứu cảnh báo rằng để tránh điều này, các hệ thống AI tương lai cần duy trì nguồn dữ liệu do con người tạo ra đáng tin cậy hoặc sử dụng các cơ chế giúp bảo tồn phân bố dữ liệu ban đầu trong quá trình huấn luyện.
Mặc dù cơ chế model collapse đã được chứng minh khá rõ, một số chi tiết vẫn đang được nghiên cứu thêm. Ví dụ, kết luận rằng chỉ cần một điểm dữ liệu thật để ngăn sụp đổ chủ yếu dựa trên phân tích lý thuyết và các mô hình thống kê đơn giản, chứ chưa phải thử nghiệm quy mô lớn trên các LLM thương mại.
Điều đó có nghĩa là trong thực tế, lượng dữ liệu thật cần thiết có thể phụ thuộc vào kiến trúc mô hình, cách huấn luyện và cấu trúc bộ dữ liệu.
Comments
0 comments