Câu trả lờiĐã xuất bản2 tháng trướcLast edited tháng trước15 nguồn

AI có thể tự làm hỏng mình khi học từ dữ liệu do AI tạo ra

Các nghiên cứu chỉ ra rằng việc huấn luyện lặp lại AI bằng dữ liệu tổng hợp có thể gây ra “model collapse”, khi các mẫu hiếm trong dữ liệu biến mất và mô hình ngày càng lệch khỏi phân bố dữ liệu ban đầu. Huấn luyện đệ quy làm khuếch đại sai lệch lấy mẫu: các sự kiện hiếm ở “đuôi phân bố” xuất hiện ngày càng ít, khiế...

Tìm kiếm và kiểm chứng sự thật với Studio Global AI Duyệt thêm trang xu hướng

Concept illustration of AI model collapse showing synthetic data loops shrinking a distribution and removing rare patterns — What does the new study on AI model collapse find about preventing degradation when models are trained on synthetic data, why does recursiveRecursive training on AI‑generated data can gradually erase rare patterns from a model’s learned distribution, a phenomenon researchers call model collapse.
Prompt AI
Create a landscape editorial hero image for this Studio Global article: What does the new study on AI model collapse find about preventing degradation when models are trained on synthetic data, why does recursive. Article summary: The study describes model collapse as a failure mode where recursively trained generative models lose information about the original data distribution, especially its rare or low-probability regions.. Topic tags: general, government, education, academic, general web. Reference image context from search candidates: Reference image 1: visual subject "However, as AI-generated data increasingly populates the internet, an important question arises: What happens when new AI models are trained on datasets containing their previous o" source context "Avoiding Model Collapse in AI Training - Risk Insight" Reference image 2: visual subject "Artificial intelligence models
openai.com

Các hệ thống AI tạo sinh ngày càng được huấn luyện bằng dữ liệu tổng hợp (synthetic data) — tức nội dung do các mô hình AI trước đó tạo ra. Tuy nhiên, nghiên cứu gần đây cho thấy cách làm này tiềm ẩn một rủi ro lớn gọi là “model collapse” (sụp đổ mô hình): quá trình suy giảm dần khiến mô hình mất khả năng đại diện cho toàn bộ sự đa dạng của dữ liệu ban đầu.

Một nghiên cứu lớn về huấn luyện đệ quy phát hiện rằng khi mô hình liên tục học từ dữ liệu do AI tạo ra thay vì dữ liệu thật, chúng bắt đầu quên các mẫu hiếm trong phân bố dữ liệu gốc. Qua nhiều vòng huấn luyện, những phần dữ liệu bị thiếu này tích tụ lại cho đến khi mô hình hình thành một bức tranh méo mó về thực tế.

Điều này ngày càng đáng lo khi nội dung do AI tạo ra đang lan rộng trên internet và dần trở thành một phần lớn trong các bộ dữ liệu dùng để huấn luyện thế hệ mô hình tiếp theo.

“Model collapse” là gì?

Model collapse là một dạng lỗi xảy ra khi các mô hình tạo sinh được huấn luyện bằng dữ liệu do các mô hình trước tạo ra, thay vì dữ liệu do con người hoặc thế giới thực tạo ra.

Các nhà nghiên cứu phát hiện rằng kiểu huấn luyện đệ quy này tạo ra những sai lệch không thể đảo ngược. Cụ thể, mô hình dần mất thông tin về “đuôi phân bố” — những ví dụ hiếm hoặc bất thường xuất hiện ít nhưng rất quan trọng để mô tả đúng thực tế.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "AI có thể tự làm hỏng mình khi học từ dữ liệu do AI tạo ra" là gì?

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Ngay cả một lượng nhỏ dữ liệu thực hoặc kiến thức tiên nghiệm cũng có thể ngăn sụp đổ bằng cách giữ lại bằng chứng rằng những mẫu hiếm đó tồn tại.

AI có thể tự làm hỏng mình khi học từ dữ liệu do AI tạo ra

“Model collapse” là gì?

Search, cite, and publish your own answer

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "AI có thể tự làm hỏng mình khi học từ dữ liệu do AI tạo ra" là gì?

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Nguồn

Vì sao huấn luyện đệ quy làm biến mất các mẫu hiếm?

Vì sao dữ liệu thật có thể ngăn “sụp đổ mô hình”?

Vì sao vấn đề này đặc biệt quan trọng với LLM?

Những điểm còn chưa chắc chắn