背後原因其實同基本統計抽樣有關。
當下一代模型用呢啲合成數據訓練時:
每一次迭代都會累積之前嘅誤差。到某一個階段,分佈尾端幾乎完全消失,只剩下最常見嘅模式。
一旦呢啲罕見例子從訓練數據中消失,之後嘅模型就無辦法再重建它們,因為數據裡面已經冇證據顯示佢哋曾經存在。
近期分析提出一個有趣結果:阻止模型崩塌可能唔需要大量真實數據。
換句話講,即使合成數據佔絕大多數,呢個真實樣本仍然可以提醒模型:原本嘅分佈其實包含其他模式。
實際意義包括:
即使真實數據比例好少,仍然可能足以穩定訓練過程。
模型崩塌問題近年愈來愈受關注,原因係AI 生成內容正在快速充斥互聯網。
如果訓練主要依賴呢啲內容,長遠可能帶來幾個後果:
雖然模型崩塌嘅機制已經有理論同實驗支持,但部分細節仍然未完全確定。
因此喺真實 AI 系統中,到底需要幾多真實數據先足夠,仍然可能取決於模型架構、數據來源同訓練方法。
Comments
0 comments