该研究项目名为《情境式著佐权之辩:为开源训练数据和生成式AI发放许可证》(The Case for Contextual Copyleft: Licensing Open Source Training Data and Generative AI)。
1. 绕不开的“合理使用”高墙
在美国法律体系下,这是CCAI面临的最大考验。如果法院最终认定,使用受版权保护的代码去训练AI属于“合理使用”(Fair Use)——即无需经过著作权人许可——那么CCAI的强制义务在法庭上就会失去根基。目前,关于AI训练是否构成合理使用的法律大战仍在激烈进行中,尚未有定论 。
2. “衍生作品”的界定困境
版权法中的“衍生作品”通常指基于原作的翻译、改编或影视化等。AI模型中的数学权重和浮点参数,在现有法律框架下是否真的算是一种“衍生作品”?目前这仍是一个巨大的法律盲区,需要立法或里程碑式的判例来明晰 。
3. 全球法律的“碎片化”风险
版权法具有强烈的地域性。一个在美国可能具备执行力的许可证条款,在欧盟、中国或日本可能因为对“数据挖掘”、“临时复制”等概念的认定不同而完全失效。这使得跨国AI公司的全球合规变得异常复杂 。
4. 海量数据下的溯源难题
现代大模型往往是在混合了万亿级语料令牌的数据集上训练的。当一个模型吐出一段代码时,开发者甚至原作者自己,可能都极难举证这段代码的“学习”究竟源自GitHub上的哪一个具体采用CCAI协议的项目。举证难度将直接阻碍许可的执行 。
Comments
0 comments