Kort gezegd: wie bouwt op de kennis van de open-sourcegemeenschap, moet zijn bouwwerk zelf ook weer openstellen. Het is een poging om het 'graaien' van code zonder wederkerigheid te stoppen.
Als een AI-ontwikkelaar een model traint op code die onder een CCAI-licentie valt, zou het voorstel hem dwingen tot het publiekelijk delen van cruciale informatie over het model . Concreet gaat het om:
Het doel is drieledig: het voorkomen van gesloten, propriëtaire systemen gebaseerd op open bronnen, het stimuleren van AI-veiligheid door publieke inspectie, en het herstellen van de balans tussen grote techbedrijven en de onafhankelijke ontwikkelaars die de fundering leggen .
De wetenschappelijke basis van het voorstel is vastgelegd in het artikel "The Case for Contextual Copyleft: Licensing Open Source Training Data and Generative AI", dat is gepubliceerd in het Oxford Journal of International Law & Technology . De auteurs zijn allen verbonden aan het Digital Ethics Center van Yale
:
Het voorstel is intellectueel sterk, maar de echte wereld is weerbarstig. De onderzoekers benoemen zelf een aantal prangende juridische vragen waarop het voorstel kan stranden :
Fair use-drempel — In de VS draait de handhaafbaarheid van CCAI grotendeels om de vraag of het trainen van AI-modellen mag worden gezien als 'fair use' onder het auteursrecht . Ook al zijn er miljardenschikkingen zoals die met Anthropic ($1,5 miljard), rechters oordeelden ook al dat AI-training 'ingrijpend transformatief' is en dus als fair use kan gelden
. Als dat laatste standhoudt, dan heb je voor de training zelf geen expliciete toestemming van de auteursrechthebbende nodig, en wordt een licentievoorwaarde moeilijk afdwingbaar.
Classificatie als 'afgeleid werk' — Het is juridisch onontgonnen terrein of een getraind AI-model — met zijn complexe gewichten en neurale verbindingen — juridisch wel een 'afgeleid werk' is van de trainingsdata . Een model is eerder een statistische representatie van data dan een letterlijke kopie of bewerking, wat de juridische redenering bemoeilijkt.
Verschillen tussen rechtssystemen — De afdwingbaarheid kan sterk variëren. De Europese Unie kent bijvoorbeeld andere auteursrechtuitzonderingen voor tekst- en datamining dan de Verenigde Staten of Japan. Wat in het ene land werkt, kan in het andere land juridisch geen stand houden .
Praktische handhaving — Zelfs als de licentie juridisch waterdicht lijkt, is de bewijslast een monster. Modellen worden getraind op enorme, gemengde datasets met miljarden datapunten. Het traceren van de precieze herkomst van één specifiek open-sourcecodefragment in een compleet model is technisch extreem complex en kostbaar .
Comments
0 comments