
Il consiglio degli attori in una causa per violazione del copyright intentata contro Meta afferma che il CEO di Meta, Mark Zuckerberg, ha dato il via libera al team dietro ai modelli di intelligenza artificiale Lama dell'azienda per utilizzare un set di dati di e-book e articoli piratati per l'addestramento.
Il caso, Kadrey v. Meta, è uno tra i tanti contro i giganti della tecnologia che sviluppano intelligenza artificiale che accusano le aziende di addestrare modelli su opere protette da copyright senza autorizzazione. Per la maggior parte, i difensori come Meta hanno sostenuto di essere al riparo dal fair use, il principio giuridico statunitense che consente l'uso di opere protette da copyright per creare qualcosa di nuovo a condizione che sia sufficientemente trasformativo. Molti creatori rigettano questo argomento.
Nelle nuove documenti non redatte depositate presso il Tribunale distrettuale degli Stati Uniti per il distretto settentrionale della California mercoledì scorso, gli attori in Kadrey v. Meta, che includono gli autori di bestseller Sarah Silverman e Ta-Nehisi Coates, riportano la testimonianza di Meta alla fine dell'anno scorso, durante la quale è emerso che Zuckerberg ha approvato l'uso del set di dati chiamato LibGen per l'addestramento correlato a Lama di Meta.
LibGen, che si descrive come un "aggregatore di link", fornisce accesso a opere protette da copyright da editori come Cengage Learning, Macmillan Learning, McGraw Hill e Pearson Education. LibGen è stato citato in giudizio varie volte, ordinato di chiudere e multato per decine di milioni di dollari per violazione del copyright.
Secondo la testimonianza di Meta, come riferito dal consiglio degli attori, Zuckerberg ha autorizzato l'uso di LibGen per addestrare almeno uno dei modelli Llama di Meta nonostante le preoccupazioni all'interno del team esecutivo AI di Meta e di altre persone dell'azienda. Il deposito cita i dipendenti di Meta che definiscono LibGen come un "set di dati che sappiamo essere piratato", e segnalano che il suo utilizzo "potrebbe minare la posizione negoziale [di Meta] con i regolatori".
Nel deposito si fa riferimento anche a un memo per i responsabili delle decisioni AI di Meta che nota che dopo "l'escalation a MZ", il team AI di Meta "[è stato] autorizzato ad utilizzare LibGen." (MZ, qui, è ovviamente un acronimo di "Mark Zuckerberg.)
I dettagli sembrano allinearsi con quanto riportato dal New York Times lo scorso aprile, secondo cui Meta ha tagliato le spese per raccogliere dati per la sua AI. In un primo momento, Meta stava assumendo appaltatori in Africa per aggregare riassunti di libri e stava considerando l'acquisto dell'editore Simon & Schuster, secondo il Times. Ma i dirigenti della società hanno concluso che ci sarebbe voluto troppo tempo per negoziare le licenze e hanno ragionato che il fair use era una difesa solida.
Nel deposito di mercoledì ci sono nuove accuse, come quella secondo cui Meta potrebbe aver cercato di nascondere la presunta violazione eliminando i dati di LibGen da qualsiasi attribuzione.
Secondo il consiglio degli attori, l'ingegnere di Meta Nikolay Bashlykov, che lavora nel team di ricerca Lama, ha scritto uno script per rimuovere le informazioni sul copyright, inclusa la parola "copyright" e "riconoscimenti", dagli e-book in LibGen. Separatamente, Meta avrebbe rimosso i marcatori del copyright dagli articoli scientifici e i "metadati di origine" nei dati di addestramento utilizzati per Lama.
“Questa scoperta suggerisce che Meta rimuova [le informazioni sul copyright] non solo per scopi di addestramento,” si legge nel deposito, “ma anche per nascondere la sua violazione del copyright, perché la rimozione delle opere protette dal copyright... impedisce a Lama di restituire le informazioni sul copyright che potrebbero avvisare gli utenti di Lama e il pubblico della violazione di Meta.”
Secondo il deposito più recente, Meta ha anche rivelato durante le deposizioni di aver scaricato LibGen tramite torrent, una mossa che ha destato preoccupazione in alcuni ingegneri di ricerca di Meta. Il torrenting, un modo per distribuire file su internet, richiede che i torrenter caricano simultaneamente i file che stanno cercando di ottenere.
Il consiglio degli attori afferma che Meta ha effettivamente commesso un'altra forma di violazione del copyright scaricando LibGen tramite torrent e contribuendo così a diffondere i suoi contenuti. Inoltre, il consiglio afferma che Meta ha cercato di nascondere le sue attività minimizzando il numero di file caricati.
Secondo il deposito, il capo di AI generativo di Meta, Ahmad Al-Dahle, ha "spianato la strada" per il torrenting di LibGen — ignorando le riserve di Bashlykov che tale pratica "potrebbe non essere legalmente corretta."
“Se Meta avesse acquistato i lavori degli attori in un negozio o li avesse presi in prestito da una biblioteca per addestrare i suoi modelli Llama senza licenza, avrebbe commesso violazione del copyright”, ha scritto il consiglio degli attori nel deposito. “La decisione di Meta di eludere i metodi legali per acquisire libri e diventare partecipe consapevole in una rete di torrenting illegale... costituisce prova di violazione del copyright.”
Il caso contro Meta è ancora in corso. Al momento riguarda solo i primi modelli Llama di Meta — non le versioni più recenti. E il tribunale potrebbe tranquillamente decidere a favore di Meta se verrà persuaso dall'argomento del fair use dell'azienda. (Nel 2023, un tribunale ha respinto diverse denunce per violazione del copyright relative all'AI contro Meta, ritenendo che gli attori non fossero riusciti a dimostrare che si fosse verificata una violazione.)
Ma le accuse non riflettono bene su Meta, come ha sottolineato il giudice che presiede il caso, il giudice Vince Chhabria, in un'ordinanza mercoledì scorso che ha respinto la richiesta di Meta di censurare ampie parti del deposito.
“È chiaro che la richiesta di censura di Meta non è progettata per proteggere contro la divulgazione di informazioni sensibili che i concorrenti potrebbero utilizzare a loro vantaggio”, ha scritto Chhabria. “Piuttosto, è progettata per evitare pubblicità negativa.”
Abbiamo contattato il PR di Meta per un commento e aggiorneremo questo articolo se riceveremo una risposta.
TechCrunch ha una newsletter focalizzata sull'intelligenza artificiale! Iscriviti qui per riceverla nella tua casella di posta ogni mercoledì.