Uso di articoli scientifici per l’addestramento dei modelli di Intelligenza Artificiale

L'intelligenza artificiale si sviluppa rapidamente grazie ai modelli di linguaggio di grandi dimensioni (LLM), ma l'uso di articoli scientifici per il loro addestramento solleva preoccupazioni etiche e legali. Molti autori non sanno se i loro lavori siano stati impiegati senza consenso, sollevando interrogativi sulla trasparenza e sul rispetto dei diritti d'autore nell'era dell'IA.

Andrea Dari

Negli ultimi anni, l’industria tecnologica ha visto una crescita esponenziale nello sviluppo di modelli di intelligenza artificiale (IA), in particolare quelli di grandi dimensioni, noti come modelli di linguaggio.

Tuttavia, questa innovazione ha sollevato importanti questioni etiche e legali, specialmente riguardo l’uso di articoli scientifici e altri contenuti accademici per addestrare questi modelli.

Ogni volta che interagiamo con un modello di linguaggio come ChatGPT, ci chiediamo: da dove proviene la conoscenza che esprime? Quali testi sono stati utilizzati per insegnargli a rispondere in modo così articolato e preciso? La possibilità che i nostri articoli preferiti, i post sui social media o persino i nostri lavori accademici possano essere stati impiegati senza il nostro consenso solleva preoccupazioni legittime.

Ciò che è ancora più allarmante è la segretezza che circonda il processo: non sappiamo esattamente quali dati siano stati utilizzati, né in che modo.

La mancanza di trasparenza lascia molti di noi a domandarsi se i nostri diritti siano stati rispettati o se siano stati ignorati in nome del progresso tecnologico. Come osserva Yves-Alexandre de Montjoye, “vogliamo LLM (Large Language Model), ma vogliamo anche qualcosa che sia equo,” e questa equità si estende alla trasparenza e al rispetto dei diritti d'autore durante il processo di addestramento di queste potenti intelligenze artificiali.

articolo pubblicato su Nature da Elizabeth Gibney, intitolato “Has your paper been used to train an AI model? Almost certainly”, esplora proprio queste problematiche, evidenziando come l’accesso a contenuti accademici venga venduto da editori scientifici a grandi aziende tecnologiche senza consultare gli autori.

Secondo l’articolo, editori come Wiley e Taylor & Francis hanno venduto l’accesso ai loro articoli per cifre considerevoli a società come Microsoft, al fine di migliorare i loro modelli di intelligenza artificiale.

Questo fenomeno solleva “scomode domande” sul rispetto del diritto d’autore, poiché spesso i ricercatori non sono coinvolti o neppure informati di tali accordi commerciali. Come afferma Lucy Lu Wang, ricercatrice presso l’Università di Washington a Seattle, “tutto ciò che è disponibile online, che sia in un repository ad accesso libero o meno, è ‘molto probabile’ che sia già stato utilizzato per addestrare un modello di linguaggio.”

La questione centrale riguarda il modo in cui questi modelli vengono addestrati.

I modelli di linguaggio di grandi dimensioni (LLM) si basano su enormi volumi di dati, spesso raccolti automaticamente da Internet. Questi dati includono frammenti di testo da miliardi di documenti che permettono ai modelli di generare testi con una fluidità impressionante.

Gli articoli accademici, per la loro lunghezza e “alta densità di informazioni”, rappresentano un tesoro per coloro che costruiscono modelli di IA, come sottolinea Stefan Baack della Mozilla Foundation.

Tuttavia, gli sviluppatori di IA mantengono spesso segreti i loro set di dati, rendendo difficile per i ricercatori verificare se il proprio lavoro sia stato utilizzato. Come evidenzia Yves-Alexandre de Montjoye dell’Imperial College di Londra, “dimostrare che un LLM ha utilizzato un determinato articolo è difficile”.

Ci sono tecniche, come l’inferenza di appartenenza, che possono offrire qualche indicazione, ma la prova definitiva è ancora complessa da ottenere.

In questo contesto, emergono forti preoccupazioni legali.

Alcuni editori sostengono che l’uso di testi protetti da copyright senza una licenza costituisce una violazione, mentre altri argomentano che i LLM non copiano direttamente i testi, ma estraggono informazioni per generare nuovo contenuto. Questa disputa potrebbe trovare una risposta nelle aule di tribunale.

Ad esempio, il New York Times ha avviato una causa contro Microsoft e OpenAI, accusandoli di aver utilizzato il proprio contenuto giornalistico per addestrare i loro modelli senza autorizzazione.

Il dibattito sull’uso dei contenuti accademici per l’addestramento di IA è destinato a crescere.

L’articolo di Gibney su Nature solleva domande fondamentali sulla proprietà intellettuale nell’era dell’intelligenza artificiale, e rappresenta un importante punto di partenza per una discussione più ampia su come equilibrare l’innovazione tecnologica con il rispetto dei diritti degli autori. Ne consiglio quindi la lettura per un maggiore approfondimento sul tema.

Andrea Dari

Ingegnere, Presidente della Casa Editrice IMREADY e direttore Responsabile di INGENIO

Scheda

Contatti: Facebook LinkedIn

AI - Intelligenza Artificiale

Con questo Topic raccogliamo per i nostri lettori tutti gli articoli, news, approfondimenti riguardanti l'evoluzione tecnica, le norme e regole, i casi applicativi sul tema dell'intelligenza artificiale

Scopri di più

Digitalizzazione

News e approfondimenti che riguardano, in generale, l'adozione di processi e tecnologie digitali per la progettazione, la costruzione e la gestione dell'ambiente costruito.

Scopri di più

Uso di articoli scientifici per l’addestramento dei modelli di Intelligenza Artificiale

La questione centrale riguarda il modo in cui questi modelli vengono addestrati.

Andrea Dari

AI - Intelligenza Artificiale

Digitalizzazione

Leggi anche

Demolizione e ricostruzione ante 1967: come si prova la preesistenza dell'opera

Rischio sanzioni per abuso se la SCIA in sanatoria presenta elaborati non aderenti allo stato di fatto

Cappotto termico difettoso: responsabili sia impresa che progettista

Superbonus 2025 per i condomini: interventi, scadenze CILA-S, possibilità

Scioglimento ghiacci e riscaldamento globale: dati e conseguenze climatiche

Perché i chatbot di Intelligenza Artificiale danno risposte diverse alla stessa domanda?

Efficienza energetica: crescono gli acquisti di case meno energivore, in un 2024 positivo per il mercato immobiliare

Concorso di progettazione: coniugare architettura e paesaggio per il nuovo rifugio "Tonini" in Provincia di Trento

Superbonus 2025 per i condomini: interventi, scadenze CILA-S, possibilità

Scioglimento ghiacci e riscaldamento globale: dati e conseguenze climatiche

OpenAI rivoluziona la generazione di immagini: nasce uno strumento pratico per designer e pubblicitari

Dal cuore della cementeria di Trino, Buzzi porta la memoria industriale italiana in Museimpresa