AI - Intelligenza Artificiale
Data Pubblicazione:

Da dove provengono i dati che alimentano l’Intelligenza Artificiale?

L’Intelligenza Artificiale si nutre di dati, ma quanto sappiamo davvero sulla loro provenienza? L’opacità dei processi di raccolta e l’accentramento del potere nelle mani di poche aziende tecnologiche stanno ridisegnando l’intero panorama digitale. Scopri come i dati, da fonti come il web e piattaforme tecniche italiane come Ingenio, influenzano il futuro dell’IA e le sue implicazioni globali.

L'intelligenza artificiale (IA) vive di dati.

Quantità immense di informazioni alimentano algoritmi capaci di compiere operazioni che, fino a pochi anni fa, sembravano fantascienza. Tuttavia, come evidenziato dall’articolo di Melissa Heikkilä per il MIT Technology Review, ci troviamo di fronte a un problema di fondamentale importanza: la provenienza dei dati utilizzati per addestrare i modelli IA è ancora un territorio opaco e poco esplorato.

Una lacuna che rischia di concentrare il potere tecnologico nelle mani di poche aziende.

   

L'iniziativa per la trasparenza: il Data Provenance Initiative

Un gruppo di oltre 50 ricercatori, appartenenti sia al mondo accademico sia all’industria, ha condotto un audit su quasi 4.000 set di dati pubblici, analizzando oltre 800 fonti in 67 paesi.

L’obiettivo? Capire da dove provengano i dati che alimentano l’IA.

I risultati sono inquietanti: mentre nei primi anni 2010 i dati provenivano da fonti eterogenee (enciclopedie, trascrizioni parlamentari, report meteo), con l’avvento dei modelli di trasformatori (introdotti nel 2017) e la crescente importanza della scala dei dati, la tendenza è cambiata drasticamente. Oggi, gran parte dei dati viene estratta in modo indiscriminato dal web.

Secondo un rapporto di OpenAI, l'accumulo indiscriminato di dati comporta rischi etici e pratici, inclusi bias culturali e violazioni di privacy. Il "Journal of Artificial Intelligence Research" ha sottolineato come la trasparenza nei dataset sia cruciale per garantire una IA più equa e accessibile.

  

Un problema di concentrazione del potere

Dal 2018, il web è diventato la principale fonte di dati per i modelli IA, una tendenza amplificata dall’utilizzo massiccio di dati sintetici e multimodali.

Per esempio, oltre il 70% dei dati per i modelli generativi che lavorano con video e immagini proviene da YouTube, piattaforma controllata da Alphabet (Google). Questo concentra un potere enorme nelle mani di una sola azienda, sollevando interrogativi sull'accesso equo a tali risorse e sull’impatto che questa concentrazione potrebbe avere sulla competizione tecnologica globale.

Come osserva Shayne Longpre, ricercatore del MIT coinvolto nel progetto, le aziende dominanti come Google non solo sviluppano i propri modelli IA, ma possono anche limitare l’accesso ai dati per i concorrenti, grazie a contratti esclusivi con piattaforme come Reddit e forum digitali.

Anche report di "Data Ethics Commission" hanno evidenziato come l'accesso asimmetrico ai dati stia creando un nuovo divario digitale.

Anche in ambito ingegneristico, alcuni contenuti pubblicati su Ingenio evidenzia l'importanza di dataset specifici, ad esempio quelli legati a simulazioni BIM (Building Information Modeling), CAD (Computer-Aided Design) e monitoraggio strutturale tramite sensori IoT (Internet of Things).

L'uso di queste risorse permette lo sviluppo di modelli IA capaci di analizzare materiali innovativi, ottimizzare progetti infrastrutturali e migliorare la sostenibilità delle costruzioni.

  

A conceptual illustration depicting the flow of data into an artificial intelligence system
A conceptual illustration depicting the flow of data into an artificial intelligence system

   

Dati e rappresentazione: un mondo parziale

Un altro aspetto preoccupante è lo squilibrio geografico e culturale dei dati.

Oltre il 90% dei dataset analizzati proviene da Europa e Nord America, con meno del 4% proveniente dall’Africa. Questo significa che l’IA riflette prevalentemente prospettive occidentali, trascurando lingue, culture e visioni del mondo diverse.

Un esempio emblematico riguarda i modelli multimodali: un’IA addestrata principalmente con dati occidentali potrebbe associare un matrimonio esclusivamente a usanze europee o americane, cancellando di fatto le tradizioni di altre culture. Giada Pistilli, esperta di etica presso Hugging Face, sottolinea come l’inclusione di culture diverse richieda intenzionalità e risorse, fattori spesso trascurati in favore di una maggiore velocità nello sviluppo dei modelli.

Secondo il rapporto "AI and Inequality" pubblicato dal World Economic Forum, queste discrepanze nei dataset rischiano di amplificare le disuguaglianze globali, rendendo alcune comunità invisibili agli occhi della tecnologia.

   

ChatGPT: quali sono le principali fonti di addestramento italiane

Abbiamo fatto a ChatGPT questa domanda. Ecco la risposta.
In ambito italiano, le principali fonti di dati utilizzate per addestrare modelli di intelligenza artificiale provengono da una combinazione di archivi istituzionali, dataset accademici e contributi privati. Tra le fonti più significative si annoverano i dataset messi a disposizione da enti pubblici come l'Istat, che fornisce dati socio-economici, e il Ministero della Salute, per quanto riguarda i dati sanitari. Inoltre, la Biblioteca Digitale Italiana e le risorse linguistiche di CLARIN-IT (Common Language Resources and Technology Infrastructure) giocano un ruolo cruciale per modelli di elaborazione del linguaggio naturale.
Anche il settore privato contribuisce con dati raccolti da piattaforme digitali e aziende tecnologiche come TIM, ENEL e Leonardo, che investono in progetti di IA per analisi industriali, energetiche e di sicurezza. Infine, i social network e i media italiani costituiscono una fonte rilevante per la raccolta di dati testuali e visivi, spesso utilizzati per modelli generativi e analisi dei sentimenti.
Tuttavia, l’Italia affronta sfide legate alla frammentazione delle fonti e alla scarsa standardizzazione dei dati, limitando la possibilità di competere con i grandi player internazionali. La creazione di un ecosistema di dati aperti e diversificati potrebbe rappresentare una svolta per il panorama dell’intelligenza artificiale nazionale.

Rischi e opportunità per il futuro

L'opacità delle pratiche di raccolta dei dati non è solo un problema etico, ma anche legale. Come rileva Sara Hooker, vicepresidente della ricerca presso Cohere, molte delle licenze dei dataset impongono restrizioni che le aziende spesso ignorano.

Questo apre scenari di violazioni di copyright, che potrebbero minare la fiducia nel settore IA.

Cosa possiamo fare? Per evitare che l’IA diventi uno strumento al servizio di poche multinazionali, è cruciale adottare standard chiari e trasparenti per la raccolta e l’utilizzo dei dati. Inoltre, è necessario promuovere la diversità culturale nei dataset, assicurandosi che l’IA rappresenti davvero l’intera umanità.

   

Conclusione: un’IA inclusiva e sostenibile

L’articolo del MIT Technology Review, insieme ad altre fonti autorevoli, solleva un tema fondamentale: il futuro dell’IA dipende non solo dai modelli che sviluppiamo, ma anche dai dati che utilizziamo per alimentarli.

È ora di spostare il focus dalla potenza computazionale alla qualità e alla trasparenza delle informazioni.

Solo così potremo costruire un’intelligenza artificiale capace di servire l’intera società, anziché i soli interessi di poche grandi aziende.


Articolo basato su: Melissa Heikkilä, "This is where the data to build AI comes from", MIT Technology Review, dicembre 2024, e altre fonti autorevoli come il Journal of Artificial Intelligence Research e report di OpenAI.

AI - Intelligenza Artificiale

Con questo Topic raccogliamo per i nostri lettori tutti gli articoli, news, approfondimenti riguardanti l'evoluzione tecnica, le norme e regole, i casi applicativi sul tema dell'intelligenza artificiale

Scopri di più

Leggi anche