Rischi per la democrazia ma anche di una colonizzazione culturale.
Il Washington Post ha reso noto che la fonte di dati «C4» contiene informazioni provenienti da siti considerati pericolosi.
L’addestramento
proveniente da siti discutibili potrebbe potenzialmente indurre a generare
testi indesiderati, razzisti, pornografici, oltre che inaffidabili. Dobbiamo
chiederci se e come una scelta di cosa includere non sia anche un’opzione
politica e con severe conseguenze geopolitiche.
-
di PAOLO BENANTI
Il
termine C4 farà pensare a molti, vistala notorietà acquisita tra film e
videogiochi, all’esplosivo al plastico. In realtà c’è un altro C4, non meno
esplosivo nei contenuti, che in questi giorni sta facendo notevolmente
discutere. Uno dei processi fondamentali che permette a motori di ricerca come
Google, Bing e Yahoo di indicizzare un contenuto su internet è il cosiddetto
crawling, ovvero – semplificando un po’ – un software che analizza i contenuti
di una rete (o di un database) in un modo metodico e automatizzato acquisendo
una copia testuale di tutti i documenti presenti e creando un indice che ne
permetta, successivamente, la ricerca e la visualizzazione. Esiste un corpus,
detto Common Crawl, che contiene petabyte di dati raccolti in 12 anni di web
crawling.
Questo
testo che compone il C4, di fatto, è la base che costituisce la principale
fonte di addestramento e di acquisizione di informazioni che le intelligenze
artificiali (AI) mostrano di possedere sul mondo, e inevitabilmente influenza
il modo in cui ogni AI risponde alle richieste e alle interazioni degli utenti.
Se costruiamo intelligenze artificiali come Gpt-4 che sono in grado di superare
alcuni dei più severi test di ammissione alle facoltà universitarie, ad
esempio, è molto probabile che questa capacità emergente del sistema sia
connessa ai dati di addestramento che hanno incluso migliaia di siti con test
di esercitazione per questi esami. L e aziende tecnologiche, però, hanno
innalzato una ferrea cortina di mistero su ciò che hanno dato in pasto in fase
di addestramento all’intelligenza artificiale. E se, nell’utilizzarle, ci
sorprende quanto sembrano in grado di fare, di fatto rimaniamo ciechi sulle
fonti e sulle origini di questo sapere. La cosa sembra costituire una vera e
propria inversione rispetto alla modalità scientifica della conoscenza che ha
fatto della trasparenza sui dati e sulle fonti una delle cifre della stessa
scientificità. Per guardare all’interno di questa scatola nera il “Post” ha
analizzato il set di dati C4 di Google collaborando con i ricercatori
dell’Allen Institute for AI e hanno classificato i siti web utilizzando i dati
di Similarweb, una società di analisi web. Circa un terzo dei siti web da cui
sono estratti i dati in origine non ha potuto essere classificato, soprattutto
perché non sono più presenti su Internet.
Stando
a quanto dichiara Google, C4 è stato inizialmente sviluppato come “versione
ripulita” dei dati di Common Crawl ed è stato utilizzato per addestrare alcune
AI di alto profilo in lingua inglese, chiamate modelli linguistici di grandi
dimensioni, o Llm, tra cui il T5 di Google e LLaMA di Facebook. OpenAI, di contro,
non rivela quali set di dati utilizza per addestrare i modelli che supportano
il suo popolare chatbot, ChatGpt, appena tornato fruibile in Italia. Quello che
ci interessa sottolineare, prima di fare ulteriori analisi, è il fatto che un
sito web viene indicizzato in C4 solo se è in inglese e che il dataset, non
contenendo dati in altre lingue, è anglofono. Grazie al tool fornito dal
quotidiano statunitense abbiamo fatto ulteriori indagini cercando alcune fonti.
Un dato interessante, per esempio, è che il dominio vatican.va è al 4.967 posto
avendo fornito quasi 2 milioni di token (i piccoli frammenti di testo che
costituiscono la base delle informazioni con cui è addestrato il sistema). Non
bisogna farsi impressionare dal numero di classifica perché le fonti sono oltre
15,7 milioni e di fatto un risultato sotto i primi 5.000 è altissimo,
soprattutto se si considera che si prendono in esame solo le pagine in inglese
e non tutte le pagine del sito. Per fare un confronto, la Cia, che contiene il
Cia World Factbook, una pubblicazione annuale che riporta i dati statistici
fondamentali e una sintesi di informazioni riguardanti tutti i Paesi del mondo,
è dietro il sito vaticano di quasi 600 posizioni. Parlando di questo con Denis
“Jaromil” Roio, il famoso programmatore, “hacker etico”, artista digitale e
attivista, ci è venuto in mente di cercare anche il sito della Nasa: ebbene,
Nasa.gov è staccato di 100 posizioni. La battuta è sorta spontanea: per sapere
del cielo C4 si affida più alla Chiesa che non all’astrofisica. I l “Washington
Post” riporta un’interessante analisi aggregata del dataset: «I siti web
commerciali e industriali costituiscono la categoria più grande (16% dei token
categorizzati), guidata da fool.com al n. 13, che fornisce consigli sugli investimenti.
Poco distante kickstarter.com, al n. 25, che consente agli utenti di finanziare
in crowdfunding progetti creativi, e più in basso patreon.com, n. 2.398, che
aiuta i creatori a raccogliere quote mensili dagli abbonati per contenuti
esclusivi. Kickstarter e Patreon potrebbero dare all’intelligenza artificiale
l’accesso alle idee e alle copie di marketing degli artisti, sollevando il
timore che la tecnologia possa copiare questo lavoro per suggerirlo agli
utenti». L’iniziativa del “Washington Post”, che ha per la prima volta permesso
di analizzare uno di questi set di dati per rivelare completamente i tipi di
siti web proprietari, personali e spesso offensivi che entrano nei dati di
addestramento di un’intelligenza artificiale, è di grande interesse, utilissima
per iniziare a pensare se e come questi sistemi siano adeguati e rispettosi
delle identità culturali e democratiche dei Paesi occidentali e in particolare
di quell’area sempre più isolata nella difesa della rule of law che è l’Europa.
Forse
anche per questo di recente il governo britannico ha stanziato 100 milioni di
sterline per la creazione di una task force sull’AI incaricata di creare
modelli di base o modelli di IA pre-addestrati, come Gpt di OpenAI. Creare un
set di dati pubblico è la prima forma di difesa. Dobbiamo chiederci se non sia
arrivato il momento di pensare alla creazione di un nostro dataset
culturalmente pesato ed eticamente bilanciato per permettere al Paese e ai
servizi pubblici di beneficiare dell’impatto trasformativo dell’AI.
Nessun commento:
Posta un commento