Intelligenza artificiale open-source: Bloom alternativa a ChatGPT di OpenAI e alle big tech
Frutto del lavoro condiviso di centinaia di ricercatori ed esperti di intelligenza artificiale, Bloom è l'ultimo modello AI in ambito linguistico (NLP - Natural Language Processing) di dominio pubblico che - grazie alla scienza aperta - intende contrastare il monopolio delle multinazionali nel campo dell'intelligenza artificiale.
La via dell'UE al metaverso: dalle regole ai fondi europei per infrastrutture e tecnologie digitali
Esistono già diversi modelli linguistici - come ChatGPT di OpenAI, OPT di Meta o Switch Transformers di Google - ma con Bloom assistiamo ad un cambio di paradigma nello sviluppo degli algoritmi di artificial intelligence per la produzione di testi, che vede nell'open-science la sua 'stella polare'.
GPT di OpenAI, che ha avuto notevole risalto sui media di tutto il mondo nelle ultime settimane, è infatti un sistema proprietario sviluppato sopratutto grazie ai finanziamenti di Microsoft. Bloom è equivalente a GPT in termini di training effettuato ma il software è stato rilasciato in versione open-source.
La condivisione delle conoscenze - che è nel DNA di Bloom - apre infatti le porte ad un metodo di lavoro collaborativo e partecipato nel campo dell'IA, mettendo al primo posto la trasparenza di modelli, dati, informazioni e valori, con l'obiettivo di affrontare anche gli aspetti più critici dei sistemi di intelligenza artificiale, come i bias (risultati dell'algoritmo che esprimono pregiudizi o ingiustizie) e l'etica.
Intelligenza artificiale open-source: cos'è Bloom?
Acronimo di 'BigScience Large Open-science Open-access Multilingual Language Model', Bloom è un grande modello linguistico di 176 miliardi di parametri, sviluppato da BigScience - un progetto nato dalla collaborazione tra Hugging Face, il Grand équipement national de calcul intensif (GENCI) e l'Institut du développement et des ressources en informatique scientifique (IDRIS) - per creare un algoritmo open-source addestrato su una grande base di dati di testo multilingue.
Il training del modello - effettuato sul supercomputer Jean Zay alle porte di Parigi - è durato più di tre mesi, ed ha culminato il lavoro che più di mille ricercatori di tutto il mondo, in collaborazione con oltre 250 istituzioni, hanno portato avanti per oltre un anno, a partire da gennaio 2021, nell'ambito del BigScience Research Workshop.
Durante i lavori, sia il modello che il dataset sono stati studiati prendendo in considerazione diversi aspetti - tra cui bias, impatto ambientale e sociale, limiti operativi, prestazioni, etica, ecc - con l'obiettivo di superare alcune delle criticità che caratterizzano i Large Language Model (LLM), ossia i sistemi di intelligenza artificiale che producono testi (text generation).
Bloom, infatti, è in grado di produrre un testo coerente in 46 lingue e 13 linguaggi di programmazione, ma - al contrario di altri LLM - lo fa in maniera trasparente, secondo un approccio votato all'open-source e all'open-science, molto lontano dalle logiche di profitto proprie delle big tech.
Intelligenza artificiale e open-science: perché Bloom sfida le big tech?
Prima di tutto il codice dell'algoritmo di Bloom è di dominio pubblico, questo significa che può essere scaricato da chiunque sul sito di Hugging Face.
Inoltre, sono pubbliche tutte le informazioni relative al funzionamento del modello e dei dati utilizzati per addestrarlo, con dettagli sugli aspetti critici e le performance registrate.
Gli sviluppatori di Bloom hanno poi pubblicato la BigScience Ethical Charter, che raccoglie i valori alla base del progetto BigScience, suddivisi in due categorie:
- valori intrinseci: inclusività, diversità, riproducibilità, apertura, responsabilità
- valori estrinseci: accessibilità, trasparenza, interdisciplinarietà, multilinguismo
A questo codice etico, si aggiunge l'elenco delle restrizioni d'uso - previsto dalla licenza di Bloom - che comprende una serie di divieti all'applicazione del LLM, che - ad esempio - non può essere utilizzato per fornire consigli medici né per amministrare la giustizia.
Come scrive Alberto Romero su Towards Data Science, "Bloom è il più importante modello di intelligenza artificiale del decennio", perché cambia le regole del gioco in un campo che è sull'orlo di un cambiamento radicale, mettendo al primo posto la trasparenza, la condivisione del sapere e l'etica, piuttosto che il profitto e il controllo delle tecnologie.
Così facendo, Bloom e BigScience tracciano la rotta verso un modello di sviluppo tecnologico più democratico, che affonda le sue radici nell'open-source e nell'open-science.
Ci sono infine altri modelli AI in ambito linguistico open source che vale la pena menzionare e che possono essere usati per lo sviluppo di applicazioni senza dover ricorrere ai servizi a pagamento di OpenAI; su tutti vale la pena di menzionare quelli di Eleuther, reperibili sempre sulla piattaforma Hugging Face.
Mentre Bloom richiede hardware molto costoso per funzionare, questi modelli sono più abbordabili e danno spesso, con un ulteriore training fatto sulle specifiche funzioni richieste dall'applicazione, risultati molto vicini a quelli dei modelli più costosi.
La vera democratizzazione dell'intelligenza artificiale sarà conseguita quando anche i soggetti più piccoli potranno avere a disposizione risorse hardware e modelli AI in grado ottenere risultati simili a quelli di sistemi che "girano" su supercomputer.
Foto di Lukas da Pexels