Immaginate per un momento lo scenario in cui, una persona con competenze e tempo, decida di sviluppare un’intelligenza artificiale che tramite un unico modello sia in grado di generare autonomamente articoli di approfondimento, tradurre da qualsiasi lingua, correggere codici in tutti i linguaggi di programmazione, fornire assistenza clienti come chatbot e risolvere cruciverba.
Qualcuno con le idee più chiare, stimerebbe plausibilmente che l’intero processo di sviluppo possa prendere almeno un anno intero di ricerca, mesi e mesi di addestramento e qualche milione in finanziamenti, anche ipotizzando di partire già avendo a disposizione un super computer, un team di ricercatori di primissimo livello e praticamente tutto lo scibile umano sotto forma di testo strutturato e archiviato su un drive in locale.
Con tutta probabilità quella stessa persona, una volta realizzato, potrebbe pensare di vendere l’accesso al modello tramite API o altre forme di commercializzazione software. L’ultima cosa che si sognerebbe mai di fare è di rilasciare questo modello in Open-source…
E se vi dicessi che questo è esattamente quello che è successo veramente, ci credereste?
Nell’ultimo anno un gruppo di oltre mille ricercatori con sede in più di 70 Paesi ha lavorato in sordina alla propria versione di un modello da 176 miliardi di parametri, addestrato sul supercomputer Jean Zay messo a disposizione dal governo francese. Il tutto è costato più di 5 Milioni di dollari e ora è disponibile a chiunque per il download gratuito.
Se pensate sia uno scherzo, date un’occhiata qui:
Il modello in questione si chiama BLOOM, acronimo che sta per BigScience, Large, OpenScience, OpenAccess e Multilingualism.
BLOOM appartiene alla famiglia dei Large Language Models (LLM) ovvero modelli addestrati a comprendere e processare il linguaggio naturale in tutte le sue forme e significati.
Semplificando al massimo, i modelli linguistici di grandi dimensioni non fanno altro che generare delle parole per continuare in maniera semanticamente e logicamente corretta un testo fornito come input (prompt testuale).
In breve il modello cerca fondamentalmente di prevedere quali parole verranno dopo, sulla base delle parole che ha visto fino a quel momento. Per fare questo gli LLM sono addestrati su un’immensa mole di dati.
Questa tipologia di modello non è nuova per chi sviluppa in ambito NLP (Natural Language Processing).
In passato modelli di questo tipo venivano utilizzati esclusivamente da un numero ristretto di sviluppatori, in quanto erano disponibili solo per ricercatori autorizzati, come nel caso dell’OPT-175B di Meta o venivano concessi in beta con forti limitazioni solamente a chi voleva usarli a fini commerciali per potenziali collaborazioni, come nel caso di GPT-3 di OpenAI.
BLOOM al contrario si è data l’obiettivo di “democratizzare” gli LLM e quindi ha deciso di mettere a disposizione il modello per praticamente qualsiasi individuo o istituzione senza nessun tipo di distinzione o limiti di utilizzo.
D’altro canto la dimensionalità del dato che questi modelli processano, possono portare spesso a problemi di memoria (in condizioni normali richiede circa 70GB di RAM!!), ma già esistono soluzioni alternative che ne permettono l’utilizzo ad esempio sfruttando la CPU, servizi in cloud, API o versioni ridotte di modello utilizzabili senza eccessiva perdita di performance.
Lascio a seguire i link ad alcune di queste soluzioni nelle references dell’articolo.
BLOOM è in contrasto con la tipica segretezza dei laboratori di ricerca industriale ed è la dimostrazione che oltre alla miriade di piccoli progetti software più “artigianali”, anche i modelli di IA più potenti possono essere rilasciati per tutti, stimolando un senso di corresponsabilità nella community e auto-alimentando un flusso continuo di Open Innovation.
Thomas Wolf, il cofondatore di Hugging Face, la startup che ha guidato l’iniziativa BigScience ha dichiarato che:
“I modelli ML di grandi dimensioni hanno cambiato il mondo della ricerca sull’intelligenza artificiale negli ultimi due anni, ma l’enorme costo di calcolo necessario per addestrarli ha fatto sì che pochissimi team avessero la possibilità di addestrarli e fare ricerca”
Per questo motivo si sono rivelate necessarie sia il lavoro congiunto di un intero grande team scientifico che le scelte strategiche fatte dal governo francese, che è stato in grado di fornire un supercomputer e di sovvenzionare tutti coloro che sono stati coinvolti in questo enorme progetto, e a ben pensarci, non esistono molti altri campi in cui accadono cose come questa. Dove la tecnologia in cui qualcuno ha investito tempo, energia e denaro viene data senza né aspettarsi né chiedere assolutamente nulla in cambio.
References
- https://bigscience.huggingface.co/blog/bloom
- https://towardsdatascience.com/run-bloom-the-largest-open-access-ai-model-on-your-desktop-computer-f48e1e2a9a32
- https://towardsdatascience.com/getting-started-with-bloom-9e3295459b65
- https://multilingual.com/bloom-large-language-model/
- https://huggingface.co/bigscience/bloom?text=To+say+%22I+love+you%22+in+Hindi%2C+you+would+say