Alla fonte della creatività nell’Intelligenza Artificiale
Una coppia di fisici spiega come i modelli di diffusione riescano a generare immagini originali e coerenti sfruttando delle limitazioni tecniche
Quando si parla delle caratteristiche dell’Intelligenza Artificiale (IA), il discorso va a finire spesso sulla sua capacità di imitare conversazioni umane, rispondere (più o meno correttamente) a qualsiasi domanda o riconoscere schemi, il che si rivela particolarmente utile in ambito scientifico.
Di certo quello della creatività non è un argomento particolarmente gettonato, proprio perché l'IA attuale è solitamente programmata per generare testi e immagini fortemente basati su quelli con cui è stata addestrata.
Eppure i cosiddetti modelli di diffusione — che costituiscono l'asse portante di strumenti per la generazione di immagini, quali DALL-E e Stable Diffusion — sembrano essere a loro agio nell'arte di improvvisare e creare immagini originali e coerenti, tanto che numerosi artisti digitali sono da tempo sul piede di guerra per timore di essere soppiantati dalle macchine.
Ma come si spiega questa “impossibile” creatività? Una coppia di fisici presso l'università di Stanford crede di avere finalmente la risposta: essa nascerebbe da alcune limitazioni tecniche insite nei modelli di diffusione attuali.
Denoising e pattern di Turing
Per generare immagini i modelli di diffusione usano un processo noto come denoising, che consiste nel convertire un'immagine in rumore digitale — ossia un insieme incoerente di pixel — e poi ricostruirla a partire da questi mattoncini elementari.
A Mason Kamb, primo autore dello studio in oggetto, tale processo ne ricorda un altro che l’ha sempre affascinato: quello della morfogenesi, grazie al quale gli organismi viventi si auto-costruiscono, in particolare usando i cosiddetti pattern (o schemi) di Turing.
Concepiti dal geniale e bistrattato matematico (e tanto altro) inglese Alan Turing, questi schemi spiegano come gruppi di cellule siano in grado di auto-organizzarsi per formare organi e arti distinti, senza bisogno di un “supervisore” che coordini i lavori.
Questo sistema di tipo bottom-up (ossia dal basso verso l’alto) generalmente funziona bene, grazie a segnali che le cellule adiacenti si scambiano tra loro, ma a volte capita che qualcosa vada storto ed ecco spuntare, ad esempio, mani con più di cinque dita — esattamente come capitava alle immagini generate dai primi modelli di diffusione.
Località ed equivarianza traslazionale
A questo punto, vale la pena di scendere un po’ più nel dettaglio di come funziona il processo di denoising. Esso sfrutta alcune “scorciatoie” tecniche e in particolare:
la località, che consiste nel prestare attenzione solo a un singolo gruppo (patch, in inglese) di pixel alla volta;
l’equivarianza traslazionale, una regola in base alla quale, se l’immagine di partenza viene spostata in una certa direzione, il sistema aggiusta automaticamente la sua mappatura in modo da preservare la coerenza strutturale nell’immagine generata (questa gif chiarisce visivamente il concetto).
Anche a causa di tali caratteristiche, i modelli di diffusione si focalizzano nel generare una patch alla volta, per poi piazzarla nel posto giusto usando un modello matematico detto score function, che può essere visto come una versione digitale di un pattern di Turing.
Mentre la maggior parte dei ricercatori vede località ed equivarianza come semplici limitazioni tecniche dei modelli di diffusione, Kamb inizia invece a pensare che esse possano costituire la base per la creatività artistica dell’IA — il problema è come fare a dimostrarlo.
ELS contro i modelli di diffusione
Col supporto di Surya Ganguli, nel cui laboratorio inizia a lavorare nel 2022 — l’anno in cui OpenAI rilascia la prima versione di ChatGPT — Kamb approccia la questione in maniera indiretta: se la sua ipotesi è corretta, allora dovrebbe essere possibile realizzare un sistema che, puntando solamente a ottimizzare località ed equivarianza, si comporti come un modello di diffusione.
I due battezzano tale sistema ELS (acronimo di Equivariant Local Score): un insieme di equazioni in grado di prevedere la composizione di immagini derivanti dal processo di denoising, basandosi esclusivamente sulle meccaniche della località e dell’equivarianza.
Per metterlo alla prova, Kamb e Ganguli prendono una serie di immagini precedentemente convertite in rumore digitale e le danno in pasto sia a ELS che a potenti modelli di diffusione, tra cui ResNets e UNets.
I risultati, nelle parole dello stesso Ganguli, sono scioccanti: il sistema ELS riesce a generare immagini identiche a quelle dei modelli di diffusione appositamente addestrati allo scopo nel 90% dei casi — una percentuale inusitata nel campo del machine learning (o apprendimento automatico).
Creatività umana e artificiale
Capitolo chiuso per la ricerca della fonte della creatività nell’Intelligenza Artificiale, quindi? Non così in fretta. Esperti del settore fanno infatti notare che, sebbene lo studio di Kamb e Ganguli risolva in maniera convincente il mistero per quanto riguarda i modelli di diffusione, anche gli LLM à la ChatGPT e altri sistemi di IA mostrano lampi di creatività, ma non usano località ed equivarianza.
Si tratta comunque di un importante passo avanti nella comprensione dell’Intelligenza Artificiale e forse non solo di essa: c’è infatti chi sostiene, come il ricercatore nel campo del machine learning Ben Hoover, che la scoperta potrebbe fornire indizi in merito anche alla creatività umana.
Dopotutto anche noi creiamo arte basandoci su ciò che abbiamo visto, provato, sentito, letto o magari sognato e spesso sono proprio le lacune nella nostra conoscenza del mondo o limitazioni (auto-)imposte a far scoccare, di tanto in tanto, quella scintilla che chiamiamo creatività.