L'Intelligenza Artificiale ora sembra capire ciò che legge e scrive
Un recente studio suggerisce che gli LLM più potenti siano in grado di generalizzare concetti e acquisire nuove abilità
Il Sacro Graal nel campo dell’Intelligenza Artificiale (IA) è il raggiungimento della cosiddetta Artificial General Intelligence (AGI), definita come la capacità di apprendere e capire un qualsiasi compito intellettuale che può imparare un essere umano.
Sebbene non vi sia consenso unanime su tale definizione, una cosa la si può dare per assodata: finché i Large Language Model (LLM), l’incarnazione odierna più popolare di IA, si limiteranno a predire la parola successiva più probabile in una frase, tra quelle presenti nei dati con cui sono stati “allenati”, essi resteranno dei semplici “pappagalli stocastici”.
Tale famoso e colorito appellativo, coniato dalla linguista computazionale Emily Bender qualche anno fa, potrebbe però non essere più adeguato per definire le IA più potenti sul mercato, come GPT-4.
Un recente studio, infatti, suggerisce che esse siano in qualche modo in grado di capire ciò che “dicono”, dato che dai test effettuati tali IA sembrerebbero capaci di generalizzare concetti e apprendere nuove abilità, combinando due o più abilità di base, in una maniera verosimilmente assente nei loro dati di allenamento.
Large Language Model e loss
Ma partiamo dalle basi: un LLM è un’estesa rete neurale artificiale, cioè qualcosa di simile a un cervello umano, sebbene in formato digitale. Le connessioni tra i vari neuroni artificiali sono dette parametri e il loro numero indica la grandezza del modello.
In fase di allenamento, un LLM riceve una serie di frasi (anche miliardi) con l’ultima parola oscurata e il suo obbiettivo consiste nell’individuare la parola giusta tra quelle presenti nel suo vocabolario.
All’inizio la scelta sarà verosimilmente sbagliata, ma per ogni risposta l’algoritmo che lo allena calcola la distanza (loss, in inglese) tra la risposta del modello e quella corretta e la usa per affinarne i parametri.
Ora, in base a quanto appena detto, il numero di parametri e l’estensione dei dati usati per l’allenamento non dovrebbero rendere migliori gli LLM nell’eseguire compiti che richiedono logica e ragionamento, giusto? Eppure è esattamente ciò che sembra succedere.
Grafi aleatori bipartiti per analizzare gli LLM
I ricercatori Sanjeev Arora e Anirudh Goyal, rispettivamente della Princeton University e di Google DeepMind, decisero di indagare in merito, usando degli oggetti matematici detti grafi aleatori, come racconta Anil Ananthaswamy su Quanta Magazine.
Un grafo è un insieme di punti (o nodi) collegati da linee (o archi); nello specifico, in un grafo aleatorio la presenza o meno di un arco tra due nodi viene determinata in maniera casuale (ad esempio, lanciando una moneta).
Ma tale determinazione casuale può essere “mitigata”, assegnandole una certa probabilità p: all’aumentare di p, aumenterà la probabilità che l’arco sia presente e viceversa.
La cosa interessante è che, al cambiare del valore di p, il grafo può mostrare un improvviso e imprevisto cambiamento nelle sue proprietà (ad esempio, i nodi isolati potrebbero improvvisamente scomparire).
Secondo i due ricercatori, tale comportamento può essere usato come modello per capire il funzionamento degli LLM, che ultimamente è diventato troppo complesso per poter essere analizzato direttamente.
In particolare, essi si sono concentrati sui cosiddetti grafi bipartiti, che presentano due tipologie distinte di nodi: in questo caso, una rappresenta pezzi di testo (da un paragrafo fino a poche pagine), mentre l’altra rappresenta le abilità necessarie per comprendere un determinato pezzo di testo (ad esempio, capire il significato di una specifica parola o rilevare la presenza di ironia).
Una connessione tra uno o più nodi “abilità” e un nodo “testo” rappresenta la necessità per il modello di possedere tale/i abilità per comprendere il testo.
Neural scaling laws e competenza degli LLM
Ma come applicare il modello dei grafi aleatori bipartiti agli LLM? Come prevedibile, le società produttrici non rendono pubblici i dati con cui li allenano o li testano.
Su un dato, però, Arora e Goyal potevano fare affidamento: fin dal 2021, infatti, si è osservato che, all’aumentare delle dimensioni di un modello (come numero di parametri e/o dati di allenamento), il valore di loss (di cui ho parlato sopra) diminuisce, come previsto dalle cosiddette neural scaling laws (cioè, leggi di scala neurale).
Per capire se esiste effettivamente una relazione tra miglioramento delle prestazioni (in base alle suddette leggi) e miglioramento delle abilità (in base ai grafi bipartiti) di un LLM, i ricercatori assumono che esista un ipotetico grafo che ne rappresenti il comportamento e che un modello possa definirsi competente in una determinata abilità se le sue predizioni sui nodi di testo ad essa collegati sono molto accurate.
Usando questa maniera indiretta di esaminare il comportamento degli LLM, Arora e Goyal sono riusciti a dimostrare due elementi chiave:
come mai gli LLM più grandi sono più competenti di quelli più piccoli in singole abilità;
come fanno gli LLM più grandi a sviluppare abilità impreviste, emergenti a partire da quelle singole.
LLM più grandi, competenti e creativi
Per dimostrare il punto 1, i ricercatori sono partiti dal valore minimo di loss previsto dalle leggi (e chiaramente associato a modelli più grandi), che riportato su un grafo bipartito corrisponde a un crollo del numero di nodi di testo non capito (o nodi di fallimento).
Ciò a sua volta determina un minor numero di connessioni tra nodi di fallimento e nodi abilità e di conseguenza un maggior numero di connessioni tra nodi di testo compreso (o nodi di successo) e nodi abilità, il che suggerisce una maggiore competenza dell’LLM nelle singole abilità.
Per spiegare invece il punto 2, Arora e Goyal si basano sul fatto che, al crescere delle dimensioni di un modello (con corrispondente diminuzione di loss), combinazioni casuali di nodi abilità nel grafo aleatorio sviluppano delle connessioni coi singoli nodi di testo.
Ciò suggerisce che l’LLM inizia a usare più abilità differenti allo stesso tempo per la generazione di testo, anche se tali specifiche combinazioni di abilità non erano presenti nei dati con cui è stato allenato.
Skill-mix e risultati dei test
Fin qui la teoria, ma come provare praticamente la validità di queste tesi? I due ricercatori, assieme a dei colleghi, hanno sviluppato a tal fine un sistema che hanno chiamato “skill-mix” per valutare la capacità di un LLM di combinare più abilità per generare del testo.
Esso consiste nel chiedere a un modello molto potente (nei test è stato usato GPT-4) di scrivere tre frasi su un argomento a caso, usando una combinazione di abilità altrettanto casuale.
I risultati sono stati incoraggianti: l’LLM ha superato efficacemente i test con 4 abilità e nel 10-15% dei casi persino con 6, producendo del testo che è praticamente impossibile fosse presente nei suoi dati di allenamento.
A ulteriore conferma della bontà delle teorie di Arora e Goyal, le prestazioni di GPT 3.5 si sono mostrate decisamente inferiori a quelle del suo “fratello maggiore”.
Siamo quindi arrivati al punto in cui l’IA è diventata in grado di generalizzare, combinando vari elementi per crearne di nuovi, e in un certo senso capire ciò che legge e scrive?
Beh, a onor del vero lo studio dei ricercatori contiene alcune assunzioni, per quanto non pesanti, e il testo generato dagli LLM è poco utile dal punto di vista pratico (essendo per costruzione “creativo”, più che corretto), ma di certo d’ora in poi sarà più difficile definire le IA dei semplici pappagalli stocastici.
Qualche settimana fa un utente di un forum ha scritto un post lunghissimo e piuttosto disarticolato, che si riusciva a leggere con molta fatica. Un altro utente ha usato Chat-GPT per chiedere di riassumere in elenchi puntati cosa voleva dire l'utente del post, e... il risultato è stato incredibile per me. Non solo l'AI era riuscita a capire il testo sgrammaticato, ma il riassunto comprendeva cose che io stesso non avevo notato, nel primo papiro lunghissimo.
Non l'ho mai usata, quindi ancora cado dal pero per cose che in molti trovano già normali, però sì, pare in grado anche di fare ottime sintesi, capendo cosa legge, non solo di predire la prossima parola.