Un team di ricercatori in intelligenza artificiale e scienziati informatici dell’Università di Alberta ha scoperto che le reti artificiali attualmente utilizzate nei sistemi di deep learning perdono la capacità di apprendere durante un addestramento prolungato su nuovi dati. Nel loro studio, pubblicato sulla rivista Nature, il gruppo ha individuato un metodo per superare questi problemi legati alla plasticità sia nei sistemi di apprendimento supervisionato che in quelli di rinforzo, consentendo loro di continuare ad apprendere.
Come spiegato da TechXplore, negli ultimi anni, i sistemi di intelligenza artificiale sono diventati di uso comune e tra questi vi sono i modelli di linguaggio di grandi dimensioni (LLM), che generano risposte apparentemente intelligenti dai chatbot. Tuttavia, una delle principali limitazioni di questi sistemi è l’incapacità di continuare a imparare durante l’uso, un difetto che impedisce loro di diventare più precisi man mano che vengono utilizzati. Inoltre, non possono diventare più intelligenti addestrandosi su nuovi set di dati.
I ricercatori hanno testato la capacità delle reti neurali convenzionali di continuare ad apprendere dopo l’addestramento sui dataset originali, riscontrando quello che definiscono come “oblio catastrofico”, in cui un sistema perde la capacità di eseguire un compito che era in grado di svolgere dopo essere stato addestrato su nuovo materiale.
Lo studio ha evidenziato che questo risultato è logico, considerando che gli LLM sono progettati come sistemi di apprendimento sequenziale e apprendono addestrandosi su set di dati fissi. Durante i test, il team di ricerca ha scoperto che i sistemi perdono anche la capacità di apprendere del tutto se vengono addestrati in sequenza su più compiti, una caratteristica che descrivono come perdita di plasticità. Tuttavia, hanno anche trovato un modo per risolvere il problema: resettando i pesi precedentemente associati ai nodi nella rete.
Nelle reti neurali artificiali, i pesi vengono utilizzati dai nodi come misura della loro forza; i pesi possono aumentare o diminuire in base ai segnali inviati tra di loro, i quali a loro volta sono influenzati dai risultati di calcoli matematici. Con l’aumento del peso, aumenta l’importanza delle informazioni che esso trasmette.
I ricercatori suggeriscono che reimpostare i pesi tra le sessioni di addestramento, utilizzando gli stessi metodi impiegati per l’inizializzazione del sistema, dovrebbe consentire di mantenere la plasticità nel sistema e di continuare ad apprendere su ulteriori dataset di addestramento.
fonte: TechXplore