_ scritto il 14.04.2024 alle ore 10:00 _
648 letture
In questo interessante articolo viene trattata l'analisi del degrado sulle prestazioni di un
LLM a seguito della potatura di una certa porzione dei suoi strati. Gli autori hanno appurato che tagliando fino alla metà dei "neuroni" di un modello già addestrato, la perdita in affidabilità e prestazioni è minimo e può essere ulteriormente ridotto effettuando quello che in gergo tecnico si chiama
parameter-efficient finetuning (PEFT).
Le implicazioni a mio avviso sono notevoli. Innanzi tutto, come suggerito dall'articolo stesso, il risultato mostra che da qualche parte deve esserci una sorta di "inefficienza" intrinseca dell'addestramento, sia essa dipendente dal processo stesso o dalla struttura del modello (per cui alla fine sono gli strati esterni a fare il grosso del lavoro). Sembrerebbe quindi esserci ampio spazio di miglioramento dal punto di vista dell'efficacia delle fasi iniziali di creazione di un LLM.
Ma l'impatto più grande riguarda il lato hardware. I modelli attuali sono ingombranti, pesanti da far girare e molto energivori. Mettere a punto tecniche in grado di addestrare un LLM composto da un numero molto ridotto di strati permetterebbe di fatto di rendere più accessibile questo tipo di tecnologia e consentirebbe anche di far integrare LLM in scala ridotta direttamente sui dispositivi dell'utente finale. Quest'ultimo aspetto ha enormi conseguenze sotto il profilo della privacy: non sarà più necessario inviare i propri prompt - che potrebbero contenere dati sensibili - ai server del gestore di turno, ma il tutto girerebbe direttamente sul nostro PC o sul nostro smartphone all'interno di unità di elaborazione dedicate (
NPU).
The Unreasonable Ineffectiveness of the Deeper Layers (Andrey Gromov, Kushal Tirumala, Hassan Shapourian, Paolo Glorioso, Daniel A. Roberts) - Abstract
Studiamo empiricamente una semplice strategia di potatura degli strati per famiglie popolari di LLM preaddestrati a peso aperto, riscontrando un degrado minimo delle prestazioni su diversi benchmark di risposta alle domande fino a quando una grande frazione (fino alla metà) degli strati non viene rimossa. Per potare questi modelli identifichiamo il blocco ottimale di strati da eliminare considerando la somiglianza tra essi; quindi, per "riparare" il danno, eseguiamo una piccola messa a punto. In particolare, utilizziamo metodi di parametrizzazione efficiente dei parametri (PEFT), nel dettaglio quantizzazione e adattatori a basso rango (QLoRA), in modo tale che ciascuno dei nostri esperimenti possa essere eseguito su una singola GPU A100. Da un punto di vista pratico, questi risultati suggeriscono che i metodi di potatura dei livelli possono integrare altre strategie PEFT per ridurre ulteriormente le risorse computazionali di finetuning da un lato e possono migliorare la memoria e la latenza dell'inferenza dall'altro. Da un punto di vista scientifico, la robustezza di questi LLM rispetto all'eliminazione degli strati implica o che gli attuali metodi di pre-addestramento non sfruttano adeguatamente i parametri negli strati più profondi della rete o che gli strati superficiali svolgono un ruolo fondamentale nell'immagazzinamento della conoscenza.