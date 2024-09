I moderni modelli di deep learning sono costruiti a partire da reti neurali artificiali, che comprendono più livelli di nodi interconnessi (o "neuroni"). Ogni neurone ha una funzione di attivazione: un'operazione matematica eseguita sui dati ricevuti dal livello precedente, il cui output alimenta l'input inviato al livello successivo. Le reti neurali feed-forward (FFN) classiche elaborano le informazioni passando progressivamente i dati di input dai neuroni di un livello ai neuroni del livello successivo, fino a raggiungere un livello esterno dove si verificano le previsioni finali. Alcune architetture di reti neurali incorporano elementi aggiuntivi, come i meccanismi di auto-attenzione dei modelli di trasformazione, che acquisiscono pattern e dipendenze aggiuntivi nei dati di input.

Le connessioni tra livelli e neuroni diversi sono mediate da parametri del modello che possono essere appresi: pesi (e bias) variabili che amplificano o diminuiscono l'influenza che una determinata parte dell'output della rete ha su altre parti della rete. Un modello di deep learning "impara" regolando questi parametri, utilizzando algoritmi di ottimizzazione come la discesa del gradiente, in modo da aumentare l'accuratezza delle sue previsioni.

Se da un lato un numero maggiore di parametri aumenta la capacità del modello, ovvero la sua capacità di assorbire le informazioni e i pattern in esso contenuti, dall'altro aumenta anche le risorse computazionali necessarie per addestrare e far funzionare il modello. In un tipico modello di deep learning, che in questo contesto viene definito modello denso, viene eseguita l'intera rete per elaborare tutti gli input. In questo modo si crea un compromesso tra la capacità e la praticità del modello.

A differenza dei modelli densi convenzionali, il mixture of experts utilizza la conditional computation per imporre la scarsità: anziché utilizzare l'intera rete per ogni input, i modelli MoE apprendono una funzione di mappatura computazionalmente poco costosa che determina quali porzioni della rete (in altre parole, quali esperti) sono più efficaci per elaborare un determinato input, come un singolo token utilizzato per rappresentare una parola o un frammento di parola nelle attività di NLP.

Ciò consente di aumentare la capacità del modello (espandendo il numero totale di parametri) senza un corrispondente aumento del carico di elaborazione richiesto per addestrarlo ed eseguirlo (perché non tutti questi parametri saranno necessariamente utilizzati in un dato momento).