Cosa sono le reti neurali convoluzionali?

Reti neurali convoluzionali, definiti

Le reti neurali convolutive utilizzano dati tridimensionali per le attività di classificazione delle immagini e riconoscimento degli oggetti.

Le reti neurali sono un sottoinsieme del machine learning e hanno un ruolo fondamentale negli algoritmi di deep learning. Sono costituite da strati di nodi che contengono uno strato di input, uno o più strati nascosti e uno strato di output. Ogni nodo si connette a un altro e ha un peso e una soglia associati. Se l'output di qualsiasi singolo nodo è al di sopra del valore di soglia specificato, tale nodo viene attivato, inviando i dati allo strato successivo della rete. In caso contrario, non viene passato alcun dato allo strato successivo della rete.

Sebbene in quell'articolo ci eravamo principalmente occupati delle reti feedforward, vi sono vari tipi di reti neurali che vengono utilizzati per casi d'uso e tipi di dati differenti. Ad esempio, le reti neurali ricorrenti vengono comunemente utilizzate per l'elaborazione del linguaggio naturale e il riconoscimento vocale, mentre le reti neurali convoluzionali (ConvNets o CNN) sono più spesso utilizzate per le attività di classificazione e di computer vision. Prima delle CNN, per identificare gli oggetti nelle immagini era necessario impiegare metodi di estrazione delle funzioni manuali e impegnativi in termini di tempo. Tuttavia, ora le reti neurali convoluzionali offrono un approccio più scalabile alle attività di classificazione delle immagini e riconoscimento degli oggetti, sfruttando principi dell'algebra lineare, in particolare la moltiplicazione della matrice, per identificare i modelli all'interno di un'immagine. Ciò detto, possono risultare impegnative dal punto di vista dei calcoli e richiedono schede GPU (Graphical Processing Unit) per addestrare i modelli.

Unisciti agli oltre 100.000 iscritti che leggono le ultime notizie nel campo della tecnologia

Rimani aggiornato sulle tendenze più importanti (e più interessanti) del settore in ambito AI, automazione, dati e oltre con la newsletter Think, disponibile due volte a settimana. Leggi l'Informativa sulla privacy di IBM.

Come funzionano le reti neurali convoluzionali?

Le reti neurali convoluzionali si distinguono dalle altre reti neurali per le loro prestazioni superiori con immagini, input vocali e segnali audio. Contengono tre tipi di strati principali, ovvero:

Livello convoluzionale
Livello di pooling
Livello completamente connesso (FC, Fully-connected)

Il livello convoluzionale è il primo livello di una rete convoluzionale. Mentre i livelli convoluzionali possono essere seguiti da altri livelli convoluzionali o di raggruppamento, il livello completamente connesso è il livello finale. A ogni livello, la complessità della CNN aumenta, così come la porzione dell'immagine che viene individuata. I primi livelli si concentrano su funzioni semplici, ad esempio i colori e i contorni. Mentre i dati dell'immagine avanzano attraverso i livelli della CNN, vengono riconosciuti elementi o forme più grandi fino a quando, infine, non viene identificato l'oggetto.

Livello convoluzionale

Lo strato convoluzionale è l'elemento costitutivo principale di una CNN ed è il punto in cui si verifica la maggior parte dei calcoli. Richiede pochi componenti, ovvero dati di input, un filtro e una mappa delle caratteristiche. Supponiamo che l'input sia un'immagine a colori, costituita da una matrice di pixel in 3D. Ciò significa che l'input avrà tre dimensioni: un'altezza, una larghezza e una profondità, che corrispondono all'RGB in un'immagine. Inoltre, è presente un rilevatore di caratteristiche, definito anche kernel o filtro, che si sposterà attraverso i campi recettivi dell'immagine, verificando se la caratteristica è presente. Questo processo è noto come convoluzione.

Il rilevatore di caratteristiche è un array bidimensionale (2-D) di pesi, che rappresenta parti dell'immagine. Sebbene possano variare, normalmente le sue dimensioni sono una matrice 3x3; ciò determina anche la dimensione del campo ricettivo. Quindi, il filtro viene applicato a un'area dell'immagine e viene calcolato un prodotto di punti tra i pixel di input e il filtro. Questo prodotto di punti viene quindi inserito in un array di output. Successivamente, il filtro si sposta di un passo, ripetendo il processo fino a quando il kernel non ha attraversato l'intera immagine. L'output finale della serie di prodotti di punti dall'input e dal filtro è conosciuto come mappa delle caratteristiche, mappa di attivazione o caratteristica convoluta.

Tieni presente che i pesi nel rilevatore di caratteristiche rimangono fissi mentre si sposta attraverso l'immagine, operazione nota anche come condivisione dei parametri. Alcuni parametri, come i valori di peso, si regolano durante l'addestramento attraverso il processo di retropropagazione e discesa del gradiente. Tuttavia, esistono tre iperparametri che influiscono sulle dimensioni del volume dell'output da impostare prima dell'inizio dell'addestramento della rete neurale. Questi includono:

1. Il numero di filtri influisce sulla profondità dell'output. Ad esempio, tre filtri distinti producono tre diverse mappe di feature, creando una profondità di tre.

2. Stride è la distanza, o numero di pixel, che il kernel sposta sulla matrice di input. Sebbene valori di stride pari o superiori a due siano rari, uno stride maggiore produce un output minore.

3. Zero-padding viene solitamente utilizzato quando i filtri non si adattano all'immagine di input. Ciò imposta a zero tutti gli elementi che ricadono al di fuori della matrice di input, producendo un output più grande o di dimensioni uguali. Esistono tre tipi di padding:

Padding valido: è noto anche come assenza di padding. In questo caso, l'ultima convoluzione viene interrotta se le dimensioni non sono allineate.
Stesso padding: Questo padding assicura che il livello di output abbia le stesse dimensioni del livello di input.
Padding completo: questo tipo di padding aumenta le dimensioni dell'output aggiungendo zero al bordo dell'input.

Dopo ogni operazione di convoluzione, una CNN applica una trasformazione ReLU (Rectified Linear Unit) alla mappa delle funzioni, introducendo la non linearità nel modello.

Strato convoluzionale aggiuntivo

Come affermato in precedenza, lo strato di convoluzione iniziale può essere seguito da un altro strato di convoluzione. Quando ciò si verifica, la struttura della CNN può diventare gerarchica perché gli strati successivi possono vedere i pixel all'interno dei campi ricettivi degli strati precedenti. Ad esempio, ipotizziamo di dover determinare se un'immagine contiene una bicicletta. Una bicicletta può essere immaginata come un insieme di parti. È composta da un telaio, un manubrio, due ruote, due pedali e così via. Ogni singola parte della bicicletta costituisce uno schema di livello inferiore nella rete neurale, e la combinazione delle sue parti rappresenta uno schema di livello superiore, creando una gerarchia di caratteristiche all'interno della CNN. In definitiva, lo strato convoluzionale converte l'immagine in valori numerici, consentendo alla rete neurale di interpretare ed estrarre gli schemi pertinenti.

Livello di pooling

I livelli di pooling, definiti anche sottocampionamento, eseguono la riduzione della dimensionalità, riducendo il numero di parametri nell'input. In modo simile al livello convoluzionale, l'operazione di pooling applica un filtro sull'intero input, ma la differenza è che a questo filtro non è associato alcun peso. Invece, il kernel applica una funzione di aggregazione ai valori all'interno del campo ricettivo, popolando l'array di output. Vi sono due principali tipologie di pooling:

Max pooling: mentre viene applicato sull'input, il filtro seleziona il pixel con il valore massimo da inviare all'array di output. Per inciso, questo approccio tende ad essere utilizzato più di frequente rispetto al pooling medio.
Pooling medio: quando il filtro si sposta sull'input, calcola il valore medio all'interno del campo ricettivo da inviare all'array di output.

Sebbene il livello di pooling comporti la perdita di molte informazioni, offre una serie di vantaggi alla CNN. Contribuisce alla riduzione della complessità, al miglioramento dell'efficienza e alla limitazione del rischio di sovradattamento.

Livello completamente connesso

Il nome del livello completamente connesso ne descrive le caratteristiche. Come indicato in precedenza, i valori dei pixel dell'immagine di input non sono direttamente connessi al livello di output nei livelli parzialmente connessi. Tuttavia, nel livello completamente connesso, ogni nodo nel livello di output si connette direttamente a un nodo nel livello precedente.

Questo livello esegue l'attività di classificazione in base alle funzioni estratte tramite i livelli precedenti e i loro diversi filtri. Mentre i livelli convoluzionali e di pooling tendono a utilizzare le funzioni ReLu, i livelli completamente connessi (FC) solitamente fanno leva su una funzione di attivazione softmax per classificare gli input in modo appropriato, producendo una probabilità da 0 a 1.

Tipi di reti neurali convoluzionali

Kunihiko Fukushima e Yann LeCun hanno gettato le basi della ricerca sulle reti neurali convoluzionali nel loro lavoro rispettivamente nel 1980 (PDF) e nel 1989 ("Backpropagation Applied to Handwritten Zip Code Recognition"). Yann LeCun divenne noto per aver applicato con successo la retropropagazione per addestrare le reti neurali a identificare e riconoscere schemi all'interno di una serie di codici postali scritti a mano. Insieme al suo team, proseguì la sua ricerca per tutti gli anni '90, culminando con "LeNet-5", che applicava i medesimi principi delle ricerche precedenti al riconoscimento di documenti. Da allora, sono emerse diverse varianti dell'architettura delle CNN con l'introduzione di nuovi set di dati, quali ad esempio MNIST e CIFAR-10 e competizioni quali ILSVRC (ImageNet Large Scale Visual Recognition Challenge). Tra queste architetture sono comprese:

Tuttavia, LeNet-5 è ritenuta l'architettura CNN classica.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda tutti gli episodi di Mixture of Experts

Reti neurali convoluzionali e computer vision

Le reti neurali convoluzionali sono alla base delle attività di riconoscimento delle immagini e della computer vision. La computer vision è un campo dell'AI (intelligenza artificiale) che consente ai computer e ai sistemi di ricavare informazioni significative da immagini digitali, video o altri input visivi e, sulla base di questi input, può intervenire. Questa capacità di fornire raccomandazioni la distingue dalle attività di riconoscimento delle immagini. Ecco alcuni degli ambiti in cui è possibile riscontrare applicazioni della computer vision:

Marketing: le piattaforme di social media forniscono suggerimenti su chi potrebbe essere presente in una foto pubblicata su un profilo, rendendo più semplice taggare gli amici negli album fotografici.
Assistenza sanitaria: la computer vision è stata incorporata nella tecnologia della radiologia per consentire ai medici di identificare in modo più efficace i tumori nell'anatomia altrimenti sana.
Retail: la ricerca visiva è stata incorporata in alcune piattaforme di e-commerce, consentendo ai brand di consigliare articoli che si adattano meglio a un guardaroba esistente.
Automotive: sebbene l'era delle auto a guida autonoma non sia ancora del tutto iniziata, la tecnologia alla base ha iniziato a essere impiegata sulle automobili, migliorando la sicurezza di conducente e passeggeri attraverso funzioni quali il rilevamento della corsia.

Sblocca la potenza dell'AI generativa e dell'ML

Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.