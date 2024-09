I modelli di segmentazione semantica creano una mappa di segmentazione da un'immagine di input. Una mappa di segmentazione è, essenzialmente, una ricostruzione dell'immagine originale in cui ogni pixel è codificato con i colori della classe semantica per creare maschere di segmentazione. Una maschera di segmentazione è semplicemente una porzione dell'immagine che è stata differenziata da altre regioni dell'immagine. Ad esempio, una mappa di segmentazione di un albero in un campo vuoto conterrà probabilmente tre maschere di segmentazione: una per l'albero, una per il suolo e una per il cielo sullo sfondo.



A tale scopo, i modelli di segmentazione semantica utilizzano complesse reti neurali per raggruppare con precisione i pixel correlati in maschere di segmentazione e riconoscere correttamente la classe semantica reale per ciascun gruppo di pixel (o segmento). Questi metodi di deep learning (DL) richiedono che un modello venga formato su grandi dataset di dati pre-etichettati da esperti umani, regolandone i pesi e le distorsioni attraverso tecniche di apprendimento automatico come la retropropagazione e la discesa del gradiente.



I metodi DL hanno sostituito altri algoritmi "tradizionali" di apprendimento automatico, come Support Vector Machines (SVM) e Random Forest. Sebbene richiedano più tempo e più dati e risorse computazionali per essere formate, le reti neurali profonde hanno superato gli altri metodi e sono diventate rapidamente l'approccio preferito fin dai risultati delle prime innovazioni.



Utilizzo dei dataset per la formazione

L'attività di classificazione accurata dei dati delle immagini richiede dataset costituiti da valori pixel che rappresentano maschere per i diversi oggetti o etichette di classe contenuti in un'immagine. In genere, a causa della complessità dei dati di formazione relativi alla segmentazione delle immagini, questi dataset sono più grandi e complessi rispetto ad altri dataset di apprendimento automatico.



Sono disponibili molti dataset di segmentazione dell'immagine open source, che comprendono un'ampia varietà di classi semantiche con migliaia di esempi e annotazioni dettagliate per ciascuno di essi. Ad esempio, basti pensare a un problema di segmentazione in cui la visione artificiale di un'auto senza conducente debba riconoscere tutti i vari oggetti davanti ai quali dovrà frenare, come pedoni, biciclette e altre auto. La visione artificiale dell'auto deve essere addestrata a riconoscere tutti questi oggetti, altrimenti l'auto potrebbe non frenare; inoltre, l'addestramento deve essere estremamente accurato e preciso, altrimenti l'auto potrebbe frenare continuamente qualora avesse classificato in modo errato come segnali di pericolo delle immagini innocue.



Ecco alcuni tra i più diffusi dataset open source utilizzati nella segmentazione semantica e di immagini:

Pascal Visual Object Classes (Pascal VOC): il set di dati Pascal VOC è costituito da diverse classi di oggetti, caselle di contorno e solide mappe di segmentazione.

MS COCO: MS COCO contiene circa 330.000 immagini e annotazioni per molte attività, tra cui il rilevamento, la segmentazione e i sottotitoli delle immagini.

Paesaggi urbani: Il popolare dataset sui paesaggi urbani interpreta i dati provenienti dagli ambienti urbani ed è composto da 5.000 immagini con 20.000 annotazioni e 30 etichette di classe.

Modelli di segmentazione semantica

I modelli addestrati richiedono un'architettura solida per funzionare correttamente. Ecco alcuni modelli di segmentazione semantica ampiamente utilizzati.

Reti completamente convoluzionali (FCN - Fully convolutional networks)

Una rete completamente convoluzionale (FCN) è un'architettura di rete neurale all'avanguardia, utilizzata per la segmentazione semantica in base a diversi livelli convoluzionali connessi. Mentre l'architettura tradizionale CNN è composta da livelli convoluzionali e livelli piatti che producono etichette singole, i modelli FCN sostituiscono alcuni di questi livelli piatti con blocchi convoluzionali 1:1 che possono estrarre ulteriori informazioni sull'immagine. Evitare l'uso di livelli piatti e densi a favore di livelli convoluzionali, di pooling o upsampling rende le reti FCN più facili da formare.

Upsampling e downsampling : quando la rete raccoglie livelli convoluzionali, le dimensioni dell'immagine vengono ridotte, riducendo così le informazioni spaziali e le informazioni a livello di pixel, un processo necessario noto come downsampling.Al termine di questo processo, i data engineer eseguono l'ottimizzazione delle immagini attraverso l'espansione o il ricampionamento della mappa delle caratteristiche creata, riportandola alla forma dell'immagine di input.

: quando la rete raccoglie livelli convoluzionali, le dimensioni dell'immagine vengono ridotte, riducendo così le informazioni spaziali e le informazioni a livello di pixel, un processo necessario noto come downsampling.Al termine di questo processo, i data engineer eseguono l'ottimizzazione delle immagini attraverso l'espansione o il ricampionamento della mappa delle caratteristiche creata, riportandola alla forma dell'immagine di input. Max-pooling: Max-pooling è un altro strumento fondamentale nel processo di estrazione delle informazioni dalle regioni di un'immagine e nella loro analisi.Max-pooling sceglie l'elemento più grande in un'area analizzata in modo che l'output possa risultare in una mappa delle funzionalità con le caratteristiche più importanti della mappa delle funzionalità precedente.

U-Net

L'architettura U-Net modifica l'architettura FCN originale introdotta nel 2015 e consente di ottenere costantemente migliori risultati. Si compone di due parti, un codificatore e un decodificatore. Mentre il codificatore impila livelli convoluzionali che sotto-campionano costantemente l'immagine per estrarne informazioni, il decodificatore ricostruisce le caratteristiche dell'immagine utilizzando il processo di deconvoluzione. L'architettura U-net viene utilizzata principalmente in campo medico per identificare tumori cancerosi e non cancerosi nei polmoni e nel cervello.

Skip-connection: un'importante innovazione introdotta per gli FCN da U-Net è nota come skip-connection, utilizzata per connettere l'output di uno strato convoluzionale a un altro non adiacente.Questo processo di skip-connection riduce la perdita di dati durante il downsampling e consente un risultato con migliore risoluzione.Ogni livello convoluzionale viene sovra campionato in modo indipendente e combinato con le caratteristiche di altri livelli fino a quando l'output finale non rappresenti in modo accurato l'immagine analizzata.

DeepLab

Il modello di segmentazione semantica DeepLab è stato sviluppato da Google nel 2015 per migliorare ulteriormente l'architettura FCN originale e ottenere risultati ancora più precisi. Mentre lo stack dei livelli in un modello FCN riducono significativamente la risoluzione dell'immagine, l'architettura di DeepLab utilizza un processo chiamato atrous convolution per sovracampionare i dati. Con il processo di atrous convolution, i kernel di convoluzione possono rimuovere informazioni da un'immagine e lasciare spazi vuoti tra i parametri del kernel.

L'approccio di DeepLab alla convoluzione dilatata estrae i dati dal campo visivo più ampio mantenendo la stessa risoluzione. Lo spazio delle caratteristiche viene quindi sottoposto a un algoritmo di campo casuale condizionato (Conditional Random Field - CRF) completamente connesso in modo da poter acquisire più dettagli e utilizzarli per la funzione di perdita pixel, fornendo una maschera di segmentazione più chiara e accurata.

Pyramid scene analysis network (PSPNet)

Nel 2017 è stato introdotto un nuovo algoritmo di segmentazione delle immagini. PSPNet distribuisce un modulo di analisi piramidale che raccoglie set di dati di immagini contestuali a un tasso di precisione più elevato rispetto al passato. Come i predecessori, l'architettura PSPNet impiega l'approccio encoder-decoder, ma mentre DeepLab applicava l'upscaling per effettuare i calcoli a livello di pixel, PSPNet aggiunge un nuovo livello di pooling piramidale per ottenere risultati. Il pooling multiscala di PSPNet consente di analizzare una finestra più ampia di informazioni sull'immagine rispetto ad altri modelli.