Le ultime tendenze in materia di AI, proposte da esperti
Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.
La classificazione delle immagini è il processo di categorizzazione o classificazione delle immagini in categorie. Nel machine learning, i modelli imparano a riconoscere e classificare le immagini.
Gli esseri umani classificano le immagini a partire dalla giovane età. Quando un insegnante chiede ai bambini dell'asilo di dividere le immagini di piante e animali in gruppi, essi utilizzano le caratteristiche che hanno imparato su ciascuna categoria per completare il compito. Ognuna di queste categorie possiede caratteristiche diverse che differenziano le piante dagli animali. Gli adulti potrebbero non ricordare di aver appreso le caratteristiche distinte che separano le due categorie, poiché gran parte del modo in cui sappiamo classificare viene naturale.
Insegnare a un modello di intelligenza artificiale (AI) a svolgere lo stesso compito può essere molto più difficile. La principale differenza, in questo caso, è che i modelli AI devono essere addestrati a "vedere", mentre gli esseri umani nascono con questa capacità. Quindi, gli umani possono distinguere tra una scarpa e un essere vivente sin dall'inizio. La classificazione delle immagini basata su regole dipende da etichette o annotazioni per creare queste distinzioni. La classificazione statistica delle immagini svolge lo stesso compito addestrando i modelli a riconoscere gli schemi incorporati nelle immagini, eliminando gran parte del lavoro di etichettatura manuale.
La computer vision si riferisce al ramo più generale dell'AI in cui rientra la classificazione delle immagini. Utilizza il machine learning e spesso le reti neurali per consentire ai computer di interpretare dati visivi come immagini e video. Anche se alcuni esperimenti con la computer vision potrebbero essere iniziati già negli anni '50, la maggior parte degli esperti concorderebbe che fu solo nel 1970 che iniziò l'uso commerciale di questa tecnica.
La computer vision consente ai computer di estrarre dati utili da ciò che vedono. Questo processo consente loro anche di rispondere formulando raccomandazioni o addirittura intervenendo quando rilevano problemi o anomalie nei dati visivi. Anche nell'ambito della computer vision esiste il campo del riconoscimento delle immagini. Questo termine ampio viene utilizzato per descrivere la capacità di un computer di interpretare un'immagine o delle immagini. Per riassumere, la computer vision è la categoria più ampia e i compiti del riconoscimento delle immagini e, ancora più specificamente, la classificazione delle immagini si annidano al suo interno.
Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.
Questo metodo si basa su un processo rigorosamente sviluppato di raccolta e etichettatura delle immagini, in modo da adattarsi allo specifico compito o obiettivo di classificazione. Questo processo viene completato manualmente da esperti che selezionano le caratteristiche principali dell'immagine che forniscono le maggiori informazioni visive. La classificazione delle immagini basata su regole raggruppa cluster di pixel simili in classi applicando queste regole, che sono costruite sulla base di conoscenze specialistiche. Consente inoltre una classificazione interpretabile e personalizzabile senza fare affidamento su complessi modelli di machine learning.
Immagina una scatola piena di fotografie che ti viene assegnato il compito di organizzare. La collezione contiene fotografie di laghi, cani e automobili. Poiché non hai a disposizione strumenti high-tech con questo metodo, devi creare un elenco.
L'elenco può essere simile al seguente:
Questo esempio dimostra che la classificazione basata su regole si basa su regole e strumenti preimpostati creati dall'uomo. Questo metodo è in contrasto con il lasciare che un computer "apprenda" autonomamente nuove regole. Questa forma di classificazione delle immagini può includere tecniche come la corrispondenza dei modelli e la definizione delle soglie.
La corrispondenza dei modelli implica lo scorrimento di un'immagine del modello su un'immagine di input più grande e il calcolo delle metriche di somiglianza in ogni posizione per trovare le regioni che corrispondono all'immagine del modello.
La soglia segmenta le immagini convertendo i valori dei pixel in binari in base a un valore limite impostato. Questo metodo differenzia le caratteristiche dallo sfondo in base all'intensità.
Combinate con l'apprendimento per rinforzo basato su regole, queste tecniche contribuiscono a sistemi di classificazione delle immagini solidi e interpretabili. La classificazione basata su regole può essere completata implementando algoritmi k-nearest neighbor o random forest.
Questo metodo di classificazione è un po' più complesso del metodo di classificazione delle immagini basato su regole. La classificazione statistica delle immagini è progettata per apprendere e riconoscere automaticamente i modelli nelle immagini. Per classificare in modo efficiente le immagini, questo metodo si basa in larga misura su grandi set di dati etichettati e su architetture potenti, solitamente reti neurali convoluzionali (CNN). Queste CNN utilizzano tre tipi di livelli, ognuno dei quali aumenta di complessità per identificare parti dell'immagine. Man mano che i dati si spostano attraverso i vari livelli della CNN, un numero maggiore di componenti viene riconosciuto fino a quando l'immagine non può essere classificata.
Le tecniche tradizionali basate sulla distribuzione si basano su ipotesi chiare sulle proprietà statistiche dei dati dell'immagine. Metodi come la stima di massima verosimiglianza (MLE) e i classificatori bayesiani analizzano le distribuzioni di probabilità delle intensità o delle caratteristiche dei pixel per assegnare classi. Nella classificazione delle immagini, l'MLE assegna ogni pixel dell'immagine alla classe il cui modello statistico spiega meglio i dati raccolti. La classificazione bayesiana utilizza il teorema di Bayes per calcolare la probabilità che un'immagine appartenga a una determinata classe in base alle conoscenze precedenti e ai dati raccolti. Il teorema consente di "invertire" le probabilità condizionali. Combina le probabilità precedenti delle classi con la probabilità delle caratteristiche osservate per prevedere la classe più probabile per uno specifico segmento di immagine. Questi algoritmi richiedono una modellazione statistica di ogni classe ed eseguono la classificazione stimando la probabilità che un pixel o un segmento specifico appartenga a ciascuna classe in base a questi modelli.
La stima di massima verosimiglianza (MLE) è un metodo statistico utilizzato per stimare i parametri di un modello trovando i valori che rendono più probabili i dati osservati. Nella classificazione delle immagini, l'MLE assegna ogni pixel o segmento alla classe il cui modello statistico massimizza la probabilità di generare i dati osservati.
Le reti neurali convoluzionali (CNN) rappresentano un approccio più moderno e privo di distribuzione che apprende le caratteristiche direttamente dai dati senza fare affidamento su regole statistiche chiaramente definite. Le CNN sono costituite da più livelli che rilevano progressivamente le caratteristiche dell'immagine, passando dalla più semplice alla più complessa. Usano operazioni come le convoluzioni e il pooling. Una convoluzione è l'operazione matematica utilizzata dalla CNN per estrarre caratteristiche dai dati e dalle immagini di input in questo caso. Questa operazione utilizza un filtro o un kernel che scorre sull'input. Il pooling applica anche un filtro all'intero input, ma a differenza della convoluzione, questo filtro manca di parametri ponderati. La formazione delle CNN richiede set di dati e risorse computazionali di grandi dimensioni ed etichettati, ma spesso offre una precisione notevolmente migliorata grazie alla loro capacità di estrarre automaticamente caratteristiche gerarchiche dai dati grezzi delle immagini.
Raccolta e pre-elaborazione dei dati: la raccolta di un numero elevato e diversificato di immagini per ogni gruppo è il primo passo. I dati devono essere etichettati, quindi normalizzati. La normalizzazione e altre tecniche di aumento dei dati includono il ridimensionamento delle immagini a dimensioni fisse, la normalizzazione del valore dei pixel e altro ancora.
Selezione del modello: il prossimo passo nel workflow è la selezione del modello. L'architettura selezionata è molto probabilmente una CNN. Come discusso in precedenza, la CNN inizia a rilevare caratteristiche più complesse man mano che i dati si spostano attraverso i suoi livelli.
Addestramento del modello e convalida: dopo la selezione, le immagini etichettate vengono divise in set di dati di addestramento, set di dati di convalida e set di dati di test. La rete utilizza questi set per ottimizzare e regolare ripetutamente i pesi, riducendo al minimo gli errori tra le etichette previste e le etichette effettive. La prevenzione dell'overfitting è assistita dai dati di convalida e questo processo di addestramento può continuare fino a quando i risultati non soddisfano uno standard predeterminato.
Durante questo passaggio, potrebbe essere applicato un set di dati di immagini con annotazioni umane come ImageNet. ImageNet è un'enorme raccolta di oltre 14 milioni di immagini. Queste immagini sono tutte organizzate ed etichettate per insegnare ai computer a riconoscere gli oggetti nelle immagini. Ogni immagine nel database è contrassegnata con categorie specifiche chiamate "synset". Questi synset includono cose come "cane", "macchina" o "mela" e utilizzano un framework chiamato WordNet.
Estrazione delle caratteristiche: in questa fase, contrariamente alla classificazione delle immagini basata su regole, i modelli di deep learning apprendono le proprie caratteristiche dai dati delle immagini grezze estratti. Questo approccio consente alla rete di stabilire rappresentazioni interne per distinguere tra gruppi o classi.
Valutazione e distribuzione: successivamente, il modello viene valutato in base ai dati di test e messo a punto se necessario. Il modello viene quindi distribuito per fare previsioni su nuove immagini in un ambiente reale se le metriche vengono soddisfatte.
Sono stati sviluppati vari modelli e algoritmi per la classificazione delle immagini. Si va da approcci come K-nearest neighbor (KNN), random forest e macchine a vettori di supporto (SVM), ad architetture come AlexNet, GoogleNet e ResNet. Ogni metodo offre diversi punti di forza in termini di precisione, scalabilità e complessità. Queste opzioni consentono agli utenti di scegliere tra classificatori più semplici o reti neurali convoluzionali altamente sofisticate in grado di apprendere caratteristiche gerarchiche profonde dalle immagini. Esamineremo questi algoritmi e modelli in modo più approfondito.
Settore automobilistico: sia la classificazione delle immagini che il rilevamento degli oggetti stanno diventando sempre più diffusi nei veicoli. Il rilevamento degli oggetti viene utilizzato per fornire agli autisti informazioni in tempo reale sull'ambiente circostante. Questa capacità può essere utile in aree sconosciute o ad alto traffico. Un rilevamento efficace degli oggetti dipende in larga misura dall'efficacia della classificazione delle immagini di quella CNN.
Classificazione delle malattie delle piante tramite immagini fogliari: i ricercatori hanno sviluppato un modello in grado di rilevare 13 malattie delle foglie sane. Il modello è anche in grado di distinguere una o più foglie dall'ambiente circostante. Un modello come questo potrebbe essere fondamentale per determinare se un ambiente è stato infettato da qualcosa come la malattia delle foglie di faggio (BLD), ad esempio.
Imaging sanitario e medico: la classificazione delle immagini con deep learning con le CNN può fornire immagini radiografiche di polmoni infetti da polmonite. I medici e i tecnici sanitari potrebbero essere in grado di identificare i casi di polmonite in modo più rapido e accurato, pur facendolo in modo economico.
La classificazione delle immagini è un componente chiave della computer vision. Consente alle macchine di dare un senso al mondo visivo come fanno gli esseri umani. Dai metodi di classificazione delle immagini basati su regole che si basano sulla selezione manuale delle caratteristiche alla classificazione statistica avanzata delle immagini con CNN in grado di riconoscere modelli sottili con elevata precisione, questo campo continua a evolversi rapidamente. Il suo impatto si sta già facendo sentire nei settori sanitario, automobilistico e ambientale. Questo strumento offre agli utenti un processo decisionale più rapido che può portare a una maggiore sicurezza generale. Man mano che i modelli di classificazione delle immagini diventano più sofisticati, non solo miglioreranno le applicazioni esistenti, ma apriranno anche la porta a possibilità completamente nuove.