Che cos'è la computer vision?

Cos'è la computer vision?

La computer vision è un campo dell'intelligenza artificiale (AI) che utilizza il machine learning e le reti neurali per insegnare ai computer e ai sistemi a ricavare informazioni significative da immagini digitali, video e altri input visivi e a formulare raccomandazioni o intraprendere azioni quando vengono identificati difetti o problemi.

Se l'AI consente ai computer di pensare, la computer vision consente loro di vedere, osservare e capire.

La computer vision funziona in modo molto simile alla visione umana, tranne per il fatto che gli esseri umani hanno un vantaggio. La vista umana ha il vantaggio di poter contare su innumerevoli informazioni di contesto per allenarsi a distinguere gli oggetti, la loro distanza, se si stanno muovendo o se c'è qualcosa di sbagliato in un'immagine.

La computer vision addestra le macchine a svolgere queste funzioni, ma deve farlo in tempi molto più brevi con telecamere, dati e algoritmi piuttosto che con retine, nervi ottici e corteccia visiva. Dal momento che un sistema addestrato per ispezionare prodotti o osservare un asset di produzione è in grado di analizzare migliaia di prodotti o processi al minuto, notando difetti o problemi impercettibili, può superare rapidamente le capacità umane.

La computer vision viene utilizzata in settori che vanno dall'energia e dai servizi di pubblica utilità alla produzione e all'industria automobilistica, con il mercato che continua a crescere. Si prevede che entro il 2022 raggiungerà i 48,6 miliardi di dollari.¹

Approfondisci la nostra guida esclusiva alla direttiva CSRD dell'UE

Poiché per alcune aziende l’informativa ESG inizierà già nel 2025, assicurati di prepararti adeguatamente con la nostra guida.

Contenuti correlati

Registrati per il playbook sulla gestione degli asset più intelligente

Come funziona la computer vision?

La computer vision ha bisogno di molti dati. Esegue analisi dei dati più e più volte fino a quando non discerne le distinzioni e, infine, riconosce le immagini. Ad esempio, per addestrare un computer a riconoscere i pneumatici delle automobili, è necessario fornire grandi quantità di immagini di pneumatici e articoli relativi ai pneumatici per imparare le differenze e riconoscere uno pneumatico, in particolare uno senza difetti.

Per raggiungere questo obiettivo vengono utilizzate due tecnologie essenziali: un tipo di machine learning chiamato deep learning e una rete neurale convoluzionale (CNN).

Il machine learning utilizza modelli algoritmici per consentire a un computer di apprendere da solo il contesto dei dati visivi. Se nel modello vengono inseriti dati sufficienti, il computer "guarderà" i dati e imparerà a distinguere un’immagine da un'altra. Gli algoritmi consentono alla macchina di imparare da sola, piuttosto che con una persona che la programma per riconoscere un'immagine.

Una CNN aiuta un modello di machine learning o deep learning a "guardare" scomponendo le immagini in pixel a cui vengono assegnati tag o etichette. Utilizza le etichette per eseguire convoluzioni (un'operazione matematica su due funzioni per produrre una terza funzione) e fa previsioni su ciò che sta "vedendo". La rete neurale esegue convoluzioni e verifica l'accuratezza delle sue previsioni in una serie di iterazioni fino a quando le previsioni iniziano a diventare realtà. Si tratta quindi di riconoscere o vedere le immagini in modo simile agli esseri umani.

Proprio come un essere umano che distingue un'immagine a distanza, una CNN prima distingue i bordi netti e le forme semplici, quindi inserisce le informazioni mentre esegue le iterazioni delle sue previsioni. Per comprendere le singole immagini viene utilizzata una CNN. Una rete neurale ricorrente (RNN) viene utilizzata in modo simile per le applicazioni video per aiutare i computer a capire come le immagini di una serie di fotogrammi siano correlate tra loro.

La storia della computer vision

Da circa 60 anni, scienziati e ingegneri cercano di sviluppare metodi che consentano alle macchine di vedere e comprendere i dati visivi. La sperimentazione iniziò nel 1959, quando alcuni neurofisiologi mostrarono a un gatto una serie di immagini, nel tentativo di correlare una risposta nel suo cervello. Scoprirono che rispondeva prima ai bordi o alle linee nette e, scientificamente, ciò significava che l'elaborazione delle immagini inizia con forme semplici come i bordi dritti.2

Più o meno nello stesso periodo, fu sviluppata la prima tecnologia di scansione delle immagini tramite computer, che consentì ai computer di digitalizzare e acquisire immagini. Un altro traguardo fu raggiunto nel 1963, quando i computer furono in grado di trasformare immagini bidimensionali in forme tridimensionali. Negli anni '60, l'AI si è affermata come campo di studio accademico, segnando anche l'inizio della ricerca sull'AI per risolvere il problema della vista umana.

Il 1974 ha visto l'introduzione della tecnologia di riconoscimento ottico dei caratteri (OCR), in grado di riconoscere il testo stampato in qualsiasi tipo di carattere o tipo di carattere.³Analogamente, il riconoscimento intelligente dei caratteri (ICR) potrebbe decifrare il testo scritto a mano che utilizza reti neurali.⁴ Da allora, OCR e ICR si sono fatti strada nell'elaborazione di documenti e fatture, nel riconoscimento delle targhe dei veicoli, nei pagamenti con dispositivi mobili, nella conversione automatica e in altre applicazioni comuni.

Nel 1982, il neuroscienziato David Marr affermò che la visione funziona in modo gerarchico e introdusse algoritmi per le macchine per rilevare bordi, angoli, curve e forme di base simili. Contemporaneamente, l'informatico Kunihiko Fukushima sviluppò una rete di cellule in grado di riconoscere degli schemi. La rete, chiamata Neocognitron, includeva strati convoluzionali in una rete neurale.

Nel 2000, l'obiettivo dello studio era il riconoscimento degli oggetti. Nel 2001, sono apparse le prime applicazioni di riconoscimento facciale in tempo reale. La standardizzazione del modo in cui i set di dati visivi vengono etichettati e annotati è avvenuta nel corso degli anni 2000. Nel 2010 è stato introdotto il set di dati ImageNet. Conteneva milioni di immagini taggate in un migliaio di classi di oggetti e costituisce la base per le CNN e i modelli di deep learning utilizzati oggi. Nel 2012, un team dell'Università di Toronto ha partecipato con una CNN a un concorso di riconoscimento di immagini. Il modello, denominato AlexNet, ha ridotto significativamente il tasso di errore nel riconoscimento delle immagini. Dopo questa svolta, i tassi di errore sono scesi a una piccola percentuale.⁵

La ricerca sulla computer vision

Computer vision e multimedia presso IBM Research

Accedi a video, articoli, workshop e altro ancora.

Applicazioni della computer vision

C'è molta ricerca in corso nel campo della computer vision, ma non solo. Le applicazioni nel mondo reale dimostrano quanto sia importante la computer vision per business, intrattenimento, trasporti, assistenza sanitaria e vita quotidiana. Un fattore chiave per la crescita di queste applicazioni è il flusso di informazioni visive provenienti da smartphone, sistemi di sicurezza, telecamere del traffico e altri dispositivi dotati di strumenti visivi. Questi dati potrebbero svolgere un ruolo importante nelle operazioni in tutti i settori, ma oggi rimangono inutilizzati. Le informazioni costituiscono un banco di prova per addestrare le applicazioni di computer vision e un trampolino di lancio per farle entrare a far parte di una serie di attività umane:

IBM ha utilizzato la computer vision per creare My Moments per il torneo di golf Masters del 2018. IBM® Watson ha guardato centinaia di ore di filmati del Masters ed è stato in grado di identificare le immagini (e i suoni) di inquadrature significative. Ha selezionato questi momenti chiave e li ha offerti ai tifosi come highlights personalizzati.
Google Translate consente agli utenti di puntare la fotocamera di uno smartphone su un cartello in un'altra lingua e di ottenere quasi immediatamente una traduzione nella propria lingua preferita.⁶
Lo sviluppo di veicoli a guida autonoma si basa sulla computer vision per dare un senso all'input visivo proveniente dalle telecamere e da altri sensori di un'auto. È essenziale identificare le altre auto, i segnali stradali, gli indicatori di corsia, i pedoni, le biciclette e tutte le altre informazioni visive che si incontrano lungo la strada.
IBM sta applicando la tecnologia della computer vision insieme a partner come Verizon per portare l'AI al limite e aiutare i produttori di automobili a individuare difetti qualitativi prima che un veicolo lasci la fabbrica.

Esempi di computer vision

Molte organizzazioni non hanno le risorse per finanziare laboratori di computer vision e creare modelli di deep learning e reti neurali. Potrebbero anche non avere la potenza di calcolo necessaria per elaborare enormi set di dati visivi. Aziende come IBM stanno dando il loro contributo offrendo servizi di sviluppo di software per la computer vision. Questi servizi forniscono modelli di apprendimento predefiniti disponibili sul cloud e riducono inoltre la richiesta di risorse informatiche. Gli utenti si collegano ai servizi attraverso un'application programming interface (API) e li utilizzano per sviluppare applicazioni di computer vision.

IBM ha inoltre introdotto una piattaforma di computer vision che affronta sia i problemi di sviluppo che quelli relativi alle risorse di elaborazione. IBM® Maximo Visual Inspection include strumenti che consentono agli esperti in materia di etichettare, addestrare e implementare modelli di visione di deep learning, senza competenze di programmazione o deep learning. I modelli di visione possono essere implementati nei data center locali, nel cloud e nei dispositivi edge.

Sebbene sia sempre più facile ottenere risorse per sviluppare applicazioni di computer vision, una domanda importante a cui rispondere subito è: cosa faranno esattamente queste applicazioni? Comprendere e definire attività specifiche di computer vision può concentrare e convalidare progetti e applicazioni e facilitare l'avvio.

Ecco alcuni esempi di attività consolidate di computer vision:

La classificazione delle immagini vede un'immagine ed è in grado di classificarla (un cane, una mela, il volto di una persona). Più precisamente, è in grado di prevedere con accuratezza l'appartenenza di una determinata immagine a una determinata classe. Ad esempio, un'azienda di social media potrebbe volerla utilizzare per identificare e separare automaticamente immagini inappropriate caricate dagli utenti.
Il rilevamento degli oggetti può utilizzare la classificazione delle immagini per identificare una determinata classe di immagini e poi rilevare e registrare la loro presenza in un'immagine o in un video. Gli esempi includono il rilevamento di danni su una linea di assemblaggio o l'identificazione di macchinari che richiedono manutenzione.
Il tracciamento degli oggetti segue o traccia un oggetto una volta che è stato rilevato. Questa attività viene spesso eseguita con immagini acquisite in sequenza o feed video in tempo reale. I veicoli autonomi, ad esempio, devono non solo classificare e rilevare oggetti come pedoni, altre auto e infrastrutture stradali, ma devono anche monitorarli in movimento per evitare collisioni e rispettare il codice stradale.⁷
Il recupero di immagini basato sul contenuto utilizza la computer vision per sfogliare, cercare e recuperare immagini da grandi storage di dati, basandosi sul contenuto delle immagini piuttosto che sui tag dei metadati ad esse associati. Questa attività può incorporare un'annotazione automatica delle immagini che sostituisce l'assegnazione manuale dei tag alle immagini. Queste attività possono essere utilizzate per i sistemi di gestione degli asset digitali e possono aumentare la precisione della ricerca e del recupero.

Soluzioni correlate

Software di ispezione visiva

Metti tutta la potenza della computer vision a disposizione dei tuoi team dei servizi qualità e ispezione. IBM Maximo Visual Inspection rende la computer vision con deep learning più accessibile agli utenti aziendali con strumenti di ispezione visiva che consentono di migliorare le prestazioni.

Esplora IBM Maximo Visual Inspection

Risorse

Blog IBM Research

IBM Research è uno dei più grandi laboratori di ricerca aziendale al mondo. Scopri di più sulla ricerca condotta in tutti i settori.

Che cos'è l'ispezione visiva?

Scopri l’evoluzione dell’ispezione visiva e come l’intelligenza artificiale stia migliorando la sicurezza e la qualità.

Risorse per sviluppatori

Scopri di più su come iniziare a utilizzare la visual recognition e IBM Maximo Visual Inspection. Esplora le risorse e i corsi per sviluppatori.

Sund & Baelt: costruire ponti per una migliore conoscenza

Leggi come Sund & Baelt ha utilizzato la tecnologia della computer vision per semplificare le ispezioni e migliorare la produttività.

Migliorare i controlli di qualità

Scopri come la tecnologia di computer vision può migliorare le ispezioni di qualità nella produzione.

Fai il passo successivo

Libera la potenza della computer vision senza codice per un'ispezione visiva automatizzata con IBM Maximo Visual Inspection: un set di strumenti intuitivo per l'etichettatura, la formazione e l'implementazione di modelli di intelligenza artificiale.

Esplora Maximo visual inspection

Prova la demo

Cos'è la computer vision?

Cos'è la computer vision?

Come funziona la computer vision?

La storia della computer vision

La ricerca sulla computer vision

Applicazioni della computer vision

Esempi di computer vision

Soluzioni correlate

Risorse

Fonti: