Home
topics
Computer vision
La computer vision è un campo dell'intelligenza artificiale (AI) che utilizza il machine learning e le reti neurali per insegnare ai computer e ai sistemi a ricavare informazioni significative da immagini digitali, video e altri input visivi e a formulare raccomandazioni o intraprendere azioni quando vengono identificati difetti o problemi.
Se l'AI consente ai computer di pensare, la computer vision consente loro di vedere, osservare e capire.
La computer vision funziona in modo molto simile alla visione umana, tranne per il fatto che gli esseri umani hanno un vantaggio. La vista umana ha il vantaggio di poter contare su innumerevoli informazioni di contesto per allenarsi a distinguere gli oggetti, la loro distanza, se si stanno muovendo o se c'è qualcosa di sbagliato in un'immagine.
La computer vision addestra le macchine a svolgere queste funzioni, ma deve farlo in tempi molto più brevi con telecamere, dati e algoritmi piuttosto che con retine, nervi ottici e corteccia visiva. Dal momento che un sistema addestrato per ispezionare prodotti o osservare un asset di produzione è in grado di analizzare migliaia di prodotti o processi al minuto, notando difetti o problemi impercettibili, può superare rapidamente le capacità umane.
La computer vision viene utilizzata in settori che vanno dall'energia e dai servizi di pubblica utilità alla produzione e all'industria automobilistica, con il mercato che continua a crescere. Si prevede che entro il 2022 raggiungerà i 48,6 miliardi di dollari.1
Poiché per alcune aziende l'informativa ESG inizierà già nel 2025, assicurati di prepararti adeguatamente con la nostra guida.
La computer vision ha bisogno di molti dati. Esegue analisi dei dati più e più volte fino a quando non discerne le distinzioni e, infine, riconosce le immagini. Ad esempio, per addestrare un computer a riconoscere i pneumatici delle automobili, è necessario fornire grandi quantità di immagini di pneumatici e articoli relativi ai pneumatici per imparare le differenze e riconoscere uno pneumatico, in particolare uno senza difetti.
Per raggiungere questo obiettivo vengono utilizzate due tecnologie essenziali: un tipo di machine learning chiamato deep learning e una rete neurale convoluzionale (CNN).
Il machine learning utilizza modelli algoritmici per consentire a un computer di apprendere da solo il contesto dei dati visivi. Se nel modello vengono inseriti dati sufficienti, il computer "guarderà" i dati e imparerà a distinguere un’immagine da un'altra. Gli algoritmi consentono alla macchina di imparare da sola, piuttosto che con una persona che la programma per riconoscere un'immagine.
Una CNN aiuta un modello di machine learning o deep learning a "guardare" scomponendo le immagini in pixel a cui vengono assegnati tag o etichette. Utilizza le etichette per eseguire convoluzioni (un'operazione matematica su due funzioni per produrre una terza funzione) e fa previsioni su ciò che sta "vedendo". La rete neurale esegue convoluzioni e verifica l'accuratezza delle sue previsioni in una serie di iterazioni fino a quando le previsioni iniziano a diventare realtà. Si tratta quindi di riconoscere o vedere le immagini in modo simile agli esseri umani.
Proprio come un essere umano che distingue un'immagine a distanza, una CNN prima distingue i bordi netti e le forme semplici, quindi inserisce le informazioni mentre esegue le iterazioni delle sue previsioni. Per comprendere le singole immagini viene utilizzata una CNN. Una rete neurale ricorrente (RNN) viene utilizzata in modo simile per le applicazioni video per aiutare i computer a capire come le immagini di una serie di fotogrammi siano correlate tra loro.
Da circa 60 anni, scienziati e ingegneri cercano di sviluppare metodi che consentano alle macchine di vedere e comprendere i dati visivi. La sperimentazione iniziò nel 1959, quando alcuni neurofisiologi mostrarono a un gatto una serie di immagini, nel tentativo di correlare una risposta nel suo cervello. Scoprirono che rispondeva prima ai bordi o alle linee nette e, scientificamente, ciò significava che l'elaborazione delle immagini inizia con forme semplici come i bordi dritti.2
Più o meno nello stesso periodo, fu sviluppata la prima tecnologia di scansione delle immagini tramite computer, che consentì ai computer di digitalizzare e acquisire immagini. Un altro traguardo fu raggiunto nel 1963, quando i computer furono in grado di trasformare immagini bidimensionali in forme tridimensionali. Negli anni '60, l'AI si è affermata come campo di studio accademico, segnando anche l'inizio della ricerca sull'AI per risolvere il problema della vista umana.
Il 1974 ha visto l'introduzione della tecnologia di riconoscimento ottico dei caratteri (OCR), in grado di riconoscere il testo stampato in qualsiasi tipo di carattere o tipo di carattere.3 Analogamente, il riconoscimento intelligente dei caratteri (ICR) potrebbe decifrare il testo scritto a mano che utilizza reti neurali.4 Da allora, OCR e ICR si sono fatti strada nell'elaborazione di documenti e fatture, nel riconoscimento delle targhe dei veicoli, nei pagamenti con dispositivi mobili, nella conversione automatica e in altre applicazioni comuni.
Nel 1982, il neuroscienziato David Marr affermò che la visione funziona in modo gerarchico e introdusse algoritmi per le macchine per rilevare bordi, angoli, curve e forme di base simili. Contemporaneamente, l'informatico Kunihiko Fukushima sviluppò una rete di cellule in grado di riconoscere degli schemi. La rete, chiamata Neocognitron, includeva strati convoluzionali in una rete neurale.
Nel 2000, l'obiettivo dello studio era il riconoscimento degli oggetti. Nel 2001, sono apparse le prime applicazioni di riconoscimento facciale in tempo reale. La standardizzazione del modo in cui i set di dati visivi vengono etichettati e annotati è avvenuta nel corso degli anni 2000. Nel 2010 è stato introdotto il set di dati ImageNet. Conteneva milioni di immagini taggate in un migliaio di classi di oggetti e costituisce la base per le CNN e i modelli di deep learning utilizzati oggi. Nel 2012, un team dell'Università di Toronto ha partecipato con una CNN a un concorso di riconoscimento di immagini. Il modello, denominato AlexNet, ha ridotto significativamente il tasso di errore nel riconoscimento delle immagini. Dopo questa svolta, i tassi di errore sono scesi a una piccola percentuale.5
Accedi a video, articoli, workshop e altro ancora.
C'è molta ricerca in corso nel campo della computer vision, ma non solo. Le applicazioni nel mondo reale dimostrano quanto sia importante la computer vision per business, intrattenimento, trasporti, assistenza sanitaria e vita quotidiana. Un fattore chiave per la crescita di queste applicazioni è il flusso di informazioni visive provenienti da smartphone, sistemi di sicurezza, telecamere del traffico e altri dispositivi dotati di strumenti visivi. Questi dati potrebbero svolgere un ruolo importante nelle operazioni in tutti i settori, ma oggi rimangono inutilizzati. Le informazioni costituiscono un banco di prova per addestrare le applicazioni di computer vision e un trampolino di lancio per farle entrare a far parte di una serie di attività umane:
Molte organizzazioni non hanno le risorse per finanziare laboratori di computer vision e creare modelli di deep learning e reti neurali. Potrebbero anche non avere la potenza di calcolo necessaria per elaborare enormi set di dati visivi. Aziende come IBM stanno dando il loro contributo offrendo servizi di sviluppo di software per la computer vision. Questi servizi forniscono modelli di apprendimento predefiniti disponibili sul cloud e riducono inoltre la richiesta di risorse informatiche. Gli utenti si collegano ai servizi attraverso un'application programming interface (API) e li utilizzano per sviluppare applicazioni di computer vision.
IBM ha inoltre introdotto una piattaforma di computer vision che affronta sia i problemi di sviluppo che quelli relativi alle risorse di elaborazione. IBM® Maximo Visual Inspection include strumenti che consentono agli esperti in materia di etichettare, addestrare e implementare modelli di visione di deep learning, senza competenze di programmazione o deep learning. I modelli di visione possono essere implementati nei data center locali, nel cloud e nei dispositivi edge.
Sebbene sia sempre più facile ottenere risorse per sviluppare applicazioni di computer vision, una domanda importante a cui rispondere subito è: cosa faranno esattamente queste applicazioni? Comprendere e definire attività specifiche di computer vision può concentrare e convalidare progetti e applicazioni e facilitare l'avvio.
Ecco alcuni esempi di attività consolidate di computer vision:
Metti tutta la potenza della computer vision a disposizione dei tuoi team dei servizi qualità e ispezione. IBM Maximo Visual Inspection rende la computer vision con deep learning più accessibile agli utenti aziendali con strumenti di ispezione visiva che consentono di migliorare le prestazioni.
IBM Research è uno dei più grandi laboratori di ricerca aziendale al mondo. Scopri di più sulla ricerca condotta in tutti i settori.
Scopri l'evoluzione dell'ispezione visiva e come l'intelligenza artificiale stia migliorando la sicurezza e la qualità.
Scopri di più su come iniziare a utilizzare la visual recognition e IBM Maximo Visual Inspection. Esplora le risorse e i corsi per sviluppatori.
Leggi come Sund & Baelt ha utilizzato la tecnologia della computer vision per semplificare le ispezioni e migliorare la produttività.
Scopri come la tecnologia di computer vision può migliorare le ispezioni di qualità nella produzione.
1. https://www.forbes.com/sites/bernardmarr/2019/04/08/7-amazing-examples-of-computer-and-machine-vision-in-practice/#3dbb3f751018 (link esterno a ibm.com)
2. https://hackernoon.com/a-brief-history-of-computer-vision-and-convolutional-neural-networks-8fe8aacc79f3 (link esterno a ibm.com)
3. Optical character recognition, Wikipedia (link esterno a ibm.com)
4. Intelligent character recognition, Wikipedia (link esterno a ibm.com)
5. A Brief History of Computer Vision (and Convolutional Neural Networks), Rostyslav Demush, Hacker Noon, 27 febbraio 2019 (link esterno a ibm.com)
6. 7 Amazing Examples of Computer And Machine Vision In Practice, Bernard Marr, Forbes, 8 aprile 2019 (link esterno a ibm.com)
7. The 5 Computer Vision Techniques That Will Change How You See The World, James Le, Heartbeat, 12 aprile 2018 (link esterno a ibm.com)