Cos'è la computer vision?

Autori

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Cos'è la computer vision?

La computer vision è un sottocampo dell'intelligenza artificiale (AI) che fornisce alle macchine la capacità di elaborare, analizzare e interpretare input come immagini e video. Utilizza il machine learning per aiutare i computer e altri sistemi a ricavare informazioni significative dai dati visivi.

La computer vision può essere immaginata come l'interazione tra tre ampi processi, ognuno dei quali lavora insieme e si informa a vicenda: riconoscimento, ricostruzione e riorganizzazione. Il riconoscimento delle immagini consiste nell'identificare azioni, oggetti, persone, luoghi e scrivere in immagini o video digitali. La ricostruzione deriva le caratteristiche tridimensionali di tali entità, mentre la riorganizzazione deduce le relazioni tra le entità.1

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Come funziona la computer vision

L'imaging radiologico nella diagnosi della polmonite è un caso d'uso comune nella computer vision. I radiologi devono interpretare attentamente le radiografie del torace, un processo che può essere soggetto a errori e richiedere molto tempo a causa della sottigliezza dei sintomi della polmonite e delle loro somiglianze con altre condizioni polmonari.2 Un sistema di computer vision può aiutare.

Esistono diversi tipi di modelli e approcci per le attività di computer vision, ma il seguente esempio ipotetico illustra un workflow comune:

  1. Raccolta dati
  2. Pre-elaborazione
  3. Selezione del modello
  4. Addestramento del modello

Raccolta dati

Il primo passo è raccogliere i dati visivi necessari. Gli ospedali generano enormi volumi di radiografie del torace, che possono utilizzare per addestrare un algoritmo di computer vision. Poiché l'obiettivo dell'algoritmo è classificare se un'immagine a raggi X mostra o meno una polmonite, gli ospedali dovranno compilare un set di dati di radiografie toraciche ed etichettare correttamente ogni immagine come normale oppure indicativa di polmonite.

Per altri casi d'uso, immagini e video possono provenire da fonti come telecamere e sensori. Set di dati come COCO, ImageNet e Open Images forniscono ampie raccolte di immagini annotate.

Pre-elaborazione

Un modello AI è valido solo quanto i dati utilizzati per addestrarlo, il che rende i dati di alta qualità fondamentali per la computer vision. La pre-elaborazione può contribuire a migliorare la qualità dei dati attraverso la pulizia e i miglioramenti dei dati, come la regolazione della luminosità o del contrasto per rendere le immagini più nitide, nonché il ridimensionamento e la levigatura.

I set di dati devono inoltre essere sufficientemente grandi e diversificati da consentire agli algoritmi di computer vision di produrre risultati accurati. La generazione e l'aumento dei dati sintetici possono aiutare ad espandere le dimensioni e la diversità dei set di dati. Ad esempio, gli ospedali possono utilizzare trasformazioni geometriche come ruotare le immagini radiografiche del torace verso sinistra o destra o capovolgere le immagini per aumentare i loro dati.

Selezione del modello

La selezione del giusto modello di machine learning è fondamentale per ottimizzare l'efficienza e le prestazioni. Le reti neurali convoluzionali (CNN) continuano a essere il principale modello di deep learning per le attività di elaborazione delle immagini, mentre le reti neurali ricorrenti (RNN) sono particolarmente adatte per l'elaborazione di dati sequenziali come i frame video.

Tuttavia, i progressi nell'AI stanno favorendo il passaggio ai modelli di trasformatori. Ad esempio, un trasformatore di visione (ViT) applica elementi di un modello linguistico basato su trasformatori alla computer vision. Un ViT elabora un'immagine in patch, che tratta come sequenze, in modo simile ai token in un trasformatore linguistico. Il trasformatore visivo implementa quindi un meccanismo di auto-attenzione su queste patch per creare una rappresentazione dell'input basata sul trasformatore. I ViT spesso eguagliano o superano le prestazioni delle CNN in compiti di computer vision come la classificazione delle immagini.3

Addestramento del modello

Una volta scelto un modello, segue l'addestramento del modello. La fase di addestramento prevede l'esecuzione del modello su dati di addestramento specifici per un'attività di computer vision, la misurazione delle prestazioni rispetto alla realtà reale e l'ottimizzazione dei parametri per migliorare le prestazioni nel tempo.

Le CNN sono costituite da tre tipi di livelli: un livello convoluzionale, un livello di pooling e un livello completamente connesso. Il livello convoluzionale è il luogo in cui avviene l'estrazione delle caratteristiche. L'estrazione delle caratteristiche comporta la determinazione e l'acquisizione degli attributi visivi chiave dai dati grezzi delle immagini, come colori, bordi, forme e texture. Nel caso di immagini a raggi X con polmonite, le caratteristiche da estrarre includono contorni polmonari asimmetrici, regioni luminose che indicano infiammazione o presenza di liquidi (al contrario delle regioni scure e piene d'aria), aree polmonari offuscate o opache e texture ruvide o irregolari.4 L'estrazione delle caratteristiche consente agli algoritmi di distinguere relazioni e modelli significativi nei dati visivi.

Un'immagine a raggi X viene trattata come una matrice di valori di pixel. Un'altra matrice di pesi (parametri che controllano l'influenza che una determinata caratteristica di input ha sull'output del modello) nota come filtro o kernel viene applicata a un'area dell'immagine a raggi X, con un prodotto scalare calcolato tra i valori dei pixel di input. Il filtro si sposta attraverso l'immagine per estrarre le caratteristiche e l'intero processo è noto come convoluzione. L'ultimo output della serie di prodotti scalari è chiamato mappa di attivazione o mappa delle caratteristiche. Ogni filtro è ottimizzato per rispondere a modelli specifici, come bordi, forme o texture, consentendo alla CNN di apprendere più caratteristiche visive contemporaneamente.

 La mappa delle caratteristiche viene inserita in un livello di pooling per ridurne ulteriormente le dimensioni e comprimerne le dimensioni. Un altro filtro esamina l'intero input, rilevando i valori massimi o medi all'interno di un gruppo di celle nella mappa delle caratteristiche. In questo modo vengono mantenute le caratteristiche più essenziali, consentendo al modello di concentrare la propria attenzione su di esse.

 L'atto di spostarsi su un'immagine per estrarre caratteristiche, ridurre le dimensioni e produrre una classificazione è noto come passaggio in avanti. Dopo questo passaggio in avanti, il modello applica una funzione di perdita per calcolare l'errore o la differenza tra la classificazione prevista e la classificazione effettiva.

Per ridurre al minimo la funzione di perdita, viene utilizzata la retropropagazione. La retropropagazione è un passaggio all'indietro per calcolare il gradiente della funzione di perdita rispetto a ciascun peso. Quindi, la tecnica della discesa del gradiente viene implementata per aggiornare i pesi del modello e ottimizzare il modello.

Infine, il livello completamente connesso svolge il compito di classificazione in base alle caratteristiche estratte dai livelli precedenti e ai loro diversi filtri. La CNN genera quindi i suoi output, che sono probabilità per ogni classe (in questo caso, normale vs. polmonite). Per l'attività di classificazione delle immagini a raggi X del torace, questo output indicherà una scansione normale o, se la probabilità supera una soglia predeterminata, una scansione positiva per la polmonite.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Attività di computer vision

Gli algoritmi di computer vision possono essere addestrati su un'ampia gamma di attività, alcune delle quali includono:

  • Riconoscimento delle immagini
  • Classificazione delle immagini
  • Rilevamento degli oggetti
  • Segmentazione delle immagini
  • Tracciamento di oggetti
  • Comprensione delle scene
  • Riconoscimento facciale
  • Stima della posa
  • Riconoscimento ottico dei caratteri
  • Generazione di immagini
  • Ispezione visiva

Riconoscimento delle immagini

Il riconoscimento delle immagini è la forma più ampia di computer vision. Comprende l'identificazione di persone, luoghi, oggetti e altre entità nelle immagini digitali e funge da base per attività come la classificazione delle immagini, il rilevamento di oggetti e la segmentazione delle immagini.

Classificazione delle immagini

La classificazione delle immagini è un'attività fondamentale di computer vision che classifica le immagini in gruppi o classi predefiniti. Prevede l'etichetta più adatta per un'immagine o per gli oggetti all'interno di un'immagine. Lo scenario precedentemente illustrato della diagnosi di polmonite mediante radiografie del torace è un esempio di classificazione delle immagini.

Rilevamento degli oggetti

Il rilevamento degli oggetti mira a individuare dove si trovano gli oggetti nelle immagini digitali. Combina due tecniche di apprendimento: la localizzazione degli oggetti e la classificazione delle immagini.

La localizzazione degli oggetti identifica la posizione di oggetti specifici in un'immagine disegnando dei riquadri di delimitazione attorno ad essi. Quindi, la classificazione delle immagini distingue la categoria a cui appartengono gli oggetti. Nei filmati del traffico stradale, ad esempio, le app di computer vision possono utilizzare il rilevamento non solo per classificare i veicoli ma anche per localizzarli sulla strada.

Software di rilevamento degli oggetti utilizzato nel traffico

Le architetture CNN comuni per il rilevamento degli oggetti includono R-CNN (Region-based Convolutional Neural Network) e YOLO (You Only Look Once). R-CNN implementa il rilevamento in due fasi determinando prima le regioni che contengono oggetti, quindi eseguendo tali regioni attraverso reti separate per la classificazione e una localizzazione più precisa. Nel frattempo, YOLO esegue il rilevamento in un'unica fase combinando localizzazione e classificazione in un unico passaggio di rete, rendendolo sufficientemente rapido per il rilevamento di oggetti in tempo reale.

Il rilevamento di oggetti per i video di solito applica modelli basati su trasformatori e RNN, in particolare l'architettura di memoria a breve termine.

Segmentazione delle immagini

La segmentazione delle immagini è una versione più precisa a livello di pixel del rilevamento degli oggetti. Partiziona un'immagine digitale in gruppi discreti di pixel noti come segmenti di immagine, quindi etichetta i pixel in base alla loro classe o istanza.

Mentre il rilevamento può classificare più elementi all'interno di un'immagine e approssimare la larghezza e l'altezza di ogni elemento, la segmentazione delle immagini distingue confini o forme esatti. Ciò rende la segmentazione dell'immagine preziosa per delineare oggetti ravvicinati con riquadri di delimitazione sovrapposti.

La segmentazione delle immagini può essere ulteriormente suddivisa in tre tipi di attività:

  • La segmentazione semantica è il tipo più semplice, che assegna una classe semantica, la specifica categoria a cui potrebbe appartenere un determinato pixel, a ciascun pixel.
  • La segmentazione delle istanze prevede i limiti esatti in pixel di ogni singola istanza dell'oggetto in un'immagine.
  • La segmentazione panottica combina la segmentazione semantica e la segmentazione delle istanze determinando la classificazione semantica di tutti i pixel e differenziando ogni istanza di oggetto in un'immagine.

Ad esempio, in un'immagine di una strada cittadina, la segmentazione semantica potrebbe trattare le auto parcheggiate una di fronte all'altra come un lungo segmento di auto, mentre la segmentazione delle istanze separa e determina la forma di ogni auto.

Un grafico che confronta le immagini di origine con la segmentazione semantica, delle istanze e panottica.

Tracciamento di oggetti

Il tracciamento degli oggetti segue e traccia un oggetto mentre si sposta attraverso una sequenza di fotogrammi video o di immagini. Individua e distingue l'oggetto in ogni fotogramma e preserva la continuità dell'oggetto durante l'attraversamento.

Comprensione delle scene

La comprensione delle scene va ben oltre il riconoscimento degli oggetti, acquisendo un livello più elevato di informazioni visive. Dopo aver identificato gli oggetti in un'immagine, i modelli di deep learning prevedono le connessioni tra loro, come azioni, eventi e interazioni.

Le reti neurali a grafo (GNN) possono essere utilizzate per rappresentare le relazioni spaziali tra gli oggetti in un'immagine. Nell'esempio dei filmati sul traffico, i sistemi di computer vision possono dedurre che un taxi si sta muovendo davanti a un'auto, un'auto è parcheggiata a sinistra di un taxi o un'auto sta svoltando a destra.

Anche i modelli linguistici visivi (VLM) possono aiutare a comprendere le scene. Questa combinazione di modelli linguistici di grandi dimensioni (LLM) con trasformatori di visione può riconoscere e classificare gli oggetti all'interno di un'immagine e fornire descrizioni contestuali come la posizione di un oggetto rispetto ad altri elementi visivi.

Riconoscimento facciale

Il riconoscimento facciale applica il riconoscimento delle immagini alle caratteristiche. Cattura la geometria di un viso e individua schemi chiave come la distanza tra gli occhi, la distanza dalla fronte al mento, il contorno del naso e la forma delle labbra.

Il riconoscimento facciale può identificare le persone in tempo reale o in foto o video. Un esempio popolare è l'autenticazione biometrica tramite riconoscimento facciale per sbloccare gli smartphone.

 

Autenticazione biometrica facciale

Stima della posa

La stima della posa misura la posizione spaziale delle diverse parti del corpo per riconoscere i gesti e tracciare i movimenti del corpo. Ad esempio, la stima della posa può aiutare a marcare l'orientamento delle braccia e delle mani di un giocatore durante il gioco in realtà virtuale. Un esempio più concreto è il software di computer vision della NASA, che fornisce agli operatori del braccio robotico a bordo della Stazione Spaziale Internazionale una stima in tempo reale della posizione per afferrare con precisione i bersagli.5

Riconoscimento ottico dei caratteri

Il riconoscimento ottico dei caratteri (OCR), noto anche come riconoscimento del testo, estrae e converte il testo da immagini, documenti scansionati e altre fonti in un formato leggibile dalla macchina. In quanto tale, aiuta ad automatizzare la digitalizzazione dei testi scritti a mano e dei documenti cartacei.

Il workflow OCR segue i seguenti passaggi:

  1. L'acquisizione delle immagini converte l'immagine o il documento digitale in una versione in bianco e nero, con le aree chiare contrassegnate come sfondo e le aree scure contrassegnate come caratteri per il riconoscimento.
  2. La pre-elaborazione rimuove i pixel estranei e può includere il deskewing per correggere l'allineamento improprio dell'immagine durante la scansione.
  3. Il riconoscimento del testo individua le lettere alfabetiche, le cifre numeriche o i simboli, mirando a un carattere alla volta. Quindi identifica i caratteri attraverso il riconoscimento di schemi, abbinando il tipo, la scala e la forma di un carattere a un modello.

Le CNN e i modelli basati su trasformatori sono in grado di riconoscere i caratteri in modo più intelligente, estraendo caratteristiche come curve, intersezioni di linee, loop e il numero di linee angolate in un carattere. Questi algoritmi sono anche in grado di riconoscere in modo intelligente le parole, distinguendo le parole anziché i caratteri per un'elaborazione più rapida.

Generazione di immagini

La generazione di immagini utilizza modelli di AI generativa per produrre immagini. Ecco alcuni modelli generativi comuni utilizzati per la generazione di immagini:

  • I modelli di diffusione vengono addestrati per creare nuove immagini imparando a ridurre il rumore o ricostruire i campioni nei loro dati di addestramento che sono stati gradualmente diffusi con rumore casuale e criptati oltre il riconoscimento.
  • Le reti generative avversarie (GAN) sono costituite da due reti neurali: un generatore che crea immagini e un discriminatore che funge da avversario, discriminando tra immagini artificiali e reali. Entrambe le reti vengono addestrate in modo iterativo, con il feedback del discriminatore che migliora l'output del generatore fino a quando il discriminatore non è più in grado di distinguere le immagini artificiali da quelle reali.
  • Gli autoencoder variazionali (VAE) sono modelli di deep learning che generano variazioni dei dati su cui vengono addestrati. Un encoder comprime i dati di input in uno spazio di dimensioni inferiori, catturando le informazioni significative contenute nell'input. Un decoder ricostruisce quindi nuovi dati a partire da questa rappresentazione compressa.

I VLM sono anche in grado di generare immagini con una descrizione testuale.

Ispezione visiva

L'ispezione visiva automatizza l'identificazione dei difetti. Attraverso il rilevamento, i sistemi di computer vision ispezionano immagini o video per individuare difetti e imperfezioni. La segmentazione delle immagini può anche essere implementata per localizzare con maggiore precisione i difetti.

Le macchine per l'ispezione visiva basate sulla computer vision possono aiutare le aziende a eseguire ispezioni più rapide e sicure con maggiore coerenza e precisione, che si tratti di evidenziare la corrosione in aree difficili da raggiungere dei ponti o di trovare connettori difettosi nei prodotti elettronici assemblati.

Applicazioni della computer vision

Essendo un campo maturo dell'AI, la computer vision ha subito molti progressi, portando a un'ampia gamma di casi d'uso. Ecco alcune applicazioni della computer vision:

Agricoltura

Fotocamere, droni e satelliti catturano immagini ad alta risoluzione di colture e aree agricole. Le tecnologie di computer vision analizzano quindi queste immagini per aiutare a valutare lo stato di salute delle piante e individuare parassiti ed erbacce per un'applicazione più mirata degli erbicidi.

Veicoli a guida autonoma

Nel settore automobilistico, le auto a guida autonoma compongono un modello 3D del loro ambiente utilizzando un mix di telecamere, lidar, radar e sensori. Quindi, applicano il rilevamento degli oggetti, la segmentazione delle immagini e la comprensione delle scene per una navigazione sicura, evitando ostacoli come pedoni e altri veicoli e rilevando con precisione caratteristiche stradali come corsie, semafori e segnali stradali.

Assistenza sanitaria

L'imaging medico è un'area di applicazione chiave per la computer vision. Ad esempio, il rilevamento di oggetti può automatizzare l'analisi delle immagini, localizzando e identificando potenziali marcatori di malattia nei raggi X e nelle scansioni TC, RM ed ecografiche. Inoltre, la segmentazione delle istanze può delineare i confini specifici di organi, tessuti e tumori, contribuendo a una diagnosi più precisa che può meglio informare il processo decisionale per i trattamenti e l'assistenza ai pazienti.

Produzione industriale

I sistemi di computer vision aiutano nella gestione dell'inventario, nella scansione degli articoli per determinare i livelli delle scorte. Possono anche potenziare il controllo qualità, riconoscendo i difetti in tempo reale. Questi sistemi analizzano le immagini dei prodotti e possono segnalare rapidamente e con maggiore precisione guasti o incongruenze rispetto agli ispettori che utilizzano la propria visione umana.

Retail ed e-commerce

La tecnologia Just Walk Out di Amazon, ad esempio, utilizza la computer vision nei piccoli negozi al dettaglio e nei punti di ristorazione per tracciare le selezioni dei clienti e automatizzare l'esperienza di pagamento. I clienti possono semplicemente prendere i loro articoli e andarsene senza fare la fila agli sportelli di pagamento.6

I negozi online possono anche utilizzare la realtà aumentata abbinata al riconoscimento facciale e alla stima della posa per le loro esperienze di prova virtuali, consentendo ai clienti di visualizzare come appariranno vestiti, occhiali o trucco prima dell'acquisto.

Robotica

Come i veicoli autonomi, i robot utilizzano telecamere, lidar e sensori per mappare l'ambiente circostante. Quindi applicano algoritmi di computer vision per completare le loro attività, come assistere i chirurghi con procedure complesse, navigare nei magazzini per trasportare merci, raccogliere solo prodotti maturi e mettere oggetti nelle linee di assemblaggio.

Esplorazione dello spazio

Il rilevamento degli oggetti può aiutare i veicoli spaziali a localizzare ed evitare i pericoli durante l'atterraggio, mentre i rover possono implementare la stessa funzionalità per la navigazione del terreno.7 La classificazione delle immagini può essere impiegata per classificare asteroidi, meteore e persino detriti spaziali, mentre il tracciamento degli oggetti monitora le traiettorie di questi oggetti astronomici.

Strumenti di computer vision

Molti strumenti esistono per creare app di computer vision, che aiutano a semplificare il processo di sviluppo. Alcuni strumenti popolari includono:

  • Keras
  • OpenCV
  • Scikit-image
  • TensorFlow
  • Torchvision

Keras

Keras è un'application programming interface (API) di deep learning che può essere eseguita su altri framework di AI come PyTorch e TensorFlow. Fornisce dozzine di tutorial ed esempi per varie attività di computer vision, tra cui classificazione di immagini e video, segmentazione delle immagini, rilevamento di oggetti e OCR.

OpenCV

OpenCV è una delle librerie di computer vision più utilizzate. Questa libreria open source ospita più di 2.500 algoritmi di computer vision e contiene moduli per l'elaborazione delle immagini, il rilevamento di oggetti, l'analisi video e altro ancora. È scritta in C++ ma contiene anche wrapper per linguaggi di programmazione come Java e Python.

Scikit-image

Scikit-image è una raccolta open-source di algoritmi per l'elaborazione delle immagini in Python. Supporta la pre-elaborazione, l'estrazione delle caratteristiche, il rilevamento di oggetti e la segmentazione delle immagini, tra le altre attività. La sua semplicità la rende accessibile ai principianti.

TensorFlow

TensorFlow è una piattaforma di machine learning open source di Google. Sebbene serva ad applicazioni di deep learning più generiche, TensorFlow fornisce anche set di dati specifici per la computer vision, strumenti per la pre-elaborazione e funzioni per la classificazione di immagini e video, la segmentazione delle immagini e il rilevamento di oggetti.

Torchvision

La libreria torchvision fa parte dell'ecosistema PyTorch. Comprende trasformazioni comuni, set di dati e altre funzioni di utility. Il pacchetto offre anche modelli per la classificazione di immagini e video, il rilevamento di oggetti e la segmentazione semantica e delle istanze.

Breve storia della computer vision

La computer vision è una delle prime discipline dell'AI. Per decenni, i ricercatori di informatica hanno sviluppato modi per consentire alle macchine di comprendere i dati visivi.

La sperimentazione è iniziata tra gli anni '50 e '60, quando i neurofisiologi hanno mostrato ai gatti una serie di immagini registrando l'attività neurale. Hanno scoperto che gli animali rispondevano per primi alle linee, concludendo che l'elaborazione delle immagini inizia con forme semplici come i bordi diritti.8

Più o meno nello stesso periodo, è stata sviluppata la prima tecnologia di scansione delle immagini al computer, che fornisce ai computer la capacità di digitalizzare e acquisire immagini.9 Un'altra pietra miliare è stata raggiunta quando i computer hanno sviluppato la capacità di trasformare immagini bidimensionali in forme tridimensionali.10

Nel 1982, il neuroscienziato David Marr stabilì che la visione funziona gerarchicamente e introdusse algoritmi per consentire alle macchine di rilevare angoli, curve, bordi e forme di base simili.11 Nello stesso decennio, l'informatico Kunihiko Fukushima sviluppò una rete di cellule in grado di riconoscere i modelli e la chiamò "neocognitron", che includeva livelli convoluzionali in una rete neurale.12

Nel 2000, l'obiettivo dello studio era la classificazione delle immagini e il riconoscimento degli oggetti.13 Nel 2009 è stato introdotto il set di dati ImageNet, contenente milioni di immagini etichettate per l'addestramento di algoritmi di computer vision.14 Nel 2012, un team dell'Università di Toronto ha creato la CNN AlexNet, che è stata addestrata sul set di dati ImageNet e ha ridotto significativamente il tasso di errore per il riconoscimento delle immagini, aprendo la strada agli odierni modelli di computer vision.15

Soluzioni correlate
IBM Maximo Visual Inspection

Libera la potenza della computer vision no-code per l'automazione delle ispezioni visive.

Esplora Maximo visual inspection
Consulenza e servizi per l'intelligenza artificiale (AI)

I servizi AI di IBM Consulting aiutano a reinventare il modo in cui le aziende lavorano con l'AI per la trasformazione.

Esplora i servizi di intelligenza artificiale
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda con l'esperienza leader di settore e il portfolio di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Prossimi passi

IBM Maximo Visual Inspection mette la potenza delle funzionalità AI di computer vision nelle mani dei tuoi team di ispezione e controllo qualità. Libera la potenza della computer vision no-code per l'automazione delle ispezioni visive.

Esplora Maximo visual inspection Fai un tour del prodotto
Note a piè di pagina

1. The three R’s of computer vision: Recognition, reconstruction and reorganization, Pattern Recognition Letters, 8 febbraio 2016
2. Efficient pneumonia detection using Vision Transformers on chest X-rays, Scientific Reports, 30 gennaio 2024
3. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, arXiv, 3 giugno 2021
4. NGBoost Classifier Using Deep Features for Pneumonia Chest X-Ray Classification, Applied Sciences, 8 settembre 2025
5. Computer Vision Lends Precision to Robotic Grappling, NASA Technology Transfer Program, accesso: 11 settembre 2025
6. Amazon Just Walk Out, AWS, accesso: 11 settembre 2025
7. The Computer Vision Laboratory, NASA JPL Robotics, accesso: 11 settembre 2025
8. From Cats to the Cortex: Unravelling the Hierarchical Processing System of Vision and Brain Plasticity, Cureus, 2 settembre 2024
9. Your Engineering Heritage: Scanners and Computer Image Processing, IEEE-USA InSight, 8 febbraio 2016
10. A Simple World: The Blocks World, Foundations of Computer Vision, 2024
11. Marr’s Computational Theory of Vision, Foundations of Computer Vision, 2024
12. Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position, Biological Cybernetics, 1980
13. Computer Vision, Foundations of Computer Vision, 2024
14. ImageNet: A large-scale hierarchical image database, IEEE Conference on Computer Vision and Pattern Recognition, 2009
15. CHM Releases AlexNet Source Code, Computer History Museum, 20 marzo 2025