La computer vision ha bisogno di molti dati. Esegue analisi di dati più e più volte fino a quando non distingue e riconosce le immagini. Per esempio, per addestrare un computer a riconoscere gli pneumatici di un'automobile, è necessario alimentarlo con una grande quantità di immagini di pneumatici e di elementi relativi agli pneumatici per imparare le differenze e riconoscere uno pneumatico, specialmente uno senza difetti.

Per realizzare ciò vengono utilizzate essenzialmente due tecnologie: un tipo di machine learning chiamato deep learning e una rete neurale convoluzionale (CNN - convolutional neural network).

Il machine learning utilizza modelli di algoritmi che permettono a un computer di imparare da sé il contesto dei dati visivi. Se vengono immessi abbastanza dati in questo modello, il computer "guarderà" i dati e imparerà da solo a distinguere un'immagine da un'altra. Gli algoritmi permettono alla macchina di imparare da sola, senza che qualcuno la programmi per riconoscere un'immagine.

Un CNN aiuta un modello di machine learning o di deep learning a "guardare" scomponendo le immagini in pixel a cui vengono dati dei tag o delle etichette. Usa le etichette per eseguire delle convoluzioni (un'operazione matematica su due funzioni per produrre una terza funzione) e fa delle previsioni sulla base di ciò che "vede". La rete neurale esegue delle convoluzioni e controlla l'accuratezza delle sue previsioni in una serie di iterazioni fino a quando le previsioni iniziano ad avverarsi. È quindi in grado di riconoscere o vedere le immagini in modo simile a quello degli esseri umani.

Alla stregua di un essere umano che distingue un'immagine a distanza, una CNN distingue prima i contorni nitidi e le forme semplici, poi aggiunge delle informazioni mentre esegue le iterazioni delle sue previsioni. Una CNN è utilizzata per analizzare immagini singole. Una rete neurale ricorrente (RNN - recurrent neural network) è usata in modo simile per le applicazioni video per aiutare i computer a capire come le immagini in una serie di fotogrammi sono collegate tra loro.