Etichettando le immagini utilizzando un'interfaccia di annotazione, gli utenti definiscono un oggetto specifico come una regione di caratteristiche specifiche a livello di pixel (ad esempio, area, valore di grigio e così via). Quando viene fornita un'immagine di input, il modello di rilevamento degli oggetti riconosce le regioni con caratteristiche simili a quelle definite nel set di dati di addestramento come lo stesso oggetto. In questo modo, il rilevamento degli oggetti è una forma di riconoscimento dei modelli. I modelli di rilevamento degli oggetti non riconoscono gli oggetti di per sé, ma piuttosto aggregati di proprietà come dimensione, forma, colore e così via, e classificano le regioni in base a schemi visivi dedotti dai dati di addestramento annotati manualmente.4

Un modello di rilevamento di oggetti per un'auto a guida autonoma, ad esempio, non riconosce i pedoni, ma un insieme di caratteristiche che formano il modello generale che caratterizza i pedoni come oggetto (come definito nei dati di addestramento).