Il rilevamento di oggetti è una tecnica che utilizza le reti neurali per localizzare e classificare gli oggetti nelle immagini. Questa attività di computer vision presenta un'ampia gamma di applicazioni, dall'imaging medico alle auto a guida autonoma.
Il rilevamento degli oggetti è un compito di computer vision che mira a localizzare gli oggetti nelle immagini digitali. In quanto tale, è un'istanza di intelligenza artificiale che consiste nell'addestrare i computer a vedere come gli esseri umani, in particolare riconoscendo e classificando gli oggetti in base a categorie semantiche.1 La localizzazione degli oggetti è una tecnica per determinare la posizione specifica degli oggetti in un'immagine, delimitando l'oggetto attraverso un riquadro di delimitazione. La classificazione degli oggetti è un'altra tecnica che determina a quale categoria appartiene un oggetto rilevato. Il compito di rilevamento degli oggetti combina i compiti secondari di localizzazione e classificazione degli oggetti per stimare simultaneamente la posizione e il tipo di istanze di oggetti in una o più immagini.2
Il rilevamento degli oggetti si sovrappone ad altre tecniche di computer vision, ma gli sviluppatori lo trattano comunque come un'attività separata.
La classificazione delle immagini (o riconoscimento delle immagini) mira a classificare le immagini secondo categorie definite. Un esempio rudimentale è rappresentato dai test di immagine CAPTCHA, in cui un gruppo di immagini può essere organizzato come immagini con segni di stop e immagini senza. La classificazione delle immagini assegna un'etichetta all'intera immagine.
Il rilevamento degli oggetti, invece, delinea i singoli oggetti in un'immagine in base a categorie specifiche. Mentre la classificazione delle immagini divide le immagini tra quelle che hanno segnali di stop e quelle che non li hanno, il rilevamento degli oggetti individua e classifica tutti i segnali stradali in un'immagine, nonché altri oggetti come automobili e persone.
La segmentazione delle immagini (o segmentazione semantica) è simile al rilevamento degli oggetti, anche se più precisa. Come il rilevamento degli oggetti, la segmentazione delinea gli oggetti in un'immagine in base alle categorie,ma invece di contrassegnare gli oggetti usando riquadri, la segmentazione delimita gli oggetti a livello di pixel.
La comprensione dei meccanismi interni del rilevamento degli oggetti richiede una base di computer vision e di elaborazione digitale delle immagini in senso più ampio. Questa sezione fornisce una panoramica generale.
Nella computer vision, le immagini sono espresse come funzioni continue su un piano di coordinate 2D, rappresentate come f(x,y). Quando vengono digitalizzate, le immagini vengono sottoposte a due processi primari chiamati campionamento e quantizzazione che, in breve, convertono insieme la funzione continua dell'immagine in una struttura a griglia discreta di elementi pixel. Il computer può quindi segmentare un'immagine in regioni discrete in base alla somiglianza visiva e alla vicinanza dei pixel.3
Etichettando le immagini utilizzando un'interfaccia di annotazione, gli utenti definiscono un oggetto specifico come una regione di caratteristiche specifiche a livello di pixel (ad esempio, area, valore di grigio e così via). Quando viene fornita un'immagine di input, il modello di rilevamento degli oggetti riconosce le regioni con caratteristiche simili a quelle definite nel set di dati di addestramento come lo stesso oggetto. In questo modo, il rilevamento degli oggetti è una forma di riconoscimento dei modelli. I modelli di rilevamento degli oggetti non riconoscono gli oggetti di per sé, ma piuttosto aggregati di proprietà come dimensione, forma, colore e così via, e classificano le regioni in base a schemi visivi dedotti dai dati di addestramento annotati manualmente.4
Un modello di rilevamento di oggetti per un'auto a guida autonoma, ad esempio, non riconosce i pedoni, ma un insieme di caratteristiche che formano il modello generale che caratterizza i pedoni come oggetto (come definito nei dati di addestramento).
Mentre famiglie di modelli diversi utilizzano architetture diverse, i modelli di deep learning per il rilevamento di oggetti seguono una struttura generale. Sono costituiti da backbone, collo e testa.
Il backbone estrae le caratteristiche da un'immagine di input. Spesso, il backbone deriva da una parte di un modello di classificazione pre-addestrato. L'estrazione delle caratteristiche produce una miriade di mappe delle caratteristiche di risoluzioni variabili che il backbone passa al collo. Quest'ultima parte della struttura concatena le mappe delle caratteristiche per ogni immagine. L'architettura passa poi le mappe di caratteristiche stratificate alla testa, che prevede i riquadri di delimitazione e i punteggi di classificazione per ogni insieme di caratteristiche.
I rilevatori a due fasi separano la localizzazione e la classificazione degli oggetti nella testa, mentre i rilevatori a fase singola combinano questi compiti. I primi generalmente restituiscono una maggiore accuratezza di localizzazione mentre i secondi funzionano più rapidamente.5
L'IoU (Intersection over union) è una metrica di valutazione comune utilizzata nei modelli di rilevamento degli oggetti. Un riquadro di delimitazione è l'output quadrato che delimita un oggetto rilevato come previsto dal modello. L'IoU calcola il rapporto tra l'area di intersezione di due riquadri di delimitazione (ovvero l'area delle sezioni sovrapposte dei riquadri) rispetto all'area di unione (ovvero l'area totale di entrambi i riquadri combinati):6
Possiamo visualizzare questa equazione come:
I modelli utilizzano l'IoU per misurare l'accuratezza delle previsioni calcolando l'IoU tra un riquadro previsto e un riquadro di ground truth. Le architetture dei modelli utilizzano anche l'IoU per generare previsioni finali sui riquadri di delimitazione. Poiché i modelli spesso generano inizialmente diverse centinaia di previsioni del riquadro di delimitazione per un singolo oggetto rilevato, i modelli utilizzano l'IoU per pesare e consolidare le previsioni dei riquadri di delimitazione in un unico riquadro per oggetto rilevato.
Possono essere utilizzate altre metriche per diverse valutazioni dei modelli di rilevamento degli oggetti. La GIoU (Generalized intersection over union) è una versione modificata della IoU che tiene conto dei miglioramenti nella localizzazione degli oggetti per i quali la IoU di base può ancora restituire un valore nullo.7 La ricerca sul rilevamento di oggetti impiega anche metriche comuni di recupero delle informazioni, come la precisione media e il richiamo.
Esistono diversi approcci di machine learning ai compiti di rilevamento degli oggetti. Gli esempi includono il framework Viola-Jones8 e l'istogramma dei gradienti orientati.9 Le recenti attività di ricerca e sviluppo nel rilevamento di oggetti, tuttavia, si sono concentrate in gran parte sulle reti neurali convoluzionali (CNN). Pertanto, questo articolo si concentra sui due tipi di CNN più discussi nella ricerca sul rilevamento degli oggetti. È importante notare che questi modelli sono testati e confrontati utilizzando set di dati di riferimento, come il set di dati Microsoft COCO o ImageNet.
R-CNN (region-based convolutional neural network) è un rilevatore a due stadi che utilizza un metodo chiamato proposte regionali per generare 2.000 previsioni regionali per immagine. R-CNN quindi deforma le regioni estratte a una dimensione uniforme e fa passare quelle regioni attraverso reti separate per l'estrazione e la classificazione delle caratteristiche. Ogni regione è classificata in base all'affidabilità della sua classificazione. R-CNN respinge quindi le regioni con un determinato IoU che si sovrappongono a una regione selezionata con un punteggio più alto. Le restanti regioni classificate non sovrapposte e di alto livello sono l'output del modello.10 Come previsto, questa architettura è costosa dal punto di vista computazionale e lenta. Fast R-CNN e Faster R-CNN sono modifiche successive che riducono le dimensioni dell'architettura dell'R-CNN e quindi riducono il tempo di elaborazione, aumentando al contempo la precisione.11
YOLO (You Only Look Once) è una famiglia di architetture di rilevamento a fase singola basate su Darknet, un framework open source della CNN. Sviluppata per la prima volta nel 2016, l'architettura YOLO dà priorità alla velocità. In effetti, la velocità di YOLO lo rende preferibile per il rilevamento di oggetti in tempo reale e gli è valsa al qualifica di descrittore comune di rivelatore di oggetti all'avanguardia. YOLO differisce da R-CNN in diversi modi. Mentre R-CNN passa le regioni delle immagini estratte attraverso più reti che estraggono separatamente le caratteristiche e classificano le immagini, YOLO condensa queste azioni in un'unica rete. In secondo luogo, rispetto alle circa 2000 proposte regionali della R-CNN, YOLO fa meno di 100 previsioni con riquadri delimitanti per immagine. Oltre ad essere più veloce di R-CNN, YOLO produce anche meno falsi positivi in background, sebbene abbia un errore di localizzazione più elevato.12 Ci sono stati molti aggiornamenti a YOLO sin dal suo inizio, generalmente incentrati sulla velocità e sulla precisione.13
Sebbene originariamente sviluppate per il rilevamento di oggetti, le versioni successive di R-CNN e YOLO possono anche addestrare modelli di classificazione e segmentazione. In particolare, Mask R-CNN combina sia il rilevamento che la segmentazione degli oggetti, mentre YOLOv5 può addestrare modelli separati di classificazione, rilevamento e segmentazione.
Naturalmente, oltre a R-CNN e YOLO, esistono molte altre architetture di modello. SSD e Retinanet sono due modelli aggiuntivi che utilizzano un'architettura semplificata simile a YOLO.14 DETR è un'altra architettura sviluppata da Facebook (ora Meta) che combina la CNN con un modello transformer e mostra prestazioni paragonabili a Faster R-CNN.15
In molti casi d'uso, il rilevamento degli oggetti non è fine a se stesso, ma una fase di un compito di computer vision più ampio.
Le auto a guida autonoma adottano ampiamente il rilevamento di oggetti per riconoscere oggetti come auto e pedoni. Uno di questi esempi è l'AI Autopilot di Tesla. Grazie alla loro maggiore velocità, architetture semplici come YOLO e SimpleNet sono ovviamente l'ideale per la guida autonoma.16
Il rilevamento di oggetti può aiutare nelle attività di ispezione visiva. Ad esempio, un corpo sostanziale di ricerca sul rilevamento di oggetti studia metriche e modelli per identificare gli indicatori fisiologici della malattia in immagini mediche come raggi X e scansioni MRI. In questo settore, molte ricerche si sono concentrate sul miglioramento degli squilibri dei set di dati, data la scarsità di tali immagini mediche della malattia.17
La videosorveglianza può utilizzare il rilevamento di oggetti in tempo reale per tracciare gli oggetti associati al crimine, come pistole o coltelli nei filmati delle telecamere di sicurezza. Rilevando tali oggetti, i sistemi di sicurezza possono prevedere e prevenire ulteriormente il crimine. I ricercatori hanno sviluppato algoritmi di rilevamento delle armi utilizzando sia R-CNN che YOLO.18
I set di dati sbilanciati sono uno dei problemi che affliggono le attività di rilevamento degli oggetti, poiché i campioni negativi (ovvero le immagini senza l'oggetto di interesse) superano di gran lunga i campioni positivi in molti set di dati specifici di un dominio. Si tratta di un problema particolare relativo alle immagini mediche, in cui è difficile acquisire campioni positivi di malattie. Ricerche recenti utilizzano la data augmentation per espandere e diversificare set di dati limitati per migliorare le prestazioni del modello.19
Gli sviluppi passati nel rilevamento di oggetti si sono concentrati in gran parte sulle immagini 2D. Più recentemente, i ricercatori hanno impiegato applicazioni di rilevamento di oggetti per immagini e video 3D. La sfocatura del movimento e lo spostamento della messa a fuoco della fotocamera causano problemi nell'identificazione degli oggetti nei fotogrammi dei video. I ricercatori hanno esplorato una serie di metodi e architetture per aiutare a tracciare gli oggetti lungo i frame nonostante tali condizioni, come l'architettura di rete neurale ricorrente Long Short-Term Memory (LSTM)20 e i modelli basati su trasformatori.21 I trasformatori sono stati utilizzati per velocizzare i modelli di rilevamento degli oggetti per attività di rilevamento in tempo reale. Le tecniche di elaborazione in parallelo sono un'altra importante area di studio in questo ambito.22
Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d’anticipo.
IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.
Accedi al nostro catalogo completo di oltre 100 corsi online acquistando oggi stesso un abbonamento individuale o multiutente che ti consentirà di ampliare le tue competenze su una gamma di prodotti a un prezzo contenuto.
Condotto dai migliori leader di pensiero di IBM, il programma di studi è stato progettato per aiutare i dirigenti aziendali ad acquisire le conoscenze necessarie per dare priorità agli investimenti in AI che possono favorire la crescita.
Scopri cos’è la latenza di rete, perché è importante e come influisce sulle prestazioni. Esplora le sue cause e scopri le soluzioni per misurare e ridurre la latenza per connessioni più veloci ed efficienti.
Esplora come la realtà aumentata (AR) e la realtà virtuale (VR) possono aumentare la produttività e la flessibilità della tua organizzazione. Accedi ai nostri ultimi insight su come sfruttare la tecnologia XR per trasformare il tuo spazio di lavoro e aumentare l’efficienza.
Scopri come l’edge computing trasforma le operazioni grazie a maggiore velocità, maggiore sicurezza e scalabilità senza pari. Sei pronto a sfruttare il potenziale dell’edge? Inizia ora.
Scopri come lo slicing della rete 5G rivoluziona le operazioni di telecomunicazione supportando una connettività personalizzata, ad alta velocità e affidabile per settori come l’assistenza sanitaria, la produzione e le città intelligenti.
1 Bogusław Cyganek, Object Detection e Recognition in Digital Images: Theory and Practice, Wiley, 2013.
2 Kemal Oksuz, Baris Can Cam, Sinan Kalkan e Emre Akbas, "Imbalance Problems in Object Detection: A Review", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 43, n. 10, 2021, pagg. 3388-3415, https://ieeexplore.ieee.org/document/9042296.
3 Archangelo Disante e Cosimo Disante, Handbook of Image Processing and Computer Vision, Vol. 1, Springer, 2020. Milan Sonka, Vaclav Hlavac, and Roger Boyle, Image Processing, Analysis, and Machine Vision, 4th edition, Cengage, 2015.
4 Archangelo Disante e Cosimo Disante, Handbook of Image Processing and Computer Vision, Vol. 3, Springer, 2020. Milan Sonka, Vaclav Hlavac e Roger Boyle, Image Processing, Analysis, and Machine Vision, 4a edizione, Cengage, 2015.
5 Benjamin Planche ed Eliot Andres, Hands-On Computer Vision with TensorFlow 2, Packt Publishing, 2019. Van Vung Pham e Tommy Dang, Hands-On Computer Vision with Detectron2, Packt Publishing, 2023. Licheng Jiao, Fan Zhang, Fang Liu, Shuyuan Yang, Lingling Li, Zhixi Feng, Rong Qu, "A survey of deep learning-based object detection", IEEE Access, Vol. 7, 2019, pagg. 128837-128868, https://ieeexplore.ieee.org/document/8825470. Richard Szeliski, Computer Vision: Algorithms and Applications, 2a edizione, Springer, 2021.
6 Richard Szeliski, Computer Vision: Algorithms and Applications, 2a edizione, Springer, 2021.
7 Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir Sadeghian, Ian Reid e Silvio Savarese, "Generalized intersection over union: A metric and a loss for bounding box regression," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pagg. 658-666, consultabile qui.
8 P. Viola and M. Jones, "Rapid object detection using a boosted cascade of simple features," Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2001, https://ieeexplore.ieee.org/document/990517.
9 N. Dalal e B. Triggs, "Histograms of oriented gradients for human detection", Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2005, pagg. 886-893, https://ieeexplore.ieee.org/document/1467360 .
10 Ross Girshick, Jeff Donahue, Trevor Darrell e Jitendra Malik, "Rich feature hierarchies for accurate object detection and semantic segmentation," Proceedings of the 2014 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2014, https://arxiv.org/abs/1311.2524 .
11 Ross Girschick, "Fast R-CNN", Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV), 2015, pagg. 1440-1448, https://arxiv.org/abs/1504.08083 . Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks," Advances in Neural Information Processing Systems (NIPS 2015), Vol. 28, https://proceedings.neurips.cc/paper_files/paper/2015/hash/14bfa6bb14875e45bba028a21ed38046-Abstract.html .
12 Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, "You Only Look Once: Unified, Real-Time Object Detection", 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pagg. 779-788, https://arxiv.org/abs/1506.02640.
13 Joseph Redmon e Ali Farhadi, "YOLOv3: An Incremental Improvement," 2018, https://arxiv.org/abs/1804.02767 . Alexey Bochkovskiy, Chien-Yao Wang e Hong-Yuan Mark Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection", European Conference on Computer Vision, 2020, https://arxiv.org/abs/2004.10934 . Xin Huang, Xinxin Wang, Wenyu Lv, Xiaying Bai, Xiang Long, Kaipeng Deng, Qingqing Dang, Shumin Han, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma e Osamu Yoshie, "PP-YOLOv2: A Practical Object Detector," 2021, https://arxiv.org/abs/2104.10419 . Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao, "YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors," 2022, https://arxiv.org/abs/2207.02696.
14 Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu e Alexander C. Berg, "SSD: Single Shot MultiBox Detector", Proceedings of the European Conference of Computer Vision (ECCV), 2016, pagg. 21-37, https://arxiv.org/abs/1512.02325. Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He e Piotr Dollár, "Focal Loss for Dense Object Detection", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 42, n. 2, 2020, pagg. 318-327,https://arxiv.org/abs/1708.02002.
15 Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov e Sergey Zagoruyko, "End-to-End Object Detection with Transformers", Proceedings of the European Conference of Computer Vision (ECCV), 2020, https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123460205.pdf .
16 Abhishek Balasubramaniam e Sudeep Pasricha, "Object Detection in Autonomous Vehicles: Status and Open Challenges," 2022, https://arxiv.org/abs/2201.07706. Gene Lewis, "Object Detection for Autonomous Vehicles," 2016, https://web.stanford.edu/class/cs231a/prev_projects_2016/object-detection-autonomous.pdf.
17 Trong-Hieu Nguyen-Mau, Tuan-Luc Huynh, Thanh-Danh Le, Hai-Dang Nguyen e Minh-Triet Tran, "Advanced Augmentation and Ensemble Approaches for Classifying Long-Tailed Multi-Label Chest X-Rays," Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pagg. 2729-2738, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Nguyen-Mau_Advanced_Augmentation_and_Ensemble_Approaches_for_Classifying_Long-Tailed_Multi-Label_Chest_ICCVW_2023_paper.html. Changhyun Kim, Giyeol Kim, Sooyoung Yang, Hyunsu Kim, Sangyool Lee e Hansu Cho, "Chest X-Ray Feature Pyramid Sum Model with Diseased Area Data Augmentation Method", Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pagg. 2757-2766, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Kim_Chest_X-Ray_Feature_Pyramid_Sum_Model_with_Diseased_Area_Data_ICCVW_2023_paper.html.
18 Palash Yuvraj Ingle e Young-Gab Kim, "Real-Time Abnormal Object Detection for Video Surveillance in Smart Cities", Sensors, Vol. 22, n. 10, 2022, https://www.mdpi.com/1424-8220/22/10/3862.
19 Manisha Saini e Seba Susan, "Tackling class imbalance in computer vision: a contemporary review", Artificial Intelligence Review, Vol. 56, 2023, pagg. 1279–1335, https://link.springer.com/article/10.1007/s10462-023-10557-6.
20 Kai Kang, Hongsheng Li, Tong Xiao, Wanli Ouyang, Junjie Yan, Xihui Liu e Xiaogang Wang, "Object Detection in Videos With Tubelet Proposal Networks," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pagg. 727-735, https://openaccess.thecvf.com/content_cvpr_2017/html/Kang_Object_Detection_in_CVPR_2017_paper.html
21 Sipeng Zheng, Shizhe Chen e Qin Jin, "VRDFormer: End-to-End Video Visual Relation Detection With Transformers," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pagg. 18836-18846, https://openaccess.thecvf.com/content/CVPR2022/html/Zheng_VRDFormer_End-to-End_Video_Visual_Relation_Detection_With_Transformers_CVPR_2022_paper.html.
22 Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov e Sergey Zagoruyko, "End-to-End Object Detection with Transformers", Proceedings of the European Conference on Computer Vision (ECCV), 2020, pagg. 213-229, https://link.springer.com/chapter/10.1007/978-3-030-58452-8_13, Mekhriddin Rakhimov, Jamshid Elov , Utkir Khamdamov , Shavkatjon Aminov e Shakhzod Javliev, "Parallel Implementation of Real-Time Object Detection using OpenMP", International Conference on Information Science and Communications Technologies (ICISCT), 2021, https://ieeexplore.ieee.org/document/9670146. Yoon-Ki Kim e Yongsung Kim, "DiPLIP: Distributed Parallel Processing Platform for Stream Image Processing Based on Deep Learning Model Inference," Electronics, Vol. 9, n. 10, 2020, https://www.mdpi.com/2079-9292/9/10/1664.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io