¿Qué es la detección de objetos?

3 de enero de 2024

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

La detección de objetos es una técnica que utiliza redes neuronales para localizar y clasificar objetos en imágenes. Esta tarea de visión artificial tiene una amplia gama de aplicaciones, desde imágenes médicas hasta coches autónomos.

La detección de objetos es una tarea de visión artificial cuyo objetivo es localizar objetos en imágenes digitales. Como tal, es una instancia de la inteligencia artificial que consiste en entrenar a los ordenadores para que vean como los humanos, concretamente reconociendo y clasificando objetos según categorías semánticas1. La localización de objetos es una técnica para determinar la ubicación específica de objetos en una imagen demarcando el objeto mediante un cuadro delimitador. La clasificación de objetos es otra técnica que determina a qué categoría pertenece un objeto detectado. La tarea de detección de objetos combina las subtareas de localización y clasificación de objetos para estimar simultáneamente la ubicación y el tipo de instancias de objetos en una o varias imágenes2.

Tareas de visión artificial

La detección de objetos se superpone con otras técnicas de visión artificial, pero los desarrolladores la tratan como una tarea discreta.

La clasificación de imágenes (o reconocimiento de imágenes) tiene como objetivo clasificar las imágenes según categorías definidas. Un ejemplo rudimentario de esto son las pruebas de imágenes CAPTCHA, en las que un grupo de imágenes puede organizarse como imágenes con señales de STOP e imágenes sin ellas. La clasificación de imágenes asigna una etiqueta a una imagen completa.

La detección de objetos, en cambio, delinea objetos individuales en una imagen de acuerdo con categorías especificadas. Mientras que la clasificación de imágenes divide las imágenes entre las que tienen señales de STOP y las que no, la detección de objetos localiza y categoriza todas las señales de tráfico de una imagen, así como otros objetos como coches y personas.

La segmentación de imágenes (o segmentación semántica) es similar a la detección de objetos, aunque más precisa. Al igual que la detección de objetos, la segmentación delimita los objetos de una imagen según categorías semánticas. Pero en lugar de marcar los objetos mediante recuadros, la segmentación los delimita a nivel de píxel.

Cómo funciona la detección de objetos

Comprender las maquinaciones internas de la detección de objetos requiere conocimientos de visión artificial y procesamiento digital de imágenes en sentido más amplio. Esta sección ofrece una visión general.

Procesamiento de imágenes

En la visión artificial, las imágenes se expresan como funciones continuas en un plano de coordenadas 2D representado como f(x,y). Cuando se digitalizan, las imágenes se someten a dos procesos principales llamados muestreo y cuantificación, que, en resumen, convierten la función de imagen continua en una estructura de cuadrícula discreta de elementos de píxeles. A continuación, el ordenador puede segmentar una imagen en regiones discretas según la similitud visual y la proximidad de los píxeles3.

Al etiquetar las imágenes mediante una interfaz de anotación, los usuarios definen un objeto específico como una región de características específicas a nivel de píxel (por ejemplo, área, valor de gris, etc.). Cuando se le da una imagen de entrada, el modelo de detección de objetos reconoce regiones con características similares a las definidas en el conjunto de datos de entrenamiento como el mismo objeto. De este modo, la detección de objetos es una forma de reconocimiento de patrones. Los modelos de detección de objetos no reconocen objetos per se, sino agregados de propiedades como tamaño, forma, color, etc., y clasifican regiones según patrones visuales inferidos a partir de datos de entrenamiento anotados manualmente4.

Un modelo de detección de objetos para un coche autónomo, por ejemplo, no reconoce a los peatones, sino un conjunto de características que forman el patrón general que caracteriza los objetos peatonales (tal como se definen en los datos de entrenamiento).

Arquitectura de modelos

Aunque las distintas familias de modelos utilizan arquitecturas diferentes, los modelos de deep learning para la detección de objetos siguen una estructura general. Constan de columna vertebral, cuello y cabeza.

La columna vertebral extrae características de una imagen de entrada. A menudo, la columna vertebral se deriva de parte de un modelo de clasificación preentrenado. La extracción de características produce una miríada de mapas de características de distintas resoluciones que la columna vertebral pasa al cuello. Esta última parte de la estructura concatena los mapas de características de cada imagen. A continuación, la arquitectura pasa los mapas de características por capas a la cabeza, que predice los recuadros delimitadores y las puntuaciones de clasificación para cada conjunto de características.

Los detectores de dos etapas separan la localización y la clasificación de objetos en la cabeza, mientras que los detectores de una sola etapa combinan estas tareas. Por lo general, los primeros ofrecen una mayor precisión de localización, mientras que los segundos actúan más rápido5.

Métricas de evaluación

Intersección por unión (IoU) es una métrica de evaluación común que se utiliza en los modelos de detección de objetos. Un cuadro delimitador es la salida cuadrática que demarca un objeto detectado según lo predicho por el modelo. IoU calcula la relación entre el área de intersección de dos cajas delimitadoras (es decir, el área de las secciones superpuestas de las cajas) sobre su área de unión (es decir, el área total de ambas cajas juntas):6

Podemos visualizar esta ecuación como:

Los modelos utilizan la IoU para medir la precisión de la predicción calculando la IoU entre una caja prevista y la caja de la verdad sobre el terreno. Las arquitecturas de modelos también utilizan la IoU para generar las predicciones finales de los recuadros delimitadores. Dado que los modelos suelen generar inicialmente varios cientos de predicciones de recuadros delimitadores para un único objeto detectado, los modelos utilizan la IoU para ponderar y consolidar las predicciones de recuadros delimitadores en un único recuadro por objeto detectado.

Se pueden utilizar otras métricas para diferentes evaluaciones de modelos de detección de objetos. La intersección generalizada sobre unión (GIoU) es una versión modificada de IoU que tiene en cuenta las mejoras en la localización de objetos para los que la IoU básica aún puede devolver un valor nulo7. La investigación de detección de objetos también emplea métricas comunes de recuperación de información, como la precisión media media y la recuperación.

Algoritmos y arquitecturas de detección de objetos

Existen varios enfoques de machine learning para las tareas de detección de objetos. Algunos ejemplos son el marco de Viola-Jones8 y el histograma de gradientes orientados9. Sin embargo, la investigación y el desarrollo recientes sobre la detección de objetos se han centrado en gran medida en las redes neuronales convolucionales (CNN). Por ello, esta página se centra en los dos tipos de CNN más discutidos en la investigación sobre la detección de objetos. Tenga en cuenta que estos modelos se prueban y comparan utilizando conjuntos de datos de referencia, como el conjunto de datos COCO de Microsoft o ImageNet.

R-CNN (red neuronal convolucional basada en regiones) es un detector de dos etapas que utiliza un método llamado propuestas de región para generar 2000 predicciones de región por imagen. A continuación, la R-CNN deforma las regiones extraídas a un tamaño uniforme y las ejecuta a través de redes separadas para la extracción y clasificación de características. Cada región se clasifica de acuerdo con la confianza de su clasificación. Después, la R-CNN rechaza las regiones que tienen una cierta superposición de IoU con una región seleccionada con una puntuación más alta. Las regiones clasificadas restantes no superpuestas y de mayor rango son el resultado del modelo10. Como era de esperar, esta arquitectura es computacionalmente costosa y lenta. Fast R-CNN y Faster R-CNN son modificaciones posteriores que reducen el tamaño de la arquitectura de R-CNN y, por lo tanto, disminuyen el tiempo de procesamiento y aumentan la precisión11.

YOLO (You Only Look Once) es una familia de arquitecturas de detección de una sola etapa basadas en Darknet, un marco CNN de código abierto. Desarrollada por primera vez en 2016, la arquitectura YOLO prioriza la velocidad. De hecho, la velocidad de YOLO la hace preferible para la detección de objetos en tiempo real y le ha valido el descriptor común de detector de objetos de última generación. YOLO difiere de la R-CNN en varios aspectos. Mientras que R-CNN hace pasar las regiones de imagen extraídas a través de múltiples redes que extraen por separado las características y clasifican las imágenes, YOLO condensa estas acciones en una sola red. En segundo lugar, en comparación con las ~2000 propuestas de regiones de R-CNN, YOLO realiza menos de 100 predicciones de cuadros delimitadores por imagen. Además de ser más rápido que R-CNN, YOLO también produce menos falsos positivos de fondo, aunque tiene un mayor error de localización12. Ha habido muchas actualizaciones de YOLO desde su creación, generalmente centradas en la velocidad y la precisión13.

Aunque originalmente se desarrollaron para detectar objetos, las versiones posteriores de R-CNN y YOLO también pueden entrenar modelos de clasificación y segmentación. En concreto, Mask R-CNN combina la detección y la segmentación de objetos, mientras que YOLOv5 puede entrenar modelos separados de clasificación, detección y segmentación.

Por supuesto, hay muchas otras arquitecturas modelo más allá de R-CNN y YOLO. SSD y RetinaNet son dos modelos adicionales que utilizan una arquitectura simplificada similar a la de YOLO14. DETR es otra arquitectura desarrollada por Facebook (ahora Meta) que combina CNN con un modelo de transformadores y muestra un rendimiento comparable al de Faster R-CNN15.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

Ejemplos de casos de uso

En muchos casos de uso, la detección de objetos no es un fin en sí misma sino una etapa de una tarea mayor de la visión artificial.

Conducción autónoma

Los coches autónomos adoptan ampliamente la detección de objetos para reconocer objetos como coches y peatones. Un ejemplo de ello es la IA Autopilot de Tesla. Debido a su mayor velocidad, las arquitecturas simples como YOLO y SimpleNet obviamente son más adecuadas para la conducción autónoma16.

Imágenes médicas

La detección de objetos puede ayudar en las tareas de inspección visual . Por ejemplo, un importante cuerpo de investigación de detección de objetos investiga métricas y modelos para identificar indicadores fisiológicos de enfermedades en imágenes médicas como radiografías y resonancias magnéticas. En esta área, gran parte de la investigación se ha centrado en mejorar los desequilibrios de los conjuntos de datos dada la escasez de este tipo de imágenes médicas de la enfermedad17.

Seguridad

La videovigilancia puede emplear la detección de objetos en tiempo real para rastrear objetos asociados a delitos, como pistolas o cuchillos en las imágenes de las cámaras de seguridad. Al detectar dichos objetos, los sistemas de seguridad pueden predecir y prevenir aún más los delitos. Los investigadores han desarrollado algoritmos de detección de armas utilizando tanto R-CNN como YOLO18.

Mixture of Experts | Pódcast

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Investigación reciente

Los conjuntos de datos desequilibrados son un problema que afecta a las tareas de detección de objetos, puesto que las muestras negativas (es decir, las imágenes sin el objeto de interés) superan con creces a las muestras positivas en muchos conjuntos de datos específicos de dominio. Este es un problema particular con las imágenes médicas, donde las muestras positivas de enfermedades son difíciles de obtener. Investigaciones recientes utilizan el aumento de datos para ampliar y diversificar conjuntos de datos limitados para mejorar el rendimiento del modelo19.

Los desarrollos anteriores en la detección de objetos se han centrado en gran medida en las imágenes 2D. Más recientemente, los investigadores se han volcado en las aplicaciones de detección de objetos para imágenes 3D y vídeo. El desenfoque por movimiento y los cambios de enfoque de la cámara causan problemas en la identificación de objetos a través de los fotogramas de vídeo. Los investigadores han explorado una serie de métodos y arquitecturas para ayudar a rastrear objetos a través de los fotogramas a pesar de tales condiciones, como la arquitectura de redes neuronales de memoria a largo plazo (LSTM)20 y los modelos basados en transformadores21. Los transformadores se han utilizado para agilizar los modelos de detección de objetos para tareas de detección en tiempo real. Las técnicas de procesamiento en paralelo son otra notable área de estudio en este empeño22.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA al servicio de su negocio con la experiencia líder del sector y la cartera de soluciones de IA de IBM.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo
Notas a pie de página

1 Bogusław Cyganek. Object Detection and Recognition in Digital Images: Theory and Practice. Wiley. 2013.

2 Kemal Oksuz, Baris Can Cam, Sinan Kalkan y Emre Akbas. "Imbalance Problems in Object Detection: A Review". IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 43. N.º 10, 2021. PP. 3388-3415. https://ieeexplore.ieee.org/document/9042296.

3 Archangelo Disante y Cosimo Disante. Handbook of Image Processing and Computer Vision. Vol. 1. Springer. 2020. Milan Sonka, Vaclav Hlavac y Roger Boyle. Image Processing, Analysis, and Machine Vision. 4a edición. Cengage. 2015.

4 Archangelo Disante y Cosimo Disante. Handbook of Image Processing and Computer Vision. Vol. 3. Springer. 2020. Milan Sonka, Vaclav Hlavac, y Roger Boyle. Image Processing, Analysis, and Machine Vision. 4a edición. Cengage. 2015.

5 Benjamin Planche y Eliot Andres. Hands-On Computer Vision with TensorFlow 2. Packt Publishing. 2019. Van Vung Pham y Tommy Dang. Hands-On Computer Vision with Detectron2. Packt Publishing. 2023. Licheng Jiao, Fan Zhang, Fang Liu, Shuyuan Yang, Lingling Li, Zhixi Feng, Rong Qu. "A survey of deep learning-based object detection". IEEE Access. Vol. 7. 2019. PP. 128837-128868. https://ieeexplore.ieee.org/document/8825470. Richard Szeliski. Computer Vision: Algorithms and Applications. 2a edición. Springer. 2021.

6 Richard Szeliski. Computer Vision: Algorithms and Applications. 2a edición. Springer. 2021.

7 Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir Sadeghian, Ian Reid y Silvio Savarese. "Generalized intersection over union: A metric and a loss for bounding box regression". Actas de la conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR). 2019. PP. 658-666. accesible aquí.

8 P. Viola y M. Jones. "Rapid object detection using a boosted cascade of simple features," Actas de la Conferencia 2001 de la IEEE Computer Society sobre Visión artificial y Reconocimiento de Patrones (CVPR). 2001. https://ieeexplore.ieee.org/document/990517.

9 N. Dalal y B. Triggs. "Histograms of oriented gradients for human detection". Actas de la Conferencia IEEE Computer Society 2005 sobre Visión Artificial y Reconocimiento de Patrones (CVPR). 2005. PP. 886-893. https://ieeexplore.ieee.org/document/1467360 .

10 Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. "Rich feature hierarchies for accurate object detection and semantic segmentation". Actas de la Conferencia IEEE Computer Society 2014 sobre visión artificial y reconocimiento de patrones (CVPR). 2014. https://arxiv.org/abs/1311.2524 .

11 Ross Girschick. "Fast R-CNN". Actas de la Conferencia internacional del IEEE sobre visión artificial 2015 (ICCV). 2015. PP. 1440-1448. https://arxiv.org/abs/1504.08083 . Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun. "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks". Advances in Neural Information Processing Systems (NIPS 2015). Vol. 28. https://proceedings.neurips.cc/paper_files/paper/2015/hash/14bfa6bb14875e45bba028a21ed38046-Abstract.html .

12 Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi. "You Only Look Once: Unified, Real-Time Object Detection". Conferencia IEEE 2016 sobre Visión Artificial y Reconocimiento de Patrones (CVPR). 2016. PP. 779-788. https://arxiv.org/abs/1506.02640.

13 Joseph Redmon y Ali Farhadi. "YOLOv3: An Incremental Improvement". 2018. https://arxiv.org/abs/1804.02767 . Alexey Bochkovskiy, Chien-Yao Wang y Hong-Yuan Mark Liao. "YOLOv4: Optimal Speed and Accuracy of Object Detection". Conferencia europea sobre visión artificial. 2020. https://arxiv.org/abs/2004.10934 . Xin Huang, Xinxin Wang, Wenyu Lv, Xiaying Bai, Xiang Long, Kaipeng Deng, Qingqing Dang, Shumin Han, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma y Osamu Yoshie. "PP-YOLOv2: A Practical Object Detector". 2021. https://arxiv.org/abs/2104.10419 . Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao. "YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors". 2022. https://arxiv.org/abs/2207.02696.

14 Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu y Alexander C. Berg. "SSD: Single Shot MultiBox Detector". Actas de la conferencia europea de visión artificial (ECCV). 2016. PP. 21-37. https://arxiv.org/abs/1512.02325. Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He y Piotr Dollár. "Focal Loss for Dense Object Detection". IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 42. N.º 2. 2020. PP. 318-327.https://arxiv.org/abs/1708.02002.

15 Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov y Sergey Zagoruyko. "End-to-End Object Detection with Transformers". Actas de la Conferencia Europea de Visión Artificial (ECCV). 2020. https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123460205.pdf .

16 Abhishek Balasubramaniam y Sudeep Pasricha. "Object Detection in Autonomous Vehicles: Status and Open Challenges". 2022. https://arxiv.org/abs/2201.07706. Gene Lewis. "Object Detection for Autonomous Vehicles". 2016. https://web.stanford.edu/class/cs231a/prev_projects_2016/object-detection-autonomous.pdf.

17 Trong-Hieu Nguyen-Mau, Tuan-Luc Huynh, Thanh-Danh Le, Hai-Dang Nguyen y Minh-Triet Tran. "Advanced Augmentation and Ensemble Approaches for Classifying Long-Tailed Multi-Label Chest X-Rays". Actas de los Talleres de la Conferencia Internacional IEEE/CVF sobre Visión Artificial (ICCV). 2023. PP. 2729-2738. https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Nguyen-Mau_Advanced_Augmentation_and_Ensemble_Approaches_for_Classifying_Long-Tailed_Multi-Label_Chest_ICCVW_2023_paper.html. Changhyun Kim, Giyeol Kim, Sooyoung Yang, Hyunsu Kim, Sangyool Lee y Hansu Cho. "Chest X-Ray Feature Pyramid Sum Model with Diseased Area Data Augmentation Method". Actas de los Talleres de la Conferencia Internacional IEEE/CVF sobre Visión Artificial (ICCV). 2023. PP. 2757-2766. https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Kim_Chest_X-Ray_Feature_Pyramid_Sum_Model_with_Diseased_Area_Data_ICCVW_2023_paper.html.

18 Palash Yuvraj Ingle y Young-Gab Kim. "Real-Time Abnormal Object Detection for Video Surveillance in Smart Cities". Sensors. Vol. 22. N.º 10. 2022. https://www.mdpi.com/1424-8220/22/10/3862.

19 Manisha Saini y Seba Susan. "Tackling class imbalance in computer vision: a contemporary review". Artificial Intelligence Review. Vol. 56. 2023. PP. 1279–1335. https://link.springer.com/article/10.1007/s10462-023-10557-6.

20 Kai Kang, Hongsheng Li, Tong Xiao, Wanli Ouyang, Junjie Yan, Xihui Liu, y Xiaogang Wang. "Object Detection in Videos With Tubelet Proposal Networks". Actas de la Conferencia IEEE sobre Visión Artificial y Reconocimiento de Patrones (CVPR). 2017. PP. 727-735. https://openaccess.thecvf.com/content_cvpr_2017/html/Kang_Object_Detection_in_CVPR_2017_paper.html 

21 Sipeng Zheng, Shizhe Chen y Qin Jin. "VRDFormer: End-to-End Video Visual Relation Detection With Transformers". Actas de la Conferencia IEEE sobre Visión Artificial y Reconocimiento de Patrones (CVPR). 2022. PP. 18836-18846. https://openaccess.thecvf.com/content/CVPR2022/html/Zheng_VRDFormer_End-to-End_Video_Visual_Relation_Detection_With_Transformers_CVPR_2022_paper.html.

22 Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov y Sergey Zagoruyko. "End-to-End Object Detection with Transformers," Actas de la Conferencia Europea sobre Visión Artificial (ECCV). 2020. PP. 213-229.https://link.springer.com/chapter/10.1007/978-3-030-58452-8_13Mekhriddin RakhimovJamshid Elov , Utkir Khamdamov , Shavkatjon Aminov y  Shakhzod Javliev. "Parallel Implementation of Real-Time Object Detection using OpenMP". Conferencia Internacional sobre Ciencias de la Información y Tecnologías de la Comunicación (ICISCT). 2021. https://ieeexplore.ieee.org/document/9670146. Yoon-Ki Kim y Yongsung Kim. "DiPLIP: Distributed Parallel Processing Platform for Stream Image Processing Based on Deep Learning Model Inference". Electronics. Vol. 9. N.º 10. 2020. https://www.mdpi.com/2079-9292/9/10/1664.