¿Qué es la detección de objetos?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

La detección de objetos es una técnica que utiliza redes neuronales para localizar y clasificar objetos en imágenes. Esta tarea de computer vision tiene una amplia gama de aplicaciones, desde imágenes médicas hasta coches autónomos.

La detección de objetos es una tarea de visión artificial que tiene como objetivo localizar objetos en imágenes digitales. Como tal, es una instancia de inteligencia artificial que consiste en entrenar a los ordenadores para que vean como los humanos, específicamente reconociendo y clasificando objetos según categories semánticas¹. La localización de objetos es una técnica para determinar la ubicación de objetos específicos en una imagen demarcando el objeto a través de un cuadro delimitador. La clasificación de objetos es otra técnica que determina a qué categoría pertenece un objeto detectado. La tarea de detección de objetos combina subtareas de localización y clasificación de objetos para estimar simultáneamente la ubicación y el tipo de instancias de objetos en una o más imágenes².

Tareas de visión artificial

La detección de objetos se superpone con otras técnicas de computer vision, pero los desarrolladores la tratan como una tarea discreta.

La clasificación de imágenes (o reconocimiento de imágenes) tiene como objetivo clasificar las imágenes según categorías definidas. Un ejemplo rudimentario de esto son las pruebas de imágenes CAPTCHA, en las que un grupo de imágenes puede organizarse como imágenes con señales de STOP e imágenes sin ellas. La clasificación de imágenes asigna una etiqueta a una imagen completa.

La detección de objetos, en cambio, delinea objetos individuales en una imagen de acuerdo con categorías especificadas. Mientras que la clasificación de imágenes divide las imágenes entre las que tienen señales de STOP y las que no, la detección de objetos localiza y categoriza todas las señales de tráfico de una imagen, así como otros objetos como coches y personas.

La segmentación de imágenes (o segmentación semántica) es similar a la detección de objetos, aunque más precisa. Al igual que la detección de objetos, la segmentación delimita los objetos de una imagen según categorías. Pero en lugar de marcar los objetos mediante recuadros, la segmentación delimita los objetos a nivel de píxel.

Boletín del sector

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

Cómo funciona la detección de objetos

Comprender las maquinaciones internas de la detección de objetos requiere conocimientos de computer vision y procesamiento digital de imágenes en sentido más amplio. Esta sección ofrece una visión general.

Procesamiento de imágenes

En visión artificial, las imágenes se expresan como funciones continuas en un plano de coordenadas 2D representado como f(x,y). Cuando se digitalizan, las imágenes se someten a dos procesos principales llamados muestreo y cuantificación, que, en resumen, convierten la función de imagen continua en una estructura de cuadrícula discreta de elementos de píxeles. A continuación, el ordenador puede segmentar una imagen en regiones discretas según la similitud visual y la proximidad de los píxeles³.

Al etiquetar las imágenes mediante una interfaz de anotación, los usuarios definen un objeto específico como una región de características específicas a nivel de píxel (por ejemplo, área, valor de gris, etc.). Cuando se le da una imagen de entrada, el modelo de detección de objetos reconoce regiones con características similares a las definidas en el conjunto de datos de entrenamiento como el mismo objeto. De este modo, la detección de objetos es una forma de reconocimiento de patrones. Los modelos de detección de objetos no reconocen objetos per se, sino agregados de propiedades como tamaño, forma, color, etc., y clasifican regiones según patrones visuales inferidos a partir de datos de entrenamiento anotados manualmente⁴.

Un modelo de detección de objetos para un coche autónomo, por ejemplo, no reconoce a los peatones, sino un conjunto de características que forman el patrón general que caracteriza los objetos peatonales (tal como se definen en los datos de entrenamiento).

Arquitectura de modelos

Aunque las distintas familias de modelos utilizan arquitecturas diferentes, los modelos de deep learning para la detección de objetos siguen una estructura general. Constan de columna vertebral, cuello y cabeza.

La columna vertebral extrae características de una imagen de entrada. A menudo, la columna vertebral se deriva de parte de un modelo de clasificación preentrenado. La extracción de características produce una miríada de mapas de características de distintas resoluciones que la columna vertebral pasa al cuello. Esta última parte de la estructura concatena los mapas de características de cada imagen. A continuación, la arquitectura pasa los mapas de características por capas a la cabeza, que predice los recuadros delimitadores y las puntuaciones de clasificación para cada conjunto de características.

Los detectores de dos etapas separan la localización y la clasificación de objetos en la cabeza, mientras que los detectores de una sola etapa combinan estas tareas. Por lo general, los primeros ofrecen una mayor precisión de localización, mientras que los segundos actúan con mayor rapidez⁵.

Métricas de evaluación

La intersección sobre unión (IoU) es una métrica de evaluación común que se utiliza en los modelos de detección de objetos. Un cuadro delimitador es el resultado cuadrático que demarca un objeto detectado según lo predicho por el modelo. La IoU calcula la relación entre el área de intersección de dos cajas delimitadoras (es decir, el área de las secciones superpuestas de las cajas) sobre su área de unión (es decir, el área total de ambas cajas juntas)⁶:

Podemos visualizar esta ecuación como:

Los modelos utilizan la IoU para medir la precisión de la predicción calculando la IoU entre una caja prevista y la caja de la verdad sobre el terreno. Las arquitecturas de modelos también utilizan la IoU para generar las predicciones finales de los recuadros delimitadores. Dado que los modelos suelen generar inicialmente varios cientos de predicciones de recuadros delimitadores para un único objeto detectado, los modelos utilizan la IoU para ponderar y consolidar las predicciones de recuadros delimitadores en un único recuadro por objeto detectado.

Se pueden utilizar otras métricas para diferentes evaluaciones de modelos de detección de objetos. La intersección generalizada sobre unión (GIoU) es una versión modificada de IoU que tiene en cuenta las mejoras en la localización de objetos para los que la IoU básica aún puede devolver un valor nulo⁷. La investigación de detección de objetos también emplea métricas comunes de recuperación de información, como la precisión media y la recuperación.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Vea todos los episodios de Mixture of Experts

Algoritmos y arquitecturas de detección de objetos

Existen varios enfoques de machine learning para las tareas de detección de objetos. Algunos ejemplos son el marco Viola-Jones⁸ y el histograma de gradientes orientados⁹. Sin embargo, la investigación y el desarrollo recientes de detección de objetos se han centrado en gran medida en las redes neuronales convolucionales (CNN). Como tal, esta página se centra en los dos tipos de CNN más discutidos en la investigación de detección de objetos. Tenga en cuenta que estos modelos se prueban y comparan utilizando conjuntos de datos de referencia, como el conjunto de datos COCO de Microsoft o ImageNet.

Una R-CNN (red neuronal convolucional basada en regiones) es un detector de dos etapas que utiliza un método llamado propuestas de región para generar 2000 predicciones de región por imagen. A continuación, la R-CNN deforma las regiones extraídas a un tamaño uniforme y las ejecuta a través de redes separadas para la extracción y clasificación de características. Cada región se clasifica de acuerdo con la confianza de su clasificación. A continuación, la R-CNN rechaza las regiones que tienen una cierta superposición de IoU con una región seleccionada con una puntuación más alta. Las regiones clasificadas restantes no superpuestas y de mayor rango son el resultado del modelo¹⁰. Como era de esperar, es costosa y lenta desde el punto de vista computacional. Fast R-CNN y Faster R-CNN son modificaciones posteriores que reducen el tamaño de la arquitectura de R-CNN y, por lo tanto, disminuyen el tiempo de procesamiento y aumentan la precisión¹¹.

YOLO (You Only Look Once) es una familia de arquitecturas de detección de una sola etapa basadas en Darknet, un marco CNN de código abierto. Desarrollada por primera vez en 2016, la arquitectura YOLO prioriza la velocidad. De hecho, la velocidad de YOLO la hace preferible para la detección de objetos en tiempo real y le ha valido el descriptor común de detector de objetos de última generación. YOLO difiere de R-CNN en varios aspectos. Mientras que R-CNN pasa regiones de imágenes extraídas a través de múltiples redes que extraen características y clasifican imágenes por separado, YOLO condensa estas acciones en una sola red. En segundo lugar, en comparación con las propuestas de ~2000 regiones de R-CNN, YOLO hace menos de 100 predicciones de cuadros delimitadores por imagen. Además de ser más rápido que R-CNN, YOLO también produce menos falsos positivos de fondo, aunque tiene un mayor error de localización¹². Ha habido muchas actualizaciones de YOLO desde sus inicios, generalmente centradas en la velocidad y la precisión¹³.

Aunque originalmente se desarrollaron para la detección de objetos, las versiones posteriores de R-CNN y YOLO también pueden entrenar modelos de clasificación y segmentación. En concreto, Mask R-CNN combina la detección y la segmentación de objetos, mientras que YOLOv5 puede entrenar modelos separados de clasificación, detección y segmentación.

Por supuesto, hay muchas otras arquitecturas de modelos más allá de R-CNN y YOLO. SSD y Retinanet son dos modelos adicionales que utilizan una arquitectura simplificada similar a YOLO¹⁴. DETR es otra arquitectura desarrollada por Facebook (ahora Meta) que combina CNN con un modelo de transformador y muestra un rendimiento comparable al de Faster R-CNN¹⁵.

Ejemplos de casos de uso

En muchos casos de uso, la detección de objetos no es un fin en sí misma sino una etapa de una tarea mayor de computer vision.

Conducción autónoma

Los coches autónomos adoptan ampliamente la detección de objetos para reconocer objetos como coches y peatones. Un ejemplo de ello es la IA Autopilot de Tesla. Debido a su mayor velocidad, las arquitecturas simples como YOLO y SimpleNet obviamente son más adecuadas para la conducción autónoma¹⁶.

Imágenes médicas

La detección de objetos puede ayudar en las tareas de inspección visual. Por ejemplo, un importante cuerpo de investigación de detección de objetos investiga métricas y modelos para identificar indicadores fisiológicos de enfermedades en imágenes médicas como radiografías y resonancias magnéticas. En esta área, gran parte de la investigación se ha centrado en mejorar los desequilibrios de los conjuntos de datos dada la escasez de este tipo de imágenes médicas de la enfermedad¹⁷.

Seguridad

La videovigilancia puede emplear la detección de objetos en tiempo real para rastrear objetos asociados a delitos, como pistolas o cuchillos en las imágenes de las cámaras de seguridad. Al detectar dichos objetos, los sistemas de seguridad pueden predecir y prevenir aún más los delitos. Los investigadores han desarrollado algoritmos de detección de armas utilizando tanto R-CNN como YOLO¹⁸.

Investigación reciente

Los conjuntos de datos desequilibrados son un problema que afecta a las tareas de detección de objetos, ya que las muestras negativas (es decir, las imágenes sin el objeto de interés) superan con creces a las muestras positivas en muchos conjuntos de datos específicos de dominio. Este es un problema particular con las imágenes médicas, donde las muestras positivas de enfermedades son difíciles de obtener. Investigaciones recientes utilizan el aumento de datos para ampliar y diversificar conjuntos de datos limitados para mejorar el rendimiento del modelo¹⁹.

Los avances anteriores en la detección de objetos se han centrado en gran medida en imágenes 2D. Más recientemente, los investigadores han recurrido a aplicaciones de detección de objetos para imágenes y vídeos en 3D. El desenfoque de movimiento y el cambio de enfoque de la cámara causan problemas para identificar objetos en los fotogramas de vídeo. Los investigadores han explorado una serie de métodos y arquitecturas para ayudar a rastrear objetos a través de marcos a pesar de tales condiciones, como la arquitectura de red neuronal de memoria a largo plazo (LSTM)²⁰ y los modelos basados en transformadores²¹. Los transformadores se han utilizado para acelerar los modelos de detección para tareas de detección en tiempo real. Las técnicas de procesamiento paralelo son otra área de estudio notable en este esfuerzo²².

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.