¿Qué es la detección de objetos?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

La detección de objetos es una técnica que utiliza redes neuronales para localizar y clasificar objetos en imágenes. Esta tarea de visión artificial tiene una amplia gama de aplicaciones, desde imágenes médicas hasta automóviles autónomos.

La detección de objetos es una tarea de visión artificial que tiene como objetivo localizar objetos en imágenes digitales. Como tal, es una instancia de inteligencia artificial que consiste en entrenar a las computadoras para que vean como los humanos, específicamente para reconocer y clasificar objetos según categorías semánticas.¹ La localización de objetos es una técnica para determinar la ubicación de objetos específicos en una imagen demarcando el objeto a través de un cuadro delimitador. La clasificación de objetos es otra técnica que determina a qué categoría pertenece un objeto detectado. La tarea de detección de objetos combina subtareas de localización y clasificación de objetos para estimar de manera simultánea la ubicación y el tipo de casos de objetos en una o más imágenes.²

Tareas de visión artificial

La detección de objetos se superpone con otras técnicas de visión artificial, pero los desarrolladores la tratan como un esfuerzo discreto.

La clasificación de imágenes (o reconocimiento de imágenes) tiene como objetivo clasificar las imágenes según categorías definidas. Un ejemplo rudimentario de esto son las pruebas de imagen CAPTCHA, en las que un grupo de imágenes pueden organizarse como imágenes que muestran la señal de pare y otras que no. La clasificación de imágenes asigna una etiqueta a la imagen completa.

La detección de objetos, en cambio, delinea objetos individuales en una imagen según categorías especificadas. Mientras que la clasificación de imágenes divide las imágenes entre aquellas que tienen señales de pare y aquellas que no, la detección de objetos localiza y categoriza todas las señales de tránsito en una imagen, así como otros objetos como automóviles y personas.

La segmentación de imágenes (o segmentación semántica) es similar a la detección de objetos, aunque es más precisa. Al igual que la detección de objetos, la segmentación delinea los objetos en una imagen según categorías semánticas. Pero en lugar de marcar objetos mediante cuadros, la segmentación delimita los objetos a nivel de pixeles.

Boletín de la industria

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

Cómo funciona la detección de objetos

Comprender las maquinaciones internas de la detección de objetos requiere contar con una base en visión artificial y procesamiento de imágenes digitales en general. En esta sección se proporciona una descripción general.

Procesamiento de imágenes

En la visión artificial, las imágenes se expresan como funciones continuas en un plano de coordenadas 2D representado como f(x,y). Cuando se digitalizan, las imágenes se someten a dos procesos principales llamados ejemplificación y cuantificación que, en resumen, convierten la función de imagen continua en una estructura diferenciada de cuadrícula de elementos de pixeles. Luego, la computadora puede segmentar una imagen en regiones diferenciadas de acuerdo con la similitud visual y la proximidad de los pixeles.³

Al etiquetar imágenes mediante una interfaz de anotación, los usuarios definen un objeto específico como una región de características específicas a nivel de pixel (por ejemplo, área, valor de gris, etc.). Cuando se proporciona una imagen de entrada, el modelo de detección de objetos reconoce regiones con características similares a las definidas en el conjunto de datos de entrenamiento como el mismo objeto. De este modo, la detección de objetos es una forma de reconocimiento de patrones. Los modelos de detección de objetos no reconocen objetos en sí mismos, sino que reconoce agregados de propiedades como tamaño, forma, color, etc., y clasifican regiones según patrones visuales inferidos a partir de datos de entrenamiento anotados de forma manual.⁴

Un modelo de detección de objetos para un automóvil autónomo, por ejemplo, no reconoce a los peatones, sino un conjunto de características que forman el patrón general que caracteriza a los objetos peatonales (como se define en los datos de entrenamiento).

Arquitectura del modelo

Si bien las diferentes familias de modelos utilizan diferentes arquitecturas, los modelos de aprendizaje profundo para la detección de objetos siguen una estructura general. Se componen de una columna vertebral, cuello y cabeza.

La columna vertebral extrae características de una imagen de entrada. A menudo, la columna vertebral se deriva de parte de un modelo de clasificación previamente entrenado. La extracción de características produce una infinidad de mapas de características de distintas resoluciones que la columna vertebral pasa al cuello. Esta última parte de la estructura concatena los mapas de características de cada imagen. A continuación, la arquitectura pasa los mapas de características por capas a la cabeza, que prevé los cuadros delimitadores y las puntuaciones de clasificación para cada conjunto de características.

Los detectores de dos etapas separan la localización y clasificación de objetos en el cabezal, mientras que los detectores de una sola etapa combinan estas tareas. Los primeros generalmente ofrecen una mayor precisión de localización, mientras que los segundos funcionan con mayor rapidez.⁵

Métricas de evaluación

La intersección sobre la unión (IoU) es una métrica de evaluación común utilizada en los modelos de detección de objetos. Un cuadro delimitador es el cuadrado de resultado que delimita un objeto detectado según lo previsto por el modelo. IoU calcula la relación del área de intersección de dos cuadros delimitadores (es decir, el área de las secciones superpuestas de los cuadros) sobre su área de unión (es decir, el área total de ambos cuadros combinados):⁶

Podemos visualizar esta ecuación como:

Los modelos utilizan el IoU para medir la precisión de la predicción calculando el IoU entre un cuadro prevista y un cuadro real. Las arquitecturas de modelos también utilizan IoU para generar predicciones finales de cuadros delimitadores. Dado que los modelos suelen generar inicialmente varios cientos de predicciones de cuadros delimitadores para un único objeto detectado, los modelos utilizan IoU para ponderar y consolidar las predicciones de cuadros delimitadores en un único cuadro por objeto detectado.

Se pueden usar otras métricas para diferentes evaluaciones de modelos de detección de objetos. La intersección generalizada sobre la unión (GIoU) es una versión modificada de IoU que tiene en cuenta las mejoras en la localización de objetos para las cuales la IoU básica aún puede devolver un valor nulo.⁷ La investigación de detección de objetos también utiliza métricas comunes de recuperación de información, como la precisión promedio y la coincidencia.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Vea todos los episodios de Mixture of Experts

Algoritmos y arquitecturas de detección de objetos

Existen varios enfoques de machine learning para las tareas de detección de objetos. Algunos ejemplos son el marco de ^{Viola-Jones 8} y el histograma de gradientes orientados.⁹ Sin embargo, la investigación y el desarrollo recientes en detección de objetos se centraron en gran medida en las redes neuronales convolucionales (CNN). Por ello, esta página se centra en los dos tipos de CNN más debatidos en la investigación sobre detección de objetos. Tenga en cuenta que estos modelos se prueban y comparan utilizando conjuntos de datos de referencia, como el conjunto de datos COCO de Microsoft o ImageNet.

R-CNN (red neuronal convolucional basada en regiones) es un detector de dos etapas que utiliza un método llamado propuestas de región para generar 2000 predicciones de región por imagen. Luego, R-CNN deforma las regiones extraídas a un tamaño uniforme y ejecuta esas regiones a través de redes separadas para la extracción y clasificación de características. Cada región se clasifica de acuerdo con la confianza de su clasificación. Luego, R-CNN rechaza las regiones que tienen una cierta superposición de IoU con una región seleccionada de puntuación más alta. Las regiones clasificadas restantes que no se superponen y están mejor clasificadas son el resultado del modelo.¹⁰ Como era de esperar, esta arquitectura es computacionalmente costosa y lenta. Fast R-CNN y Faster R-CNN son modificaciones posteriores que reducen el tamaño de la arquitectura de R-CNN y, por lo tanto, reducen el tiempo de procesamiento y aumentan la precisión.¹¹

YOLO (You Only Look Once) es una familia de arquitecturas de detección de una sola etapa basadas en Darknet, un marco de CNN de código abierto. Desarrollada por primera vez en 2016, la arquitectura YOLO prioriza la velocidad. De hecho, la velocidad de YOLO la hace preferible para la detección de objetos en tiempo real y le ha valido el descriptor común del detector de objetos de última generación. YOLO difiere de R-CNN en varios aspectos. Mientras R-CNN pasa regiones de imágenes extraídas a través de múltiples redes que extraen características por separado y clasifican imágenes, YOLO condensa estas acciones en una sola red. En segundo lugar, en comparación con las propuestas de la región ~2000 de R-CNN, YOLO hace menos de 100 predicciones de cuadro delimitador por imagen. Además de ser más rápido que R-CNN, YOLO también produce menos falsos positivos de fondo, aunque tiene un mayor error de localización.¹² Ha habido muchas actualizaciones de YOLO desde sus inicios, generalmente centradas en la velocidad y la precisión.¹³

Aunque originalmente se desarrolló para la detección de objetos, versiones posteriores de R-CNN y YOLO también pueden entrenar modelos de clasificación y segmentación. Específicamente, Mask R-CNN combina tanto la detección de objetos como la segmentación, mientras que YoLov5 puede entrenar modelos separados de clasificación, detección y segmentación.

Por supuesto, hay muchas otras arquitecturas modelo más allá de R-CNN y YOLO. SSD y Retinanet son dos modelos adicionales que utilizan una arquitectura simplificada similar a YOLO.¹⁴ DETR es otra arquitectura desarrollada por Facebook (ahora Meta) que combina CNN con un modelo transformador y muestra un rendimiento comparable a Faster R-CNN.¹⁵

Ejemplos de casos de uso

En muchos casos de uso, la detección de objetos no es un fin en sí mismo, sino una etapa en una tarea de visión artificial más grande.

Conducción autónoma

Los automóviles autónomos adoptan ampliamente la detección de objetos para reconocer objetos, como automóviles y peatones. Un ejemplo de ello es la IA Autopilot de Tesla. Debido a su mayor velocidad, las arquitecturas simples como YOLO y SimpleNet son obviamente más convenientes para la conducción autónoma.¹⁶

Imágenes médicas

La detección de objetos puede ayudar en las tareas de inspección visual. Por ejemplo, un cuerpo sustantivo de investigación de detección de objetos investiga métricas y modelos para identificar indicadores fisiológicos de enfermedades en imágenes médicas como radiografías y resonancias magnéticas. En esta área, gran parte de la investigación se centró en mejorar los desequilibrios de los conjuntos de datos dada la dispersión de este tipo de imágenes médicas de enfermedades.¹⁷

Seguridad

La videovigilancia puede utilizar la detección de objetos en tiempo real para rastrear objetos asociados con delitos, como armas o cuchillos en las imágenes de las cámaras de seguridad. Al detectar dichos objetos, los sistemas de seguridad pueden prever y prevenir aún más los delitos. Los investigadores desarrollaron algoritmos de detección de armas utilizando tanto R-CNN como YOLO.¹⁸

Investigación reciente

Los conjuntos de datos desequilibrados son un problema que afecta a las tareas de detección de objetos, ya que las muestras negativas (es decir, imágenes sin el objeto de interés) superan ampliamente a las muestras positivas en muchos conjuntos de datos específicos del dominio. Este es un problema particular con las imágenes médicas, donde las muestras positivas de enfermedades son difíciles de adquirir. Investigaciones recientes utilizan el aumento de datos para ampliar y diversificar conjuntos de datos limitados para mejorar el rendimiento del modelo.¹⁹

Los desarrollos pasados en la detección de objetos se han centrado en gran medida en imágenes 2D. Más recientemente, los investigadores han recurrido a aplicaciones de detección de objetos para imágenes y videos 3D. El desenfoque de movimiento y el cambio de enfoque de la cámara causan problemas en la identificación de objetos en los fotogramas de video. Los investigadores han explorado una variedad de métodos y arquitecturas para ayudar a rastrear objetos a través de marcos a pesar de tales condiciones, como la arquitectura de red neuronal recurrente de memoria a largo plazo (LSTM)²⁰ y los modelos basados en transformadores.²¹ Los transformadores se han utilizado para acelerar los modelos de detección de objetos para tareas de detección en tiempo real. Las técnicas de procesamiento paralelo son otra área notable de estudio en este esfuerzo.²²

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.