¿Qué es la segmentación de instancias?

Autores

Senior Staff Writer, AI Models

IBM Think

Staff Editor, AI Models

IBM Think

¿Qué es la segmentación de instancias?

La segmentación de instancias es una tarea de visión artificial basada en el deep learning que predice los límites exactos en píxeles de cada instancia de objeto individual en una imagen.

La segmentación de instancias, que es un subconjunto del campo más amplio de la segmentación de imágenes, proporciona resultados más detallados y sofisticados que los algoritmos convencionales de detección de objetos. Otras tareas de segmentación de imágenes son la segmentación semántica, que clasifica cada píxel de una imagen por su clase semántica (la categoría de "cosa" o "materia" que representa) y la segmentación panóptica, que combina los objetivos de la segmentación por instancias y la segmentación semántica.

La segmentación de instancias tiene una amplia variedad de casos de uso en el procesamiento de imágenes en muchos sectores, desde el análisis de imágenes médicas hasta la detección de objetos de interés en imágenes de satélite, pasando por la navegación en coches autónomos.

Boletín del sector

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

Segmentación de instancias frente a detección de objetos

La principal diferencia entre las tareas de segmentación de instancias y la detección de objetos convencional es que la segmentación de instancias predice los límites a nivel de píxel de cada objeto, mientras que la detección de objetos sólo predice la ubicación aproximada de un objeto.

Los métodos convencionales de detección de objetos son una combinación evolucionada de clasificación de imágenes y localización de objetos. Un modelo de detección de objetos, entrenado con diversos algoritmos de machine learning para reconocer los patrones visuales de categorías relevantes de objetos (por ejemplo, un modelo de conducción autónoma podría estar entrenado para reconocer cosas como "coche" o "peatón"), analiza los datos visuales de una imagen de entrada para anotar cualquier instancia de objeto relevante y generar regiones rectangulares, denominadas "cuadros delimitadores", en las que se localiza cada instancia.

Los sistemas de segmentación de instancias también detectan objetos en una imagen, pero con mucho más detalle: en lugar de un cuadro delimitador que se aproxime a la ubicación de una instancia de objeto, los algoritmos de segmentación de instancias generan una "máscara de segmentación" píxel a píxel de la forma y el área precisas de cada instancia.

Muchas arquitecturas líderes de modelos de segmentación de instancias, como Mask R-CNN, llevan a cabo una detección convencional de objeciones como paso previo en el proceso de generación de máscaras de segmentación. Estos modelos de "dos etapas" suelen ofrecer la máxima precisión, aunque a cambio de una mayor velocidad.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Vea todos los episodios de Mixture of Experts

Segmentación de instancias frente a segmentación semántica

La segmentación semántica es una tarea menos compleja que la segmentación de instancias. A diferencia de la segmentación por instancias, la segmentación semántica no se encarga de contar o distinguir entre diferentes instancias: el único objetivo de la segmentación semántica es anotar cada píxel de una imagen con una etiqueta de clase semántica.

Los modelos de segmentación semántica no distinguen entre cosas contables (clases de entidades contables con formas distintas, como "coche" o "persona") y cosas incontables (es decir, clases de entidades incontables con formas variables, como "cielo" o "carretera").

Si varios objetos de la misma clase están muy próximos o se superponen, un modelo de segmentación semántica los agrupará en un único segmento de imagen. Considere, por ejemplo, cómo trata un modelo de segmentación semántica los coches aparcados muy juntos a cada lado de la calle en esta imagen.

Una comparación en paralelo de una imagen de calle de una ciudad normal frente a esa misma imagen con segmentación semántica

Por el contrario, los modelos de segmentación de instancias se centran exclusivamente en detectar y generar máscaras de segmentación para cosas individuales. Un modelo de segmentación de instancias debe ser capaz de delinear cada instancia de objeto diferente, incluso para instancias ocluidas de la misma clase de objeto.

Comparación entre una imagen normal de una calle de una ciudad y esa misma imagen con segmentación semántica y esa misma imagen con segmentación de instancias.

Segmentación de instancias frente a segmentación panóptica

La segmentación panóptica implica tanto la clasificación semántica de cada píxel de una imagen como la delimitación de cada instancia de objeto diferente.

En teoría, los modelos de segmentación panóptica pueden realizar la segmentación de instancias, pero con un coste computacional mucho mayor (ya que su resultado incluye información adicional no necesariamente relevante para las tareas de segmentación de instancias).

Los primeros intentos de segmentación panóptica se limitaban a realizar la segmentación de instancias y la segmentación semántica por separado, y luego combinaban sus resultados en un paso de posprocesamiento. Este método es ineficaz desde el punto de vista informático y tiene dificultades para resolver las discrepancias entre las salidas de datos del modelo semántico y las salidas de datos del modelo de instancia.

Enfoques más recientes conectan una "cabeza" de segmentación semántica y una "cabeza" de segmentación de instancias a una "columna vertebral" compartida, a menudo una red piramidal de características (FPN), para la extracción de características: el aislamiento de los datos visuales pertinentes. Esto añade eficiencia y elimina las discrepancias.

Casos de uso de segmentación de instancias

La segmentación de instancias es esencial para diversas tareas de visión artificial.

Imágenes médicas: la segmentación de instancias se utiliza para detectar los límites específicos de tejidos y patologías, como tumores

Conducción autónoma: la segmentación de instancias permite a los coches autoconducidos detectar y clasificar con precisión coches, objetos, personas y características de la carretera (como los semáforos).

Imágenes por satélite: la segmentación de instancias puede ayudar a identificar y aislar objetos de interés, como distinguir entre varios edificios a lo largo de una carretera para fines de GPS.

Robótica: la segmentación de instancias permite clasificar artículos, detectar defectos y, de forma similar a los coches autoconducidos, permite a los robots discernir y navegar alrededor de los objetos de su entorno.

¿Cómo funciona la segmentación de instancias?

El deep learning se ha vuelto esencial para la segmentación de instancias: casi todos los métodos modernos de segmentación de imágenes utilizan redes neuronales. Aunque en los últimos años han surgido modelos de transformador como alternativa viable, la mayoría de los métodos de segmentación de imágenes (incluidos los utilizados para la segmentación de instancias) aprovechan alguna forma de redes neuronales convolucionales (CNN).

Los modelos de segmentación de instancias basados en CNN se dividen en dos categorías:

Los modelos de dos etapas, como Mask R-CNN, primero detectan objetos y luego generan máscaras de segmentación de objetos
Los modelos de una sola toma (o de una sola etapa), como YOLACT, realizan ambas tareas en paralelo.

Tanto los modelos de segmentación de instancias basados en CNN como los basados en transformadores utilizan una estructura codificador-decodificador, en la que una red codificadora se utiliza para extraer datos relevantes de la imagen de entrada y una red decodificadora utiliza esos datos de características extraídos para reconstruir la imagen con un mapa de segmentación.

Para entender los modelos de segmentación de instancias, es útil comprender las partes que los constituyen.

Redes neuronales convolucionales (CNN)

Las CNN simples pueden realizar la clasificación de imágenes y (para imágenes que contienen un único objeto) la clasificación de objetos.

Para que los algoritmos matemáticos sean compatibles con una imagen, deben representarla en un formato numérico. Las CNN procesan una imagen RGB de entrada como una matriz tridimensional (3D) de píxeles, en la que las tres dimensiones del píxel representan sus valores R(ed), G(reen) y (B)lue, respectivamente.

Hay tres tipos de capas en una CNN convencional:

Las capas convolucionales utilizan filtros bidimensionales, denominados núcleos, para extraer las características relevantes de la imagen mediante la realización de convoluciones. Después de cada convolución, el núcleo se desplaza a una región adyacente, repitiendo este proceso hasta que haya recorrido toda la imagen. El resultado de esta extracción de características es un mapa de características.
Las capas de agrupamiento comprimen los datos del mapa de características. Este proceso, también denominado "downsampling" o reducción de la dimensionalidad, aumenta la eficiencia computacional y reduce el riesgo de sobreajuste en el entrenamiento del modelo.
Las capas totalmente conectadas reciben y cotejan los datos visuales de todos los nodos de la red neuronal, de ahí lo de "totalmente conectadas", y predicen si la imagen coincide con alguna de las categorías para cuyo reconocimiento ha sido entrenada.

Aunque las capas convolucionales adicionales pueden mejorar la precisión, añadir demasiadas capas hace que los gradientes se desvanezcan, lo que impide la optimización del modelo. La arquitectura ResNet resolvió este problema, allanando el camino para las CNN con cientos (o incluso miles) de capas.

CNN basada en regiones (R-CNN)

La R-CNN se desarrolló para resolver tareas complejas de detección multiobjeto que no pueden realizarse con las CNN estándar. Su evolución posterior, R-CNN más rápida, es un componente integral de muchos modelos de segmentación de instancias.

Para hacer predicciones a nivel de objeto (en lugar de a nivel de imagen), R-CNN introdujo propuestas de región: R-CNN utiliza la búsqueda selectiva para proponer alrededor de 2000 cuadros superpuestos que pueden contener un objeto, luego alimenta cada "propuesta de objeto" en una CNN para extracción de características. A continuación, los algoritmos de máquina de vectores de soporte (SVM) clasifican objetos y generan cajas delimitadoras

La R-CNN rápida mejoró drásticamente la velocidad de la R-CNN introduciendo primero toda la imagen en una CNN para la extracción de características y, a continuación, utilizando el mapa de características resultante para identificar las regiones de interés (RoI). Poco después, la R-CNN más rápida mejoró aún más la velocidad y la precisión introduciendo una red de propuesta de región (RPN) entrenable para reemplazar el algoritmo de búsqueda selectiva más lento y no entrenable.

Redes totalmente convolucionales

Las FCN sustituyen las capas fijas totalmente conectadas de una CNN simple por capas convolucionales y de agrupación adicionales, de ahí lo de "totalmente convolucionales". La aparición de las FCN marcó el comienzo de la era moderna de la segmentación de imágenes.

Al igual que las CNN convencionales, las FCN utilizan una red codificadora, como ResNet o VGG, para la extracción de características y el downsampling. Pero en lugar de pasar los datos codificados a una capa totalmente conectada para clasificar toda la imagen, las FCN pasan los datos codificados a través de capas de una red "decodificadora" que clasifica y amplía los datos de características comprimidos para reconstruir la imagen original con máscaras de segmentación píxel a píxel.

Naturalmente, durante el proceso de reducción de la muestra se pierden algunos datos. Las variaciones posteriores de FCN, como U-Net, introdujeron saltos de conexiones que omiten selectivamente algunas capas convolucionales para preservar un mayor detalle.

Mask R-CNN

La arquitectura Mask R-CNN combina la detección de objetos de una R-CNN más rápida con las capacidades de segmentación de una FCN para lograr un gran avance en la segmentación de instancias.

Después de que la RPN genere cuadros delimitadores para los objetos propuestos, y de que el resto de la red R-CNN más rápida confirme qué propuestas de regiones contienen objetos (y realice regresiones para mejorar la precisión de los cuadros delimitadores de objetos), una FCN crea una máscara de segmentación de los objetos contenidos dentro de cada cuadro delimitador.

Este proceso es eficaz incluso cuando los objetos están ocluidos, ya que la red R-CNN más rápida puede diferenciar entre cada instancia de objeto para garantizar que cada una se segmenta individualmente.

Modelos de una sola toma (una sola etapa)

Ciertas aplicaciones de segmentación de instancias, como la detección de artículos defectuosos en una cadena de montaje de fabricación, requieren resultados en tiempo real. Los modelos de una sola etapa se desarrollaron para casos de uso en los que la velocidad es una prioridad absoluta.

Los modelos de dos etapas como máscara R-CNN son muy precisos, pero su enfoque inherentemente secuencial es difícil de acelerar. Los modelos de segmentación de instancias en una sola etapa, como YOLACT (You Only Look At CoefficienTs), se basan en modelos de detección de objetos en una sola etapa, como YOLO (You Only Look Once).

En YOLACT, una FPN crea mapas de características de alta resolución, que se introducen en dos ramas paralelas: una rama FCN propone k "máscaras prototipo" de posibles instancias de objetos; simultáneamente, una rama de capas totalmente conectadas produce muchos "cuadros de anclaje", similares a las propuestas de regiones, y también predice k "coeficientes de máscara", uno por cada máscara prototipo, que representan la probabilidad de que un objeto propuesto se alinee con una máscara de segmentación propuesta. La supresión no máxima (NMS) se utiliza para filtrar las instancias propuestas con los coeficientes de máscara más altos.

Modelos de transformadores

Las recientes innovaciones en segmentación por instancias y panóptica han explorado los modelos transformadores, inspirados por su éxito en campos como el procesamiento del lenguaje natural. Modelos como los transformadores de visión (ViT) utilizan la autoatención en lugar de la convolución, lo que permite un análisis holístico del contexto visual de una imagen.

El principal reto a superar han sido las exigencias computacionales: la complejidad computacional de la autoatención aumenta cuadráticamente con el tamaño de la imagen. Los transformadores Swin utilizan ventanas desplazadas (en lugar de los avances deslizantes convencionales) para crear capas de autoatención no superpuestas, lo que hace que la complejidad computacional aumente linealmente, no cuadráticamente, con el tamaño de la imagen. Los modelos basados en Swin ahora rivalizan en precisión con los principales marcos basados en CNN.

Entrenamiento de modelos de segmentación de instancias

Los algoritmos de machine learning, incluidos los algoritmos de deep learning utilizados para la segmentación de instancias, deben ser entrenados. Tanto los modelos basados en CNN como los basados en transformadores se entrenan con retropropagación: los modelos realizan ingeniería inversa de las imágenes de entrenamiento anotadas para aprender los pesos y sesgos adecuados para la tarea en cuestión.

La anotación de los datos de formación debe ser muy precisa para maximizar un machine learning adecuado y servir como punto de referencia de "verdad sobre el terreno" con el que evaluar y optimizar los modelos formados. Dado que las capacidades humanas superan con creces incluso a los modelos de visión artificial más precisos, esta anotación se realiza a mano, un proceso caro y laborioso.

Para evitar el tiempo y el coste de los conjuntos de datos personalizados, la mayoría de los modelos utilizan grandes conjuntos de datos de entrenamiento de código abierto o afinan una red codificadora preentrenada para tareas visuales más específicas. Entre los conjuntos de datos de imágenes de código abierto más comunes figuran:

COCO (Common Objects in Context): un conjunto de datos masivo que contiene más de 330 000 imágenes con segmentos anotados en 80 categorías de cosas y 91 categorías de objetos
ADE20K: un conjunto de datos de segmentación de escenas creado por el MIT que contiene más de 20 000 imágenes con más de 150 clases semánticas.
Cityscapes: un conjunto de datos a gran escala centrado en las calles urbanas, con imágenes de 50 ciudades a lo largo de varios días, estaciones y condiciones meteorológicas.

Evaluación de modelos de segmentación de instancias

Las medidas más utilizadas para medir el rendimiento de la segmentación de instancias y la detección de objetos son la intersección sobre unión (IoU) y la precisión media (AP). Estas métricas suelen expresarse en términos de rendimiento frente a un conjunto de datos de referencia, como "un AP de 54,4 en el conjunto de datos COCO".

Intersección sobre unión (IoU)

La IoU mide la superposición en píxeles entre una máscara de verdad del terreno y la predicción de un modelo, expresada como un porcentaje o un número entero entre 0 y 1. Para imágenes con varias instancias, se utiliza la IoU media (mIoU).

Aunque la IoU es intuitiva, tiene importantes limitaciones:

Recompensa las predicciones demasiado amplias. Incluso si una máscara de segmentación es demasiado grande, obtendrá una IoU perfecta de 1 si contiene la máscara de verdad fundamental.
No se puede usar como una función de pérdida. En caso de predicciones erróneas sin solapamiento, ya sean ligeramente erróneas o ni siquiera cercanas, IoU=0. Esto significa que la IoU no es diferenciable y, por tanto, no puede ayudar a un algoritmo a optimizar un modelo. Intersección generalizada sobre unión (o GIoU) modifica IoU para hacerlo diferenciable.

Precisión media (AP)

La AP se calcula como el área bajo la curva de precisión-recuperación. Equilibra las compensaciones entre dos métricas, precisión y recuperación, calculadas utilizando valores de resultados discretos como verdaderos positivos (TP), verdaderos negativos (TN), falsos positivos (FP) y falsos negativos (FN).

La precisión mide la frecuencia con la que las predicciones positivas (en este caso, píxeles de una instancia segmentada) son correctas: TP/(TP+FP). Tiene la desventaja de recompensar los falsos negativos.
La recuperación mide con qué frecuencia se capturan predicciones positivas: TP/(TP+FN). Tiene la desventaja de recompensar los falsos positivos.

Para maximizar la relevancia, la AP suele calcularse dentro de unos umbrales de IoU específicos. Por ejemplo, "AP50" calcula AP sólo para predicciones con una IoU superior al 50 %. La precisión media media (mAO) se utiliza situacionalmente como el valor medio de PA en todos los umbrales calculados.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.

¿Qué es la segmentación de instancias?

Autores

¿Qué es la segmentación de instancias?

Las últimas tendencias en IA, presentadas por expertos

¡Gracias! Está suscrito.

Segmentación de instancias frente a detección de objetos

Descifrar la IA: resumen semanal de noticias

Segmentación de instancias frente a segmentación semántica

Segmentación de instancias frente a segmentación panóptica

Casos de uso de segmentación de instancias

¿Cómo funciona la segmentación de instancias?

Redes neuronales convolucionales (CNN)

CNN basada en regiones (R-CNN)

Redes totalmente convolucionales

Mask R-CNN

Modelos de una sola toma (una sola etapa)

Modelos de transformadores

Entrenamiento de modelos de segmentación de instancias

Evaluación de modelos de segmentación de instancias

Intersección sobre unión (IoU)

Precisión media (AP)

Recursos