¿Qué es la clasificación de imágenes?

La clasificación de imágenes es el proceso de categorizar o clasificar imágenes en categorías. En machine learning, los modelos aprenden a reconocer y categorizar imágenes.

Los humanos clasifican las imágenes desde una edad temprana. Cuando un maestro les pide a los niños de jardín de infantes que clasifiquen imágenes de plantas y animales en montones, usan las características que aprendieron sobre cada categoría para completar la tarea. Cada una de estas categorías tiene diferentes características que diferencian a las plantas de los animales. Es posible que los adultos no recuerden haber aprendido sobre las características que separan las dos categorías, ya que gran parte de cómo sabemos clasificar es algo natural.

Enseñar a un modelo de inteligencia artificial (IA) a realizar la misma tarea puede ser mucho más difícil. La principal diferencia aquí es que los modelos de IA deben aprender a "ver", mientras que los humanos nacen con esta capacidad. Por lo tanto, los humanos pueden distinguir entre un zapato y un ser vivo desde el principio. La clasificación de imágenes basada en reglas depende de etiquetas o anotaciones para crear estas distinciones. La clasificación estadística de imágenes asume esta misma tarea entrenando modelos para reconocer patrones incrustados en las imágenes, eliminando gran parte del trabajo de etiquetado manual.

¿Qué es la visión artificial?

La visión artificial se refiere a la rama más general de la IA dentro de la cual se encuentra la clasificación de imágenes. Utiliza machine learning y, a menudo, redes neuronales para permitir que las computadoras interpreten datos visuales, como imágenes y videos. Si bien algunos experimentos con visión artificial podrían haber comenzado ya en la década de 1950, la mayoría de los expertos estarían de acuerdo en que no fue hasta 1970 que comenzó el uso comercial de esta técnica.

La visión por computadora permite a las computadoras extraer datos útiles de lo que ven. Este proceso también les permite responder haciendo recomendaciones o incluso actuando cuando detectan problemas o anomalías en los datos visuales. También dentro de la visión artificial existe el campo del reconocimiento de imágenes. Este término amplio se utiliza para describir la capacidad de una computadora para interpretar una imagen o imágenes. En resumen, la visión artificial es la categoría más amplia y las tareas de reconocimiento de imágenes y, más específicamente, la clasificación de imágenes se encuentran dentro de ella.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

Tipos de clasificación de imágenes

Clasificación de imágenes basada en reglas

Este método se basa en un proceso estrictamente desarrollado de recopilación y etiquetado de imágenes para que coincida con la tarea u objetivo de clasificación específico. Este proceso lo completan manualmente expertos que seleccionan las características clave de la imagen que proporcionan la información más visual. La clasificación de imágenes basada en reglas agrupa clústeres de píxeles similares en clases aplicando estas reglas, que se construyen a partir de conocimientos especializados. También permite una clasificación interpretable y personalizable sin depender de modelos complejos de machine learning.

Imagine una caja de fotografías que se le asigna organizar. La colección contiene fotografías de lagos, perros y automóviles. Debido a que no tiene ninguna herramienta de alta tecnología a su disposición con este método, debe crear una lista.

La lista puede ser similar a la siguiente:

Para “automóviles”, busque llantas, puertas y espejos laterales”.
Para “perros”, verifique si tienen orejas caídas, colas que se mueven y narices largas.
Para “lagos”, busque fotos con mucha agua y costa.

Este ejemplo demuestra que la clasificación basada en reglas se basa en reglas y herramientas preestablecidas creadas por humanos. Este método contrasta con dejar que una computadora “aprenda” nuevas reglas por sí misma. Esta forma de clasificación de imágenes puede incluir técnicas como la comparación de plantillas y la umbralización.

La coincidencia de plantillas implica deslizar una imagen de plantilla sobre una imagen de entrada más grande y calcular métricas de similitud en cada posición para encontrar regiones que coincidan con la imagen de plantilla.

La umbralización segmenta las imágenes convirtiendo los valores de píxeles en binarios en función de un valor de corte establecido. Este método diferencia las características del fondo según la intensidad.

Combinadas con el aprendizaje por refuerzo basado en reglas, estas técnicas contribuyen a sistemas de clasificación de imágenes robustos e interpretables. La clasificación basada en reglas se puede completar mediante la implementación de algoritmos k-vecino más cercano o bosque aleatorio.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Vea todos los episodios de Mixture of Experts

Clasificación estadística de imágenes

Este método de clasificación es un poco más complejo que el método de clasificación de imágenes basado en reglas. La clasificación estadística de imágenes está diseñada para aprender y reconocer automáticamente patrones en las imágenes. Para clasificar imágenes de manera eficiente, este método se basa en gran medida en grandes conjuntos de datos etiquetados y arquitecturas poderosas, generalmente redes neuronales convolucionales (CNN). Estas CNN utilizan tres tipos de capas, cada una de las cuales aumenta en complejidad para identificar partes de la imagen. A medida que los datos se mueven a través de las diversas capas de CNN, se reconoce un mayor número de componentes hasta que se puede clasificar la imagen.

Un diagrama detallado que ilustra una red neuronal convolucional (CNN) que procesa una imagen de una cebra.

Diagrama de una red neuronal convolucional (CNN)

Métodos basados en distribución

Las técnicas tradicionales basadas en la distribución se basan en suposiciones claras sobre las propiedades estadísticas de los datos de imagen. Métodos como la estimación de máxima verosimilitud (MLE) y los clasificadores bayesianos analizan las distribuciones de probabilidad de las intensidades de píxeles o características para asignar clases. En la clasificación de imágenes, MLE asigna cada píxel de la imagen a la clase cuyo modelo estadístico explica mejor los datos recopilados. La clasificación bayesiana utiliza el teorema de Bayes para calcular la probabilidad de que una imagen pertenezca a una determinada clase en función del conocimiento previo y los datos recopilados. El teorema permite "invertir" las probabilidades condicionales. Combina las probabilidades previas de las clases con la probabilidad de las características observadas para predecir la clase más probable para un segmento de imagen específico. Estos algoritmos requieren un modelado estadístico de cada clase y realizan una clasificación estimando la probabilidad de que un píxel o segmento específico pertenezca a cada clase en función de estos modelos.

Fórmula para la probabilidad condicional

La estimación de máxima verosimilitud (MLE) es un método estadístico utilizado para estimar los parámetros de un modelo al encontrar los valores que hacen que los datos observados sean más probables. En la clasificación de imágenes, MLE asigna cada píxel o segmento a la clase cuyo modelo estadístico maximiza la probabilidad de generar esos datos observados.

Métodos sin distribución

Las redes neuronales convolucionales (CNN) representan un enfoque más moderno y sin distribución que aprenden características directamente de los datos sin depender de reglas estadísticas claramente establecidas. Las CNN constan de múltiples capas que detectan progresivamente las características de la imagen desde las más simples hasta las más complejas. Utilizan operaciones como convoluciones y agrupaciones. Una convolución es la operación matemática utilizada por la CNN para extraer características de los datos de entrada y las imágenes en este caso. Esta operación utiliza un filtro o kernel que se desliza por la entrada. La agrupación también aplica un filtro a toda la entrada, pero a diferencia de la convolución, este filtro carece de parámetros ponderados. El entrenamiento de CNN requiere grandes conjuntos de datos etiquetados y recursos computacionales, pero a menudo produce una precisión muy mejorada debido a su capacidad para extraer automáticamente características jerárquicas de datos de imágenes sin procesar.

Un gráfico triangular dividido en tres secciones, cada una con íconos de bicicletas estilizados. La pirámide está sombreada en diferentes tonos de azul, creando un efecto degradado. El diseño enfatiza la simplicidad y las formas geométricas, sin texto visible ni valores numéricos.

Diagrama de jerarquía

Una representación visual del filtrado matricial aplicado a una cuadrícula numérica. La imagen de entrada muestra una cuadrícula de 3x3 con números, mientras que el filtro y los resultados muestran el proceso de transformación.

Diagrama de una matriz de red neuronal convolucional (CNN)

Cómo funciona la clasificación estadística de imágenes

Recopilación y preprocesamiento de datos: el primer paso es recopilar un número grande y diverso de imágenes para cada grupo. Los datos deben etiquetarse y luego normalizarse. La normalización y otras técnicas de aumento de datos incluyen cambiar el tamaño de las imágenes a dimensiones fijas, normalizar el valor de los píxeles y más.

Selección del modelo: el siguiente paso en el flujo de trabajo es la selección del modelo. Lo más probable es que la arquitectura seleccionada sea una CNN. Como se mencionó anteriormente, la CNN comienza a detectar características más complejas a medida que los datos se mueven a través de sus capas.

Entrenamiento y validación del modelo: después de la selección, las imágenes etiquetadas se dividen en conjuntos de datos de entrenamiento, conjuntos de datos de validación y conjuntos de datos de prueba. La red utiliza estos conjuntos para optimizar y ajusta repetidamente sus ponderaciones, minimizando los errores entre las etiquetas previstas y las etiquetas reales. La prevención del sobreajuste es asistida por datos de validación y este proceso de entrenamiento puede continuar hasta que los resultados cumplan con un estándar predeterminado.

Durante este paso, se podría aplicar un conjunto de datos de imágenes anotadas por humanos como ImageNet. ImageNet es una colección masiva de más de 14 millones de imágenes. Todas estas imágenes están organizadas y etiquetadas para enseñar a las computadoras a reconocer objetos en imágenes. Cada imagen en la base de datos está etiquetada con categorías específicas llamadas “synsets”. Estos synsets incluyen cosas como "perro", "automóvil" o "manzana" y utilizan una infraestructura llamada WordNet.

Extracción de características: en este paso, a diferencia de la clasificación de imágenes basada en reglas, los modelos de aprendizaje profundo aprenden sus propias características a partir de los datos de imagen sin procesar extraídos. Este enfoque permite a la red establecer representaciones internas para distinguir entre grupos o clases.

Evaluación y despliegue: a continuación, el modelo se evalúa con datos de prueba y se ajusta si es necesario. Luego, el modelo se despliega para hacer predicciones sobre nuevas imágenes en un entorno del mundo real si se cumplen las métricas esperadas.

Modelos y algoritmos de clasificación de imágenes

Se han desarrollado varios modelos y algoritmos para la clasificación de imágenes. Van desde enfoques como K-vecinos más cercanos (KNN), bosques aleatorios y máquinas de vectores de soporte (SVM), hasta arquitecturas como AlexNet, GoogLeNet y ResNet. Cada método ofrece diferentes fortalezas en términos de precisión, escalabilidad y complejidad. Estas opciones permiten a los usuarios elegir entre clasificadores más simples o redes neuronales convolucionales (CNN) altamente sofisticadas que pueden aprender características jerárquicas profundas de las imágenes. Veremos estos algoritmos y modelos con más profundidad.

K-vecino más cercano (KNN): este algoritmo es un clasificador de aprendizaje supervisado que se utiliza ampliamente para tareas de clasificación de imágenes. Funciona utilizando la distancia euclidiana para medir la similitud en los nuevos puntos de datos con todos los demás puntos de datos existentes en cada conjunto de datos. En la clasificación de imágenes, cada imagen se representa primero como un vector de características. Un vector de características puede incluir valores de píxeles sin procesar, histogramas de color o cualquier descriptor numérico que capture características visuales importantes de la imagen. La imagen se clasifica comparándola con las "k" imágenes más similares en el conjunto de entrenamiento etiquetado y asignando la etiqueta más común entre esos vecinos. Luego utiliza la distancia euclidiana, mencionada anteriormente, para medir la similitud.
Bosque aleatorio: otro clasificador de imágenes supervisado conocido por su flexibilidad y facilidad de uso. El algoritmo de clasificación se compone de múltiples árboles de decisión. Cada resultado de estos árboles de decisión se promedia y luego se combina para darnos el resultado final. El bosque aleatorio clasifica las imágenes mediante la creación de un conjunto de muchos árboles de decisión, cada uno entrenado en diferentes imágenes de muestra aleatorias y subconjuntos de características de los datos. Para una nueva imagen, cada árbol predice una etiqueta de clase y la clase con más votos entre todos los árboles se convierte en la clasificación final para esa imagen.
Máquina de vectores de soporte (SVM): comúnmente utilizado para problemas de clasificación, este algoritmo de machine learning funciona identificando el límite ideal para maximizar el margen entre los puntos de datos más cercanos de clases opuestas.
AlexNet: precursor en el mundo de las CNN de aprendizaje profundo, este modelo ganó popularidad debido a su diseño simple, pero de capas profundas. Este modelo utiliza ReLU como función de activación en lugar de sigmoid.
GoogLeNet/Inception: creado por Google, este modelo emplea módulos de inicio. Cada módulo de inicio contiene 4 rutas con diferentes tamaños de filtro, y GoogLeNet tiene 4 módulos de inicio que se ejecutan en paralelo entre sí. Los resultados de cada módulo de inicio se combinan para obtener una salida única. Los investigadores han descubierto que el ajuste en un modelo previamente entrenado, como Inception, ofrece resultados más precisos.
ResNet: este modelo introduce conexiones residuales, o atajos, que permiten que los datos tomen otra ruta y se salten algunas capas de la red. ResNet hizo posible entrenar redes más profundas con un rendimiento exitoso del modelo en redes de hasta 152 capas.
Modelo personalizado de TensorFlow: otra opción es crear modelos desde cero utilizando TensorFlow y Keras. Este enfoque implica la creación de capas como Conv2D, MaxPooling2D y Dense. Además, la creación de las funciones de activación para construir un pipeline de aprendizaje profundo que pueda clasificar imágenes después de completar el entrenamiento en ejemplos etiquetados.

ML tradicional y aprendizaje profundo

Casos de uso de clasificación de imágenes

Industria automotriz: tanto la clasificación de imágenes como la detección de objetos son cada vez más frecuentes en los vehículos. La detección de objetos se utiliza para brindar a los conductores información en tiempo real sobre su entorno. Esta capacidad puede ser útil en áreas desconocidas o de mucho tráfico. La detección eficaz de objetos depende en gran medida de la eficacia de la clasificación de imágenes de esa CNN.

Clasificación de imágenes foliares de enfermedades vegetales: los investigadores desarrollaron un modelo capaz de detectar 13 enfermedades vegetales de hojas sanas. El modelo también es capaz de diferenciar una o más hojas del entorno. Un modelo como este podría ser fundamental para determinar si un entorno se ha infectado con algo como la enfermedad de la hoja de haya (BLD), por ejemplo.

Atención médica e imágenes médicas: la clasificación de imágenes de aprendizaje profundo con CNN puede proporcionar imágenes de radiografías de pulmones infectados con neumonía. Los médicos y técnicos médicos podrían identificar los casos de neumonía de manera más rápida y precisa y, al mismo tiempo, hacerlo de manera rentable.

Conclusión:

La clasificación de imágenes es un componente clave de la visión artificial. Permite que las máquinas den sentido al mundo visual como lo hacen los humanos. Desde los métodos de clasificación de imágenes basados en reglas que dependen de la selección manual de características hasta la clasificación estadística avanzada de imágenes con CNN capaces de reconocer patrones sutiles con alta precisión, este campo continúa evolucionando rápidamente. Su impacto ya se está sintiendo en las industrias de atención médica, automotriz y ambiental por igual. Esta herramienta brinda a los usuarios capacidades de toma de decisiones más rápidas que pueden conducir a una mayor seguridad general. A medida que los modelos de clasificación de imágenes se vuelven más sofisticados, no solo mejorarán las aplicaciones existentes, sino que también abrirán la puerta a posibilidades completamente nuevas.

Ciencia de datos y MLOps para líderes de datos

Una fuerzas con otros líderes para impulsar los tres pilares esenciales de MLOps y la IA confiable: confianza en los datos, confianza en los modelos y confianza en los procesos.

Recursos

Amplíe sus conocimientos de aprendizaje automático (ML)

Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Explicación del machine learning

Techsplainers de IBM desglosa los fundamentos del machine learning, desde conceptos clave hasta casos de uso del mundo real. Los episodios claros y rápidos le ayudan a aprender los fundamentos rápidamente.

Ponga la IA a trabajar: Impulso del retorno de la inversión (ROI) con IA generativa

¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Explorar IBM Granite

IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.

Cómo prosperar en esta nueva era de la IA con confianza y seguridad

Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.

Soluciones relacionadas

IBM Maximo Visual Inspection

Libere el poder de la visión artificial sin código para la automatización de inspecciones visuales.

Explore Maximo Visual Inspection

Consultoría y servicios de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

Explore los servicios de inteligencia artificial

Soluciones de inteligencia artificial

Ponga a trabajar la IA en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA

Dé el siguiente paso

IBM Maximo Visual Inspection pone el poder de las capacidades de IA de visión artificial en manos de sus equipos de inspección y control de calidad. Libere el poder de la visión artificial sin código para la automatización de la inspección visual.

Explore Maximo Visual Inspection

Haga un recorrido del producto

¿Qué es la clasificación de imágenes?