¿Qué es la clasificación de imágenes?

La clasificación de imágenes es el proceso de categorizar o clasificar imágenes en categorías. En el machine learning, los modelos aprenden a reconocer y categorizar imágenes.

Los humanos clasifican las imágenes a una edad temprana. Cuando un maestro pide a los niños de jardín de infancia que clasifiquen imágenes de plantas y animales en pilas, utilizan las características que han aprendido sobre cada categoría para completar la tarea. Cada una de estas categorías tiene características diferentes que diferencian las plantas de los animales. Es posible que los adultos no recuerden haber aprendido sobre las características distintas que separan las dos categorías, ya que gran parte de cómo sabemos clasificar es algo natural.

Enseñar a un modelo de inteligencia artificial (IA) a hacer la misma tarea puede ser mucho más difícil. La principal diferencia aquí es que los modelos de IA deben aprender a "ver", mientras que los humanos nacen con esta capacidad. Por lo tanto, los humanos pueden distinguir entre un zapato y un ser vivo desde el principio. La clasificación de imágenes basada en reglas depende de etiquetas o anotaciones para crear estas distinciones. La clasificación estadística de imágenes asume esta misma tarea entrenando modelos para reconocer patrones incrustados en las imágenes, eliminando gran parte del trabajo de etiquetado manual.

¿Qué es la visión artificial?

La visión artificial se refiere a la rama más general de la IA dentro de la cual se incluye la clasificación de imágenes. Utiliza el machine learning y, a menudo, las redes neuronales para permitir que los ordenadores interpreten datos visuales como imágenes y vídeos. Aunque algunos experimentos con visión artificial podrían haber comenzado ya en la década de 1950, la mayoría de los expertos estarían de acuerdo en que no fue hasta 1970 cuando comenzó el uso comercial de esta técnica.

La visión artificial permite a los ordenadores extraer datos útiles de lo que ven. Este proceso también les permite responder haciendo recomendaciones o incluso actuar cuando detectan problemas o anomalías en los datos visuales. Dentro de la visión artificial también existe el campo del reconocimiento de imágenes. Este término amplio se utiliza para describir la capacidad de un ordenador para interpretar una imagen o imágenes. En resumen, la visión artificial es la categoría más amplia y las tareas de reconocimiento de imágenes y, más concretamente, la clasificación de imágenes anidan en ella.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

Tipos de clasificación de imágenes

Clasificación de imágenes basada en reglas

Este método se basa en un proceso estrictamente desarrollado de recopilación y etiquetado de imágenes para que coincida con la tarea u objetivo de clasificación específico. Este proceso lo completan manualmente expertos que seleccionan las características clave de la imagen que proporcionan la información más visual. La clasificación de imágenes basada en reglas agrupa clústeres de píxeles similares en clases aplicando estas reglas, que se construyen a partir de conocimientos especializados. También permite una clasificación interpretable y personalizable sin depender de complejos modelos de machine learning.

Imagínese que se le asigna la organización de una caja de fotografías. La colección contiene fotografías de lagos, perros y coches. Dado que no dispone de herramientas de alta tecnología con este método, debe crear una lista.

La lista puede ser similar a la siguiente:

Para "coches", busque neumáticos, puertas y espejos laterales".
Para "perros", busque orejas caídas, colas que se mueven y narices largas.
Para "lagos", busque fotos con mucha agua y orillas.

Este ejemplo demuestra que la clasificación basada en reglas se basa en reglas y herramientas preestablecidas creadas por humanos. Este método contrasta con dejar que un ordenador "aprenda" nuevas reglas por sí mismo. Esta forma de clasificación de imágenes puede incluir técnicas como la coincidencia de plantillas y la definición de umbrales.

La coincidencia de plantillas implica deslizar una imagen de plantilla sobre una imagen de entrada más grande y calcular métricas de similitud en cada posición para encontrar regiones que coincidan con la imagen de plantilla.

La definición de umbrales segmenta las imágenes convirtiendo los valores de píxeles en binarios en función de un valor de corte establecido. Este método diferencia las características del fondo según la intensidad.

Combinadas con el aprendizaje por refuerzo basado en reglas, estas técnicas contribuyen a sistemas de clasificación de imágenes robustos e interpretables. La clasificación basada en reglas se puede completar implementando algoritmos de k vecino más cercano o de bosque aleatorio.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Vea todos los episodios de Mixture of Experts

Clasificación estadística de imágenes

Este método de clasificación es un poco más complejo que el método de clasificación de imágenes basado en reglas. La clasificación estadística de imágenes está diseñada para aprender y reconocer automáticamente patrones en las imágenes. Para clasificar las imágenes de manera eficiente, este método se basa en gran medida en grandes conjuntos de datos etiquetados y potentes arquitecturas, normalmente redes neuronales convolucionales (CNN). Estas CNN utilizan tres tipos de capas, cada una de las cuales aumenta en complejidad para identificar partes de la imagen. A medida que los datos se mueven a través de las distintas capas de la CNN, se reconoce un mayor número de componentes hasta que se puede clasificar la imagen.

Un diagrama detallado que ilustra una red neuronal convolucional (CNN) procesando una imagen de una cebra.

Diagrama de una red neuronal convolucional (CNN)

Métodos basados en distribución

Las técnicas tradicionales basadas en la distribución se basan en suposiciones claras sobre las propiedades estadísticas de los datos de imagen. Métodos como la estimación de máxima verosimilitud (MLE) y los clasificadores bayesianos analizan las distribuciones de probabilidad de las intensidades de píxeles o las características para asignar clases. En la clasificación de imágenes, la MLE asigna cada píxel de la imagen a la clase cuyo modelo estadístico explica mejor los datos recopilados. La clasificación bayesiana utiliza el teorema de Bayes para calcular la probabilidad de que una imagen pertenezca a una determinada clase en función del conocimiento previo y los datos recopilados. El teorema permite "invertir" las probabilidades condicionales. Combina las probabilidades previas de las clases con la probabilidad de las características observadas para predecir la clase más probable para un segmento de imagen específico. Estos algoritmos requieren un modelado estadístico de cada clase y realizan una clasificación estimando la probabilidad de que un píxel o segmento específico pertenezca a cada clase basándose en estos modelos.

Fórmula para la probabilidad condicional

La estimación de máxima verosimilitud (MLE) es un método estadístico utilizado para estimar los parámetros de un modelo encontrando los valores que hacen que los datos observados sean más probables. En la clasificación de imágenes, la MLE asigna cada píxel o segmento a la clase cuyo modelo estadístico maximiza la probabilidad de generar esos datos observados.

Métodos sin distribución

Las redes neuronales convolucionales (CNN) representan un enfoque más moderno y sin distribución que aprenden características directamente de los datos sin depender de reglas estadísticas claramente establecidas. Las CNN constan de varias capas que detectan progresivamente las características de la imagen, desde las más simples hasta las más complejas. Utilizan operaciones como las convoluciones y el agrupamiento. Una convolución es la operación matemática utilizada por la CNN para extraer características de los datos e imágenes de entrada en este caso. Esta operación utiliza un filtro o núcleo que se desliza por la entrada. La agrupación también aplica un filtro a toda la entrada, pero a diferencia de la convolución, este filtro carece de parámetros ponderados. El entrenamiento de las CNN requiere grandes conjuntos de datos etiquetados y recursos computacionales, pero a menudo proporciona una precisión enormemente mejorada gracias a su capacidad para extraer automáticamente características jerárquicas de los datos sin procesar de las imágenes.

Un gráfico triangular dividido en tres secciones, cada una con iconos de bicicletas estilizados. La pirámide está sombreada en diferentes tonos de azul, creando un efecto degradado. El diseño enfatiza la simplicidad y las formas geométricas, sin texto visible ni valores numéricos.

Diagrama de jerarquía

Una representación visual del filtrado matricial aplicado a una cuadrícula numérica. La imagen de entrada muestra una cuadrícula de 3x3 con números, mientras que el filtro y la matriz de salida muestran el proceso de transformación.

Diagrama de una matriz de red neuronal convolucional (CNN)

Cómo funciona la clasificación estadística de imágenes

Recopilación y preprocesamiento de datos: el primer paso es recopilar un número grande y diverso de imágenes para cada grupo. Los datos deben etiquetarse y, a continuación, normalizarse. La normalización y otras técnicas de aumento de datos incluyen el cambio de tamaño de las imágenes a dimensiones fijas, la normalización del valor de los píxeles y mucho más.

Selección del modelo: el siguiente paso en el flujo de trabajo es la selección del modelo. Lo más probable es que la arquitectura seleccionada sea una CNN. Como se ha comentado anteriormente, la CNN comienza a detectar características más complejas a medida que los datos se mueven a través de sus capas.

Entrenamiento y validación del modelo: después de la selección, las imágenes etiquetadas se dividen en conjuntos de datos de entrenamiento, conjuntos de datos de validación y conjuntos de datos de prueba. La red utiliza estos conjuntos para optimizar y ajusta repetidamente sus ponderaciones, minimizando los errores entre las etiquetas predichas y las etiquetas reales. La prevención del sobreajuste se ve asistida por datos de validación y este proceso de entrenamiento puede continuar hasta que los resultados hayan alcanzado un estándar predeterminado.

Durante este paso, se podría aplicar un conjunto de datos de imágenes anotadas por humanos como ImageNet. ImageNet es una colección masiva de más de 14 millones de imágenes. Todas estas imágenes están organizadas y etiquetadas para enseñar a los ordenadores a reconocer objetos en imágenes. Cada imagen de la base de datos está etiquetada con categories específicas llamadas "synsets". Estos synsets incluyen cosas como "perro", "coche" o "manzana" y utilizan un marco llamado WordNet.

Extracción de características: en este paso, a diferencia de la clasificación de imágenes basada en reglas, los modelos de deep learning aprenden sus propias características a partir de los datos de imagen sin procesar extraídos. Este enfoque permite a la red establecer representaciones internas para distinguir entre grupos o clases.

Evaluación e implementación: a continuación, el modelo se evalúa con datos de prueba y se ajusta si es necesario. El modelo se implementa entonces para hacer predicciones sobre nuevas imágenes en un entorno real si se cumplen las métricas esperadas.

Modelos y algoritmos de clasificación de imágenes

Se han desarrollado varios modelos y algoritmos para la clasificación de imágenes. Van desde enfoques como k vecinos más cercanos (KNN), bosques aleatorios y máquinas de vectores de soporte (SVM), hasta arquitecturas como AlexNet, GoogLeNet y ResNet. Cada método ofrece diferentes puntos fuertes en términos de precisión, escalabilidad y complejidad. Estas opciones permiten a los usuarios elegir entre clasificadores más simples o redes neuronales convolucionales (CNN) altamente sofisticadas que pueden aprender características jerárquicas profundas de las imágenes. Veremos estos algoritmos y modelos con más profundidad.

K vecino más cercano (KNN): este algoritmo es un clasificador de aprendizaje supervisado que se utiliza ampliamente para tareas de clasificación de imágenes. Funciona utilizando la distancia euclidiana para medir la similitud de los nuevos puntos de datos con todos los demás puntos de datos existentes en cada conjunto de datos. En la clasificación de imágenes, cada imagen se representa primero como un vector de características. Un vector de características puede incluir valores de píxeles sin procesar, histogramas de color o cualquier descriptor numérico que capture características visuales importantes de la imagen. La imagen se clasifica comparándola con las "k" imágenes más similares del conjunto de entrenamiento etiquetado y asignando la etiqueta más común entre esos vecinos. A continuación, utiliza la distancia euclidiana, mencionada anteriormente, para medir la similitud.
Bosque aleatorio: otro clasificador de imágenes supervisado conocido por su flexibilidad y facilidad de uso. El algoritmo de clasificación se compone de múltiples árboles de decisión. Cada resultado de estos árboles de decisión se promedia y luego se combina para darnos el resultado final. El bosque aleatorio clasifica las imágenes mediante la creación de un conjunto de muchos árboles de decisión, cada uno entrenado con diferentes imágenes de muestra aleatorias y subconjuntos de características de los datos. Para una nueva imagen, cada árbol predice una etiqueta de clase y la clase con más votos entre todos los árboles se convierte en la clasificación final para esa imagen.
Máquina de vectores de soporte (SVM): utilizado habitualmente para problemas de clasificación, este algoritmo de machine learning funciona identificando el límite ideal para maximizar el margen entre los puntos de datos más cercanos de clases opuestas.
AlexNet: precursor en el mundo de las CNN de deep learning, este modelo ganó popularidad debido a su diseño simple pero profundo. Este modelo utiliza ReLU como función de activación en lugar de sigmoid.
GoogLeNet/Inception: creado por Google, este modelo emplea módulos de inicio. Cada módulo de inicio contiene 4 rutas con diferentes tamaños de filtro, y GoogLeNet tiene 4 módulos de inicio que se ejecutan en paralelo entre sí. A continuación, los resultados de cada módulo inicial se combinan para obtener un único resultado. Los investigadores han descubierto que el ajuste fino en un modelo preentrenado, como Inception, proporciona resultados más precisos.
ResNet: este modelo introduce conexiones residuales, o atajos, que permiten a los datos tomar otra ruta y omitir algunas capas de la red. ResNet hizo posible entrenar redes más profundas con un rendimiento eficaz del modelo en redes de hasta 152 capas.
Modelo personalizado de TensorFlow: otra opción es crear modelos desde cero utilizando TensorFlow y Keras. Este enfoque implica la creación de capas como MaxPoolingooling2D y Dense. También se ha completado la construcción de las funciones de activación para crear un pipeline de deep learning capaz de clasificar imágenes tras el entrenamiento con ejemplos etiquetados.

ML tradicional y deep learning

Casos de uso de clasificación de imágenes

Industria de la automoción: tanto la clasificación de imágenes como la detección de objetos son cada vez más frecuentes en los vehículos. La detección de objetos se utiliza para ofrecer a los conductores información en tiempo real sobre su entorno. Esta capacidad puede ser útil en áreas desconocidas o de mucho tráfico. La detección eficaz de objetos depende en gran medida de la eficacia de la clasificación de imágenes de esa CNN.

Clasificación de imágenes de hojas de enfermedades de las plantas: los investigadores han desarrollado un modelo capaz de detectar 13 enfermedades de las plantas de hojas sanas. El modelo también es capaz de diferenciar una hoja u hojas del entorno. Un modelo como este podría ser fundamental para determinar si un entorno se ha infectado con algo como la enfermedad de la hoja de haya (BLD), por ejemplo.

Sanidad e imágenes médicas: la clasificación de imágenes de deep learning con CNN puede proporcionar imágenes de rayos X de pulmones infectados con neumonía. Los médicos y los técnicos sanitarios podrían identificar los casos de neumonía de forma más rápida y precisa, a la vez que lo hacen de forma rentable.

Conclusión:

La clasificación de imágenes es un componente clave de la visión artificial. Permite a las máquinas dar sentido al mundo visual como lo hacen los humanos. Desde los métodos de clasificación de imágenes basados en reglas que se basan en la selección manual de características hasta la clasificación estadística avanzada de imágenes con CNN capaces de reconocer patrones sutiles con gran precisión, este campo sigue evolucionando rápidamente. Su impacto ya se está sintiendo en los sectores sanitario, automovilístico y medioambiental por igual. Esta herramienta capacita a los usuarios con capacidades de toma de decisiones más rápidas que pueden conducir a una mayor seguridad general. A medida que los modelos de clasificación de imágenes se vuelvan más sofisticados, no solo mejorarán las aplicaciones existentes, sino que también abrirán la puerta a posibilidades completamente nuevas.

Ciencia de datos y MLOps para líderes de datos

Únase a otros líderes para impulsar los tres pilares esenciales del MLOps y la IA fiable: confianza en los datos, confianza en los modelos y confianza en los procesos.

Recursos

Amplíe sus conocimientos de ML

Aprenda los conceptos fundamentales y desarrolle sus habilidades con laboratorios prácticos, cursos, proyectos guiados, pruebas y mucho más.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.

Explicación del machine learning

Techsplainers de IBM desglosa los fundamentos del machine learning, desde los conceptos clave hasta los casos de uso del mundo real. Los episodios claros y rápidos le ayudan a aprender los fundamentos rápidamente.

Ponga la IA a trabajar: cómo impulsar el ROI con la IA generativa

¿Quiere obtener un mayor rendimiento de sus inversiones en IA? Descubra cómo escalar la IA generativa en áreas clave impulsa el cambio ayudando a sus mentes más brillantes a crear y ofrecer nuevas soluciones innovadoras.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Explore IBM Granite

IBM® Granite es nuestra familia de modelos de IA abiertos, eficaces y de confianza, adaptados para la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de lenguaje, código, series temporales y límites de protección.

Cómo prosperar en la era de la IA con seguridad y confianza

Profundice en los tres elementos cruciales de una estrategia de IA sólida: crear una ventaja competitiva, ampliar la IA en toda la empresa y promover una IA fiable.

Soluciones relacionadas

IBM Maximo Visual Inspection

Aproveche todo el potencial de la visión artificial no-code para la automatización de la inspección visual.

Explore Maximo Visual Inspection

Servicios y consultoría de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la manera de trabajar de las empresas usando IA para la transformación.

Explore los servicios de inteligencia artificial

Soluciones de inteligencia artificial

Ponga la IA al servicio de su negocio con la experiencia líder del sector y el portfolio de soluciones de IBM.

Explore las soluciones de IA

Dé el siguiente paso

IBM Maximo Visual Inspection pone el poder de las capacidades de IA de visión artificial en manos de sus equipos de control de calidad e inspección. Libere el poder de la visión artificial no-code para la automatización de la inspección visual.

¿Qué es la clasificación de imágenes?