Las últimas tendencias de IA presentadas por expertos
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
La clasificación de imágenes es el proceso de categorizar o clasificar imágenes en categorías. En machine learning, los modelos aprenden a reconocer y categorizar imágenes.
Los humanos clasifican las imágenes desde una edad temprana. Cuando un maestro les pide a los niños de jardín de infantes que clasifiquen imágenes de plantas y animales en montones, usan las características que aprendieron sobre cada categoría para completar la tarea. Cada una de estas categorías tiene diferentes características que diferencian a las plantas de los animales. Es posible que los adultos no recuerden haber aprendido sobre las características que separan las dos categorías, ya que gran parte de cómo sabemos clasificar es algo natural.
Enseñar a un modelo de inteligencia artificial (IA) a realizar la misma tarea puede ser mucho más difícil. La principal diferencia aquí es que los modelos de IA deben aprender a "ver", mientras que los humanos nacen con esta capacidad. Por lo tanto, los humanos pueden distinguir entre un zapato y un ser vivo desde el principio. La clasificación de imágenes basada en reglas depende de etiquetas o anotaciones para crear estas distinciones. La clasificación estadística de imágenes asume esta misma tarea entrenando modelos para reconocer patrones incrustados en las imágenes, eliminando gran parte del trabajo de etiquetado manual.
La visión artificial se refiere a la rama más general de la IA dentro de la cual se encuentra la clasificación de imágenes. Utiliza machine learning y, a menudo, redes neuronales para permitir que las computadoras interpreten datos visuales, como imágenes y videos. Si bien algunos experimentos con visión artificial podrían haber comenzado ya en la década de 1950, la mayoría de los expertos estarían de acuerdo en que no fue hasta 1970 que comenzó el uso comercial de esta técnica.
La visión por computadora permite a las computadoras extraer datos útiles de lo que ven. Este proceso también les permite responder haciendo recomendaciones o incluso actuando cuando detectan problemas o anomalías en los datos visuales. También dentro de la visión artificial existe el campo del reconocimiento de imágenes. Este término amplio se utiliza para describir la capacidad de una computadora para interpretar una imagen o imágenes. En resumen, la visión artificial es la categoría más amplia y las tareas de reconocimiento de imágenes y, más específicamente, la clasificación de imágenes se encuentran dentro de ella.
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
Este método se basa en un proceso estrictamente desarrollado de recopilación y etiquetado de imágenes para que coincida con la tarea u objetivo de clasificación específico. Este proceso lo completan manualmente expertos que seleccionan las características clave de la imagen que proporcionan la información más visual. La clasificación de imágenes basada en reglas agrupa clústeres de píxeles similares en clases aplicando estas reglas, que se construyen a partir de conocimientos especializados. También permite una clasificación interpretable y personalizable sin depender de modelos complejos de machine learning.
Imagine una caja de fotografías que se le asigna organizar. La colección contiene fotografías de lagos, perros y automóviles. Debido a que no tiene ninguna herramienta de alta tecnología a su disposición con este método, debe crear una lista.
La lista puede ser similar a la siguiente:
Este ejemplo demuestra que la clasificación basada en reglas se basa en reglas y herramientas preestablecidas creadas por humanos. Este método contrasta con dejar que una computadora “aprenda” nuevas reglas por sí misma. Esta forma de clasificación de imágenes puede incluir técnicas como la comparación de plantillas y la umbralización.
La coincidencia de plantillas implica deslizar una imagen de plantilla sobre una imagen de entrada más grande y calcular métricas de similitud en cada posición para encontrar regiones que coincidan con la imagen de plantilla.
La umbralización segmenta las imágenes convirtiendo los valores de píxeles en binarios en función de un valor de corte establecido. Este método diferencia las características del fondo según la intensidad.
Combinadas con el aprendizaje por refuerzo basado en reglas, estas técnicas contribuyen a sistemas de clasificación de imágenes robustos e interpretables. La clasificación basada en reglas se puede completar mediante la implementación de algoritmos k-vecino más cercano o bosque aleatorio.
Este método de clasificación es un poco más complejo que el método de clasificación de imágenes basado en reglas. La clasificación estadística de imágenes está diseñada para aprender y reconocer automáticamente patrones en las imágenes. Para clasificar imágenes de manera eficiente, este método se basa en gran medida en grandes conjuntos de datos etiquetados y arquitecturas poderosas, generalmente redes neuronales convolucionales (CNN). Estas CNN utilizan tres tipos de capas, cada una de las cuales aumenta en complejidad para identificar partes de la imagen. A medida que los datos se mueven a través de las diversas capas de CNN, se reconoce un mayor número de componentes hasta que se puede clasificar la imagen.
Las técnicas tradicionales basadas en la distribución se basan en suposiciones claras sobre las propiedades estadísticas de los datos de imagen. Métodos como la estimación de máxima verosimilitud (MLE) y los clasificadores bayesianos analizan las distribuciones de probabilidad de las intensidades de píxeles o características para asignar clases. En la clasificación de imágenes, MLE asigna cada píxel de la imagen a la clase cuyo modelo estadístico explica mejor los datos recopilados. La clasificación bayesiana utiliza el teorema de Bayes para calcular la probabilidad de que una imagen pertenezca a una determinada clase en función del conocimiento previo y los datos recopilados. El teorema permite "invertir" las probabilidades condicionales. Combina las probabilidades previas de las clases con la probabilidad de las características observadas para predecir la clase más probable para un segmento de imagen específico. Estos algoritmos requieren un modelado estadístico de cada clase y realizan una clasificación estimando la probabilidad de que un píxel o segmento específico pertenezca a cada clase en función de estos modelos.
La estimación de máxima verosimilitud (MLE) es un método estadístico utilizado para estimar los parámetros de un modelo al encontrar los valores que hacen que los datos observados sean más probables. En la clasificación de imágenes, MLE asigna cada píxel o segmento a la clase cuyo modelo estadístico maximiza la probabilidad de generar esos datos observados.
Las redes neuronales convolucionales (CNN) representan un enfoque más moderno y sin distribución que aprenden características directamente de los datos sin depender de reglas estadísticas claramente establecidas. Las CNN constan de múltiples capas que detectan progresivamente las características de la imagen desde las más simples hasta las más complejas. Utilizan operaciones como convoluciones y agrupaciones. Una convolución es la operación matemática utilizada por la CNN para extraer características de los datos de entrada y las imágenes en este caso. Esta operación utiliza un filtro o kernel que se desliza por la entrada. La agrupación también aplica un filtro a toda la entrada, pero a diferencia de la convolución, este filtro carece de parámetros ponderados. El entrenamiento de CNN requiere grandes conjuntos de datos etiquetados y recursos computacionales, pero a menudo produce una precisión muy mejorada debido a su capacidad para extraer automáticamente características jerárquicas de datos de imágenes sin procesar.
Recopilación y preprocesamiento de datos: el primer paso es recopilar un número grande y diverso de imágenes para cada grupo. Los datos deben etiquetarse y luego normalizarse. La normalización y otras técnicas de aumento de datos incluyen cambiar el tamaño de las imágenes a dimensiones fijas, normalizar el valor de los píxeles y más.
Selección del modelo: el siguiente paso en el flujo de trabajo es la selección del modelo. Lo más probable es que la arquitectura seleccionada sea una CNN. Como se mencionó anteriormente, la CNN comienza a detectar características más complejas a medida que los datos se mueven a través de sus capas.
Entrenamiento y validación del modelo: después de la selección, las imágenes etiquetadas se dividen en conjuntos de datos de entrenamiento, conjuntos de datos de validación y conjuntos de datos de prueba. La red utiliza estos conjuntos para optimizar y ajusta repetidamente sus ponderaciones, minimizando los errores entre las etiquetas previstas y las etiquetas reales. La prevención del sobreajuste es asistida por datos de validación y este proceso de entrenamiento puede continuar hasta que los resultados cumplan con un estándar predeterminado.
Durante este paso, se podría aplicar un conjunto de datos de imágenes anotadas por humanos como ImageNet. ImageNet es una colección masiva de más de 14 millones de imágenes. Todas estas imágenes están organizadas y etiquetadas para enseñar a las computadoras a reconocer objetos en imágenes. Cada imagen en la base de datos está etiquetada con categorías específicas llamadas “synsets”. Estos synsets incluyen cosas como "perro", "automóvil" o "manzana" y utilizan una infraestructura llamada WordNet.
Extracción de características: en este paso, a diferencia de la clasificación de imágenes basada en reglas, los modelos de aprendizaje profundo aprenden sus propias características a partir de los datos de imagen sin procesar extraídos. Este enfoque permite a la red establecer representaciones internas para distinguir entre grupos o clases.
Evaluación y despliegue: a continuación, el modelo se evalúa con datos de prueba y se ajusta si es necesario. Luego, el modelo se despliega para hacer predicciones sobre nuevas imágenes en un entorno del mundo real si se cumplen las métricas esperadas.
Se han desarrollado varios modelos y algoritmos para la clasificación de imágenes. Van desde enfoques como K-vecinos más cercanos (KNN), bosques aleatorios y máquinas de vectores de soporte (SVM), hasta arquitecturas como AlexNet, GoogLeNet y ResNet. Cada método ofrece diferentes fortalezas en términos de precisión, escalabilidad y complejidad. Estas opciones permiten a los usuarios elegir entre clasificadores más simples o redes neuronales convolucionales (CNN) altamente sofisticadas que pueden aprender características jerárquicas profundas de las imágenes. Veremos estos algoritmos y modelos con más profundidad.
Industria automotriz: tanto la clasificación de imágenes como la detección de objetos son cada vez más frecuentes en los vehículos. La detección de objetos se utiliza para brindar a los conductores información en tiempo real sobre su entorno. Esta capacidad puede ser útil en áreas desconocidas o de mucho tráfico. La detección eficaz de objetos depende en gran medida de la eficacia de la clasificación de imágenes de esa CNN.
Clasificación de imágenes foliares de enfermedades vegetales: los investigadores desarrollaron un modelo capaz de detectar 13 enfermedades vegetales de hojas sanas. El modelo también es capaz de diferenciar una o más hojas del entorno. Un modelo como este podría ser fundamental para determinar si un entorno se ha infectado con algo como la enfermedad de la hoja de haya (BLD), por ejemplo.
Atención médica e imágenes médicas: la clasificación de imágenes de aprendizaje profundo con CNN puede proporcionar imágenes de radiografías de pulmones infectados con neumonía. Los médicos y técnicos médicos podrían identificar los casos de neumonía de manera más rápida y precisa y, al mismo tiempo, hacerlo de manera rentable.
La clasificación de imágenes es un componente clave de la visión artificial. Permite que las máquinas den sentido al mundo visual como lo hacen los humanos. Desde los métodos de clasificación de imágenes basados en reglas que dependen de la selección manual de características hasta la clasificación estadística avanzada de imágenes con CNN capaces de reconocer patrones sutiles con alta precisión, este campo continúa evolucionando rápidamente. Su impacto ya se está sintiendo en las industrias de atención médica, automotriz y ambiental por igual. Esta herramienta brinda a los usuarios capacidades de toma de decisiones más rápidas que pueden conducir a una mayor seguridad general. A medida que los modelos de clasificación de imágenes se vuelven más sofisticados, no solo mejorarán las aplicaciones existentes, sino que también abrirán la puerta a posibilidades completamente nuevas.