Recopilación y preprocesamiento de datos: el primer paso es recopilar un número grande y diverso de imágenes para cada grupo. Los datos deben etiquetarse y, a continuación, normalizarse. La normalización y otras técnicas de aumento de datos incluyen el cambio de tamaño de las imágenes a dimensiones fijas, la normalización del valor de los píxeles y mucho más.
Selección del modelo: el siguiente paso en el flujo de trabajo es la selección del modelo. Lo más probable es que la arquitectura seleccionada sea una CNN. Como se ha comentado anteriormente, la CNN comienza a detectar características más complejas a medida que los datos se mueven a través de sus capas.
Entrenamiento y validación del modelo: después de la selección, las imágenes etiquetadas se dividen en conjuntos de datos de entrenamiento, conjuntos de datos de validación y conjuntos de datos de prueba. La red utiliza estos conjuntos para optimizar y ajusta repetidamente sus ponderaciones, minimizando los errores entre las etiquetas predichas y las etiquetas reales. La prevención del sobreajuste se ve asistida por datos de validación y este proceso de entrenamiento puede continuar hasta que los resultados hayan alcanzado un estándar predeterminado.
Durante este paso, se podría aplicar un conjunto de datos de imágenes anotadas por humanos como ImageNet. ImageNet es una colección masiva de más de 14 millones de imágenes. Todas estas imágenes están organizadas y etiquetadas para enseñar a los ordenadores a reconocer objetos en imágenes. Cada imagen de la base de datos está etiquetada con categories específicas llamadas "synsets". Estos synsets incluyen cosas como "perro", "coche" o "manzana" y utilizan un marco llamado WordNet.
Extracción de características: en este paso, a diferencia de la clasificación de imágenes basada en reglas, los modelos de deep learning aprenden sus propias características a partir de los datos de imagen sin procesar extraídos. Este enfoque permite a la red establecer representaciones internas para distinguir entre grupos o clases.
Evaluación e implementación: a continuación, el modelo se evalúa con datos de prueba y se ajusta si es necesario. El modelo se implementa entonces para hacer predicciones sobre nuevas imágenes en un entorno real si se cumplen las métricas esperadas.