Recopilación y preprocesamiento de datos: el primer paso es recopilar un número grande y diverso de imágenes para cada grupo. Los datos deben etiquetarse y luego normalizarse. La normalización y otras técnicas de aumento de datos incluyen cambiar el tamaño de las imágenes a dimensiones fijas, normalizar el valor de los píxeles y más.
Selección del modelo: el siguiente paso en el flujo de trabajo es la selección del modelo. Lo más probable es que la arquitectura seleccionada sea una CNN. Como se mencionó anteriormente, la CNN comienza a detectar características más complejas a medida que los datos se mueven a través de sus capas.
Entrenamiento y validación del modelo: después de la selección, las imágenes etiquetadas se dividen en conjuntos de datos de entrenamiento, conjuntos de datos de validación y conjuntos de datos de prueba. La red utiliza estos conjuntos para optimizar y ajusta repetidamente sus ponderaciones, minimizando los errores entre las etiquetas previstas y las etiquetas reales. La prevención del sobreajuste es asistida por datos de validación y este proceso de entrenamiento puede continuar hasta que los resultados cumplan con un estándar predeterminado.
Durante este paso, se podría aplicar un conjunto de datos de imágenes anotadas por humanos como ImageNet. ImageNet es una colección masiva de más de 14 millones de imágenes. Todas estas imágenes están organizadas y etiquetadas para enseñar a las computadoras a reconocer objetos en imágenes. Cada imagen en la base de datos está etiquetada con categorías específicas llamadas “synsets”. Estos synsets incluyen cosas como "perro", "automóvil" o "manzana" y utilizan una infraestructura llamada WordNet.
Extracción de características: en este paso, a diferencia de la clasificación de imágenes basada en reglas, los modelos de aprendizaje profundo aprenden sus propias características a partir de los datos de imagen sin procesar extraídos. Este enfoque permite a la red establecer representaciones internas para distinguir entre grupos o clases.
Evaluación y despliegue: a continuación, el modelo se evalúa con datos de prueba y se ajusta si es necesario. Luego, el modelo se despliega para hacer predicciones sobre nuevas imágenes en un entorno del mundo real si se cumplen las métricas esperadas.