Una vez elegido un modelo, sigue el entrenamiento del mismo. La etapa de entrenamiento implica ejecutar el modelo con datos de entrenamiento específicos para una tarea de visión artificial, medir el rendimiento con respecto a la verdad sobre el terreno y optimizar los parámetros para mejorar el rendimiento a lo largo del tiempo.
Las CNN constan de tres tipos de capas: una capa convolucional, una capa de agrupamiento y una capa totalmente conectada. La capa convolucional es donde ocurre la extracción de características. La extracción de características implica determinar y capturar atributos visuales clave a partir de datos de imágenes sin procesar, como colores, bordes, formas y texturas. En el caso de las imágenes de rayos X con neumonía, las características que deben extraerse incluyen contornos pulmonares asimétricos, regiones brillantes que indican inflamación o la presencia de líquido (en lugar de regiones oscuras llenas de aire), áreas pulmonares nubladas u opacas y o texturas irregulares4. La extracción de características permite a los algoritmos distinguir relaciones y patrones significativos en los datos visuales.
Una imagen de rayos X se trata como una matriz de valores de píxeles. Otra matriz de ponderaciones (parámetros que controlan cuánta influencia tiene una característica de entrada determinada en el resultado del modelo) conocida como filtro o núcleo se aplica a un área de la imagen de rayos X, con un producto escalar calculado entre los valores de píxeles de entrada. El filtro se mueve, o "convoluciona", a través de la imagen para extraer características, y todo el proceso se conoce como convolución. El resultado final de la serie de productos escalares se denomina mapa de activación o mapa de característica. Cada filtro se ajusta para responder a patrones específicos, como bordes, formas o texturas, lo que permite a la CNN aprender múltiples características visuales simultáneamente.
El mapa de características se introduce en una capa de agrupamiento para reducir aún más el tamaño del mapa y comprimir sus dimensiones. Otro filtro barre toda la entrada, tomando los valores máximos o promedio dentro de un grupo de celdas en el mapa de características. Esto conserva las características más esenciales, lo que permite que el modelo centre su atención en ellas.
El acto de moverse por una imagen para extraer características, reducir dimensiones y producir una clasificación se conoce como propagación hacia adelante. Después de esta propagación hacia adelante, el modelo aplica una función de pérdida para calcular su error o la diferencia entre su clasificación prevista y la clasificación real.
Para minimizar la función de pérdida, se emplea la retropropagación. La retropropagación es una propagación hacia atrás para calcular el gradiente de la función de pérdida con respecto a cada peso. A continuación, se implementa la técnica de descenso de gradiente para actualizar las ponderaciones del modelo y optimizarlo.
Por último, la capa totalmente conectada realiza la tarea de clasificación en función de las características extraídas a través de las capas anteriores y sus diferentes filtros. A continuación, la CNN genera sus resultados, que son probabilidades para cada clase (en este caso, normal frente a neumonía). Para la tarea de clasificación de imágenes de rayos X de tórax, este resultado indicará una exploración normal o, si la probabilidad supera un umbral predeterminado, una exploración positiva para neumonía.