Una vez que se ha elegido un modelo, sigue el entrenamiento del modelo. La etapa de entrenamiento implica ejecutar el modelo en datos de entrenamiento específicos para una tarea de visión artificial, medir el rendimiento frente a la verdad fundamental y optimizar los parámetros para mejorar el rendimiento a lo largo del tiempo.
Las CNN constan de tres tipos de capas: una capa convolucional, una capa de agrupación y una capa totalmente conectada. La capa convolucional es donde ocurre la extracción de características. La extracción de características implica determinar y capturar atributos visuales clave a partir de datos de imágenes sin procesar, como colores, bordes, formas y texturas. En el caso de las imágenes de radiografías con neumonía, las características que se extraerán incluyen contornos pulmonares asimétricos, regiones brillantes que indican inflamación o la presencia de líquido (a diferencia de regiones oscuras llenas de aire), áreas pulmonares nubladas u opacas y texturas irregulares.4 La extracción de características permite a los algoritmos distinguir relaciones y patrones significativos en los datos visuales.
Una imagen de radiografía se trata como una matriz de valores de píxeles. Otra matriz de ponderaciones (parámetros que controlan cuánta influencia tiene una característica de entrada determinada en la salida del modelo) conocida como filtro o kernel se aplica a un área de la imagen de radiografía, con un producto de punto calculado entre los valores de píxeles de entrada. El filtro se mueve, o "convoluciona", a través de la imagen para extraer características, y todo el proceso se conoce como convolución. El resultado final de la serie de productos de puntos se denomina mapa de activación o mapa de características. Cada filtro está ajustado para responder a patrones específicos, como bordes, formas o texturas, lo que permite a la CNN aprender múltiples características visuales simultáneamente.
El mapa de características se introduce en una capa de agrupación para reducir aún más el tamaño del mapa y comprimir sus dimensiones. Otro filtro recorre toda la entrada, tomando los valores máximos o promedio dentro de un grupo de celdas en el mapa de características. Esto conserva las características más esenciales, lo que permite que el modelo centre su atención en ellas.
El acto de moverse a través de una imagen para extraer características, reducir dimensiones y producir una clasificación se conoce como pase hacia adelante. Después de este pase hacia adelante, el modelo aplica una función de pérdida para calcular su error o la diferencia entre su clasificación prevista y la clasificación real.
Para minimizar la función de pérdida, se emplea la retropropagación. La retropropagación es un pase hacia atrás para calcular el gradiente de la función de pérdida con respecto a cada ponderación. Luego, se implementa la técnica de descenso del gradiente para actualizar las ponderaciones del modelo y optimizarlo.
Finalmente, la capa totalmente conectada realiza la tarea de clasificación en función de las características extraídas a través de las capas anteriores y sus diferentes filtros. Luego, la CNN genera sus resultados, que son probabilidades para cada clase (en este caso, normal frente a neumonía). Para la tarea de clasificación de imágenes de radiografías de tórax, esta salida indicará una exploración normal o, si la probabilidad supera un umbral predeterminado, una exploración positiva para neumonía.