Coleta e pré-processamento de dados: reunir um número grande e diversificado de imagens para cada grupo é o primeiro passo. Os dados devem ser rotulados e, em seguida, normalizados. A normalização e outras técnicas de aumento de dados incluem o redimensionamento de imagens para dimensões fixas, normalização do valor de pixels e muito mais.
Seleção do modelo: a próxima etapa no fluxo de trabalho é a seleção do modelo. A arquitetura selecionada provavelmente é uma CNN. Como discutido anteriormente, a CNN começa a detectar funcionalidades mais complexas à medida que os dados se movem através de suas camadas.
Treinamento e validação do modelo: após a seleção, as imagens rotuladas são divididas em conjuntos de dados de treinamento, conjuntos de dados de validação e conjuntos de dados de teste. A rede utiliza esses conjuntos para otimizar e ajustar repetidamente seus pesos, minimizando os erros entre os rótulos previstos e os rótulos reais. A prevenção do overfitting é auxiliada por dados de validação e esse processo de treinamento pode continuar até que os resultados atinjam um padrão predeterminado.
Durante essa etapa, um conjunto de dados de imagem anotado por humanos, como o ImageNet, pode ser aplicado. O ImageNet é uma enorme coleção de mais de 14 milhões de imagens. Essas imagens são todas organizadas e rotuladas para ensinar computadores a reconhecer objetos em imagens. Cada imagem no banco de dados é marcada com categorias específicas chamadas "synsets". Esses synsets incluem coisas como "cão", "carro" ou "maçã" e usam um framework chamado WordNet.
Extração de funcionalidades: Nesta etapa, ao contrário da classificação de imagens baseada em regras, os modelos de deep learning aprendem suas próprias funcionalidades a partir dos dados da imagem bruta extraídos. Essa abordagem permite que a rede estabeleça representações internas para distinguir entre grupos ou classes.
Avaliação e implementação: em seguida, o modelo é avaliado com dados de teste e recebe ajuste fino, se necessário. O modelo é, então, implementado para fazer previsões sobre novas imagens em um ambiente do mundo real, se as métricas esperadas forem atendidas.