As técnicas de aprendizado supervisionado usam um conjunto de dados de treinamento rotulado para entender as relações entre entradas e dados de saída. Cientistas de dados criam manualmente conjuntos de dados de treinamento de verdade fundamental contendo dados de entrada junto com os rótulos correspondentes. O aprendizado supervisionado treina o modelo para aplicar as saídas corretas a dados não vistos em casos de uso do mundo real.
Durante o treinamento, o algoritmo do modelo processa grandes conjuntos de dados para explorar possíveis correlações entre entradas e saídas. Em seguida, o desempenho do modelo é avaliado com dados de teste para descobrir se ele foi treinado com sucesso. A validação cruzada é o processo de testar um modelo usando uma parte diferente do conjunto de dados.
A família de algoritmos de gradiente descendente, incluindo o gradiente descendente estocástico (SGD), são os algoritmos de otimização, ou algoritmos de aprendizado, mais comumente usados ao treinar redes neurais e outros modelos de aprendizado de máquina. O algoritmo de otimização do modelo avalia a exatidão por meio da função de perda: uma equação que mede a discrepância entre as previsões do modelo e os valores reais.
A função de perda mede o quanto as previsões estão distantes dos valores reais. Seu gradiente indica a direção na qual os parâmetros do modelo devem ser ajustados para reduzir o erro. Durante o treinamento, o algoritmo de otimização atualiza os parâmetros do modelo (suas regras operacionais, ou "configurações") para otimizar o modelo.
Como grandes conjuntos de dados normalmente contêm muitas funcionalidades, os cientistas de dados podem simplificar essa complexidade por meio da redução da dimensionalidade. Essa técnica de ciência de dados reduz o número de funcionalidades para as mais cruciais para prever os rótulos de dados, o que preserva a exatidão e aumenta a eficiência.