Funcionalidades ou variáveis de dados são os atributos de um conjunto de dados que os modelos de aprendizado de máquina usam para tomar decisões e fazer previsões. Por exemplo, para um modelo de visão computacional criado para identificar espécies vegetais, as funcionalidades de dados podem incluir o formato e a cor da folha.
A engenharia de funcionalidades é o processo transformador pelo qual um cientista de dados extrai novas informações dos dados de entrada e as prepara para o aprendizado de máquina. Uma boa engenharia e seleção de funcionalidades podem determinar a diferença entre um desempenho aceitável e de alta qualidade do modelo.
A engenharia de funcionalidades automatizada automatiza o processo de exploração do espaço de funcionalidades, preenchendo os missing values e selecionando as funcionalidades a serem usadas. Criar manualmente uma única funcionalidade pode levar horas, e o número de funcionalidades necessárias para um mínimo de precisão (sem mencionar uma linha de base de precisão de nível de produção) pode chegar a centenas. A engenharia de funcionalidades automatizada reduz essa fase de dias para minutos.
Além dos benefícios de eficiência, a eficiência de funcionalidades automatizada também aumenta a explicabilidade da IA, importante para setores rigorosamente regulamentados, como saúde ou finanças. A maior clareza das funcionalidades torna os modelos mais atraentes e praticáveis, ao descobrir novos KPIs organizacionais.