Uma funcionalidade é uma qualidade definível dos itens de um conjunto de dados. Funcionalidades também são conhecidas como variáveis, pois seus valores podem mudar de um ponto de dados para outro e como atributos, pois caracterizam os pontos de dados no conjunto. Diferentes funcionalidades descrevem os dados de maneiras distintas.
As funcionalidades podem ser variáveis independentes, variáveis dependentes que derivam seu valor de variáveis independentes ou atributos combinados compilados a partir de várias outras funcionalidades.
O objetivo da seleção de funcionalidades é identificar as variáveis de entrada mais importantes que o modelo pode usar para prever variáveis dependentes. A variável de destino é a variável dependente que o modelo está encarregado de prever.
Por exemplo, em um banco de dados de funcionários, as funcionalidades de entrada podem incluir idade, localização, salário, cargo, métricas de desempenho e duração do emprego. Um empregador pode usar essas variáveis para gerar um atributo-alvo combinado que represente a probabilidade de um funcionário deixar a empresa por uma oferta melhor. Assim, o empregador pode determinar como incentivar esses funcionários a permanecer.
As funcionalidades podem ser amplamente categorizadas como variáveis numéricas ou categóricas.
Antes que a seleção de funcionalidades ocorra, o processo de extração de funcionalidades transforma dados brutos em funcionalidades numéricas que os modelos de aprendizado de máquina podem usar. A extração de funcionalidade simplifica os dados e reduz os requisitos de computação necessários para processá-los.