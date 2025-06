Métodos de filtro são um grupo de técnicas de seleção de funcionalidades que se concentram exclusivamente nos dados, sem considerar diretamente a otimização do desempenho do modelo. As variáveis de entrada são avaliadas independentemente em relação à variável de destino para determinar qual apresenta maior correlação. Métodos que testam funcionalidades uma a uma são conhecidos como métodos de seleção de funcionalidades univariadas.

Frequentemente usados como ferramenta de pré-processamento de dados, os métodos de filtro são algoritmos de seleção de funcionalidades rápidos e eficientes, que se destacam na redução de redundâncias e na remoção de funcionalidades irrelevantes do conjunto de dados. Diversos testes estatísticos são usados para atribuir uma pontuação de correlação a cada variável de entrada. No entanto, outros métodos são mais eficazes na previsão do desempenho do modelo.

Disponíveis em bibliotecas populares de aprendizado de máquina, como a Scikit-Learn (Sklearn), alguns métodos de filtro comuns são:

Ganho de informações: mede a importância da presença ou ausência de uma funcionalidade na determinação da variável de destino, com base no grau de redução da entropia.

Informações mútuas: avalia a dependência entre variáveis, medindo a quantidade de informações obtidas sobre uma variável por meio da outra.

Teste qui-quadrado: avalia a relação entre duas variáveis categóricas, comparando os valores observados com os valores esperados.

Pontuação de Fisher: usa derivadas para calcular a importância relativa de cada funcionalidade para a classificação de dados. Uma pontuação mais alta indica maior influência.

Coeficiente de correlação de Pearson: quantifica a relação entre duas variáveis contínuas, com uma pontuação que varia de -1 a 1.

Limite de variância: remove todas as funcionalidades que se enquadram em um grau mínimo de variância porque as funcionalidades com mais variâncias provavelmente contêm informações mais úteis. Um método relacionado é a diferença absoluta média (MAD).

Relação de valores ausentes: calcula os percentuais de instâncias em um conjunto de dados para as quais uma determinada funcionalidade está ausente ou tem um valor nulo. Se faltar uma funcionalidade em muitas instâncias, é provável que não seja útil.

Taxa de dispersão: a razão entre a variância e o valor médio de uma funcionalidade. Uma maior dispersão indica mais informações.