Una característica es una cualidad definible de los elementos de un conjunto de datos. También se conocen como variables, porque sus valores pueden cambiar de un punto de datos a otro, y como atributos, porque caracterizan los puntos de datos del conjunto de datos. Los distintos rasgos caracterizan los puntos de datos de diversas maneras.
Las características pueden ser variables independientes, variables dependientes que derivan su valor de variables independientes o atributos combinados que se obtienen a partir de otras múltiples características.
El objetivo de la selección de características es identificar las variables de entrada más importantes que el modelo puede utilizar para predecir las variables dependientes. La variable objetivo es la variable dependiente que el modelo debe predecir.
Por ejemplo, en una base de datos de empleados, las características de entrada pueden incluir la edad, la ubicación, el salario, el cargo, las métricas de rendimiento y la duración del empleo. Un empresario puede utilizar estas variables para generar un atributo combinado objetivo que refleje la probabilidad de que un empleado acepte una oferta mejor. A continuación, el empresario puede determinar cómo motivar a esos empleados para que se queden.
Las características pueden clasificarse en variables numéricas o categóricas.
Antes de proceder a su selección, el proceso de extracción de características transforma los datos sin procesar en características numéricas que los modelos de machine learning pueden utilizar. De este modo, se simplifican los datos y se reducen los requisitos informáticos necesarios para procesarlos.