Dado que un modelo es tan bueno como los datos en los que se basa, los científicos de datos dedican una gran parte de su tiempo a la preparación de los datos y a la creación de características para crear modelos de alta calidad. Dependiendo de la complejidad de los datos sin procesar y del modelo predictivo deseado, la ingeniería de características puede requerir mucho ensayo y error.
Un puñado de fuentes y tutoriales en línea desglosan la ingeniería de características en distintos pasos, que suelen variar en cuanto a su cantidad y denominación. Estos pasos pueden incluir comprensión, estructuración o construcción, transformación, evaluación y optimización de características, y la lista continúa4. Si bien dicha estratificación puede ser útil para proporcionar una visión general de las tareas involucradas en la ingeniería de características, indica que se trata de un proceso lineal. De hecho, la ingeniería de características es un proceso iterativo.
La ingeniería de características depende del contexto. Requiere un análisis de datos sustancial y conocimiento del dominio. Esto se debe a que la codificación eficaz de las características puede determinarse por el tipo de modelo utilizado, la relación entre los predictores y el resultado, así como por el problema que se pretende abordar con un modelo5. A esto se suma el hecho de que los diferentes tipos de conjuntos de datos, por ejemplo, texto frente a imágenes, pueden ser más adecuados para diferentes técnicas de ingeniería de características6. Por lo tanto, puede ser difícil hacer comentarios específicos sobre cómo implementar mejor la ingeniería de características dentro de un algoritmo de aprendizaje aprendizaje automático.