Selección de modelos en machine learning

Autores

Staff writer

Staff Editor, AI Models

IBM Think

¿Qué es la selección de modelos en el machine learning?

La selección de modelos en machine learning es el proceso de escoger el modelo de machine learning (ML) más adecuado para la tarea seleccionada. El modelo seleccionado suele ser aquel que mejor se generaliza a datos no vistos y que, al mismo tiempo, cumple con mayor éxito las métricas de rendimiento relevantes.

El proceso de selección de modelos de ML consiste en comparar diferentes modelos entre sí. Los especialistas en esta disciplina evalúan el rendimiento de cada modelo y, a continuación, eligen el mejor basándose en un conjunto de métricas de evaluación.

La clave de la mayoría de las tareas de machine learning consiste en reconocer patrones en los datos y, a continuación, realizar predicciones sobre nuevos datos basándose en dichos patrones. Elegir el modelo predictivo que mejor rendimiento ofrezca permite obtener predicciones más precisas y una aplicación de ML más fiable.

Boletín del sector

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¿Por qué es importante la selección del modelo?

La elección del modelo de IA es importante, ya que determina el rendimiento del sistema de machine learning. Cada modelo tiene sus puntos fuertes y débiles, por lo que elegir el adecuado es fundamental para el éxito del proyecto. La selección del modelo es una de las primeras etapas del pipeline general de machine learning para crear e implementar modelos de ML.

Algunas tareas requieren modelos complejos que puedan capturar los detalles de un gran conjunto de datos, pero que pueden tener dificultades para generalizarse a nuevos datos. También pueden requerir más recursos y capacidad de cálculo. Otras tareas se adaptan mejor a modelos más pequeños y sencillos, diseñados para un propósito específico.

Elegir el modelo adecuado para el trabajo puede:

Optimizar la eficiencia: el más sólido de todos los modelos candidatos equilibrará el compromiso entre rendimiento y generalizabilidad con la complejidad y el uso de recursos.
Maximizar el rendimiento del modelo: una herramienta solo es tan eficaz como la tarea para la que se utiliza. Probar y evaluar los modelos candidatos permite descubrir cuál es el más eficaz para la tarea, lo que aumenta las posibilidades de que la aplicación de IA sea viable en el mundo real.
Impulsar el éxito del proyecto: la complejidad del modelo afecta directamente al tiempo de formación y a los requisitos de recursos, así como a los resultados. Los modelos predictivos van de lo simple a lo complejo. Los modelos más simples son más rápidos y económicos de entrenar, mientras que los modelos complejos requieren más datos, dinero y tiempo.

AI Academy

Conviértase en un experto en IA

Obtenga los conocimientos necesarios para priorizar las inversiones en IA que impulsan el crecimiento empresarial. Dé sus primeros pasos hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

Vea la serie

El proceso de selección de modelos

El proceso de selección de modelos está diseñado para producir un modelo que se ajuste a la medida del caso de uso objetivo. Los especialistas en machine learning describen el problema, eligen los modelos que probablemente funcionen mejor y, por último, entrenan y prueban los modelos candidatos para identificar la mejor opción.

Las etapas del proceso de selección de modelos suelen incluir:

Establecer el reto de ML
Elegir los modelos candidatos
Determinar las métricas de evaluación de los modelos
Entrenar y evaluar los modelos

Establecer el reto del ML

En función de la naturaleza de la tarea, algunos algoritmos de machine learning son mejores opciones que otros. Los desafíos del ML generalmente se dividen en tres categorías:

Los problemas de regresión encomiendan a los modelos la tarea de identificar las relaciones entre las características de entrada y una variable de salida continua seleccionada, como un precio. Algunos ejemplos de problemas de regresión son la predicción de referencias salariales o la probabilidad de que se produzcan catástrofes naturales en función de las condiciones meteorológicas. Las predicciones del modelo se basan en características de entrada relevantes, como la época del año o la información demográfica. La previsión de series temporales es un tipo de reto de regresión que predice el valor de una variable a lo largo del tiempo. Los modelos de series temporales son una clase de modelo eficiente desde el punto de vista computacional especializada en este reto.
Los problemas de clasificación ordenan los puntos de datos en categorías basadas en un conjunto de variables de entrada. Algunos ejemplos de problemas de clasificación son el reconocimiento de objetos y los filtros de correo electrónico no deseado. El conjunto de entrenamiento puede incluir puntos de datos con resultados etiquetados para que el modelo pueda aprender la asociación entre entradas y resultados. Esta práctica se conoce como aprendizaje supervisado.
Los problemas de clustering agrupan puntos de datos en función de las similitudes. El clustering no es exactamente lo mismo que la clasificación, ya que el objetivo es descubrir grupos dentro de los puntos de datos, en lugar de clasificar dichos puntos en categorías conocidas. Los modelos deben discernir similitudes por sí mismos en un entorno de aprendizaje no supervisado. La segmentación del mercado es un ejemplo de reto de clustering.

Determinación de métricas de evaluación del modelo

El proceso de prueba compara los modelos candidatos y evalúa su rendimiento en función de un conjunto de métricas de evaluación preseleccionadas. Si bien existen muchas métricas, algunas son mejores para ciertos tipos de desafíos de ML que otras.

Las métricas de evaluación de modelos para la clasificación incluyen:

Exactitud: el porcentaje de predicciones correctas sobre el total de predicciones realizadas.
Precisión: la proporción de predicciones positivas verdaderas entre todas las predicciones positivas, que mide la exactitud de estas.
Exhaustividad: la proporción de predicciones positivas verdaderas entre todas las instancias positivas reales, que mide la destreza del modelo en la identificación de instancias positivas.
Puntuación F1: combina la precisión y la exhaustividad para obtener una visión general de la capacidad del modelo para reconocer y clasificar correctamente las instancias positivas.
Matriz de confusión: resume el rendimiento de un modelo clasificador mostrando los verdaderos positivos, los falsos positivos, los verdaderos negativos y los falsos negativos en una tabla.
AUC-ROC: un gráfico que traza las tasas de verdaderos positivos y falsos positivos como una curva característica operativa del receptor (ROC). El área bajo la curva (AUC) muestra el rendimiento del modelo.

Las métricas de evaluación de regresión incluyen:

Error cuadrático medio (MSE): promedia la diferencia entre los cuadrados de las diferencias entre los valores previstos y los reales. El MSE es muy sensible a los valores atípicos y penaliza gravemente los errores grandes.
Raíz del error cuadrático medio (RMSE): la raíz cuadrada del MSE, que muestra el índice de error en las mismas unidades que la variable y aumenta la interpretabilidad de la métrica. El MSE muestra el mismo error en unidades al cuadrado.
Error absoluto medio (MAE): la media de las diferencias entre los valores reales y practicados para la variable objetivo. El MAE es menos sensible que el MSE.
Error porcentual absoluto medio (MAPE): transmite el error absoluto medio como un porcentaje en lugar de en las unidades de la variable predicha, lo que facilita la comparación de modelos.
R-cuadrado: proporciona una medida de referencia del rendimiento del modelo entre 0 y 1. Sin embargo, el valor r-cuadrado puede inflarse artificialmente al añadir más características.
R-cuadrado ajustado: refleja las contribuciones de las características que mejoran el rendimiento del modelo, e ignoran las características irrelevantes.

Capacitación y evaluación de modelos

Los científicos de datos se preparan para el entrenamiento y la evaluación de modelos mediante la división los datos disponibles en varios conjuntos. El conjunto de datos de entrenamiento se utiliza para el entrenamiento de modelos, durante el cual los modelos candidatos aprenden a reconocer patrones y relaciones en los puntos de datos. A continuación, se comprueba el rendimiento del modelo con una parte diferente del conjunto de datos.

La forma más sencilla y rápida de hacer pruebas es dividirlas en dos: entrenamiento y prueba. Los científicos de datos dividen el conjunto de datos en dos partes, una para el entrenamiento y otra para las pruebas. El modelo no se expone a la división de prueba hasta después del entrenamiento: el conjunto de prueba sirve como sustituto de los nuevos datos no vistos que el modelo procesará en el mundo real.

Técnicas de selección de modelos

Los creadores de modelos tienen acceso a una amplia gama de técnicas de selección de modelos. Algunos se refieren a la configuración inicial y la arquitectura del modelo, lo que a su vez influye en su comportamiento. Otros proporcionan una evaluación más matizada y rigurosa del modelo o predicen cómo se comportarán los modelos en un conjunto de datos específico.

Las técnicas de selección de modelos incluyen:

Ajuste de hiperparámetros
Validación cruzada
Bootstrapping
Criterios de información

Ajuste de hiperparámetros

El ajuste de hiperparámetros es el proceso de optimización de los hiperparámetros de un modelo, que son ajustes externos que determinan la estructura y el comportamiento del modelo. Los modelos también tienen parámetros internos que se actualizan en tiempo real durante el entrenamiento. Los parámetros internos rigen cómo un modelo procesa los datos. Modelos complejos, como los utilizados para IA generativa, pueden tener más de un billón de parámetros.

El ajuste de hiperparámetros no es lo mismo que el ajuste fino de un modelo, que es cuando un modelo se entrena o ajusta más después de la etapa de entrenamiento inicial (conocida como preentrenamiento).

Varias técnicas notables de ajuste de hiperparámetros son:

Búsqueda en rejilla: se entrenan, prueban y evalúan todas las combinaciones posibles de hiperparámetros. La búsqueda en rejilla, un método exhaustivo y de fuerza bruta, es probable que descubra la mejor combinación única de hiperparámetros. Sin embargo, consume mucho tiempo y recursos.
Búsqueda aleatoria: se seleccionan muestras de combinaciones de hiperparámetros al azar, y cada muestra del subconjunto se utiliza para entrenar y probar un modelo. La búsqueda aleatoria es una alternativa a la búsqueda en rejilla cuando esta última no es viable.
Optimización bayesiana: se utiliza un modelo probabilístico para predecir qué combinaciones de hiperparámetros tienen más probabilidades de dar como resultado el mejor rendimiento del modelo. La optimización bayesiana es un método iterativo que mejora con cada ronda de entrenamiento y prueba, y funciona bien con espacios de hiperparámetros grandes.

Validación cruzada

En el sistema de remuestreo de validación cruzada de k-fold, los datos se dividen en k conjuntos o pliegues. Los datos de entrenamiento comprenden subconjuntos k-1y el modelo se valida en el conjunto restante. El proceso itera para que cada subconjunto sirva como conjunto de validación. Los puntos de datos se muestrean sin reemplazo, lo que significa que cada punto de datos aparece una vez por iteración.

La validación cruzada K-fold ofrece una visión más holística del rendimiento de un modelo que la división simple entre entrenamiento y prueba.

Bootstrapping

El bootstrapping es una técnica de remuestreo similar a la validación cruzada, excepto que los puntos de datos se muestrean con reemplazo. Esto significa que los puntos de datos muestreados pueden aparecer en múltiples pliegues.

Criterios de información

Los criterios de información comparan el grado de complejidad del modelo con sus posibilidades de sobreajuste o subajuste del conjunto de datos. El sobreajuste significa que el modelo se adapta demasiado al conjunto de entrenamiento y no puede generalizarse a nuevos datos. El subajuste es lo contrario, cuando un modelo no es lo suficientemente complejo como para capturar las relaciones entre los puntos de datos.

Tanto el criterio de información de Akaike (AIC) como el criterio de información bayesiano (BIC) incentivan la adopción del modelo con la menor complejidad posible que pueda manejar adecuadamente el conjunto de datos.

Factores que afectan a la selección del modelo

El rendimiento del modelo está lejos de ser el único determinante de lo que hace que un modelo sea "el mejor". Otros factores pueden ser igualmente, o incluso más, relevantes para la decisión.

Complejidad de los datos: cuanto más complejo es un conjunto de datos, más complejo es el modelo necesario para procesarlo. Pero la aplicación de un modelo demasiado complejo puede provocar un sobreajuste. Y un modelo demasiado simple puede no capturar de forma adecuada los patrones en los datos. El modelo adecuado procesará los datos con capacidad y eficiencia, evitando al mismo tiempo el sobreajuste.
Calidad de los datos: el preprocesamiento de datos y la selección de características son dos procesos de ciencia de datos que preparan estos para aplicaciones de machine learning. Los valores atípicos, los datos que faltan y otros obstáculos afectan a algunos modelos más que a otros, pero pueden superarse con datos sintéticos, regularización y otras contramedidas.
Interpretabilidad: la interpretabilidad o explicabilidad es el grado en el que los observadores humanos pueden entender el funcionamiento de un modelo. Un modelo de "caja negra" tiene poca o ninguna interpretabilidad: su flujo de trabajo de toma de decisiones es en gran medida un misterio. Con aplicaciones empresariales sensibles como la automatización inteligente y toma de decisiones con IA, la interpretabilidad es una prioridad para las organizaciones que se adhieren a las directrices de uso de IA responsable. Ciertos sectores, como la sanidad y las finanzas, cuentan con amplias normativas sobre privacidad de datos y de otro tipo, lo que acentúa aún más la necesidad de una clara interpretabilidad.
Eficiencia y uso de recursos: las limitaciones prácticas, como la disponibilidad de computación y las finanzas, pueden descartar por completo algunos modelos. Las redes neuronales profundas requieren cantidades masivas de datos y dinero para entrenar y funcionar. Aunque estos modelos son interesantes, no son adecuados para todos los trabajos. AIC y BIC pueden ayudar a los responsables de proyectos de ML a tomar decisiones informadas y a reducir la complejidad de los modelos.

Selección de LLM

Los LLM son los modelos básicos de inteligencia artificial para muchas aplicaciones empresariales, como agentes de IA, respuesta a preguntas impulsadas por RAG o chatbots de servicio al cliente con generación automatizada de texto. El procesamiento del lenguaje natural (PLN) es el uso de algoritmos de machine learning para comprender y generar el lenguaje humano, y los LLM son un tipo específico de modelo de PLN.

Los LLM notables incluyen la familia GPT de OpenAI, como GPT-4o y GPT-3.5, algunos de los modelos detrás de ChatGPT, así como Claude de Anthropic, Gemini de Google y Llama 3 de Meta. Todos los LLM son capaces de gestionar tareas complejas, pero las necesidades específicas de un proyecto de machine learning pueden ayudar a determinar el LLM adecuado para el trabajo.

La elección del LLM adecuado se reduce a una serie de factores entre los que se incluyen:

Caso de uso específico: el reto del machine learning afecta directamente al proceso de selección del LLM. Un LLM podría ser mejor con la comprensión y el resumen de documentos largos, mientras que otro podría ser más fácil de afinar para usos específicos del dominio.
Rendimiento: al igual que otros modelos, los LLM se pueden tomar como referencia para comparar entre sí y evaluar el rendimiento. Los puntos de referencia de los LLM incluyen métricas para el razonamiento, la codificación, las matemáticas, la latencia, la comprensión y conocimiento general. Sopesar las necesidades de un proyecto frente al rendimiento de referencia puede ayudar a determinar el mejor LLM para obtener resultados de alta calidad.
Código abierto versus código cerrado: los modelos de código abierto permiten a los observadores controlar cómo llega el modelo a sus decisiones. Los diferentes LLM pueden ser propensos a sesgos y alucinaciones de varias maneras: cuando generan predicciones que no reflejan los resultados del mundo real. Cuando la moderación de contenido y la prevención de sesgos son primordiales, limitar las opciones a los proveedores de código abierto puede ayudar a dar forma al proceso de selección del LLM.
Uso y coste de los recursos: los LLM son modelos que consumen muchos recursos. Muchos LLM funcionan con centros de datos a hiperescala llenos de cientos de miles de unidades de procesamiento gráfico (GPU) o más. Los proveedores de LLM también cobran de forma diferente por las conexiones de API a sus modelos. La escalabilidad de un modelo y su sistema de precios afecta directamente al alcance del proyecto.

Ciencia de datos y MLOps para líderes de datos

Manténgase alineado con otros líderes en los 3 objetivos clave de MLOps y la IA fiable: la confianza en los datos, la confianza en los modelos y la confianza en los procesos.

Selección de modelos en el machine learning