Selección de modelos en machine learning

Autores

Staff writer

Staff Editor, AI Models

IBM Think

¿Qué es la selección de modelos en machine learning?

La selección de modelos en machine learning es el proceso de elegir el modelo de machine learning (ML) más apropiado para la tarea seleccionada. El modelo seleccionado suele ser el que generaliza mejor los datos no vistos y, al mismo tiempo, cumple con mayor éxito las métricas de rendimiento del modelo relevantes.

El proceso de selección de modelos de aprendizaje automático es una comparación de diferentes modelos de un grupo de candidatos. Los especialistas en machine learning evalúan el rendimiento de cada modelo de machine learning (ML) y luego eligen el mejor modelo en función de un conjunto de métricas de evaluación.

La mayoría de las tareas de machine learning se centran en reconocer patrones en los datos y, a continuación, hacer predicciones sobre nuevos datos basar en esos patrones. La elección del modelo predictivo de mejor rendimiento conduce a predicciones más precisas y a una aplicación de machine learning más fiable.

Boletín de la industria

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¿Por qué es importante la selección de modelos?

La selección delmodelo de IA es importante porque determina qué tan bien funcionará el sistema de machine learning. Los diferentes modelos tienen fortalezas y debilidades, y elegir el correcto afecta directamente el éxito del proyecto. La selección del modelo es una etapa temprana en el mayor pipeline de machine learning para crear y desplegar modelos de machine learning (ML).

Algunas tareas requieren modelos complejos que puedan capturar los detalles de un gran conjunto de datos, pero que pueden tener dificultades para generalizarse a nuevos. También pueden venir con mayores demandas de cómputo y recursos. Otras tareas son mejores para modelos más pequeños y simples diseñados para un propósito específico.

Elegir el modelo adecuado para el trabajo puede:

Optimizar la eficiencia: el más sólido entre todos los modelos candidatos equilibrará la compensación entre rendimiento y generalización con la complejidad y el uso de recursos.
Maximice el rendimiento del modelo: una herramienta es tan sólida como la tarea a la que se aplica. Probar y evaluar los modelos candidatos revela el modelo de mejor rendimiento para el trabajo, lo que le da a la aplicación de IA su mejor oportunidad de viabilidad en el mundo real.
Impulsar el éxito del proyecto: la complejidad del modelo afecta directamente a los requisitos de tiempo y recursos de formación, así como a los resultados. Los modelos predictivos van de lo simple a lo complejo. Los modelos más sencillos son más rápidos y baratos de capacitar, mientras que los modelos complejos requieren más datos, dinero y tiempo.

AI Academy

Conviértase en un experto en IA

Obtenga el conocimiento para priorizar las inversiones en IA que impulsan el crecimiento del negocio. Comience hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

Ver la serie

El proceso de selección de modelos

El proceso de selección de modelos está diseñado para producir un modelo que se ajuste a la medida del caso de uso objetivo. Los especialistas en machine learning describen el problema, eligen entre los tipos de modelos que probablemente funcionen bien y, finalmente, entrenan y prueban los modelos candidatos para identificar la mejor opción general.

Las etapas del proceso de selección de modelos suelen incluir:

Establecer el desafío del aprendizaje automático (ML)
Elección de modelos candidatos
Determinación de las métricas de evaluación del modelo
Entrenamiento y evaluación de modelos

Establecer el desafío del machine learning (ML)

Dependiendo de la naturaleza de la tarea, algunos algoritmos de machine learning son mejores opciones que otros. Los desafíos de aprendizaje automático (ML) generalmente se dividen en una de tres categorías:

Problemas de regresión modelos de tareas con la identificación de las relaciones entre las características de entrada y una variable de salida continua seleccionada, como un precio. Ejemplos de problemas de regresión incluyen la predicción de puntos de referencia salariales o la probabilidad de desastres naturales en función de las condiciones climáticas. Las predicciones del modelo se basan en características de entrada relevantes, como la época del año o la información demográfica. El pronóstico de series temporales es un tipo de desafío de regresión que predice el valor de una variable a lo largo del tiempo. Los modelos de series temporales son una clase de modelo eficiente desde el punto de vista informático que se especializa en este desafío.
Los problemas de clasificación clasifican los puntos de datos en categorías basadas en un conjunto de variables de entrada. Algunos ejemplos de problemas de clasificación son el reconocimiento de objetos y los filtros de spam de correo electrónico. El conjunto de entrenamiento puede incluir puntos de datos con salidas etiquetadas para que el modelo pueda aprender la asociación entre entradas y salidas. Esta práctica se conoce como aprendizaje supervisado.
Los problemas de agrupamiento agrupan puntos de datos en función de las similitudes. La agrupación en clústeres no es lo mismo que la clasificación en el sentido de que el objetivo es descubrir grupos dentro de los puntos de datos, en lugar de clasificar los puntos de datos en clústeres conocidos. Los modelos deben discernir similitudes por sí mismos en un entorno de aprendizaje no supervisado. La segmentación del mercado es un ejemplo de un desafío de clúster.

Determinación de las métricas de evaluación del modelo

El proceso de prueba compara modelos candidatos y evalúa su desempeño frente a un conjunto de métricas de evaluación preseleccionadas. Si bien existen muchas métricas, algunas son mejores para ciertos tipos de desafíos de machine learning (ML) que otras.

Las métricas de evaluación de modelos para la clasificación incluyen:

Precisión: el porcentaje de predicciones correctas del total de predicciones realizadas.
Precisión: la relación de predicciones positivas verdaderas entre todas las predicciones positivas, midiendo la exactitud de las predicciones positivas.
Recordatorio: la proporción de predicciones positivas verdaderas entre todas las instancias positivas reales, midiendo la competencia del modelo para identificar instancias positivas.
Puntaje F1: combina la precisión y la recuperación para obtener una visión general de la capacidad del modelo para reconocer y clasificar correctamente los casos positivos.
Matriz de confusión: resume el rendimiento de un modelo clasificador mostrando verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos en una tabla.
AUC-ROC: un gráfico que traza las tasas de verdaderos positivos y falsos positivos como una curva característica operativa del receptor (ROC). El área bajo la curva (AUC) muestra el rendimiento del modelo.

Las métricas de evaluación de regresión incluyen:

Error cuadrático medio (MSE): promedia la diferencia entre los cuadrados de las diferencias entre los valores previstos y los reales. MSE es muy sensible a los valores atípicos y penaliza severamente los errores grandes.
Error cuadrático medio (RMSE): la raíz cuadrada de MSE, que muestra la tasa de error en las mismas unidades que la variable y aumenta la interpretabilidad de la métrica. MSE muestra el mismo error en unidades al cuadrado.
Error absoluto medio (EMA): la media de las diferencias entre los valores reales y practicados para la variable objetivo. MAE es menos sensible que MSE.
Error porcentual absoluto medio (MAPE): transmite el error absoluto medio como un porcentaje en lugar de en las unidades de la variable predicha, lo que facilita la comparación de modelos.
R-squared: proporciona un punto de referencia del rendimiento del modelo entre 0 y 1. Sin embargo, el valor de r cuadrado se puede inflar artificialmente mediante la adición de más características.
R-cuadrado ajustado: refleja las contribuciones de las características que mejoran el rendimiento del modelo mientras se ignoran las características irrelevantes.

Capacitación y evaluación de modelos

Los científicos de datos se preparan para el entrenamiento y la evaluación de modelos dividiendo los datos disponibles en varios conjuntos. El conjunto de datos de entrenamiento se emplea para el entrenamiento del modelo, durante el cual los modelos candidatos aprenden a reconocer patrones y relaciones en los puntos de datos. A continuación, se comprueba el rendimiento del modelo con una parte diferente del conjunto de datos.

La forma más simple y rápida de prueba es la división tren-prueba. Los científicos de datos dividen el conjunto de datos en dos partes, una para entrenamiento y otra para pruebas. El modelo no está expuesto a la división de prueba hasta después del entrenamiento: el conjunto de prueba sirve como sustituto de los datos nuevos e invisibles que el modelo procesará en el mundo real.

Técnicas de selección de modelos

Los creadores de modelos tienen acceso a una amplia gama de técnicas de selección de modelos. Algunos pertenecen a la configuración inicial y la arquitectura del modelo, lo que a su vez influye en su comportamiento. Otros proporcionan una evaluación del modelo más matizada y rigurosa o predicen cómo funcionarán los modelos en un conjunto de datos específico.

Las técnicas de selección de modelos incluyen:

Ajuste de hiperparámetros
Validación cruzada
Remuestreo (bootstrapping)
Criterios de información

Ajuste de hiperparámetros

El ajuste de hiperparámetros es el proceso de optimizar los hiperparámetros de un modelo, que son configuraciones externas que determinan la estructura y el comportamiento del modelo. Los modelos también tienen parámetros internos que se actualizan en tiempo real durante el entrenamiento. Los parámetros internos determinan cómo un modelo procesa los datos. Los modelos complejos, como los que se emplean para IA generativa (IA generativa), pueden tener más de un billón de parámetros.

El ajuste de hiperparámetros no es lo mismo que el ajuste fino de un modelo, que es cuando un modelo se entrena o ajusta más después de la etapa de entrenamiento inicial (conocida como entrenamiento previo).

Varias técnicas notables de ajuste de hiperparámetros son:

Búsqueda en cuadrícula: cada combinación posible de hiperparámetros se entrena, prueba y evalúa. Es probable que la búsqueda en cuadrícula, un método exhaustivo de fuerza bruta, descubra la mejor combinación de hiperparámetros. Sin embargo, requiere mucho tiempo y recursos.
Búsqueda aleatoria: las muestras de combinaciones de hiperparámetros se seleccionan al azar, y cada muestra del subconjunto se utiliza para entrenar y probar un modelo. La búsqueda aleatoria es una alternativa a la búsqueda en cuadrícula cuando esta última no es factible.
Optimización bayesiana: se emplea un modelo probabilístico para predecir qué combinaciones de hiperparámetros tienen más probabilidades de resultar en el mejor rendimiento del modelo. La optimización bayesiana es un método iterativo que mejora con cada ronda de entrenamiento y prueba, y funciona bien con espacios de hiperparámetros grandes.

Validación cruzada

En el sistema de remuestreo de validación cruzada de k-fold, los datos se dividen en k conjuntos o pliegues. Los datos de entrenamiento comprenden subconjuntos k-1y el modelo se valida en el conjunto restante. El proceso itera para que cada subconjunto sirva como conjunto de validación. Los puntos de datos se muestrean sin reemplazo, lo que significa que cada punto de datos aparece una vez por iteración.

La validación cruzada K-fold proporciona una visión más holística del rendimiento de un modelo que una sola división de prueba de tren.

Remuestreo (bootstrapping)

El bootstrapping es una técnica de remuestreo similar a la validación cruzada, excepto que los puntos de datos se muestrean con reemplazo. Esto significa que los puntos de datos muestreados pueden aparecer en varios pliegues.

Criterios de información

Los criterios de información comparan el grado de complejidad del modelo con sus posibilidades de sobreajuste o subajuste del conjunto de datos. El sobreajuste significa que el modelo se adapta demasiado al conjunto de entrenamiento y no puede generalizar a nuevos datos. Elsubajuste es lo contrario, cuando un modelo no es lo suficientemente complejo como para capturar las relaciones entre los puntos de datos.

Tanto el criterio de información de Akaike (AIC) como el criterio de información bayesiano (BIC) incentivan la adopción del modelo con la menor complejidad posible que pueda manejar adecuadamente el conjunto de datos.

Factores que afectan la selección del modelo

El rendimiento del modelo está lejos de ser el único determinante de lo que hace que un modelo sea "el mejor". Otros factores pueden ser igualmente, si no más, relevantes para la decisión.

Complejidad de datos: Cuanto más complejo sea un conjunto de datos, más complejo será el modelo necesario para procesarlo. Pero aplicar un modelo demasiado complejo puede provocar un sobreajuste. Y un modelo demasiado simple puede no lograr capturar adecuadamente los patrones en los datos. El modelo apropiado procesará los datos de manera capaz y eficiente, evitando el sobreajuste.
Calidad de los datos: el preprocesamiento de datos y la selección de características son dos procesos de ciencia de datos que preparan los datos para aplicaciones de aprendizaje automático. Los valores atípicos, los datos faltantes y otros bloqueadores afectan a algunos modelos más que a otros, pero se pueden superar con datos sintéticos, regularización y otras contramedidas.
Interpretabilidad: la interpretabilidad o explicabilidad es el grado en que los observadores humanos pueden entender el funcionamiento de un modelo. Un modelo de caja negra tiene poca o ninguna interpretación: su flujo de trabajo de toma de decisiones es en gran medida un misterio. Con aplicaciones empresariales sensibles como automatización inteligente y toma de decisiones impulsada por la IA, la interpretabilidad es una prioridad para las organizaciones que se adhieren a las directrices de uso de IA responsable. Determinadas industrias, como la sanidad y las finanzas, cuentan con amplias normativas sobre privacidad de datos y de otro tipo, lo que acentúa aún más la necesidad de una interpretación clara.
Eficiencia y uso de recursos: las limitaciones prácticas como la disponibilidad de cómputo y las finanzas pueden descartar algunos modelos por completo. Las redes neuronales requieren cantidades masivas de datos y dinero para entrenar y operar. Si bien estos modelos son emocionantes, no son adecuados para todos los trabajos. AIC y BIC pueden ayudar a los líderes de proyectos de aprendizaje automático (ML) a tomar decisiones informadas y mantener baja la complejidad del modelo.

Selección de LLM

Los LLM son los modelos centrales de inteligencia artificial para muchas aplicaciones comerciales, como agentes de IA, respuesta a preguntas impulsada por RAG, o chatbots de atención al cliente con generación de texto automatizada. Procesamiento de lenguaje natural (PLN) es el uso de algoritmos de machine learning para comprender y generar lenguaje humano, y los LLM son un tipo específico de modelo de procesamiento de lenguaje natural.

Los LLM notables incluyen la familia GPT de OpenAI, como GPT-4o y GPT-3.5, algunos de los modelos detrás de ChatGPT, así como Claude de Anthropic , Gemini de Google y Llama 3 de Meta. Todos los LLM son capaces de manejar tareas complejas, pero las necesidades específicas de un proyecto de machine learning pueden ayudar a dictar el LLM adecuado para el trabajo.

Elegir el LLM adecuado se reduce a una variedad de factores que incluyen:

Caso de uso: El reto de machine learning afecta directamente al proceso de selección del LLM. Un LLM puede ser mejor para la comprensión y resumen de documentos largos, mientras que otro puede ser más fácil de ajustar para usos específicos de un dominio.
Rendimiento: al igual que otros modelos, los LLM pueden ser puntos de referencia entre sí para evaluar el rendimiento. Los puntos de referencia de LLM incluyen métricas de razonamiento, programación, matemáticas, latencia, comprensión y conocimiento general. Sopesar las necesidades de un proyecto versus el punto de referencia puede ayudar a determinar cuál es el mejor LLM que se puede elegir para obtener resultados de alta calidad.
Código abierto versus código cerrado: los modelos de código abierto permiten a los observadores monitorear cómo el modelo llega a sus decisiones. Diferentes LLM pueden ser propensos a sesgos y alucinaciones de varias maneras: cuando generan predicciones que no reflejan resultados del mundo real. Cuando la moderación del contenido y la prevención de sesgos son primordiales, limitar las opciones a los proveedores de código abierto puede ayudar a dar forma al proceso de selección de LLM.
Uso y costo de los recursos: los LLM son modelos que consumen muchos recursos. Muchos LLM funcionan con un centro de datos de hiperescala lleno de cientos de miles de unidades de procesamiento de gráficos (GPU) o más. Los proveedores de LLM también cobran de manera diferente por las conexiones API a sus modelos. La escalabilidad de un modelo y su sistema de precios afecta directamente al alcance del proyecto.

Ciencia de datos y MLOps para líderes de datos

Manténgase alineado con otros líderes en los 3 objetivos clave de MLOps y la IA confiable: confianza en los datos, confianza en los modelos y confianza en los procesos.