¿Qué son los parámetros del modelo?

Los parámetros del modelo son los valores aprendidos dentro de un modelo de machine learning que determinan cómo asigna la entrada a los resultados, como el texto generado o una clasificación prevista. El propósito de un algoritmo de machine learning es ajustar los parámetros hasta que los resultados de un modelo de IA se alineen estrechamente con los resultados esperados.

Los valores de estos parámetros determinan las predicciones de un modelo y, en última instancia, el rendimiento del modelo en una tarea determinada. La cantidad de parámetros en un modelo influye directamente en la capacidad del modelo para capturar patrones en todos los puntos de datos. Los modelos grandes, como los que se utilizan en la IA generativa, pueden tener miles de millones de parámetros, lo que les permite generar resultados muy sofisticados. Más parámetros permiten que los modelos capturen con mayor precisión patrones de datos más matizados, pero demasiados parámetros corren el riesgo de sobreajuste.

Los diferentes algoritmos de machine learning tienen diferentes tipos de parámetros. Por ejemplo, los modelos de regresión tienen coeficientes, las redes neuronales tienen ponderaciones y sesgos, y algunos algoritmos, como las máquinas de vectores de soporte o los modelos de espacio de estados, tienen tipos únicos de parámetros.

Los parámetros del modelo, variables aprendidas durante el entrenamiento, no deben confundirse con los hiperparámetros, que se establecen de antemano. Ambos tipos de parámetros influyen en el rendimiento y el comportamiento de un modelo, pero de maneras significativamente diferentes.

Boletín de la industria

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

Parámetros del modelo simplificados

Los parámetros del modelo están presentes en modelos simples, incluso en el modelo matemático más simple posible, que describe una cantidad que cambia a una tasa constante.

Regresión lineal

Para averiguar cómo los pies cuadrados podrían afectar el precio de una casa, se podría usar un modelo de regresión lineal simple que usa la ecuación $y = m x + b$ , donde m (la pendiente) y b (la intersección) son parámetros. Al ajustarlos, la línea resultante se desplaza e inclina hasta que se ajusta mejor a los datos.

Clasificación

Un ejemplo un poco más complejo podría ser el uso de un modelo de regresión logística para determinar si una casa se venderá o no en función de cuántos días está en el mercado.

La regresión logística utiliza la fórmula: $p = \frac{1}{1 + e^{- (w x + b)}}$ , donde p = la “probabilidad de vender” y x = “días en el mercado”. Nuevamente, w y b son parámetros que el modelo "aprende". La ecuación se ha vuelto un poco más compleja, pero todavía hay solo 2 parámetros en juego.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Vea todos los episodios de Mixture of Experts

Tipos de parámetros del modelo

En machine learning, los parámetros del modelo vienen principalmente en 2 tipos: ponderaciones y sesgos. En el ejemplo de un modelo de regresión lineal simple, $y = m x + b$ , el peso corresponde a la pendiente m, controlando la fuerza con la que la entrada influye en la salida. Cuanto mayor sea el peso, mayor será el impacto de la entrada. El sesgo corresponde a la intersección b. Esto permite que el modelo desplace toda la línea hacia arriba o hacia abajo.

Pesos

Los pesos son las perillas o ajustes de control fundamentales para un modelo y determinan cómo un modelo evalúa nuevos datos y hace predicciones.

En los modelos de regresión lineal, los pesos determinan la influencia relativa de cada característica utilizada para representar cada punto de datos de entrada. En las redes neuronales, los pesos determinan la influencia relativa de los resultados de cada neurona en los de cada una de las neuronas de la siguiente capa.

En el ejemplo de un modelo que intenta predecir si una casa se venderá en función de factores como "días en el mercado", cada uno de estos factores tiene un peso que refleja la fuerza con la que ese factor afecta la probabilidad de venta.

Sesgos

Los sesgos permiten que los modelos ajusten los resultados independientemente de las ponderaciones y entradas del modelo, actuando como umbrales o compensaciones. Los sesgos ayudan a los modelos a generalizar y captar patrones y tendencias más amplios en un conjunto de datos.

Siguiendo con el modelo de venta de casas, tal vez históricamente, el 60 % de todas las casas en el área finalmente se venden, independientemente de cuántos días estén en el mercado, en todos los ámbitos, incluso si una casa en particular ha estado en la lista durante muchos días o tiene pocas exhibiciones. El sesgo permite que el modelo comience con esta probabilidad de referencia realista y luego se ajuste hacia arriba o hacia abajo en función de las otras entradas.

Este uso de "sesgo" es un concepto separado del sesgo algorítmico, que es cuando un modelo produce resultados discriminatorios. También se denomina sesgo al tipo de error que se produce cuando el modelo hace suposiciones incorrectas sobre los datos, lo que provoca una divergencia entre los valores previstos y los reales. Ambos no están relacionados con el sesgo de los parámetros.

Otros parámetros

Hay otros tipos de parámetros en el mundo del aprendizaje automático. Los modelos simples anteriores utilizan ponderaciones y sesgos, al igual que las redes neuronales mucho más complejas, junto con parámetros de gain y shift para la normalización.

Las redes neuronales convolucionales, por ejemplo, tienen filtros (también conocidos como kernels), que detectan patrones espaciales. Las redes neuronales recurrentes con memoria a largo plazo utilizan parámetros de activación que controlan el flujo de información a través de la red. Los modelos probabilísticos, como Naive Bayes, utilizan parámetros para definir probabilidades condicionales o las propiedades de las distribuciones de probabilidad. Las máquinas de vectores de soporte definen parámetros que posicionan y orientan los "hiperplanos" a clases separadas en el espacio de características. Los modelos de espacio de estados tienen parámetros de observación y ruido.

Esta es una lista limitada de ejemplos, y los parámetros de diferentes modelos funcionan de distintas maneras. Pero en todos ellos, los parámetros determinan cómo los modelos asignan los datos de entrada a las salidas.

Parámetros del modelo frente a hiperparámetros

Los parámetros son esencialmente las respuestas a la pregunta que hace el modelo (por ejemplo, "¿Cuál es la mejor pendiente posible de la ecuación que nos dirá con la mayor precisión cuál será el precio de la casa, en función de los pies cuadrados?")

Los hiperparámetros, por otro lado, pueden percibirse como las reglas del juego que le dicen al modelo cómo encontrar esa respuesta. Los científicos de datos que entrenan el modelo utilizan su comprensión del problema para imponer boundaries que determinan cómo el modelo buscará respuestas.

Los parámetros del modelo son internos a un modelo y se actualizan mediante iteraciones del proceso de aprendizaje en respuesta a los datos de entrenamiento. El modelo actualiza los valores de los parámetros durante el entrenamiento. Los parámetros controlan cómo reacciona un modelo a datos no vistos.

Los hiperparámetros del modelo son externos a un modelo y se establecen antes del entrenamiento mediante el ajuste de hiperparámetros. Algunos hiperparámetros determinan el comportamiento del modelo durante el entrenamiento, como la tasa de aprendizaje durante el descenso del gradiente o el número de épocas del proceso de entrenamiento.

Otros hiperparámetros son responsables de la forma y la estructura del modelo, como el número de árboles de decisión en un bosque aleatorio, de clústeres en clustering de medias k o de capas ocultas en unas redes neuronales.

Parámetros del modelo en redes neuronales

Los modelos de machine learning pueden ser mucho más complejos que los ejemplos anteriores. En una red neuronal, como un modelo de lenguaje grande (LLM), un modelo toma decisiones de manera similar a la forma en que las neuronas biológicas trabajan juntas en el cerebro humano. Cada red neuronal consta de capas de neuronas artificiales, donde cada neurona representa una función matemática que procesa números. En aprendizaje profundo, las redes neuronales constan de muchas de estas capas.

De capa a capa

Cada neurona controla la fuerza con la que una parte de la red influye en la otra. Los pesos determinan la fuerza de las conexiones entre neuronas: el grado en que la salida de una neurona afecta la entrada de la siguiente neurona.

Durante el entrenamiento, la red recibe entradas. Para continuar con el ejemplo de los precios de las viviendas, esto podría ser pies cuadrados, año de construcción, datos demográficos del vecindario y docenas de otras entradas.

Estas características de entrada se pasan a la primera capa de neuronas. Cada entrada se multiplica por un peso, la mejor suposición de la red sobre la importancia de esa neurona, y se agrega un sesgo para mejorar la flexibilidad, dando a las neuronas cierta independencia de la influencia de la suma ponderada de las entradas de las neuronas en la capa anterior. Una función de activación decide con qué fuerza se "dispara" esa neurona y pasa información a la siguiente capa como entrada a las funciones de activación de cada neurona individual en la siguiente capa. Cada una de estas conexiones de neurona a neurona tiene su propio peso.

Los pesos forman una matriz, los sesgos forman un vector y la capa calcula combinaciones lineales de entradas + sesgo, luego pasa el resultado a través de una función de activación, como una función sigmoide, tanh, ReLU o softmax. El trabajo de esta función es introducir la no linealidad, lo que permite a la red aprender y modelar patrones complejos en lugar de solo relaciones lineales.

Los datos se mueven a través de las capas "ocultas" posteriores. La primera capa oculta podría combinar los pies cuadrados de la casa y su número de habitaciones para llegar al "espacio habitable general". Otra capa podría combinar la ubicación geográfica de la casa + la calificación de su distrito escolar para determinar la "conveniencia del vecindario". El modelo no tiene la comprensión humana de lo que es la "conveniencia del vecindario"; simplemente reconoce patrones en los números de sus datos de entrenamiento y hace correlaciones.

De capa a capa, la red comienza a "comprender" qué patrones son más relevantes. Estas capas apiladas convierten operaciones simples en una poderosa red capaz de aprender patrones complejos y jerárquicos.

Pérdida y retropropagación

En la siguiente etapa, la red calcula la pérdida (la diferencia entre la salida de la red y la verdad fundamental, la estructura de los datos presentes en el conjunto de datos de entrenamiento). Esto proporciona un único número que representa qué tan lejos está el modelo.

Luego, durante la retropropagación, la red calcula el gradiente de la pérdida con respecto a los pesos y sesgos, lo que le indica a la red qué parámetros están influyendo en la pérdida, y cómo ajustarlos para minimizarla. Esto sucede en orden inverso, capa por capa, con un algoritmo de descenso del gradiente. Los algoritmos de optimización, como el descenso del gradiente, están diseñados para minimizar una función de pérdida, indicando al modelo cómo cambiar eficientemente sus parámetros para reducir la pérdida.

Los procesos anteriores se repiten hasta que el modelo es capaz de ofrecer resultados (en este caso, el precio previsto de la vivienda) con el nivel de rendimiento deseado.

El ejemplo de la predicción de los precios de las viviendas expresa cómo las redes neuronales toman muchas características a la vez, las combinan de manera no lineal y generan resultados útiles. Sin embargo, esto podría haberse logrado mediante un modelo de regresión lineal más simple. Las redes neuronales realmente brillan cuando los datos no están estructurados o cuando los patrones son demasiado complejos o de alta dimensión para los modelos tradicionales. Por ejemplo, las redes neuronales podrían usarse para procesar satellite fotos y datos de mapas de vecindarios para predecir el precio de venta. O bien, se podría entrenar una red neuronal para reconocer términos clave en descripciones de listados, como "calle tranquila" o "techo nuevo".

Refinamiento

Cuando se completa el entrenamiento inicial, los modelos de IA se pueden adaptar aún más a tareas o áreas temáticas específicas. El ajuste es el proceso de adaptar un modelo previamente entrenado para casos de uso específicos. Para ello, los parámetros del modelo se actualizan mediante entrenamiento adicional con nuevos datos.

Otros tipos de aprendizaje

El ejemplo anterior de la red neuronal utilizada para predecir los precios de las viviendas describe el aprendizaje supervisado, donde los modelos aprenden utilizando datos etiquetados. En este contexto, el modelo recibe tanto entradas como salidas correctas. El modelo compara sus predicciones con la verdad fundamental (en este caso, datos etiquetados). El ajuste a menudo ocurre en un contexto supervisado.

El aprendizaje no supervisado permite que los modelos aprendan parámetros encontrando patrones o estructuras en datos no etiquetados, sin que se les diga la "respuesta correcta". En lugar de comparar las predicciones con las etiquetas de verdad fundamental (como en el aprendizaje supervisado), estos modelos optimizan los objetivos que miden qué tan bien el modelo explica los datos en sí. Por ejemplo, en la agrupación en clústeres, los parámetros (como los centroides de clúster en k-means) se actualizan iterativamente para que los puntos similares se agrupen más juntos. En la reducción de la dimensionalidad, los parámetros se aprenden encontrando direcciones que capturen la mayor variación en los datos.

En el aprendizaje por refuerzo, un modelo (o un agente impulsado por un modelo) interactúa con un entorno y recibe recompensas por las acciones correctas. Los parámetros suelen definir una política o función de valor que estima la recompensa esperada. Los parámetros se actualizan comparando las recompensas previstas con las recompensas reales recibidas.

Validación del rendimiento de los parámetros del modelo

Mejorar el rendimiento de los datos de entrenamiento es el objetivo del entrenamiento, pero eso es solo un medio para un fin. El objetivo principal es la generalización, que se logra entrenando el modelo de manera que generalice bien las tareas del mundo real que no vio en sus datos de entrenamiento.

Se debe tener cuidado para evitar errores como el sobreajuste, cuando los parámetros capturan ruido o fluctuaciones aleatorias en los datos de entrenamiento, lo que lleva a una mala generalización de los nuevos datos. Los parámetros deben ser lo suficientemente flexibles como para aprender patrones significativos, pero no tanto como para memorizar detalles irrelevantes.

Se emplean varias técnicas de ciencia de datos para evaluar el rendimiento del modelo. La validación cruzada es una técnica de evaluación de modelos en la que el conjunto de datos se divide en varias partes (pliegues). El modelo se entrena en algunos pliegues y se prueba en el pliegue restante, y este proceso se repite hasta que cada pliegue se haya utilizado como conjunto de prueba. Esto reduce el riesgo de sobreajuste, ya que el modelo se prueba en múltiples particiones de los datos. La validación cruzada no cambia directamente los parámetros, pero prueba qué tan bien los parámetros aprendidos se generalizan a datos no vistos. Si el rendimiento es constante en todos los pliegues, es probable que los parámetros estén bien optimizados. De lo contrario, es posible que los parámetros del modelo se ajusten demasiado al subconjunto de los datos de entrenamiento que ya ha visto. Un entrenamiento adicional en datos más diversos puede mejorar la generalización.

Otra técnica es el bootstrapping, un método estadístico que implica la creación de nuevos conjuntos de datos mediante muestreo aleatorio con reemplazo del conjunto de datos original. El bootstrapping produce muchos conjuntos de parámetros, ya que cada muestra de bootstrap es ligeramente diferente. Al observar la variación entre estos modelos de bootstrapping, se puede medir qué tan confiables son los parámetros cuando se entrenan con datos ligeramente diferentes.

Los profesionales también confían en métricas que cuantifican el rendimiento del modelo, como la exactitud, la precisión, la recuperación o el error cuadrático medio. Estos proporcionan retroalimentación objetiva sobre si los parámetros actuales están moviendo el modelo en la dirección correcta.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Recursos

Amplíe sus conocimientos de aprendizaje automático (ML)

Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Ponga la IA a trabajar: Impulso del retorno de la inversión (ROI) con IA generativa

¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Explorar IBM Granite

IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.

Cómo prosperar en esta nueva era de la IA con confianza y seguridad

Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.

Informe de IA en acción

Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA

Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai

Reserve una demostración en vivo

¿Qué son los parámetros del modelo?