¿Qué es el machine learning estadístico?

Autores

Fangfang Lee

Developer Advocate

IBM

Machine learning estadístico

Introducción: ¿Qué es el pensamiento estadístico en el machine learning?

En la era moderna de la IA generativa, vemos a los profesionales construir modelos de machine learning (ML) desde regresiones lineales simples hasta redes neuronales complejas y sofisticadas y modelos de lenguaje grandes (LLM) generativos. También vemos la ciencia de datos omnipresente y el análisis de datos realizado para predecir el abandono de clientes, los sistemas de recomendación y otros casos de uso. Sin embargo, aunque los modelos de machine learning (ML) parezcan ejecutarse en conjuntos de datos masivos y algoritmos potentes, tras bambalinas, son fundamentalmente un proceso estadístico.

El machine learning se basa en técnicas estadísticas y herramientas matemáticas, incluidos métodos bayesianos, álgebra lineal y estrategias de validación, que dan estructura y rigor al proceso. Ya sea que esté creando un clasificador no lineal, ajustando un sistema de recomendación o desarrollando un modelo generativo en Python, está aplicando los principios básicos de machine learning.

Cada vez que entrena un modelo, está estimando parámetros a partir de datos. Cuando lo prueba, se pregunta: ¿este patrón es real o es solo ruido aleatorio? ¿Cómo podemos cuantificar el error mediante el uso de métricas de evaluación? Estas son preguntas estadísticas. El proceso de pruebas estadísticas nos ayuda a infundir confianza en la construcción e interpretación de las métricas del modelo. Comprender estos requisitos previos no solo es fundamental, sino que es esencial para crear sistemas de IA sólidos e interpretables basados en la informática y el razonamiento matemático.

Este artículo desglosa los pilares estadísticos detrás del machine learning moderno, no solo para desmitificar las matemáticas, sino para equiparle con los modelos mentales necesarios para construir, depurar e interpretar sistemas de machine learning con confianza.

Veremos seis conceptos interrelacionados:

1. Estadísticas: Fundamentalmente, ¿qué son las estadísticas y cómo se utilizan en la IA moderna?

2. Probabilidad: ¿Cómo cuantificamos la incertidumbre en los datos?

3. Distribuciones: ¿Cómo modelar el comportamiento de los datos?

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Qué es la estadística?

La estadística es la ciencia de extraer insights de los datos. Organiza, analiza e interpreta la información para descubrir patrones y tomar decisiones en condiciones de incertidumbre. En el contexto de la ciencia de datos y los algoritmos de machine learning, las estadísticas proporcionan la base matemática para comprender el comportamiento de los datos, guiar las opciones de modelos y evaluar los resultados. Transforma conjuntos de datos desordenados y ruidosos en inteligencia aplicable en la práctica.

El machine learning moderno se basa en métodos estadísticos. Ya sea que esté aplicando aprendizaje supervisado (por ejemplo, regresión o clasificación), aprendizaje no supervisado (por ejemplo, agrupación en clústeres) o aprendizaje por refuerzo, está empleando herramientas basadas en inferencia estadística. Las estadísticas nos permiten cuantificar la incertidumbre, generalizar a partir de muestras y sacar conclusiones sobre poblaciones más amplias, todo lo cual es esencial para crear sistemas de inteligencia artificial (IA) confiables.

Estadísticas descriptivas: comprensión de los conceptos básicos

Antes de entrenar modelos, realizamos análisis exploratorios de datos (EDA), un proceso que se basa en estadísticas descriptivas para resumir las características clave de los datos. Estos resúmenes nos informan sobre la tendencia central y la variabilidad de cada característica, lo que ayuda a identificar valores atípicos, problemas de calidad de los datos y necesidades de preprocesamiento. Comprender estas propiedades es un requisito previo para crear modelos eficaces y elegir los algoritmos de machine learning adecuados.

Medidas clave:

    • Media (promedio):

    El promedio aritmético de los valores. Común en la medición de la centralidad y en funciones de pérdida como el error cuadrático medio (MSE).

    Ejemplo: si los valores de compra de los clientes están aumentando, la media detecta cambios en el comportamiento.

    • Mediana:

    El valor medio cuando se ordenan los datos. Más resistente a los valores atípicos que la media.

    Ejemplo: en los datos de ingresos, la mediana refleja mejor un caso “típico” en presencia de riqueza sesgada.

    • Modo:

    El valor que ocurre con más frecuencia. Útil para características categóricas o votación mayoritaria (como en algunos métodos de conjunto).

    Ejemplo: encontrar el navegador más común utilizado por los visitantes del sitio.

    • Desviación estándar (SD):

    Mide qué tan separados están los valores de la media. Una SD baja implica que los puntos de datos se agrupan cerca de la media, mientras que una SD alta indica una mayor variabilidad.

    Ejemplo: en la validación de modelos, una característica con alta varianza podría necesitar normalización para evitar dominar a otras en algoritmos basados en la distancia, como los k vecinos más cercanos.

    • Rango intercuartil (IQR):

    El rango entre los percentiles 75 y 25 (Q3 - Q1). Captura el 50 % medio de los datos y es útil para detectar valores atípicos.

    Ejemplo: en una tarea de segmentación de clientes, un IQR alto en el gasto podría indicar un comportamiento incoherente entre los subgrupos.

    • Sesgo:

    Indica la asimetría de una distribución. Un sesgo positivo significa una cola derecha más larga, mientras que un sesgo negativo significa una cola izquierda más larga. Las características sesgadas pueden infringir las suposiciones de los modelos lineales o inflar las métricas basadas en la media.

    Ejemplo: las distribuciones sesgadas a la derecha (como los ingresos) pueden requerir transformación logarítmica antes de aplicar la regresión lineal.

    • Curtosis:

    Describe la "cola" de la distribución, es decir, qué tan probables son los valores extremos. Una curtosis alta implica valores atípicos más frecuentes, mientras que una curtosis baja significa una distribución más plana.

    Ejemplo: en la detección de fraudes, una alta curtosis en los montos de las transacciones podría indicar patrones de gasto anormales.

    Estas medidas también guían las decisiones de preprocesamiento, como la normalización, la estandarización o la imputación, y afectan la manera en que diseñamos nuevas características.

    Estadísticas descriptivas en machine learning

    Durante el EDA, las estadísticas descriptivas nos ayudan a:

    • Evaluar las distribuciones de datos: ¿las variables son gaussianas? ¿Sesgadas? ¿Multimodales?
    • Identificar valores atípicos y errores: una discrepancia entre la media y la mediana podría indicar valores inusuales.
    • Descubrir problemas de calidad de los datos: por ejemplo, detección de edades negativas o categorías imposibles.
    • Ayudar en la selección del modelo: una variable objetivo continua sugiere regresión; una categórica, clasificación. Las relaciones entre características (por ejemplo, la correlación) también pueden influir en el uso de métodos lineales, no paramétricos o basados en kernel.

    Comprender los datos con estadísticas también ayuda a preparar modelos para manejar grandes conjuntos de datos, evaluar las métricas del modelo y mitigar riesgos como el sobreajuste. Por ejemplo, los resúmenes descriptivos pueden revelar clases desequilibradas o escalas de características que requieren normalización, lo que afecta el rendimiento y la equidad del modelo.

    Mixture of Experts | 28 de agosto, episodio 70

    Decodificación de la IA: Resumen semanal de noticias

    Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

    Probabilidades: el lenguaje de la incertidumbre

    El modelado mediante machine learning existe debido a la incertidumbre. Si pudiéramos asignar perfectamente las entradas a las salidas, no habría necesidad de modelos. Pero los datos del mundo real son desordenados, incompletos y ruidosos, por lo que modelamos probabilidades en lugar de certezas. Aprender sobre probabilidades establece los fundamentos de todo lo relacionado con machine learning y la inteligencia artificial (IA). Las teorías de probabilidades nos permiten comprender los datos que utilizamos para modelar de una manera bonita y elegante. Desempeña un papel crítico en el modelado de incertidumbres en las predicciones de los modelos de ML. Nos ayuda a cuantificar la probabilidad y las certezas de un modelo estadístico para que podamos medir con confianza los modelos de resultados que creamos. Adentrarse en el mundo de las probabilidades y aprender los fundamentos le ayudará a comprender la base de todos los modelos de aprendizaje estadístico y cómo se hacen sus predicciones. Aprenderá cómo podemos hacer inferencias y producir resultados probabilísticos.

    Para aprender distribuciones populares y modelar sus datos con confianza, vayamos a lo básico y aclaremos algunas terminologías.

    Variable aleatoria: representación numérica de un resultado de un fenómeno aleatorio. Es una variable cuyos valores posibles son resultados numéricos de un proceso aleatorio.

    Variable aleatoria discreta: una variable aleatoria que puede tomar un número finito o infinito contable de valores distintos. Por ejemplo, el resultado de un lanzamiento de moneda (cara = 1, cruz = 0) o la cantidad de correos electrónicos no deseados recibidos en una hora.

    Variable aleatoria continua: una variable aleatoria que puede tomar cualquier valor dentro de un rango determinado. Por ejemplo, la altura de una persona, la temperatura en una habitación o la cantidad de lluvia.

    Evento: un conjunto de uno o más resultados de un proceso aleatorio. Por ejemplo, lanzar un número par en un dado (resultados: 2, 4, 6) o el abandono de un cliente.

    Resultado: un único resultado posible de un experimento aleatorio. Por ejemplo, lanzar una moneda arroja "cara" o "cruz".

    Probabilidad P(A) : una medida numérica de la probabilidad de que un evento A ocurrirá, que va de 0 (imposible) a 1 (cierto).

    Probabilidad condicional P(A|B): la probabilidad del evento A que ocurre, dado que ese evento A ya ha ocurrido. Este paso es crucial en el ML, ya que a menudo queremos predecir un resultado dadas características específicas.

    La probabilidad es una medida de la probabilidad de que ocurra un evento, de 0 (imposible) a 1 (cierto).

    En machine learning, esto suele adoptar la forma de probabilidad condicional.

    Ejemplo: un modelo de regresión logística podría decir

    > “Dada la edad = 45 años, ingresos = 60 000 USD y el historial previo,

    > la probabilidad de abandono es 0.82”.

    Este ejemplo no significa que el cliente abandonará: es una creencia basada en los patrones estadísticos en los datos de entrenamiento.

    En la era moderna de la IA generativa, los modelos probabilísticos, como la regresión logística, desempeñan un papel muy importante en la determinación de los resultados y salidas de un modelo. Este papel suele adoptar la forma de una función de activación en las capas de las redes neuronales.

    Distribuciones: modelado del comportamiento de los datos

    Una distribución de probabilidad es una función matemática que describe los posibles valores y probabilidades que puede tomar una variable aleatoria dentro de un rango particular. Comprender las distribuciones es crucial en ML porque los datos rara vez existen como puntos únicos y aislados; tienen una estructura y una "forma". Algunas terminologías que necesitamos especificar son:

    • Distribución discreta: se aplica a variables que toman valores distintos y contables (por ejemplo, lanzamientos de monedas, recuentos de palabras).
    • Distribución continua: se aplica a variables que pueden tomar cualquier valor dentro de un rango (por ejemplo, altura, peso, tiempo).

    Conceptos básicos

    • Función de masa de probabilidad (PMF): la PMF se aplica a variables aleatorias discretas, variables que toman valores contables y distintos como 0 o 1, cara o cruz o el número de clientes que llegan a una tienda. La PMF le indica la probabilidad exacta de cada resultado posible. Por ejemplo, si lanza un dado justo de seis caras, la PMF asigna una probabilidad de 1/6 a cada uno de los resultados 1,2,3,4,5,6. A diferencia de la PDF (que distribuye la densidad de probabilidad en un rango), la PMF concentra la probabilidad en valores exactos.
    • Función de densidad de probabilidad (PDF): nos ayuda a razonar sobre percentiles, cuantiles y umbrales de probabilidad, conceptos que se utilizan a menudo en modelos de umbral, auditoría de equidad e interpretabilidad.
    • Función de distribución acumulativa (CDF): la CDF proporciona la probabilidad acumulada de que un valor sea menor o igual que un umbral específico. Crece de 0 a 1 a medida que se mueve a lo largo del eje x, y es especialmente útil al responder preguntas como "¿Qué proporción de clientes gastan menos de 50 USD?".
    • Función de masa acumulativa (CMF): la CMF es la contraparte discreta de la CDF. Da la probabilidad acumulada de que una variable discreta tome un valor menor o igual a un punto en particular.

    Hacer las suposiciones correctas sobre la distribución de sus datos es crítico: muchos algoritmos de machine learning se basan en estas suposiciones tanto para la selección como para la interpretación del modelo. Las suposiciones incorrectas pueden llevar a estimaciones con sesgo, funciones de pérdida desalineadas y, en última instancia, generalizaciones deficientes o conclusiones no válidas en aplicaciones del mundo real.

    Las distribuciones de probabilidad sustentan lo siguiente:

    • Modelado de errores: suposiciones sobre residuos en regresión (a menudo gaussiana).
    • Funciones de pérdida: MSE corresponde a supuestos gaussianos; entropía cruzada a Bernoulli o logística.
    • Diseño del modelo: los objetivos de clasificación a menudo se modelan a través de Bernoulli; las variables latentes en modelos generativos profundos utilizan priores gaussianos.
    • IA generativa: la ejemplificación de distribuciones de alta dimensión aprendidas es fundamental para modelos como las redes generativas antagónicas (GAN) y VAE.

    Ejemplo de distribución discreta: ensayos de Bernoulli

    La distribución de Bernoulli modela la probabilidad de éxito o fracaso en una sola prueba de un evento aleatorio discreto. Es decir, solo tiene dos resultados: 1 (éxito) o 0 (fracaso). Es el tipo de distribución más simple utilizado en estadísticas, pero forma la base de muchos problemas de clasificación en machine learning. Por ejemplo, si lanzara una moneda 10 veces y obtuviera 7 caras (éxito) y 3 cruces (fracaso), la función de masa de probabilidad (PMF) se puede representar gráficamente como:

    Distribución de monedas: gráfico de barras

    Un lanzamiento de moneda es un ensayo tradicional de Bernoulli. Apliquemos la función de masa de probabilidad al ejemplo del lanzamiento de una moneda

    - Sea X una variable aleatoria que represente el resultado de un lanzamiento

    - Si cara se considera éxito, definimos X=1 para cara y X=0 para cruz

    - Si la moneda es justa, la probabilidad de cara es p=0.5

    La función de masa de probabilidad (PMF) de la distribución de Bernoulli es:

     P(X=x)=px(1-p)1-x,forx{0,1}

    Distribución de Bernoulli: gráfico de paletas

    Dónde:

    • p es la probabilidad de éxito (X=1)
    • 1 - p es la probabilidad de falla (X=0)
    • x es el resultado observado (1 o 0)

     

    Aplicación a machine learning: distribución discreta

    Comprender la PMF de Bernoulli es esencial porque forma la columna vertebral probabilística de muchos modelos de clasificación. En particular, la regresión logística no solo genera una etiqueta de clase, sino que estima la probabilidad de que una entrada en particular pertenezca a la clase 1. Esta probabilidad predicha se interpreta como el parámetro 𝑝 en una distribución de Bernoulli:

    La función logística (sigmoide) utilizada en la regresión logística garantiza que los valores predichos se encuentren dentro del rango [0.1], lo que los convierte en probabilidades de Bernoulli válidas. El modelo está entrenado para maximizar la probabilidad de observar los resultados binarios verdaderos bajo el supuesto de que cada valor objetivo se extrae de una distribución de Bernoulli con probabilidad 𝑝 predicha a partir de características 𝑋. En este caso, dado que queremos minimizar la pérdida de entrenamiento, adoptamos un enfoque de estimación de máxima verosimilitud (MLE) para maximizar la probabilidad de un resultado, dados los datos. Normalmente, para una distribución discreta como la de Bernoulli, transformamos la probabilidad en verosimilitud para manipularla más fácilmente. La probabilidad, al igual que las posibilidades, es desproporcionada, por lo que generalmente aplicamos una transformación logarítmica, conocida como log-verosimilitud, y la función de pérdida como log-pérdida. Si esta sección suena un poco confusa, puede visitar el documento explicativo de regresión mencionado anteriormente para la derivación paso a paso de la función de verosimilitud logarítmica mediante MLE. Esta conexión proporciona la base estadística para interpretar los resultados como estimaciones probabilísticas. Otras aplicaciones incluyen:

    • El clasificador binario (árboles de decisión, bosques aleatorios, máquinas de vectores de soporte con resultados binarios) trata implícitamente la clasificación como una predicción de los resultados de Bernoulli, especialmente cuando la calibración de probabilidad se aplica después del entrenamiento.
    • Métricas de evaluación: la precisión, la recuperación y la puntuación F1 se derivan fundamentalmente de la suposición de que cada predicción es un evento binario (ensayo de Bernoulli).

    Ejemplo de distribución continua: distribución gaussiana (normal)

    La distribución normal describe una variable aleatoria continua cuyos valores tienden a agruparse en clústeres en torno a una media central, con variabilidad simétrica en ambas direcciones. Es omnipresente en las estadísticas porque muchos fenómenos naturales (altura, puntajes de pruebas, errores de medición) siguen este patrón, especialmente cuando se agregan entre muestras.

     

    Distribución normal: curva de campana

    Imagine que registra las alturas de 1000 adultos. El trazado de estos datos revela una curva en forma de campana: la mayoría de las personas están cerca del promedio, con menos en los extremos. Esta forma es capturada por la función de densidad de probabilidad (PDF) de la distribución normal:

     f(xμ,σ2)=12πσ2exp(-(x-μ)22σ2)

    Dónde:

    • 𝑥 es una variable continua (por ejemplo, altura)
    • 𝜇 es la media (centro de la distribución)
    •  σ2  la varianza (controla la dispersión)
    • El denominador  2πσ2  garantiza que el área bajo la curva sume 1
    • El término exponencial penaliza los valores que están lejos de la media, haciéndolos menos probables

    Aplicaciones de machine learning: distribución continua

    • Regresión lineal: asume que los residuos (errores) se distribuyen normalmente, lo que justifica el uso del error cuadrático medio (MSE) como función de pérdida. Esta suposición permite que los modelos hagan interpretaciones probabilísticas y facilita la inferencia estadística (por ejemplo, intervalos de confianza, pruebas de hipótesis sobre coeficientes).
    • Modelos generativos: los autocodificadores variacionales (VAE), GAN y otros modelos generativos a menudo asumen que las variables latentes siguen una distribución normal estándar. Los nuevos datos se generan tomando muestras de este espacio y transformándolos a través de redes aprendidas.
    • Regularización: las técnicas como la regularización L2 (también conocida como regresión de cresta) penalizan los pesos grandes del modelo agregando un término proporcional al cuadrado de los pesos a la función de pérdida. Este término de penalización corresponde a suponer una priorización gaussiana sobre los parámetros del modelo; en términos bayesianos, es como si creyéramos que los pesos se extraen de una distribución normal centrada en cero. Este principio convierte la regularización en un problema de optimización basado en la probabilidad, promoviendo modelos más simples y reduciendo el sobreajuste.

    Conclusión

    En el núcleo de cada sistema de machine learning se encuentra una columna vertebral estadística, un andamio invisible que admite todo, desde el diseño del modelo hasta la interpretación. Comenzamos explorando lo que realmente es la estadística: no solo una rama de las matemáticas, sino un lenguaje para dar sentido a la incertidumbre y extraer significado de los datos. Las estadísticas descriptivas proporcionan la primera lente a través de la cual examinamos y resumimos la complejidad del mundo, ofreciendo claridad incluso antes de que comience el modelado.

    A continuación, nos adentramos en la probabilidad, el conjunto de herramientas formales para el razonamiento bajo incertidumbre. En machine learning, las probabilidades nos ayudan a cuantificar la posibilidad de un resultado, lo que permite que los modelos expresen confianza en lugar de solo predicciones difíciles. Ya sea la posibilidad de que un cliente abandone o la probabilidad de una etiqueta en la clasificación, la teoría de la probabilidad convierte los datos sin procesar en insights interpretables.

    Por último, exploramos las distribuciones, que definen cómo se comportan los datos en diferentes escenarios. Desde la distribución discreta de Bernoulli que modela los resultados binarios hasta la distribución gaussiana continua que da forma a nuestras suposiciones en los modelos de regresión y generativos, comprender estas distribuciones es crucial. Sustentan tanto los datos que observamos como los algoritmos que construimos, guiando la elección del modelo, dando forma a las funciones de pérdida y permitiendo una inferencia significativa.

    En los algoritmos modernos de machine learning, desde la regresión y el naive Bayes hasta el aprendizaje profundo y los métodos kernel, estos principios estadísticos no son complementos opcionales, sino la mecánica misma del machine learning. Nos ayudan a razonar sobre la incertidumbre, optimizar el rendimiento y generalizar a partir de observaciones limitadas a la toma de decisiones del mundo real. Al dominar estos fundamentos, no solo aprende a usar el machine learning, sino que aprende a comprender, construir y sacar inferencias a partir de él.

    Incluso en la era de la IA generativa y los modelos de aprendizaje profundo a gran escala, las estadísticas siguen siendo más relevantes que nunca. Detrás de cada capa transformadora y paso de difusión se encuentra una base construida sobre suposiciones de probabilidad, estimación y distribución. Comprender conceptos como la compensación entre sesgo y varianza y la incertidumbre no es solo académico, sino que es esencial para interpretar modelos de caja negra, diagnosticar modos de falla y crear una IA responsable y explicable. Ya sea que esté ajustando un modelo fundacional, aplicando técnicas bayesianas para la cuantificación de la incertidumbre o evaluando resultados generativos, el razonamiento estadístico le proporciona las herramientas para navegar por la complejidad con claridad. A medida que los sistemas de IA generativa se vuelven más potentes, basar su práctica en fundamentos estadísticos garantiza que sus modelos sigan siendo no solo de última generación, sino también basados en principios y confiables.

    Soluciones relacionadas
    IBM watsonx.ai

    Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

    Descubra watsonx.ai
    Soluciones de inteligencia artificial

    Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

    Explore las soluciones de IA
    Consultoría y servicios de IA

    Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

    Conozca los servicios de IA
    Dé el siguiente paso

    Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

    Explore watsonx.ai Reserve una demostración en vivo