¿Qué es el machine learning estadístico?

Autores

Fangfang Lee

Developer Advocate

IBM

Machine learning estadístico

Introducción: ¿qué es el pensamiento estadístico en el machine learning?

En la era moderna de la IA generativa, vemos a los profesionales construir modelos de machine learning (ML) desde simples regresiones lineales hasta redes neuronales complejas y sofisticadas y modelos generativos de lenguaje de gran tamaño (LLM). También vemos la ciencia de datos omnipresente y el análisis de datos realizados para predecir la pérdida de clientes, los sistemas de recomendación y otros casos de uso. Sin embargo, aunque parezca que los modelos de machine learning (ML) se ejecutan en un conjunto de datos masivo y algoritmos potentes, bajo el capó, son fundamentalmente un proceso estadístico.

El machine learning se basa en técnicas estadísticas y herramientas matemáticas, incluidos métodos bayesianos, álgebra lineal y estrategias de validación, que dan estructura y rigor al proceso. Tanto si está creando un clasificador no lineal, ajustando un sistema de recomendación o desarrollando un modelo generativo en Python, está aplicando los principios básicos del machine learning estadístico.

Cada vez que entrena un modelo, está estimando parámetros a partir de datos. Cuando lo prueba, se pregunta: ¿este patrón es real o solo ruido aleatorio? ¿Cómo podemos cuantificar el error utilizando métricas de evaluación? Estas son preguntas estadísticas. El proceso de pruebas estadísticas nos ayuda a infundir confianza en la construcción e interpretación de las métricas del modelo. Comprender estos requisitos previos no solo es fundamental, sino que es esencial para crear sistemas de IA sólidos e interpretables basados en la informática y el razonamiento matemático.

Este artículo desglosa los pilares estadísticos del ML moderno, no solo para desmitificar las matemáticas, sino para equiparle con los modelos mentales necesarios para crear, depurar e interpretar sistemas de machine learning con confianza.

Analizaremos seis conceptos interrelacionados:

1. Estadísticas: Fundamentalmente, ¿qué son las estadísticas y cómo se utilizan en la IA moderna?

2. Probabilidad: ¿Cómo cuantificamos la incertidumbre en los datos?

3. Distribuciones: ¿Cómo modelar el comportamiento de los datos?

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Qué es la estadística?

La estadística es la ciencia de extraer conocimiento de los datos. Organiza, analiza e interpreta la información para descubrir patrones y tomar decisiones en condiciones de incertidumbre. En el contexto de la ciencia de datos y los algoritmos de machine learning, las estadísticas proporcionan la base matemática para comprender el comportamiento de los datos, guiar la elección de modelos y evaluar los resultados. Transforma conjuntos de datos desordenados y ruidosos en inteligencia que se puede ejecutar.

El machine learning moderno se basa en métodos estadísticos. Ya esté aplicando aprendizaje supervisado (por ejemplo, regresión o clasificación), aprendizaje no supervisado (por ejemplo, clustering) o aprendizaje por refuerzo, está utilizando herramientas basadas en la inferencia estadística. Las estadísticas nos permiten cuantificar la incertidumbre, generalizar a partir de muestras y sacar conclusiones sobre poblaciones más amplias, todo ello esencial para crear sistemas de inteligencia artificial (IA) fiables.

Estadística descriptiva: conceptos básicos

Antes de entrenar los modelos, realizamos un análisis exploratorio de datos (EDA), un proceso que se basa en estadísticas descriptivas para resumir las características clave de los datos. Estos resúmenes nos informan sobre la tendencia central y la variabilidad de cada característica, lo que ayuda a identificar valores atípicos, problemas de calidad de los datos y necesidades de preprocesamiento. Comprender estas propiedades es un requisito previo para crear modelos eficaces y elegir los algoritmos de machine learning adecuados.

Medidas clave:

    • Media (promedio):

    La media aritmética de los valores. Común en la medición de la centralidad y en funciones de pérdida como el error cuadrático medio (MSE).

    Ejemplo: si los valores de compra de los clientes aumentan, la media detecta cambios en el comportamiento.

    • Mediana:

    El valor medio cuando se ordenan los datos. Más resistente a los valores atípicos que la media.

    Ejemplo: en los datos de ingresos, la mediana refleja mejor un caso "típico" en presencia de riqueza sesgada.

    • Modo:

    El valor más frecuente. Útil para características categóricas o votación por mayoría (como en algunos métodos de conjunto).

    Ejemplo: Encontrar el navegador más común utilizado por los visitantes del sitio.

    • Desviación estándar (SD):

    Mide la dispersión de los valores con respecto a la media. Una SD baja implica que los puntos de datos están agrupados cerca de la media, mientras que una SD alta indica una mayor variabilidad.

    Ejemplo: en la validación del modelo, una característica con una varianza alta podría necesitar normalización para evitar dominar a otras en algoritmos basados en la distancia, como los k vecinos más cercanos.

    • Rango intercuartílico (IQR):

    El rango entre los percentiles 75 y 25 (Q3 - Q1). Captura el 50 % medio de los datos y es útil para detectar valores atípicos.

    Ejemplo: en una tarea de segmentación de clientes, un IQR alto en el gasto puede indicar un comportamiento incoherente entre los subgrupos.

    • Sesgo:

    Indica la asimetría de una distribución. Un sesgo positivo significa una cola derecha más larga, mientras que un sesgo negativo significa una cola izquierda más larga. Las características sesgadas pueden violar los supuestos de los modelos lineales o inflar las métricas basadas en la media.

    Ejemplo: las distribuciones asimétricas a la derecha (como los ingresos) pueden requerir una transformación logarítmica antes de aplicar la regresión lineal.

    • Curtosis:

    Describe la "cola" de la distribución, es decir, la probabilidad de que existan valores extremos. Una curtosis alta implica valores atípicos más frecuentes, mientras que una curtosis baja significa una distribución más plana.

    Ejemplo: en la detección del fraude, una alta curtosis en los importes de las transacciones puede indicar patrones de gasto anormales.

    Estas medidas también guían las decisiones de preprocesamiento, como la normalización, la estandarización o la imputación, y afectan a la forma en que diseñamos nuevas características.

    Estadísticas descriptivas en machine learning

    Durante la EDA, las estadísticas descriptivas nos ayudan a:

    • Evalúe las distribuciones de datos: ¿son las variables gaussianas? ¿Asimétricas? ¿Multimodales?
    • Identifique valores atípicos y errores: una falta de coincidencia entre la media y la mediana puede indicar valores inusuales.
    • Descubra problemas de calidad de los datos: por ejemplo, detección de edades negativas o categories.
    • Ayude en la selección del modelo: una variable objetivo continua sugiere regresión; una categórica, la clasificación. Las relaciones entre las características (por ejemplo, la correlación) también pueden influir en la decisión de utilizar métodos lineales, no paramétricos o basados en kernels.

    Comprender los datos con estadísticas también ayuda a preparar modelos para manejar grandes conjuntos de datos, evaluar las métricas del modelo y mitigar riesgos como el sobreajuste. Por ejemplo, los resúmenes descriptivos pueden revelar clases desequilibradas o escalas de características que requieren normalización, lo que afecta al rendimiento y la imparcialidad del modelo.

    Mixture of Experts | 12 de diciembre, episodio 85

    Descifrar la IA: resumen semanal de noticias

    Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

    Probabilidades: el lenguaje de la incertidumbre

    El modelado mediante machine learning existe debido a la incertidumbre. Si pudiéramos correlacionar perfectamente las entradas con las salidas, no serían necesarios los modelos. Pero los datos del mundo real son desordenados, incompletos y ruidosos, por lo que modelamos probabilidades en lugar de certezas. Aprender sobre probabilidades sienta las bases de todo lo relacionado con el machine learning y la inteligencia artificial (IA). Las teorías de las probabilidades nos permiten comprender los datos que utilizamos para modelar de una manera hermosa y elegante. Desempeña un papel crítico en el modelado de incertidumbres en las predicciones de los modelos de ML. Nos ayuda a cuantificar la probabilidad, la probabilidad y las certezas de un modelo estadístico para que podamos medir con confianza los modelos de resultados que creamos. Sumergirse en el mundo de las probabilidades y aprender los fundamentos le ayudará a comprender la base de todos los modelos de aprendizaje estadístico y cómo se realizan sus predicciones. Aprenderá cómo podemos hacer inferencias y producir resultados probabilísticos.

    Para aprender las distribuciones populares y modelar sus datos con confianza, vayamos a lo básico y aclaremos algunas terminologías.

    Variable aleatoria: representación numérica del resultado de un fenómeno aleatorio. Es una variable cuyos valores posibles son resultados numéricos de un proceso aleatorio.

    Variable aleatoria discreta: una variable aleatoria que puede tomar un número finito o infinito contable de valores distintos. Por ejemplo, el resultado de un lanzamiento de moneda (cara = 1, cruz = 0) o el número de correos electrónicos no deseados recibidos en una hora.

    Variable aleatoria continua: una variable aleatoria que puede tomar cualquier valor dentro de un rango determinado. Por ejemplo, la altura de una persona, la temperatura en una habitación o la cantidad de lluvia.

    Evento: conjunto de uno o más resultados de un proceso aleatorio. Por ejemplo, lanzar un número par en un dado (resultados: 2, 4, 6) o la pérdida de clientes.

    Resultado: un único resultado posible de un experimento aleatorio. Por ejemplo, al lanzar una moneda al aire, el resultado es "cara" o "cruz".

    Probabilidad P(A) : Una medida numérica de la probabilidad de que un evento A ocurra, que van de 0 (imposible) a 1 (seguro).

    Probabilidad condicional P(A|B): La probabilidad de que el evento A ocurra, dado que este A ya ha tenido lugar previamente. Este paso es crucial en el ML, ya que a menudo queremos predecir un resultado dadas características específicas.

    La probabilidad es una medida de la probabilidad de que ocurra un evento, de 0 (imposible) a 1 (seguro).

    En el machine learning, esto suele adoptar la forma de probabilidad condicional

    Ejemplo: un modelo de regresión logística podría decir

    > "Dada la edad = 45 años, los ingresos = 60 000 dólares y el historial previo,

    > la probabilidad de abandono es del 0,82".

    Este ejemplo no significa que el cliente abandonará, es una creencia basada en los patrones estadísticos de los datos de entrenamiento.

    En la era moderna de la IA generativa, los modelos probabilísticos, como la regresión, desempeñan un papel muy importante a la hora de determinar los Resultados y el output de un modelo. Este papel suele adoptar la forma de una función de activación en las capas de las redes neuronales.

    Distribuciones: modelado del comportamiento de los datos

    Una distribución de probabilidad es una función matemática que describe los posibles valores y probabilidades que puede tomar una variable aleatoria dentro de un rango particular. Comprender las distribuciones es crucial en el ML porque los datos rara vez existen como puntos únicos y aislados; tiene una estructura y una forma. Algunas terminologías que necesitamos especificar son:

    • Distribución discreta: se aplica a variables que adoptan valores distintos y contables (por ejemplo, lanzamientos de monedas, recuentos de palabras).
    • Distribución continua: se aplica a variables que pueden tomar cualquier valor dentro de un rango (por ejemplo, altura, peso, tiempo).

    Conceptos básicos

    • Función de masa de probabilidad (PMF): La PMF se aplica a variables aleatorias discretas, es decir, variables que adoptan valores contables y distintos, como 0 o 1, cara o cruz, o el número de clientes que llegan a una tienda. El PMF le indica la probabilidad exacta de cada resultado posible. Por ejemplo, si lanza un dado justo de seis caras, el PMF asigna una probabilidad de 1/6 a cada uno de los resultados 1,2,3,4,5,6A diferencia de la PDF (que distribuye la densidad de probabilidad a lo largo de un rango), la PMF concentra la probabilidad en valores exactos.
    • Función de densidad de probabilidad (PDF): nos ayuda a razonar sobre percentiles, cuantiles y umbrales de probabilidad, conceptos que se utilizan a menudo en modelos de umbralización, auditoría de imparcialidad e interpretabilidad.
    • Función de distribución acumulativa (CDF): la CDF proporciona la probabilidad acumulada de que un valor sea inferior o igual a un umbral específico. Crece de 0 a 1 a medida que se mueve por el eje x, y es especialmente útil para responder a preguntas como "¿Qué proporción de clientes gastan menos de 50 dólares?"
    • Función de masa acumulativa (CMF): la CMF es la contraparte discreta de la CDF. Da la probabilidad acumulada de que una variable discreta tome un valor menor o igual que un punto en particular.

    Hacer las suposiciones correctas sobre la distribución de sus datos es crítico—muchos algoritmos de machine learning se basan en estas suposiciones tanto para la selección como para la interpretación del modelo. Las suposiciones incorrectas pueden dar lugar a estimaciones sesgadas, funciones de pérdida desalineadas y, en última instancia, a una generalización deficiente o a conclusiones inválidas en aplicaciones del mundo real.

    Las distribuciones de probabilidad sustentan:

    • Modelado de errores: suposiciones sobre residuos en regresión (a menudo gaussiana)
    • Funciones de pérdida: MSE corresponde a supuestos gaussianos; entropía cruzada a Bernoulli o logística.
    • Diseño de modelos: los objetivos de clasificación a menudo se modelan a través de Bernoulli; las variables latentes en modelos generativos profundos utilizan priores gaussianos.
    • IA generativa: el muestreo a partir de distribuciones aprendidas de alta dimensión es fundamental para modelos como las redes generativas antagónicas (GAN) y los VAE.

    Ejemplo de distribución discreta: ensayos de Bernoulli

    La distribución de Bernoulli modela la probabilidad de éxito o fracaso en una sola prueba de un evento aleatorio discreto. Es decir, solo tiene dos resultados: 1 (éxito) o 0 (fracaso). Es el tipo de distribución más simple utilizado en estadística, pero constituye la base de muchos problemas de clasificación en machine learning. Por ejemplo, si lanzara una moneda 10 veces y obtuviera 7 caras (éxito) y 3 cruces (fracaso), la función de masa de probabilidad (PMF) se puede representar gráficamente como:

    Distribución de lanzamientos de moneda: gráfico de barras

    El lanzamiento de una moneda es una clásica prueba de Bernoulli. Apliquemos la función de masa de probabilidad al ejemplo del lanzamiento de una moneda

    - Sea X una variable aleatoria que representa el resultado de un lanzamiento

    - Si cara se considera éxito, definimos X=1 para cara y X=0 para cruz

    - Si la moneda es imparcial, la probabilidad de que salga cara es p=0.5

    La función de masa de probabilidad (PMF) de la distribución de Bernoulli es:

     P(X=x)=px(1-p)1-x,forx{0,1}

    Distribución de Bernoulli - gráfico de paleta

    Donde:

    • p es la probabilidad de éxito (X=1)
    • 1 - p es la probabilidad de fallo (X=0)
    • x es el resultado observado (1 o 0)

     

    Aplicación al machine learning: distribución discreta

    Comprender el PMF de Bernoulli es esencial porque forma la columna vertebral probabilística de muchos modelos de clasificación. En particular, la regresión no solo genera una etiqueta de clase, sino que estima la probabilidad de que una entrada particular pertenezca a la clase 1. Esta probabilidad predicha se interpreta como el parámetro 𝑝 en una distribución de Bernoulli:

    La función logística (sigmoidea) utilizada en la regresión logística garantiza que los valores predichos se encuentren dentro del rango [0,1], lo que los convierte en probabilidades de Bernoulli válidas. El modelo está entrenado para maximizar la probabilidad de observar los resultados binarios verdaderos bajo el supuesto de que cada valor objetivo se extrae de una distribución de Bernoulli con probabilidad 𝑝 predicha a partir de características 𝑋. En este caso, dado que queremos minimizar la pérdida de entrenamiento, adoptamos un enfoque de estimación de máxima verosimilitud (MLE) para maximizar la probabilidad de un resultado, dados los datos. Normalmente, para una distribución discreta como la de Bernoulli, transformamos la probabilidad en probabilidad para manipularla más fácilmente. La verosimilitud, al igual que las probabilidades, es desproporcionada, por lo que solemos aplicar una transformación logarítmica, conocida como log-verosimilitud, y la función de pérdida como log-pérdida. Si esta sección le resulta un poco confusa, puede visitar el artículo explicativo sobre regresión logística mencionada anteriormente para ver la derivación paso a paso de la función de verosimilitud logarítmica utilizando MLE. Esta conexión proporciona la base estadística para interpretar los outputs como estimaciones probabilísticas. Otras aplicaciones incluyen:

    • El clasificador binario (árboles de decisión, bosques aleatorios, máquinas de vectores de soporte con resultados binarios) trata implícitamente la clasificación como una predicción de los resultados de Bernoulli, especialmente cuando la calibración de probabilidad se aplica después del entrenamiento.
    • Métricas de evaluación: la precisión, la recuperación y la puntuación F1 se derivan fundamentalmente de la suposición de que cada predicción es un evento binario (ensayo de Bernoulli).

    Ejemplo de distribución continua: distribución gaussiana (normal)

    La distribución normal describe una variable aleatoria continua cuyos valores tienden a clúster en torno a una media central, con variabilidad simétrica en ambas direcciones. Es omnipresente en estadística porque muchos fenómenos naturales (altura, puntuaciones de pruebas, errores de medición) siguen este patrón, especialmente cuando se agregan a través de muestras.

     

    Distribución normal - curva de campana

    Imagine que registra las alturas de 1000 adultos. El trazado de estos datos revela una curva en forma de campana: la mayoría de las personas están cerca de la media, y menos en los extremos. Esta forma es capturada por la función de densidad de probabilidad (PDF) de la distribución normal:

     f(xμ,σ2)=12πσ2exp(-(x-μ)22σ2)

    Donde:

    • 𝑥 es una variable continua (por ejemplo, altura)
    • 𝜇 es la media (centro de la distribución)
    •  σ2  la varianza (controla la dispersión)
    • El denominador  2πσ2  garantiza que el área bajo la curva sume 1
    • El término exponencial penaliza los valores que se alejan de la media, haciéndolos menos probables

    Aplicaciones al machine learning: distribución continua

    • Regresión lineal: supone que los residuos (errores) se distribuyen normalmente, lo que justifica el uso del error cuadrático medio (MSE) como función de pérdida. Esta suposición permite a los modelos realizar interpretaciones probabilísticas y facilita la inferencia estadística (por ejemplo, intervalos de confianza, pruebas de hipótesis sobre coeficientes).
    • Modelos generativos: los autocodificadores variacionales (VAE), las GAN y otros modelos generativos suelen suponer que las variables latentes siguen una distribución normal estándar. Los nuevos datos se generan tomando muestras de este espacio y transformándolos a través de redes aprendidas.
    • Regularización: técnicas como la regularización L2 (también conocida como regresión de crestas) penalizan las ponderaciones grandes del modelo añadiendo un término proporcional al cuadrado de las ponderaciones a la función de pérdida. Este término de penalización corresponde a suponer una priorización gaussiana sobre los parámetros del modelo; en términos bayesianos, es como si creyéramos que las ponderaciones proceden de una distribución normal centrada en cero. Este principio convierte la regularización en un problema de optimización basado en la probabilidad, promoviendo modelos más simples y reduciendo el sobreajuste.

    Conclusión

    En el núcleo de cada sistema de machine learning se encuentra una columna vertebral estadística, un andamio invisible que soporta todo, desde el diseño del modelo hasta la interpretación. Comenzamos explorando lo que realmente es la estadística: no solo una rama de las matemáticas, sino un lenguaje para dar sentido a la incertidumbre y extraer significado de los datos. Las estadísticas descriptivas proporcionan la primera lente a través de la cual examinamos y resumimos la complejidad del mundo, ofreciendo claridad incluso antes de que comience el modelado.

    A continuación, nos sumergimos en la probabilidad, el conjunto de herramientas formales para razonar en condiciones de incertidumbre. En el machine learning, las probabilidades nos ayudan a cuantificar la probabilidad de un resultado, lo que permite que los modelos expresen confianza en lugar de solo predicciones duras. Ya sea la posibilidad de que un cliente abandone o la probabilidad de una etiqueta en la clasificación, la teoría de la probabilidad convierte los datos sin procesar en conocimiento.

    Por último, exploramos las distribuciones, que definen cómo se comportan los datos en diferentes escenarios. Desde la distribución discreta de Bernoulli que modela los resultados binarios hasta la distribución gaussiana continua que da forma a nuestras suposiciones en los modelos de regresión y generativos, comprender estas distribuciones es crucial. Sustentan tanto los datos que observamos como los algoritmos que construimos, guiando la elección del modelo, dando forma a las funciones de pérdida y permitiendo una inferencia significativa.

    En los algoritmos modernos de machine learning, desde la regresión logística y el Naive Bayes hasta el deep learning y los métodos kernel, estos principios estadísticos no son complementos opcionales, sino la mecánica misma del machine learning. Nos ayudan a razonar sobre la incertidumbre, optimizar el rendimiento y generalizar a partir de observaciones limitadas a la toma de decisiones en el mundo real. Al dominar estos fundamentos, no solo aprende a utilizar el machine learning, sino que aprende a comprenderlo, construir y extraer inferencias a partir de él.

    Incluso en la era de la IA generativa y los modelos de deep learning a gran escala, las estadísticas siguen siendo más relevantes que nunca. Detrás de cada capa de transformación y paso de difusión se encuentra una base construida sobre suposiciones de probabilidad, estimación y distribución. Comprender conceptos como la compensación sesgo-varianza y la incertidumbre no es solo académico, sino que es esencial para interpretar modelos de caja negra, diagnosticar modos de fallo y crear una IA responsable y explicable. Tanto si está ajustando un modelo fundacional, aplicando técnicas bayesianas para la cuantificación de la incertidumbre o evaluando outputs, el razonamiento estadístico le proporciona las herramientas necesarias para navegar por la complejidad con claridad. A medida que los sistemas de IA generativa se vuelven más potentes, basar su práctica en fundamentos estadísticos garantiza que sus modelos sigan siendo no solo de última generación, sino también basados en principios y fiables.

    Soluciones relacionadas
    IBM watsonx.ai

    Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

    Descubra watsonx.ai
    Soluciones de inteligencia artificial

    Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

    Explore las soluciones de IA
    Consultoría y servicios de IA

    Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

    Explore los servicios de IA
    Dé el siguiente paso

    Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

    Explore watsonx.ai Solicite una demostración en directo