Las últimas tendencias de IA presentadas por expertos
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
En la era moderna de la IA generativa, vemos a los profesionales construir modelos de machine learning (ML) desde regresiones lineales simples hasta redes neuronales complejas y sofisticadas y modelos de lenguaje grandes (LLM) generativos. También vemos la ciencia de datos omnipresente y el análisis de datos realizado para predecir el abandono de clientes, los sistemas de recomendación y otros casos de uso. Sin embargo, aunque los modelos de machine learning (ML) parezcan ejecutarse en conjuntos de datos masivos y algoritmos potentes, tras bambalinas, son fundamentalmente un proceso estadístico.
El machine learning se basa en técnicas estadísticas y herramientas matemáticas, incluidos métodos bayesianos, álgebra lineal y estrategias de validación, que dan estructura y rigor al proceso. Ya sea que esté creando un clasificador no lineal, ajustando un sistema de recomendación o desarrollando un modelo generativo en Python, está aplicando los principios básicos de machine learning.
Cada vez que entrena un modelo, está estimando parámetros a partir de datos. Cuando lo prueba, se pregunta: ¿este patrón es real o es solo ruido aleatorio? ¿Cómo podemos cuantificar el error mediante el uso de métricas de evaluación? Estas son preguntas estadísticas. El proceso de pruebas estadísticas nos ayuda a infundir confianza en la construcción e interpretación de las métricas del modelo. Comprender estos requisitos previos no solo es fundamental, sino que es esencial para crear sistemas de IA sólidos e interpretables basados en la informática y el razonamiento matemático.
Este artículo desglosa los pilares estadísticos detrás del machine learning moderno, no solo para desmitificar las matemáticas, sino para equiparle con los modelos mentales necesarios para construir, depurar e interpretar sistemas de machine learning con confianza.
Veremos seis conceptos interrelacionados:
1. Estadísticas: Fundamentalmente, ¿qué son las estadísticas y cómo se utilizan en la IA moderna?
2. Probabilidad: ¿Cómo cuantificamos la incertidumbre en los datos?
3. Distribuciones: ¿Cómo modelar el comportamiento de los datos?
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
La estadística es la ciencia de extraer insights de los datos. Organiza, analiza e interpreta la información para descubrir patrones y tomar decisiones en condiciones de incertidumbre. En el contexto de la ciencia de datos y los algoritmos de machine learning, las estadísticas proporcionan la base matemática para comprender el comportamiento de los datos, guiar las opciones de modelos y evaluar los resultados. Transforma conjuntos de datos desordenados y ruidosos en inteligencia aplicable en la práctica.
El machine learning moderno se basa en métodos estadísticos. Ya sea que esté aplicando aprendizaje supervisado (por ejemplo, regresión o clasificación), aprendizaje no supervisado (por ejemplo, agrupación en clústeres) o aprendizaje por refuerzo, está empleando herramientas basadas en inferencia estadística. Las estadísticas nos permiten cuantificar la incertidumbre, generalizar a partir de muestras y sacar conclusiones sobre poblaciones más amplias, todo lo cual es esencial para crear sistemas de inteligencia artificial (IA) confiables.
Antes de entrenar modelos, realizamos análisis exploratorios de datos (EDA), un proceso que se basa en estadísticas descriptivas para resumir las características clave de los datos. Estos resúmenes nos informan sobre la tendencia central y la variabilidad de cada característica, lo que ayuda a identificar valores atípicos, problemas de calidad de los datos y necesidades de preprocesamiento. Comprender estas propiedades es un requisito previo para crear modelos eficaces y elegir los algoritmos de machine learning adecuados.
El promedio aritmético de los valores. Común en la medición de la centralidad y en funciones de pérdida como el error cuadrático medio (MSE).
Ejemplo: si los valores de compra de los clientes están aumentando, la media detecta cambios en el comportamiento.
El valor medio cuando se ordenan los datos. Más resistente a los valores atípicos que la media.
Ejemplo: en los datos de ingresos, la mediana refleja mejor un caso “típico” en presencia de riqueza sesgada.
El valor que ocurre con más frecuencia. Útil para características categóricas o votación mayoritaria (como en algunos métodos de conjunto).
Ejemplo: encontrar el navegador más común utilizado por los visitantes del sitio.
Mide qué tan separados están los valores de la media. Una SD baja implica que los puntos de datos se agrupan cerca de la media, mientras que una SD alta indica una mayor variabilidad.
Ejemplo: en la validación de modelos, una característica con alta varianza podría necesitar normalización para evitar dominar a otras en algoritmos basados en la distancia, como los k vecinos más cercanos.
El rango entre los percentiles 75 y 25 (Q3 - Q1). Captura el 50 % medio de los datos y es útil para detectar valores atípicos.
Ejemplo: en una tarea de segmentación de clientes, un IQR alto en el gasto podría indicar un comportamiento incoherente entre los subgrupos.
Indica la asimetría de una distribución. Un sesgo positivo significa una cola derecha más larga, mientras que un sesgo negativo significa una cola izquierda más larga. Las características sesgadas pueden infringir las suposiciones de los modelos lineales o inflar las métricas basadas en la media.
Ejemplo: las distribuciones sesgadas a la derecha (como los ingresos) pueden requerir transformación logarítmica antes de aplicar la regresión lineal.
Describe la "cola" de la distribución, es decir, qué tan probables son los valores extremos. Una curtosis alta implica valores atípicos más frecuentes, mientras que una curtosis baja significa una distribución más plana.
Ejemplo: en la detección de fraudes, una alta curtosis en los montos de las transacciones podría indicar patrones de gasto anormales.
Estas medidas también guían las decisiones de preprocesamiento, como la normalización, la estandarización o la imputación, y afectan la manera en que diseñamos nuevas características.
Durante el EDA, las estadísticas descriptivas nos ayudan a:
Comprender los datos con estadísticas también ayuda a preparar modelos para manejar grandes conjuntos de datos, evaluar las métricas del modelo y mitigar riesgos como el sobreajuste. Por ejemplo, los resúmenes descriptivos pueden revelar clases desequilibradas o escalas de características que requieren normalización, lo que afecta el rendimiento y la equidad del modelo.
El modelado mediante machine learning existe debido a la incertidumbre. Si pudiéramos asignar perfectamente las entradas a las salidas, no habría necesidad de modelos. Pero los datos del mundo real son desordenados, incompletos y ruidosos, por lo que modelamos probabilidades en lugar de certezas. Aprender sobre probabilidades establece los fundamentos de todo lo relacionado con machine learning y la inteligencia artificial (IA). Las teorías de probabilidades nos permiten comprender los datos que utilizamos para modelar de una manera bonita y elegante. Desempeña un papel crítico en el modelado de incertidumbres en las predicciones de los modelos de ML. Nos ayuda a cuantificar la probabilidad y las certezas de un modelo estadístico para que podamos medir con confianza los modelos de resultados que creamos. Adentrarse en el mundo de las probabilidades y aprender los fundamentos le ayudará a comprender la base de todos los modelos de aprendizaje estadístico y cómo se hacen sus predicciones. Aprenderá cómo podemos hacer inferencias y producir resultados probabilísticos.
Para aprender distribuciones populares y modelar sus datos con confianza, vayamos a lo básico y aclaremos algunas terminologías.
Variable aleatoria: representación numérica de un resultado de un fenómeno aleatorio. Es una variable cuyos valores posibles son resultados numéricos de un proceso aleatorio.
Variable aleatoria discreta: una variable aleatoria que puede tomar un número finito o infinito contable de valores distintos. Por ejemplo, el resultado de un lanzamiento de moneda (cara = 1, cruz = 0) o la cantidad de correos electrónicos no deseados recibidos en una hora.
Variable aleatoria continua: una variable aleatoria que puede tomar cualquier valor dentro de un rango determinado. Por ejemplo, la altura de una persona, la temperatura en una habitación o la cantidad de lluvia.
Evento: un conjunto de uno o más resultados de un proceso aleatorio. Por ejemplo, lanzar un número par en un dado (resultados: 2, 4, 6) o el abandono de un cliente.
Resultado: un único resultado posible de un experimento aleatorio. Por ejemplo, lanzar una moneda arroja "cara" o "cruz".
Probabilidad : una medida numérica de la probabilidad de que un evento ocurrirá, que va de 0 (imposible) a 1 (cierto).
Probabilidad condicional : la probabilidad del evento que ocurre, dado que ese evento ya ha ocurrido. Este paso es crucial en el ML, ya que a menudo queremos predecir un resultado dadas características específicas.
La probabilidad es una medida de la probabilidad de que ocurra un evento, de 0 (imposible) a 1 (cierto).
En machine learning, esto suele adoptar la forma de probabilidad condicional.
Ejemplo: un modelo de regresión logística podría decir
> “Dada la edad = 45 años, ingresos = 60 000 USD y el historial previo,
> la probabilidad de abandono es 0.82”.
Este ejemplo no significa que el cliente abandonará: es una creencia basada en los patrones estadísticos en los datos de entrenamiento.
En la era moderna de la IA generativa, los modelos probabilísticos, como la regresión logística, desempeñan un papel muy importante en la determinación de los resultados y salidas de un modelo. Este papel suele adoptar la forma de una función de activación en las capas de las redes neuronales.
Una distribución de probabilidad es una función matemática que describe los posibles valores y probabilidades que puede tomar una variable aleatoria dentro de un rango particular. Comprender las distribuciones es crucial en ML porque los datos rara vez existen como puntos únicos y aislados; tienen una estructura y una "forma". Algunas terminologías que necesitamos especificar son:
Hacer las suposiciones correctas sobre la distribución de sus datos es crítico: muchos algoritmos de machine learning se basan en estas suposiciones tanto para la selección como para la interpretación del modelo. Las suposiciones incorrectas pueden llevar a estimaciones con sesgo, funciones de pérdida desalineadas y, en última instancia, generalizaciones deficientes o conclusiones no válidas en aplicaciones del mundo real.
Las distribuciones de probabilidad sustentan lo siguiente:
La distribución de Bernoulli modela la probabilidad de éxito o fracaso en una sola prueba de un evento aleatorio discreto. Es decir, solo tiene dos resultados: 1 (éxito) o 0 (fracaso). Es el tipo de distribución más simple utilizado en estadísticas, pero forma la base de muchos problemas de clasificación en machine learning. Por ejemplo, si lanzara una moneda 10 veces y obtuviera 7 caras (éxito) y 3 cruces (fracaso), la función de masa de probabilidad (PMF) se puede representar gráficamente como:
Un lanzamiento de moneda es un ensayo tradicional de Bernoulli. Apliquemos la función de masa de probabilidad al ejemplo del lanzamiento de una moneda
- Sea una variable aleatoria que represente el resultado de un lanzamiento
- Si cara se considera éxito, definimos para cara y para cruz
- Si la moneda es justa, la probabilidad de cara es
La función de masa de probabilidad (PMF) de la distribución de Bernoulli es:
Dónde:
Comprender la PMF de Bernoulli es esencial porque forma la columna vertebral probabilística de muchos modelos de clasificación. En particular, la regresión logística no solo genera una etiqueta de clase, sino que estima la probabilidad de que una entrada en particular pertenezca a la clase 1. Esta probabilidad predicha se interpreta como el parámetro 𝑝 en una distribución de Bernoulli:
La función logística (sigmoide) utilizada en la regresión logística garantiza que los valores predichos se encuentren dentro del rango [0.1], lo que los convierte en probabilidades de Bernoulli válidas. El modelo está entrenado para maximizar la probabilidad de observar los resultados binarios verdaderos bajo el supuesto de que cada valor objetivo se extrae de una distribución de Bernoulli con probabilidad 𝑝 predicha a partir de características 𝑋. En este caso, dado que queremos minimizar la pérdida de entrenamiento, adoptamos un enfoque de estimación de máxima verosimilitud (MLE) para maximizar la probabilidad de un resultado, dados los datos. Normalmente, para una distribución discreta como la de Bernoulli, transformamos la probabilidad en verosimilitud para manipularla más fácilmente. La probabilidad, al igual que las posibilidades, es desproporcionada, por lo que generalmente aplicamos una transformación logarítmica, conocida como log-verosimilitud, y la función de pérdida como log-pérdida. Si esta sección suena un poco confusa, puede visitar el documento explicativo de regresión mencionado anteriormente para la derivación paso a paso de la función de verosimilitud logarítmica mediante MLE. Esta conexión proporciona la base estadística para interpretar los resultados como estimaciones probabilísticas. Otras aplicaciones incluyen:
La distribución normal describe una variable aleatoria continua cuyos valores tienden a agruparse en clústeres en torno a una media central, con variabilidad simétrica en ambas direcciones. Es omnipresente en las estadísticas porque muchos fenómenos naturales (altura, puntajes de pruebas, errores de medición) siguen este patrón, especialmente cuando se agregan entre muestras.
Imagine que registra las alturas de 1000 adultos. El trazado de estos datos revela una curva en forma de campana: la mayoría de las personas están cerca del promedio, con menos en los extremos. Esta forma es capturada por la función de densidad de probabilidad (PDF) de la distribución normal:
Dónde:
En el núcleo de cada sistema de machine learning se encuentra una columna vertebral estadística, un andamio invisible que admite todo, desde el diseño del modelo hasta la interpretación. Comenzamos explorando lo que realmente es la estadística: no solo una rama de las matemáticas, sino un lenguaje para dar sentido a la incertidumbre y extraer significado de los datos. Las estadísticas descriptivas proporcionan la primera lente a través de la cual examinamos y resumimos la complejidad del mundo, ofreciendo claridad incluso antes de que comience el modelado.
A continuación, nos adentramos en la probabilidad, el conjunto de herramientas formales para el razonamiento bajo incertidumbre. En machine learning, las probabilidades nos ayudan a cuantificar la posibilidad de un resultado, lo que permite que los modelos expresen confianza en lugar de solo predicciones difíciles. Ya sea la posibilidad de que un cliente abandone o la probabilidad de una etiqueta en la clasificación, la teoría de la probabilidad convierte los datos sin procesar en insights interpretables.
Por último, exploramos las distribuciones, que definen cómo se comportan los datos en diferentes escenarios. Desde la distribución discreta de Bernoulli que modela los resultados binarios hasta la distribución gaussiana continua que da forma a nuestras suposiciones en los modelos de regresión y generativos, comprender estas distribuciones es crucial. Sustentan tanto los datos que observamos como los algoritmos que construimos, guiando la elección del modelo, dando forma a las funciones de pérdida y permitiendo una inferencia significativa.
En los algoritmos modernos de machine learning, desde la regresión y el naive Bayes hasta el aprendizaje profundo y los métodos kernel, estos principios estadísticos no son complementos opcionales, sino la mecánica misma del machine learning. Nos ayudan a razonar sobre la incertidumbre, optimizar el rendimiento y generalizar a partir de observaciones limitadas a la toma de decisiones del mundo real. Al dominar estos fundamentos, no solo aprende a usar el machine learning, sino que aprende a comprender, construir y sacar inferencias a partir de él.
Incluso en la era de la IA generativa y los modelos de aprendizaje profundo a gran escala, las estadísticas siguen siendo más relevantes que nunca. Detrás de cada capa transformadora y paso de difusión se encuentra una base construida sobre suposiciones de probabilidad, estimación y distribución. Comprender conceptos como la compensación entre sesgo y varianza y la incertidumbre no es solo académico, sino que es esencial para interpretar modelos de caja negra, diagnosticar modos de falla y crear una IA responsable y explicable. Ya sea que esté ajustando un modelo fundacional, aplicando técnicas bayesianas para la cuantificación de la incertidumbre o evaluando resultados generativos, el razonamiento estadístico le proporciona las herramientas para navegar por la complejidad con claridad. A medida que los sistemas de IA generativa se vuelven más potentes, basar su práctica en fundamentos estadísticos garantiza que sus modelos sigan siendo no solo de última generación, sino también basados en principios y confiables.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.