Las últimas tendencias en IA, presentadas por expertos
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
En la era moderna de la IA generativa, vemos a los profesionales construir modelos de machine learning (ML) desde simples regresiones lineales hasta redes neuronales complejas y sofisticadas y modelos generativos de lenguaje de gran tamaño (LLM). También vemos la ciencia de datos omnipresente y el análisis de datos realizados para predecir la pérdida de clientes, los sistemas de recomendación y otros casos de uso. Sin embargo, aunque parezca que los modelos de machine learning (ML) se ejecutan en un conjunto de datos masivo y algoritmos potentes, bajo el capó, son fundamentalmente un proceso estadístico.
El machine learning se basa en técnicas estadísticas y herramientas matemáticas, incluidos métodos bayesianos, álgebra lineal y estrategias de validación, que dan estructura y rigor al proceso. Tanto si está creando un clasificador no lineal, ajustando un sistema de recomendación o desarrollando un modelo generativo en Python, está aplicando los principios básicos del machine learning estadístico.
Cada vez que entrena un modelo, está estimando parámetros a partir de datos. Cuando lo prueba, se pregunta: ¿este patrón es real o solo ruido aleatorio? ¿Cómo podemos cuantificar el error utilizando métricas de evaluación? Estas son preguntas estadísticas. El proceso de pruebas estadísticas nos ayuda a infundir confianza en la construcción e interpretación de las métricas del modelo. Comprender estos requisitos previos no solo es fundamental, sino que es esencial para crear sistemas de IA sólidos e interpretables basados en la informática y el razonamiento matemático.
Este artículo desglosa los pilares estadísticos del ML moderno, no solo para desmitificar las matemáticas, sino para equiparle con los modelos mentales necesarios para crear, depurar e interpretar sistemas de machine learning con confianza.
Analizaremos seis conceptos interrelacionados:
1. Estadísticas: Fundamentalmente, ¿qué son las estadísticas y cómo se utilizan en la IA moderna?
2. Probabilidad: ¿Cómo cuantificamos la incertidumbre en los datos?
3. Distribuciones: ¿Cómo modelar el comportamiento de los datos?
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
La estadística es la ciencia de extraer conocimiento de los datos. Organiza, analiza e interpreta la información para descubrir patrones y tomar decisiones en condiciones de incertidumbre. En el contexto de la ciencia de datos y los algoritmos de machine learning, las estadísticas proporcionan la base matemática para comprender el comportamiento de los datos, guiar la elección de modelos y evaluar los resultados. Transforma conjuntos de datos desordenados y ruidosos en inteligencia que se puede ejecutar.
El machine learning moderno se basa en métodos estadísticos. Ya esté aplicando aprendizaje supervisado (por ejemplo, regresión o clasificación), aprendizaje no supervisado (por ejemplo, clustering) o aprendizaje por refuerzo, está utilizando herramientas basadas en la inferencia estadística. Las estadísticas nos permiten cuantificar la incertidumbre, generalizar a partir de muestras y sacar conclusiones sobre poblaciones más amplias, todo ello esencial para crear sistemas de inteligencia artificial (IA) fiables.
Antes de entrenar los modelos, realizamos un análisis exploratorio de datos (EDA), un proceso que se basa en estadísticas descriptivas para resumir las características clave de los datos. Estos resúmenes nos informan sobre la tendencia central y la variabilidad de cada característica, lo que ayuda a identificar valores atípicos, problemas de calidad de los datos y necesidades de preprocesamiento. Comprender estas propiedades es un requisito previo para crear modelos eficaces y elegir los algoritmos de machine learning adecuados.
La media aritmética de los valores. Común en la medición de la centralidad y en funciones de pérdida como el error cuadrático medio (MSE).
Ejemplo: si los valores de compra de los clientes aumentan, la media detecta cambios en el comportamiento.
El valor medio cuando se ordenan los datos. Más resistente a los valores atípicos que la media.
Ejemplo: en los datos de ingresos, la mediana refleja mejor un caso "típico" en presencia de riqueza sesgada.
El valor más frecuente. Útil para características categóricas o votación por mayoría (como en algunos métodos de conjunto).
Ejemplo: Encontrar el navegador más común utilizado por los visitantes del sitio.
Mide la dispersión de los valores con respecto a la media. Una SD baja implica que los puntos de datos están agrupados cerca de la media, mientras que una SD alta indica una mayor variabilidad.
Ejemplo: en la validación del modelo, una característica con una varianza alta podría necesitar normalización para evitar dominar a otras en algoritmos basados en la distancia, como los k vecinos más cercanos.
El rango entre los percentiles 75 y 25 (Q3 - Q1). Captura el 50 % medio de los datos y es útil para detectar valores atípicos.
Ejemplo: en una tarea de segmentación de clientes, un IQR alto en el gasto puede indicar un comportamiento incoherente entre los subgrupos.
Indica la asimetría de una distribución. Un sesgo positivo significa una cola derecha más larga, mientras que un sesgo negativo significa una cola izquierda más larga. Las características sesgadas pueden violar los supuestos de los modelos lineales o inflar las métricas basadas en la media.
Ejemplo: las distribuciones asimétricas a la derecha (como los ingresos) pueden requerir una transformación logarítmica antes de aplicar la regresión lineal.
Describe la "cola" de la distribución, es decir, la probabilidad de que existan valores extremos. Una curtosis alta implica valores atípicos más frecuentes, mientras que una curtosis baja significa una distribución más plana.
Ejemplo: en la detección del fraude, una alta curtosis en los importes de las transacciones puede indicar patrones de gasto anormales.
Estas medidas también guían las decisiones de preprocesamiento, como la normalización, la estandarización o la imputación, y afectan a la forma en que diseñamos nuevas características.
Durante la EDA, las estadísticas descriptivas nos ayudan a:
Comprender los datos con estadísticas también ayuda a preparar modelos para manejar grandes conjuntos de datos, evaluar las métricas del modelo y mitigar riesgos como el sobreajuste. Por ejemplo, los resúmenes descriptivos pueden revelar clases desequilibradas o escalas de características que requieren normalización, lo que afecta al rendimiento y la imparcialidad del modelo.
El modelado mediante machine learning existe debido a la incertidumbre. Si pudiéramos correlacionar perfectamente las entradas con las salidas, no serían necesarios los modelos. Pero los datos del mundo real son desordenados, incompletos y ruidosos, por lo que modelamos probabilidades en lugar de certezas. Aprender sobre probabilidades sienta las bases de todo lo relacionado con el machine learning y la inteligencia artificial (IA). Las teorías de las probabilidades nos permiten comprender los datos que utilizamos para modelar de una manera hermosa y elegante. Desempeña un papel crítico en el modelado de incertidumbres en las predicciones de los modelos de ML. Nos ayuda a cuantificar la probabilidad, la probabilidad y las certezas de un modelo estadístico para que podamos medir con confianza los modelos de resultados que creamos. Sumergirse en el mundo de las probabilidades y aprender los fundamentos le ayudará a comprender la base de todos los modelos de aprendizaje estadístico y cómo se realizan sus predicciones. Aprenderá cómo podemos hacer inferencias y producir resultados probabilísticos.
Para aprender las distribuciones populares y modelar sus datos con confianza, vayamos a lo básico y aclaremos algunas terminologías.
Variable aleatoria: representación numérica del resultado de un fenómeno aleatorio. Es una variable cuyos valores posibles son resultados numéricos de un proceso aleatorio.
Variable aleatoria discreta: una variable aleatoria que puede tomar un número finito o infinito contable de valores distintos. Por ejemplo, el resultado de un lanzamiento de moneda (cara = 1, cruz = 0) o el número de correos electrónicos no deseados recibidos en una hora.
Variable aleatoria continua: una variable aleatoria que puede tomar cualquier valor dentro de un rango determinado. Por ejemplo, la altura de una persona, la temperatura en una habitación o la cantidad de lluvia.
Evento: conjunto de uno o más resultados de un proceso aleatorio. Por ejemplo, lanzar un número par en un dado (resultados: 2, 4, 6) o la pérdida de clientes.
Resultado: un único resultado posible de un experimento aleatorio. Por ejemplo, al lanzar una moneda al aire, el resultado es "cara" o "cruz".
Probabilidad : Una medida numérica de la probabilidad de que un evento ocurra, que van de 0 (imposible) a 1 (seguro).
Probabilidad condicional : La probabilidad de que el evento ocurra, dado que este ya ha tenido lugar previamente. Este paso es crucial en el ML, ya que a menudo queremos predecir un resultado dadas características específicas.
La probabilidad es una medida de la probabilidad de que ocurra un evento, de 0 (imposible) a 1 (seguro).
En el machine learning, esto suele adoptar la forma de probabilidad condicional
Ejemplo: un modelo de regresión logística podría decir
> "Dada la edad = 45 años, los ingresos = 60 000 dólares y el historial previo,
> la probabilidad de abandono es del 0,82".
Este ejemplo no significa que el cliente abandonará, es una creencia basada en los patrones estadísticos de los datos de entrenamiento.
En la era moderna de la IA generativa, los modelos probabilísticos, como la regresión, desempeñan un papel muy importante a la hora de determinar los Resultados y el output de un modelo. Este papel suele adoptar la forma de una función de activación en las capas de las redes neuronales.
Una distribución de probabilidad es una función matemática que describe los posibles valores y probabilidades que puede tomar una variable aleatoria dentro de un rango particular. Comprender las distribuciones es crucial en el ML porque los datos rara vez existen como puntos únicos y aislados; tiene una estructura y una forma. Algunas terminologías que necesitamos especificar son:
Hacer las suposiciones correctas sobre la distribución de sus datos es crítico—muchos algoritmos de machine learning se basan en estas suposiciones tanto para la selección como para la interpretación del modelo. Las suposiciones incorrectas pueden dar lugar a estimaciones sesgadas, funciones de pérdida desalineadas y, en última instancia, a una generalización deficiente o a conclusiones inválidas en aplicaciones del mundo real.
Las distribuciones de probabilidad sustentan:
La distribución de Bernoulli modela la probabilidad de éxito o fracaso en una sola prueba de un evento aleatorio discreto. Es decir, solo tiene dos resultados: 1 (éxito) o 0 (fracaso). Es el tipo de distribución más simple utilizado en estadística, pero constituye la base de muchos problemas de clasificación en machine learning. Por ejemplo, si lanzara una moneda 10 veces y obtuviera 7 caras (éxito) y 3 cruces (fracaso), la función de masa de probabilidad (PMF) se puede representar gráficamente como:
El lanzamiento de una moneda es una clásica prueba de Bernoulli. Apliquemos la función de masa de probabilidad al ejemplo del lanzamiento de una moneda
- Sea una variable aleatoria que representa el resultado de un lanzamiento
- Si cara se considera éxito, definimos para cara y para cruz
- Si la moneda es imparcial, la probabilidad de que salga cara es
La función de masa de probabilidad (PMF) de la distribución de Bernoulli es:
Donde:
Comprender el PMF de Bernoulli es esencial porque forma la columna vertebral probabilística de muchos modelos de clasificación. En particular, la regresión no solo genera una etiqueta de clase, sino que estima la probabilidad de que una entrada particular pertenezca a la clase 1. Esta probabilidad predicha se interpreta como el parámetro 𝑝 en una distribución de Bernoulli:
La función logística (sigmoidea) utilizada en la regresión logística garantiza que los valores predichos se encuentren dentro del rango [0,1], lo que los convierte en probabilidades de Bernoulli válidas. El modelo está entrenado para maximizar la probabilidad de observar los resultados binarios verdaderos bajo el supuesto de que cada valor objetivo se extrae de una distribución de Bernoulli con probabilidad 𝑝 predicha a partir de características 𝑋. En este caso, dado que queremos minimizar la pérdida de entrenamiento, adoptamos un enfoque de estimación de máxima verosimilitud (MLE) para maximizar la probabilidad de un resultado, dados los datos. Normalmente, para una distribución discreta como la de Bernoulli, transformamos la probabilidad en probabilidad para manipularla más fácilmente. La verosimilitud, al igual que las probabilidades, es desproporcionada, por lo que solemos aplicar una transformación logarítmica, conocida como log-verosimilitud, y la función de pérdida como log-pérdida. Si esta sección le resulta un poco confusa, puede visitar el artículo explicativo sobre regresión logística mencionada anteriormente para ver la derivación paso a paso de la función de verosimilitud logarítmica utilizando MLE. Esta conexión proporciona la base estadística para interpretar los outputs como estimaciones probabilísticas. Otras aplicaciones incluyen:
La distribución normal describe una variable aleatoria continua cuyos valores tienden a clúster en torno a una media central, con variabilidad simétrica en ambas direcciones. Es omnipresente en estadística porque muchos fenómenos naturales (altura, puntuaciones de pruebas, errores de medición) siguen este patrón, especialmente cuando se agregan a través de muestras.
Imagine que registra las alturas de 1000 adultos. El trazado de estos datos revela una curva en forma de campana: la mayoría de las personas están cerca de la media, y menos en los extremos. Esta forma es capturada por la función de densidad de probabilidad (PDF) de la distribución normal:
Donde:
En el núcleo de cada sistema de machine learning se encuentra una columna vertebral estadística, un andamio invisible que soporta todo, desde el diseño del modelo hasta la interpretación. Comenzamos explorando lo que realmente es la estadística: no solo una rama de las matemáticas, sino un lenguaje para dar sentido a la incertidumbre y extraer significado de los datos. Las estadísticas descriptivas proporcionan la primera lente a través de la cual examinamos y resumimos la complejidad del mundo, ofreciendo claridad incluso antes de que comience el modelado.
A continuación, nos sumergimos en la probabilidad, el conjunto de herramientas formales para razonar en condiciones de incertidumbre. En el machine learning, las probabilidades nos ayudan a cuantificar la probabilidad de un resultado, lo que permite que los modelos expresen confianza en lugar de solo predicciones duras. Ya sea la posibilidad de que un cliente abandone o la probabilidad de una etiqueta en la clasificación, la teoría de la probabilidad convierte los datos sin procesar en conocimiento.
Por último, exploramos las distribuciones, que definen cómo se comportan los datos en diferentes escenarios. Desde la distribución discreta de Bernoulli que modela los resultados binarios hasta la distribución gaussiana continua que da forma a nuestras suposiciones en los modelos de regresión y generativos, comprender estas distribuciones es crucial. Sustentan tanto los datos que observamos como los algoritmos que construimos, guiando la elección del modelo, dando forma a las funciones de pérdida y permitiendo una inferencia significativa.
En los algoritmos modernos de machine learning, desde la regresión logística y el Naive Bayes hasta el deep learning y los métodos kernel, estos principios estadísticos no son complementos opcionales, sino la mecánica misma del machine learning. Nos ayudan a razonar sobre la incertidumbre, optimizar el rendimiento y generalizar a partir de observaciones limitadas a la toma de decisiones en el mundo real. Al dominar estos fundamentos, no solo aprende a utilizar el machine learning, sino que aprende a comprenderlo, construir y extraer inferencias a partir de él.
Incluso en la era de la IA generativa y los modelos de deep learning a gran escala, las estadísticas siguen siendo más relevantes que nunca. Detrás de cada capa de transformación y paso de difusión se encuentra una base construida sobre suposiciones de probabilidad, estimación y distribución. Comprender conceptos como la compensación sesgo-varianza y la incertidumbre no es solo académico, sino que es esencial para interpretar modelos de caja negra, diagnosticar modos de fallo y crear una IA responsable y explicable. Tanto si está ajustando un modelo fundacional, aplicando técnicas bayesianas para la cuantificación de la incertidumbre o evaluando outputs, el razonamiento estadístico le proporciona las herramientas necesarias para navegar por la complejidad con claridad. A medida que los sistemas de IA generativa se vuelven más potentes, basar su práctica en fundamentos estadísticos garantiza que sus modelos sigan siendo no solo de última generación, sino también basados en principios y fiables.
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.