Las últimas tendencias en IA, presentadas por expertos
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
En machine learning (ML), el álgebra lineal implica el uso de operaciones para representar y manipular datos, parámetros y cálculos dentro de modelos de ML. Proporciona el lenguaje y las herramientas para expresar cómo fluyen los datos a través de los modelos y cómo "aprenden" los modelos.
Los potentes algoritmos modernos de machine learning y la IA generativa, en esencia, se basan en el álgebra lineal. Ya sea entrenando una red neuronal, construyendo una red de recomendaciones o aplicando el análisis de componentes principales (PCA) a un conjunto de datos complejo y de alta dimensión, los profesionales utilizan el álgebra lineal para realizar cálculos masivos.
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
Desde sus inicios hasta los recientes avances en deep learning, el álgebra lineal ha sido omnipresente en el panorama del ML. Muchos modelos básicos de machine learning se expresan y resuelven fundamentalmente utilizando principios de álgebra lineal. En la práctica, los datos rara vez son un número simple y único; en cambio, los datos a menudo vienen en forma de conjuntos de datos: colecciones de puntos de datos a menudo desordenados. El álgebra lineal proporciona las herramientas para organizar, manipular y analizar estos datos de manera eficiente.
Permite a los profesionales manipular objetos como vectores, matrices y tensores para representar datos estructurados (a menudo datos tabulares) y datos no estructurados, como imágenes o vídeos. Estos conceptos aparentemente abstractos son el lenguaje de los datos para la informática y los científicos de datos. Por ejemplo, una imagen se puede representar como una matriz de valores de píxeles, y una colección de características que describen una casa (como el vecindario, la edad y los metros cuadrados) se puede representar como un vector en un modelo de regresión lineal. La regresión modela la salida como una combinación lineal de las características de entrada, sirviendo como un ejemplo clásico de cómo funciona el álgebra lineal en el mundo real.
En machine learning y ciencia de datos, el álgebra lineal es el marco utilizado para describir y trabajar con datos. Explica cómo se organizan, combinan y transforman los números, ya sea multiplicando matrices en una red neuronal, encontrando valores propios en PCA o reduciendo dimensiones con descomposición en valores singulares (SVD).
En su nivel más básico, el álgebra lineal proporciona las herramientas para representar y trabajar con datos en formas estructuradas. La mayoría de los flujos de trabajo de machine learning comienzan organizando los datos en formatos numéricos, y cada estructura (escalar, vector, matriz y tensor) tiene una finalidad diferente.
El producto escalar es una forma de multiplicar dos vectores para producir un único escalar. Se utiliza ampliamente para calcular similitudes entre vectores, lo cual es un paso crucial en muchos sistemas de recomendación. La transposición de una matriz, que invierte sus filas y columnas, es otra operación fundamental que permite alinear las dimensiones para la multiplicación y descubrir patrones estructurales en los datos.
El álgebra lineal permite expresar conjuntos de datos complejos de una forma que los algoritmos pueden entender y procesar, lo que permite construir modelos complejos utilizando una gran cantidad de datos recopilados del mundo real.
Muchos algoritmos de machine learning se basan en un sistema de ecuaciones lineales. La regresión lineal es un algoritmo simple pero potente que se utiliza para predecir valores continuos. El proceso de encontrar la línea o el plano "más adecuado" que minimice el error entre los valores previstos y los reales a menudo se reduce a resolver un sistema de ecuaciones lineales. Por ejemplo, al predecir los precios de la vivienda en función de la superficie y el número de dormitorios, se deben encontrar coeficientes (ponderaciones) para satisfacer ecuaciones como:
...dónde , y son los coeficientes desconocidos a resolver. Esto se puede representar y resolver mediante matrices. Se utilizan técnicas como los "mínimos cuadrados" para encontrar las soluciones aproximadas de estos sistemas cuando no existe una solución exacta, lo que suele ser el caso de los datos ruidosos del mundo real. En otras palabras, la aproximación de una función de pérdida se representa mediante una colección de ecuaciones lineales que se resuelven mediante cálculo.
Los algoritmos más complejos, como los que se encuentran en el deep learning y las redes neuronales, dependen en gran medida de las Operaciones como la multiplicación masiva de matrices para procesar la información a través de diferentes capas. Cada capa de una red neuronal realiza una transformación lineal sobre sus datos de entrada, que es esencialmente una transformación matricial en la que el vector de entrada se multiplica por una matriz de pesos. Esto permite a la red aprender patrones y relaciones complejos dentro de los datos.
Muchos conjuntos de datos del mundo real contienen una gran cantidad de características (o variables) para cada punto de datos: a veces cientos, miles o incluso millones. Esto se denomina datos de alta dimensión. Aunque podría parecer que un mayor número de características debería aumentar la precisión de los modelos, a menudo dificultan el aprendizaje. Los datos de alta dimensión pueden ser costosos de procesar desde el punto de vista computacional, requerir mucha memoria para su almacenamiento y ser propensos al sobreajuste, fenómeno por el cual un modelo memoriza el ruido en lugar de aprender patrones significativos.
Otro desafío es la maldición de la dimensionalidad. A medida que crece el número de dimensiones, los puntos de datos se vuelven cada vez más escasos en el espacio de características y la noción de "cercanía" entre puntos se vuelve menos significativa. Esta escasez dificulta que los algoritmos detecten relaciones de forma fiable. Por lo tanto, contar con las herramientas adecuadas para reducir la cantidad de características y extraer las señales del ruido es fundamental. La reducción de dimensionalidad es el proceso de transformar datos de un espacio de alta dimensionalidad a uno de menor dimensionalidad, conservando al máximo la estructura original y la información importante. Al reducir el número de características, los profesionales pueden simplificar los modelos, mejorar la generalización, acelerar los cálculos y, a menudo, realizar visualizaciones de datos útiles.
El álgebra lineal es el núcleo de muchas técnicas de reducción de dimensionalidad. Por ejemplo, el análisis de componentes principales utiliza conceptos como valores propios y vectores propios para encontrar nuevos ejes (componentes principales) que capturen la varianza máxima de los datos, representando un atributo significativo en el conjunto de datos de alta dimensión. Al proyectar los datos en los primeros componentes principales, los profesionales mantienen los patrones más importantes y descartan las variaciones menos útiles.
Por ejemplo, imagine un conjunto de datos que describa miles de clientes con 100 características diferentes cada uno (edad, ingresos, gasto en varias categorías de productos, etc.). Analizar las 100 características a la vez sería lento y complejo, y muchas de ellas pueden ser redundantes (por ejemplo, el interés por el "equipo deportivo" a menudo se superpone con el "equipo para actividades al aire libre"). El PCA puede reducir el conjunto de datos a solo 2 o 3 componentes que resumen la mayor parte de la variación en el comportamiento de los clientes, lo que facilita su visualización y permite ejecutar algoritmos posteriores de manera más eficiente.
En resumen, la reducción de dimensionalidad es una forma de destilar datos complejos en sus partes más informativas, y el álgebra lineal proporciona la maquinaria matemática para hacerlo posible.
Los valores propios, los vectores propios y la descomposición propia describen conjuntamente los modos fundamentales de comportamiento de una transformación o sistema lineal:
Otra técnica potente, la descomposición en valores singulares (SVD), también desempeña un papel crucial en la reducción de la dimensionalidad y es fundamental para áreas como la factorización matricial en los sistemas de recomendación. Aunque está relacionada con la descomposición en valores propios, la SVD se puede aplicar a cualquier matriz (no solo a matrices cuadradas) y ofrece un método más general para descomponer una matriz en sus partes constituyentes, lo que permite revelar las estructuras subyacentes y reducir las dimensiones de manera eficaz. Por ejemplo, en los sistemas de recomendación, la SVD ayuda a descomponer una matriz de interacción entre usuarios y elementos en matrices de menor dimensión que representan las características latentes de ambos, que luego se utilizan para predecir nuevas recomendaciones.
Muchos modelos de machine learning implican problemas de optimización, donde el objetivo es encontrar el mejor conjunto de parámetros para un modelo que minimice una función de error o maximice una función de verosimilitud. Algoritmos como el descenso de gradiente, utilizados extensivamente en el entrenamiento de redes neuronales y otros algoritmos de machine learning, se basan en el álgebra lineal para calcular gradientes (vectores que apuntan en la dirección del ascenso más pronunciado de una función) y actualizar los parámetros del modelo de forma iterativa.
Comprender la optimización también significa comprender las propiedades de las matrices involucradas en estos cálculos. Aquí es donde conceptos como el determinante y la matriz de identidad cobran relevancia. El determinante de una matriz cuadrada es un único número que proporciona información crucial sobre la matriz. Por ejemplo, un determinante distinto de cero indica que la matriz es invertible (lo que significa que tiene una operación de inversión de matriz correspondiente), lo cual es crítico para resolver sistemas de ecuaciones lineales de forma única. Si el determinante es cero, es posible que el sistema no tenga una solución única o que tenga infinitas soluciones, lo que indica problemas como la independencia lineal (donde un vector de un conjunto puede expresarse como una combinación lineal de otros). Una matriz identidad (una matriz cuadrada con unos en la diagonal principal y ceros en el resto) es especial porque cuando se multiplica cualquier matriz por la matriz identidad, la matriz original permanece inalterada, actuando como el número "1" en la multiplicación escalar.
La buena noticia es que los profesionales de ML no necesitan realizar manualmente estos cálculos complejos. Las bibliotecas como NumPy en Python proporcionan funciones altamente optimizadas para todos estos conceptos de álgebra lineal, lo que la convierte en el estándar de facto para la computación numérica en machine learning. Por ejemplo, numpy.linalg.eig() puede calcular valores propios y vectores propios, y numpy.dot() maneja productos escalares y multiplicaciones de matrices con facilidad. Los marcos como TensorFlow (popular en deep learning) también aprovechan en gran medida el álgebra lineal bajo el capó, abstrayendo los detalles de bajo nivel para que los usuarios puedan centrarse en la construcción de modelos.
Esta introducción al álgebra lineal para el machine learning apenas araña la superficie. Conceptos como la transformación lineal y la transformación matricial describen cómo se pueden manipular y remodelar los datos, por ejemplo, rotando una imagen o escalando sus características. También es útil comprender los distintos tipos de matrices, como la identidad (que no modifica los vectores al multiplicarlos) y la ortogonal (cuya inversa es simplemente la transpuesta, lo que simplifica los cálculos). Aunque normalmente no se realiza la eliminación gaussiana (un algoritmo para resolver sistemas de ecuaciones lineales) a mano en ML, comprender sus principios aclara cómo se resuelven estos sistemas computacionalmente. La independencia lineal también es crítica para comprender la singularidad de las soluciones y la base de un espacio vectorial (el conjunto de todas las combinaciones lineales posibles de un conjunto de vectores).
En última instancia, una sólida comprensión de los conceptos de álgebra lineal permite a los profesionales de ML no solo utilizar algoritmos de machine learning prediseñados, sino también comprender realmente su funcionamiento interno, depurarlos de manera efectiva e incluso desarrollar soluciones novedosas. Es el caballo de batalla silencioso que ha impulsado el ML durante décadas y continuará siendo esencial en el futuro de la inteligencia artificial.
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.