¿Qué es el aprendizaje automático?

Autor

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

¿Qué es el machine learning?

El machine learning es el subconjunto de inteligencia artificial (IA) centrado en algoritmos que pueden "aprender" los patrones de los datos de entrenamiento y, posteriormente, hacer inferencias precisas sobre nuevos datos. Esta capacidad de reconocimiento de patrones permite que los modelos de machine learning tomen decisiones o predicciones sin instrucciones explícitas y codificadas.

El machine learning ha llegado a dominar el campo de la IA: proporciona la columna vertebral de la mayoría de los sistemas de IA modernos, desde modelos de forecasting hasta vehículos autónomos, modelos de lenguaje grandes (LLM) y otras herramientas de IA generativa.

La premisa central del machine learning (ML) es que si se optimiza el rendimiento de un modelo en un conjunto de datos de tareas que se asemejan adecuadamente a los problemas del mundo real para los que se usará, a través de un proceso llamado entrenamiento de modelos, el modelo puede hacer predicciones precisas sobre los nuevos datos que ve en su caso de uso final.

El entrenamiento en sí mismo es simplemente un medio para un fin: la generalización, la traducción de un sólido rendimiento de los datos de entrenamiento en resultados útiles en escenarios del mundo real, es el objetivo fundamental de machine learning. En esencia, un modelo entrenado aplica patrones que aprendió de los datos de entrenamiento para inferir el resultado correcto para una tarea del mundo real: por lo tanto, el despliegue de un modelo de IA se denomina inferencia de IA.

El aprendizaje profundo, el subconjunto de machine learning impulsado por redes neuronales artificiales grandes, o más bien, "profundas", surgió en las últimas décadas como los modelos de arquitectura de IA de última generación en casi todos los dominios en los que se emplea la IA. A diferencia de los algoritmos definidos explícitamente del machine learning tradicional, el aprendizaje profundo se basa en "redes" distribuidas de operaciones que proporcionan una capacidad incomparable para aprender los intrincados matices de datos muy complejos. Debido a que el aprendizaje profundo requiere cantidades muy grandes de datos y recursos computacionales, su advenimiento coincidió con la creciente importancia del "big data" y las unidades de procesamiento de gráficos (GPU).   

La disciplina de machine learning está estrechamente entrelazada con la de ciencia de datos. En cierto sentido, el machine learning puede entenderse como una colección de algoritmos y técnicas para automatizar el análisis de datos y (lo que es más importante) aplicar los aprendizajes de ese análisis a la ejecución autónoma de tareas relevantes.

El origen del término (aunque no el concepto central en sí) a menudo se atribuye al artículo de Arthur L. Samuel de 1959 en IBM Journal, “Some Studies in Machine Learning Using the Game of Checkers”. En la introducción del artículo, Samuel articula claramente el resultado ideal de machine learning: "una computadora puede programarse para que aprenda a jugar un mejor juego de damas que el que puede jugar la persona que escribió el programa".1

Machine learning frente a inteligencia artificial

Aunque "machine learning" e "inteligencia artificial" a menudo se usan indistintamente, no son del todo sinónimos. En resumen: todo el machine learning es IA, pero no toda la IA es machine learning.

En la imaginación popular, la "IA" suele asociarse con la ciencia ficción, normalmente a través de representaciones de lo que se llama más propiamente inteligencia artificial general (AGI), como HAL 9000 en 2001: A Space Odyssey o Ava en Ex Machina, o, más recientemente, con  IA generativa. Pero "inteligencia artificial" es un término general para cualquier programa que pueda usar información para tomar decisiones o predicciones sin la participación humana activa.

Los sistemas de IA más elementales son una serie de declaraciones "si-entonces-si", con reglas programadas explícitamente por un científico de datos.En el nivel más simple, incluso un termostato rudimentario es un sistema de IA basado en reglas: cuando se programa con reglas simples como 

IF room_temperature < 67, THEN turn_on_heater

IF room_temperature > 72, THEN turn_on_air_conditioner

el termostato es capaz de tomar decisiones sin más intervención humana. A un nivel más complejo, un árbol de decisiones grande e intrincado basado en reglas programado por expertos médicos podría analizar síntomas, circunstancias y comorbilidades para ayudar al diagnóstico o pronóstico.2

A diferencia de los sistemas de expertos, la lógica por la que opera un modelo de machine learning no está programada explícitamente, sino que se aprende a través de la experiencia. Considere un programa que filtre el spam de correo electrónico: la IA basada en reglas requiere que un científico de datos diseñe manualmente criterios precisos y universales para el spam; el machine learning requiere la selección de un algoritmo apropiado y un conjunto de datos adecuado de correos electrónicos de muestra. En el entrenamiento, al modelo se le muestran correos electrónicos de muestra y predice cuáles son spam; se calcula el error de sus predicciones y se ajusta su algoritmo para reducir el error; este proceso se repite hasta que el modelo sea preciso. El modelo de ML recién entrenado ha aprendido implícitamente a identificar el spam.

A medida que las tareas que debe realizar un sistema de IA se vuelven más complejas, los modelos basados en reglas se vuelven cada vez más frágiles: a menudo, es imposible definir explícitamente cada patrón y variable que un modelo debe considerar. Los sistemas de machine learning se han convertido en el modo dominante de inteligencia artificial porque los patrones de aprendizaje implícitos de los propios datos son inherentemente más flexibles, escalable y accesibles.

Cómo funciona el machine learning

El machine learning funciona a través de la lógica matemática. Por lo tanto, las características relevantes (o "funciones") de cada punto de datos deben expresarse numéricamente, de modo que los datos en sí puedan introducirse en un algoritmo matemático que "aprenda" a asignar una entrada determinada a la salida deseada.

Los puntos de datos en el machine learning suelen representarse en forma vectorial, en la que cada elemento (o dimensión) de la incorporación vectorial de un punto de datos corresponde a su valor numérico para una característica específica. Para las modalidades de datos que son inherentemente numéricas, como los datos financieros o las coordenadas geoespaciales, esto es relativamente sencillo. Pero muchas modalidades de datos, como texto, imágenes, datos gráficos de redes sociales o comportamientos de usuarios de aplicación, no son inherentemente numéricas y, por lo tanto, implican una ingeniería de características menos intuitiva de inmediato para expresarse de una manera preparada para ML.

El proceso (a menudo manual) de elegir qué aspectos de los datos usar en los algoritmos de aprendizaje automático se denomina selección de características. Las técnicas de extracción de características refinan los datos solo a sus dimensiones más relevantes y significativas. Ambos son subconjuntos de la ingeniería de características, la disciplina más amplia de preprocesamiento de datos sin procesar para su uso en el machine learning. Una distinción notable del aprendizaje profundo es que normalmente opera con datos sin procesar y automatiza gran parte del proceso de ingeniería de características, o al menos el proceso de extracción de características. Esto hace que el aprendizaje profundo sea más escalable, aunque menos interpretable, que el machine learning tradicional.

Parámetros y optimización del modelo de machine learning

Como ejemplo práctico, considere un algoritmo de regresión lineal simple para predecir los precios de venta de las viviendas en función de una combinación ponderada de tres variables: pies cuadrados, antigüedad de la casa y número de habitaciones. Cada casa se representa como una incorporación vectorial con 3 dimensiones: [square footage, bedrooms, age] . Una casa de 30 años con 4 dormitorios y 1900 pies cuadrados podría representarse como  [1900, 4, 30]   (aunque para fines matemáticos, esos números podrían escalarse o normalizarse primero a un rango más uniforme).

El algoritmo es una función matemática sencilla: 

 Precio = (A * pies cuadrados) + (B * número de habitaciones) – (C * Antigüedad) + Precio base

Aquí,  A ,  B  and  C  son los parámetros del modelo: ajustarlos ajustará el peso que el modelo le da a cada variable. El objetivo del machine learning es encontrar los valores óptimos para dichos parámetros del modelo: en otras palabras, los valores de los parámetros que derivan en que la función general produzca los resultados más precisos. Si bien la mayoría de las instancias de machine learning del mundo real implican algoritmos más complejos con un mayor número de variables de entrada, el principio sigue siendo el mismo: optimizar los parámetros ajustables del algoritmo para obtener una mayor precisión.

Tipos de machine learning

Todos los métodos de machine learning se pueden clasificar como uno de los tres paradigmas de aprendizaje distintos: aprendizaje supervisado, aprendizaje no supervisado o aprendizaje por refuerzo, en función de la naturaleza de sus objetivos de entrenamiento y (a menudo, pero no siempre) por el tipo de datos de entrenamiento que implican.

  • El aprendizaje supervisado entrena un modelo para predecir la salida "correcta" para una entrada determinada. Se aplica a tareas que requieren cierto grado de precisión en relación con alguna"verdad fundamental" externa, como la clasificación o la regresión.
  • El aprendizaje no supervisado entrena un modelo para discernir patrones intrínsecos, dependencias y correlaciones en los datos. A diferencia del aprendizaje supervisado, las tareas de aprendizaje no supervisado no implican ninguna verdad fundamental externa con la que deban compararse sus resultados.
  • El aprendizaje por refuerzo (RL) entrena un modelo para evaluar su entorno y tomar una acción que obtendrá la mayor recompensa. Los escenarios de RL no implican la existencia de una verdad fundamental singular, pero sí implican la existencia de acciones "buenas" y "malas" (o neutrales).

El proceso de entrenamiento de extremo a extremo para un modelo determinado puede implicar, y a menudo lo hace, enfoques híbridos que aprovechan más de uno de estos paradigmas de aprendizaje. Por ejemplo, el aprendizaje no supervisado se utiliza a menudo para preprocesar datos para su uso en aprendizaje supervisado o de refuerzo. Los modelos de lenguaje grandes (LLM) suelen someterse a su entrenamiento inicial (entrenamiento previo) y ajuste a través de variantes de aprendizaje supervisado, seguido de un ajuste más fino a través de técnicas de RL, como el aprendizaje por refuerzo a partir del feedback humano (RLHF). 

En una práctica similar, pero distinta, varios métodos de aprendizaje por conjuntos agregan los resultados de múltiples algoritmos.

Aprendizaje supervisado

Los algoritmos de aprendizaje supervisado entrenan modelos para tareas que requieren precisión, como clasificación o regresión. El machine learning supervisado impulsa tanto los modelos de aprendizaje profundo de última generación como una amplia gama de modelos tradicionales de ML que aún se usan ampliamente en todas las industrias.

  • Los modelos de regresión predicen valores continuos, como el precio, la duración, la temperatura o el tamaño. Algunos ejemplos de algoritmos de regresión tradicionales son la regresión lineal, la regresión polinomial y los modelos de espacio de estado.
  • Los modelos de clasificación predicen valores discretos, como la categoría (o clase) a la que pertenece un punto de datos, una decisión binaria o una acción específica que se va a realizar. Algunos ejemplos de algoritmos de clasificación tradicionales incluyen máquinas de vectores de soporte (SVM), Naïve Bayes y regresión logística.
  • Se pueden usar muchos algoritmos de ML supervisado para cualquiera de las dos tareas. Por ejemplo, el resultado de lo que nominalmente es un algoritmo de regresión puede utilizarse posteriormente para fundamentar una predicción de clasificación.

Para medir y optimizar la precisión, los resultados de un modelo deben compararse con una verdad fundamental: el resultado ideal o "correcto" para cualquier entrada dada. En el aprendizaje supervisado convencional, esa verdad fundamental la proporcionan los datos etiquetados. Un modelo de detección de spam de correo electrónico se entrena en un conjunto de datos de correos electrónicos que se han etiquetado como SPAM O NOT SPAM . Un modelo de segmentación de imágenes se entrena en imágenes en las que cada píxel individual ha sido anotado por su clasificación. El objetivo del aprendizaje supervisado es ajustar los parámetros del modelo hasta que sus resultados coincidan constantemente con la verdad fundamental proporcionada por esas etiquetas.

Esencial para el aprendizaje supervisado es el uso de una función de pérdida que mide la divergencia ("pérdida") entre la salida del modelo y la verdad fundamental en un lote de entradas de entrenamiento. El objetivo del aprendizaje supervisado se define matemáticamente como minimizar la salida de una función de pérdida. Una vez calculada la pérdida, se utilizan varios algoritmos de optimización, la mayoría de los cuales implican calcular la(s) derivada(s) de la función de pérdida, para identificar los ajustes de parámetros que reducirán la pérdida.

Debido a que este proceso tradicionalmente requiere que un humano esté al tanto para proporcionar la verdad fundamental en forma de anotaciones de datos, se denomina aprendizaje "supervisado". Como tal, el uso de datos etiquetados históricamente se consideró la característica definitiva del aprendizaje supervisado. Pero en el nivel más fundamental, el sello distintivo del aprendizaje supervisado es la existencia de cierta verdad fundamental y el objetivo de entrenamiento de minimizar la salida de la función de pérdida que mide la divergencia de ella.

Para adaptarse a una noción más versátil de aprendizaje supervisado, la terminología moderna de ML utiliza "supervisión" o "señales de supervisión" para referirse genéricamente a cualquier fuente de verdad fundamental.

Aprendizaje autosupervisado

El etiquetado de datos puede volverse prohibitivamente costoso y llevar mucho tiempo para tareas complejas y grandes conjuntos de datos. El aprendizaje autosupervisado implica entrenamiento en tareas en las que se obtiene una señal de supervisión directamente de datos no etiquetados (de ahí el nombre de “autosupervisado”).

Por ejemplo, los autocodificadores están entrenados para comprimir (o codificar) datos de entrada y luego reconstruir (o decodificar) la entrada original usando esa representación comprimida. Su objetivo de entrenamiento es minimizar el error de reconstrucción utilizando la entrada original como verdad fundamental. El aprendizaje autosupervisado también es el método de entrenamiento principal para los LLM: a los modelos se les proporcionan muestras de texto con ciertas palabras ocultas o enmascaradas y se les asigna la tarea de predecir las palabras que faltan.

El aprendizaje autosupervisado se asocia con frecuencia con el aprendizaje por transferencia, ya que puede proporcionar modelos fundacionales con amplias capacidades que luego se ajustarán para tareas más específicas.

Aprendizaje semisupervisado

Mientras que el aprendizaje autosupervisado es esencialmente aprendizaje supervisado sobre datos no etiquetados, los métodos de aprendizaje semisupervisado usan tanto datos etiquetados como datos no etiquetados. En términos generales, el aprendizaje semisupervisado comprende técnicas que utilizan información de los datos etiquetados disponibles para hacer suposiciones sobre los puntos de datos no etiquetados, de modo que estos últimos puedan incorporarse a los flujos de trabajo de aprendizaje supervisado.

Aprendizaje no supervisado

Los algoritmos de machine learning no supervisados disciernen patrones intrínsecos en datos no etiquetados, como similitudes, correlaciones o agrupaciones potenciales. Son más útiles en escenarios en los que dichos patrones no son necesariamente evidentes para los observadores humanos. Debido a que el aprendizaje no supervisado no asume la preexistencia de una salida "correcta" conocida, no requieren señales de supervisión o funciones de pérdida convencionales, por lo tanto, es "no supervisado".

La mayoría de los métodos de aprendizaje no supervisado realizan una de las siguientes funciones:

  • Los algoritmos de agrupación en clústeres dividen los puntos de datos no etiquetados en "clústeres" o agrupaciones, en función de su proximidad o similitud entre sí. Por lo general, se utilizan para tareas como la segmentación del mercado o la detección de fraude. Los algoritmos de agrupación en clústeres prominentes incluyen agrupación en clústeres de K-means, modelos de mezcla gaussiana (GMM) y métodos basados en la densidad, como DBSCAN.
  • Los algoritmos de asociación distinguen correlaciones, tales como entre una acción particular y ciertas condiciones. Por ejemplo, las empresas de comercio electrónico como Amazon utilizan modelos de asociación no supervisada para potenciar los motores de recomendación.
  • Los algoritmos de reducción de dimensionalidad reducen la complejidad de los puntos de datos al representarlos con un número menor de características, es decir, en menos dimensiones, al tiempo que conservan sus características significativas. A menudo se utilizan para el preprocesamiento de datos, así como para tareas como la compresión o visualización de datos. Los algoritmos de reducción de dimensionalidad destacados incluyen autocodificadores, análisis de componentes principales (PCA), análisis discriminante lineal (LDA)t-Distributed Stochastic Neighbor Embedding (t-SNE).

Como su nombre indica, los algoritmos de aprendizaje no supervisado pueden entenderse en términos generales como que "se optimizan a sí mismos". Por ejemplo, esta animación demuestra cómo un algoritmo de agrupación en clústeres k-means optimiza iterativamente el centroide de cada clúster por sí solo. Por lo tanto, el desafío de entrenar modelos no supervisados se centra en el preprocesamiento eficaz de los datos y el ajuste adecuado ajuste adecuado de los hiperparámetros que influyen en el proceso de aprendizaje, pero que no se pueden aprender en sí mismos, como la tasa de aprendizaje o el número de clústeres.

Aprendizaje por refuerzo (RL)

Mientras que el aprendizaje supervisado entrena modelos optimizándolos para que coincidan con ejemplos ideales y los algoritmos de aprendizaje no supervisado se ajustan a un conjunto de datos, los modelos de aprendizaje por refuerzo se entrena de manera integral a través de prueba y error. Se utilizan de forma destacada en robótica, videojuegos, modelos de razonamiento y otros casos de uso en los que el espacio de posibles soluciones y enfoques es particularmente amplio, abierto o difícil de definir. En la literatura de RL, un sistema de IA a menudo se denomina "agente".

En lugar de los pares independientes de datos de entrada-salida utilizados en el aprendizaje supervisado, el aprendizaje por refuerzo (RL) opera en tuplas de datos interdependientes de estado-acción-recompensa. En lugar de minimizar el error, el objetivo del aprendizaje por refuerzo es optimizar los parámetros para maximizar la recompensa.

Un marco matemático para el aprendizaje por refuerzo se basa principalmente en los siguientes componentes:

  • El espacio de estado contiene toda la información disponible relevante para las decisiones que el modelo podría tomar. El estado suele cambiar con cada acción que realiza el modelo.
  • El espacio de acción contiene todas las decisiones que el modelo puede tomar en determinado momento. En un juego de mesa, por ejemplo, el espacio de acción comprende todos los movimientos legales disponibles en un momento dado. En la generación de texto, el espacio de acción comprende todo el "vocabulario" de tokens disponibles para un LLM.
  • La señal de recompensa es el feedback (positivo o negativo, generalmente expresado como un valor escalar) proporcionado al agente como resultado de cada acción. El valor de la señal de recompensa podría estar determinado por reglas explícitas, por una función de recompensa o por un modelo de recompensa entrenado por separado.
  • Una política es el “proceso de razonamiento” que impulsa el comportamiento de un agente de RL. Matemáticamente hablando, una política (π ) es una función que toma un estado (s ) como entrada y devuelve una acción (a ):   π(s)→a .

En los métodos de RL basados en políticas, como la optimización proximal de políticas (PPO), el modelo aprende una política directamente. En métodos basados en valores como Q-learning, el agente aprende una función de valor que calcula una puntuación de cuán "bueno" es cada estado y luego elige acciones que conducen a estados de mayor valor. Considere un laberinto: un agente basado en políticas podría aprender "en esta esquina, gire a la izquierda", mientras que un agente basado en valores aprende una puntuación para cada posición y simplemente se mueve a una posición adyacente con una mejor puntuación. Los enfoques híbridos, como los métodos actor-crítico, aprenden una función de valor que luego se utiliza para optimizar una política.  

En el aprendizaje profundo por refuerzo, la política se representa como una red neuronal.

Aprendizaje profundo

El aprendizaje profundo emplea redes neuronales artificiales con muchas capas, por lo tanto, "profundas", en lugar de los algoritmos diseñados explícitamente del aprendizaje automático tradicional. Aunque las redes neuronales se introdujeron al principio de la historia del machine learning, no fue hasta finales de la década de 2000 y principios de la de 2010, habilitadas en parte por los avances en las GPU, que se convirtieron en dominantes en la mayoría de los subcampos de la IA.

Inspiradas libremente en el cerebro humano, las redes neuronales comprenden capas interconectadas de "neuronas" (o nodos), cada una de las cuales realiza su propia operación de activación (llamada "activación"). La salida de la función de activación de cada nodo sirve como entrada para cada uno de los nodos de la siguiente capa y así sucesivamente hasta la capa final, donde se calcula la salida final de la red. De manera crucial, las funciones de activación que se realizan en cada nodo son no lineales, lo que permite a las redes neuronales modelar patrones y dependencias complejos.

A cada conexión entre dos neuronas se le asigna una ponderación única: un multiplicador que aumenta o disminuye la contribución de una neurona a una neurona en la siguiente capa. Estas ponderaciones, junto con términos de sesgo únicos agregados a la función de activación de cada neurona, son los parámetros que se optimizarán a través de machine learning.

El algoritmo de retropropagación permite el cálculo de cómo cada nodo individual contribuye al resultado general de la función de pérdida, lo que permite optimizar individualmente incluso millones o miles de millones de ponderaciones del modelo a través de algoritmos de descenso de gradiente. Debido al volumen y la granularidad de las actualizaciones necesarias para lograr resultados óptimos, el aprendizaje profundo requiere cantidades muy grandes de datos y recursos computacionales en comparación con el ML tradicional.

Esa estructura distribuida proporciona a los modelos de aprendizaje profundo su increíble potencia y versatilidad. Imagine los datos de entrenamiento como puntos de datos dispersos en un gráfico bidimensional. Esencialmente, el machine learning tradicional tiene como objetivo encontrar una única curva que recorra cada uno de esos puntos de datos; el aprendizaje profundo une un número arbitrario de líneas más pequeñas y ajustables individualmente para formar la forma deseada. Las redes neuronales son aproximadores universales: se ha demostrado teóricamente que, para cualquier función, existe una disposición de redes neuronales que puede reproducirla.3, 4

Dicho esto, el hecho de que algo sea teóricamente posible no significa que sea factible en la práctica a través de los métodos de entrenamiento existentes. Durante muchos años, el rendimiento adecuado en ciertas tareas permaneció fuera del alcance incluso para los modelos de aprendizaje profundo, pero, con el tiempo, las modificaciones en la arquitectura estándar de redes neuronales han desbloqueado nuevas capacidades para los modelos de ML.

Redes neuronales convolucionales (CNN)

Las redes neuronales convolucionales (CNN) agregan capas convolucionales a las redes neuronales. En matemáticas, una convolución es una operación en la que una función modifica (o convoluciona) la forma de otra. En las CNN, las capas convolucionales se utilizan para extraer características importantes de los datos aplicando "filtros" ponderados. Las CNN se asocian principalmente con modelos de visión artificial y datos de imágenes, pero tienen otros casos de uso importantes.

A visual representation of matrix filtering applied to a numeric grid. The input image displays a 3x3 grid with numbers, while the filter and output array showcase the transformation process. Key numeric values include '9', '4', '16', and '0'. The image highlights computational concepts in data processing.

Redes neuronales recurrentes (RNN)

Las redes neuronales recurrentes (RNN) están diseñadas para trabajar en datos secuenciales. Mientras que las redes neuronales convencionales asignan una sola entrada a una sola salida, las RNN asignan una secuencia de entradas a los resultados operando en un bucle recurrente en el que la salida de un paso determinado en la secuencia de entrada sirven como entrada para el cálculo del siguiente paso. En efecto, esto crea una "memoria" interna,llamada estado oculto, que permite a las RNN comprender el contexto y el orden.

Transformadores

Los modelos transformadores, introducidos por primera vez en 2017, son en gran parte responsables de la llegada de los LLM y otros pilares de la IA generativa, logrando resultados de vanguardia en la mayoría de los subdominios del machine learning. Al igual que las RNN, los transformadores están aparentemente diseñados para datos secuenciales, pero soluciones inteligentes han permitido que la mayoría de las modalidades de datos sean procesadas por transformadores. La fortaleza única de los modelos transformadores proviene de su innovador mecanismo de atención, que permite a los modelos enfocarse selectivamente en las partes de los datos de entrada más relevantes en un momento específico de una secuencia.

Modelos Mamba

Los modelos Mamba son una arquitectura de redes neuronales relativamente nueva, introducida por primera vez en 2023, basada en una variación única de los modelos de espacio de estado (SSM). Al igual que los transformadores, los modelos Mamba proporcionan un medio innovador para priorizar selectivamente la información más relevante en un momento dado. Mamba ha surgido recientemente como un rival de la arquitectura transformadora, particularmente para los LLM.

Casos de uso del machine learning

La mayoría de las aplicaciones de machine learning se incluyen en una o más de las siguientes categorías, que se definen principalmente por sus casos de uso y las modalidades de datos con las que operan.

Visión artificial

La visión artificial es el subdominio de la IA relacionado con datos de imágenes, datos de video y otras modalidades de datos que requieren un modelo o máquina para "ver", desde diagnósticos de atención médica hasta reconocimiento facial y automóviles autónomos. Los subcampos notables de la visión por computadora incluyen la clasificación de imágenes, la detección de objetos, la segmentación de imágenes y el reconocimiento óptico de caracteres (OCR).

El procesamiento de lenguaje natural (PLN)

El campo del procesamiento de lenguaje natural (PLN) abarca una amplia gama de tareas relacionadas con texto, voz y otros datos lingüísticos. Los subdominios notables del PLN incluyen chatbots, reconocimiento de voz, traducción de idiomas, análisis de sentimientos, generación de texto, resumen y agentes de IA. En el PLN moderno, los modelos de lenguaje grandes continúan avanzando en el estado actual a un ritmo sin precedentes.

Análisis de series temporales

Los modelos de series temporales se aplican a tareas de detección de anomalías, análisis de mercado y tareas de reconocimiento de patrones relacionados o predicción. Utilizan machine learning en datos históricos para una variedad de casos de uso de forecasting.

Generación de imágenes

Los modelos de difusión, los autocodificadores variacionales (VAE) y las redes generativas antagónicas (GAN) se pueden emplear para generar imágenes originales que aplican patrones de pixeles aprendidos de los datos de entrenamiento.

Mixture of Experts | 28 de agosto, episodio 70

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Operaciones de machine learning (MLOps)

Las operaciones de machine learning (MLOps) son un conjunto de prácticas para implementar un enfoque de línea de ensamblaje para construir, desplegar y mantener modelos de machine learning.

La curaduría y el preprocesamiento cuidadosos de los datos de entrenamiento, así como la selección adecuada del modelo, son pasos cruciales en el pipeline de MLOps. La validación reflexiva posterior al entrenamiento, desde el diseño de conjuntos de datos de referencia hasta la priorización de métricas de rendimiento particulares, es necesaria para garantizar que un modelo generalice bien (y no solo sobreajuste los datos de entrenamiento).

Luego del despliegue, los modelos deben ser monitoreados para detectar la deriva del modelo, los problemas de eficiencia de inferencia y otros desarrollos adversos. Una práctica bien definida de gobernanza de modelos es esencial para la eficacia continua, especialmente en industrias reguladas o que cambian rápidamente.

Bibliotecas de machine learning

Existen varias herramientas, bibliotecas e infraestructuras de código abierto para crear, entrenar y probar proyectos de machine learning. Si bien estas bibliotecas ofrecen una variedad de módulos y abstracciones preconfigurados para agilizar el proceso de creación de modelos basados en ML y flujos de trabajo, los profesionales deberán familiarizarse con los lenguajes de programación de uso común, particularmente Python, para aprovecharlos al máximo.

Las bibliotecas de código abierto más destacadas, especialmente para crear modelos de aprendizaje profundo, incluyen PyTorch, TensorFlow, Keras y la biblioteca Hugging Face Transformers.

Entre las bibliotecas de machine learning de código abierto y kits de herramientas enfocados al ML destacan Pandas, Scikit-learn, XGBoost, Matplotlib, SciPy y NumPy entre muchas otras.

La propia IBM mantiene y actualiza una importante biblioteca de tutoriales tanto para principiantes como para profesionales avanzados de ML.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo
Notas de pie de página

Todos los enlaces se encuentran fuera de ibm.com

1.  "Some Studies in Machine Learning Using the Game of Checkers," IBM Journal (consultado a través de MIT), 3 de julio de 1959
2. "Using Decision Trees as an Expert System for Clinical Decision Support for COVID-19," Interactive Journal of Medical Research, Vol 12, 30 de enero de 2023
3. "Kolmogorov's Mapping Neural Network Existence Theorem," Proceedings of the IEEE First International Conference on Neural Networks (consultado a través de University of Waterloo)1987
4. "Multilayer Feedforward Networks with a Non-Polynomial Activation Function Can Approximate Any Function," Center for Research on Information Systems (New York University), marzo de 1992