La inferencia de la inteligencia artificial (IA) es la capacidad de los modelos de IA entrenados para reconocer patrones y sacar conclusiones a partir de información que no han visto antes.
La inferencia de la IA es crítica para el avance de las tecnologías en este campo y sustenta sus aplicaciones más interesantes, como la IA generativa, la capacidad que impulsa la popular aplicación ChatGPT. Los modelos de IA se basan en la inferencia de la misma para imitar la forma en que las personas piensan, razonan y responden a las instrucciones.
La inferencia de la IA comienza al entrenar un modelo de IA en un gran conjunto de datos con algoritmos de toma de decisiones. Los modelos de IA consisten en algoritmos de toma de decisiones que se entrenan en redes neuronales (modelos de lenguaje de gran tamaño (LLM) que se construyen como un cerebro humano. Por ejemplo, un modelo de IA diseñado para el reconocimiento facial podría entrenarse con millones de imágenes del rostro humano. Con el tiempo, aprende a identificar con precisión características como el color de los ojos, la forma de la nariz y el color del pelo, y puede utilizarlos para reconocer a un individuo en una imagen.
Aunque están estrechamente relacionados, la inferencia de la IA y el machine learning (ML) son dos pasos diferentes en el ciclo de vida del modelo de IA.
Si los modelos de IA no se entrenan en un conjunto de datos sólido y apropiado para su aplicación, simplemente no son efectivos. Dada la naturaleza sensible de la tecnología y el minucioso examen que recibe en la prensa1, las empresas deben ser cautelosas. Sin embargo, con aplicaciones que abarcan sectores y ofrecen el potencial de la transformación digital y la innovación escalable, sus beneficios son múltiples:
Aunque la inferencia de IA tiene muchos beneficios, al tratarse de una tecnología joven y de rápido crecimiento, no está exenta de dificultades. Estos son algunos de los problemas a los que se enfrenta el sector y que las empresas que pretenden invertir en IA deberían tener en cuenta:
La inferencia de IA es un proceso complejo que implica entrenar un modelo de IA en conjuntos de datos apropiados hasta que este pueda proporcionar respuestas precisas. Se trata de un proceso muy intensivo desde el punto de vista informático que requiere hardware y software especializados. Antes de examinar el proceso de entrenamiento de modelos de IA para la inferencia de IA, exploremos algunos de los equipos especializados que lo permiten.
La unidad central de procesamiento (CPU) es el principal componente funcional de un ordenador. En el entrenamiento y la inferencia de la IA, la CPU ejecuta el sistema operativo y ayuda a gestionar los recursos informáticos necesarios para el entrenamiento.
Las unidades de procesamiento gráfico (GPU), o circuitos electrónicos creados para el procesamiento de imágenes y gráficos informáticos de alto rendimiento, se utilizan en diversos dispositivos, como tarjetas de vídeo, placas base y teléfonos móviles. Sin embargo, debido a su capacidad de procesamiento paralelo, también se utilizan cada vez más en el entrenamiento de modelos de IA. Uno de los métodos consiste en conectar muchas GPU a un único sistema de IA para aumentar la capacidad de procesamiento de dicho sistema.
Las matrices de puerta programable en campo (FPGA) son aceleradores de IA altamente personalizables que dependen de conocimientos especializados para ser reprogramados con un fin específico. A diferencia de otros aceleradores de IA, las FPGA tienen un diseño único que se adapta a una función específica, que suele tener que ver con el procesamiento de datos en tiempo real, algo crítico para la inferencia de la IA. Las FPGA son reprogramables a nivel de hardware, lo que permite un mayor nivel de personalización.
Los ASIC son aceleradores de IA diseñados con un propósito o una carga de trabajo específicos, como el deep learning en el caso del acelerador WSE-3 ASICs producido por Cerebras. Los ASIC ayudan a los científicos de datos a acelerar las capacidades de inferencia de la IA y a reducir el coste. A diferencia de las FPGA, los ASIC no pueden reprogramarse, pero como se fabrican con un propósito singular, suelen superar a otros aceleradores de uso más general. Un ejemplo de ellos es la unidad de procesamiento tensorial (TPU) de Google, desarrollada para el machine learning de redes neuronales mediante el software TensorFlow propio de Google.
Las empresas que deseen invertir en aplicaciones de IA como parte de su transformación digital deben informarse sobre los beneficios y desafíos de la inferencia de IA. Para quienes hayan investigado a fondo sus diversas aplicaciones y estén listos para ponerla en práctica, a continuación se muestran cinco pasos para establecer una inferencia de IA eficaz:
La preparación de los datos es un elemento crítico a la hora de crear modelos y aplicaciones de IA eficaces. Las empresas pueden crear conjuntos de datos para entrenar modelos de IA con datos internos o externos a su organización. Para obtener resultados óptimos, lo más habitual es utilizar una combinación de ambos. Otro aspecto fundamental de la recopilación de datos para entrenar la IA es limpiarlos: eliminar entradas duplicadas y resolver cualquier problema de formato.
Una vez reunido el conjunto de datos, el siguiente paso es seleccionar el modelo de IA más adecuado para su aplicación. Los modelos van de simples a complejos y los más complejos pueden procesar más entradas e inferir a un nivel más sutil que los menos complejos. Durante este proceso es importante tener claras sus necesidades, ya que la formación de modelos más complejos puede requerir más tiempo, dinero y otros recursos que la formación de modelos más sencillos.
Para obtener los outputs deseados de una aplicación de IA, las empresas deben pasar por muchas y rigurosas rondas de entrenamiento de IA. A medida que los modelos se entrenan, la precisión de sus inferencias aumenta y la cantidad de recursos informáticos necesarios para obtener esos resultados, como la potencia de cálculo y la latencia, disminuye. A medida que el modelo madura, pasa a una nueva fase en la que puede empezar a hacer inferencias sobre nuevos datos a partir de los datos sobre los que ha aprendido. Este es un paso emocionante, ya que se puede ver cómo el modelo empieza a funcionar como estaba diseñado.
Antes de que su modelo se considere operativo, es importante que compruebe y monitorice sus outputs en busca de imprecisiones, sesgos o problemas de protección de datos. En la fase de posprocesamiento, como se la denomina a veces, usted crea un proceso paso a paso para garantizar la precisión de su modelo. La fase de posprocesamiento es el momento de crear una metodología que garantice que su IA le proporciona las respuestas que desea y funciona como estaba previsto.
Tras unos rigurosos procesos de monitorización y posprocesamiento, su modelo de IA estará listo para ser implementado para su uso empresarial. Este último paso incluye la implementación de la arquitectura y los sistemas de datos que permitirán que su modelo de IA funcione, así como la creación de cualquier procedimiento de gestión del cambio para enseñar a las partes interesadas a utilizar su aplicación de IA en sus funciones cotidianas.
Según el tipo de aplicación de IA que necesite la empresa, esta podrá elegir entre distintos tipos de inferencia de IA. Si una empresa desea crear un modelo de IA para utilizarlo con una aplicación de Internet de las Cosas (IoT), la inferencia en tiempo real (con sus capacidades de medición) es probablemente la opción más adecuada. Sin embargo, si el modelo de IA está diseñado para interactuar con humanos, la inferencia en línea (con sus capacidades de LLM) sería una mejor opción. Estos son los tres tipos de inferencia de IA y las características que los hacen únicos.
La inferencia dinámica, también conocida como inferencia en línea, es el tipo de inferencia de IA más rápido y se utiliza en las aplicaciones de IA de LLM más populares, como ChatGPT de OpenAI. La inferencia dinámica genera outputs y predicciones de inmediato y requiere una baja latencia y un acceso rápido a los datos para funcionar. Otra característica de la inferencia dinámica es que los outputs pueden llegar tan rápido que no hay tiempo para revisarlos antes de que lleguen al usuario final. Por este motivo, algunas empresas añaden una capa de monitorización entre el output y el usuario final para garantizar el control de calidad.
La inferencia por lotes genera predicciones de IA fuera de línea mediante el uso de grandes volúmenes de datos. Con este enfoque, los datos recopilados previamente se aplican a los algoritmos de ML. Aunque no es ideal para situaciones en las que se requieren outputs en unos segundos o incluso menos, la inferencia por lotes es una buena opción para las predicciones de IA que se actualizan regularmente a lo largo del día o de una semana, como los paneles de control de ventas o marketing o las evaluaciones de riesgos.
La inferencia de streaming utiliza una canalización de datos, normalmente suministrada a través de mediciones regulares de sensores, y la introduce en un algoritmo que utiliza los datos para realizar cálculos y predicciones de manera continua. Las aplicaciones IoT, como la IA utilizada para monitorizar una central eléctrica o el tráfico de una ciudad a través de sensores conectados a internet, se basan en la inferencia de streaming para tomar sus decisiones.
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
Aprenda los conceptos fundamentales y desarrolle sus habilidades con laboratorios prácticos, cursos, proyectos guiados, pruebas y mucho más.
Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.
¿Quiere obtener un mayor rendimiento de sus inversiones en IA? Descubra cómo escalar la IA generativa en áreas clave impulsa el cambio ayudando a sus mentes más brillantes a crear y ofrecer nuevas soluciones innovadoras.
Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.
IBM Granite es nuestra familia de modelos de IA abiertos, eficaces y de confianza, adaptados a la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de idioma, código, series de tiempo y salvaguardas.
Profundice en los tres elementos cruciales de una estrategia de IA sólida: crear una ventaja competitiva, ampliar la IA en toda la empresa y promover una IA fiable.
Hemos encuestado a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo puede adelantarse.
1 “Why Companies Are Vastly Underprepared For The Risks Posed By AI” [Por qué las empresas están muy poco preparadas para los riesgos que plantea la IA]. Forbes. 15 de junio de 2023.
2 “Onshoring Semiconductor Production: National Security Versus Economic Efficiency” [Deslocalización de la producción de semiconductores: seguridad nacional frente a eficiencia económica]. Council on Foreign Relations. Abril de 2024.