El 72% de los CEO de alto rendimiento coinciden en que contar con las herramientas de IA generativa más avanzadas le da a una organización una ventaja competitiva, según el IBM Institute for Business Value. Pero si esas herramientas de IA generativa no se basan en el contexto único de una empresa, es posible que las organizaciones no obtengan todos los beneficios de ellas.
A pesar de lo poderosos que son los grandes modelos de IA generativa de propósito general, como ChatGPT y Google Gemini, no están entrenados en conjuntos de datos específicos de la organización. Cuando están conectados a los procesos de una organización, es posible que les falte información importante que puede hacer que se confundan y produzcan resultados no óptimos.
“Cada empresa tiene su propio lenguaje”, explica Michael Choie, consultor gerente sénior de IA y analytics, IBM Consulting. “Tome la palabra en inglés ‘dressing’. Para una cadena de supermercados, significará ‘salad dressing (aderezo para ensaladas)’. Para un hospital, significará ‘wound dressing (vendaje para heridas)’”.
IBM se asoció con The Harris Poll para publicar La IA en acción 2024, una encuesta a 2000 organizaciones de todo el mundo. La encuesta descubrió que el 15% de estas organizaciones, llamadas líderes de IA, están logrando resultados cuantificables con IA.
Una cosa que distingue a los líderes de IA es la confianza en su capacidad para personalizar sus esfuerzos de IA para obtener un valor óptimo. Esto no significa que una organización deba crear sus propios modelos desde cero para destacar entre la multitud. En cambio, puede adaptar los modelos de IA existentes aprovechando lo único que nadie más tiene: datos empresariales de propiedad exclusiva.
“Todos los proveedores de IA, como X o Google, tienen acceso a la información pública. También tienen acceso a los datos de sus propias plataformas”, explica Shobhit Varshney, vicepresidente y socio sénior, líder de IA en América, IBM Consulting. “A lo que no tienen acceso son los datos de su empresa. Falta esa pieza del rompecabezas”.
Como Varshney explica en La IA en acción 2024: “La próxima frontera es lograr que la IA cruce el abismo y entre dentro de una empresa para que pueda absorber, aprender y convertirse en su ventaja competitiva”.
Boletín de la industria
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Hay tres formas principales de introducir datos propios en un modelo de IA: ingeniería rápida, generación aumentada por recuperación (RAG, por sus siglas en inglés) y ajuste fino.
En este contexto, ingeniería rápida significa incluir datos de propiedad exclusiva en la instrucción que se transmiten a la IA.
Digamos que un usuario quiere un modelo de IA para resumir las conversaciones de un centro de atención telefónica. El usuario puede escribir la instrucción “Resumir esta conversación” y adjuntar la transcripción de la llamada como parte de la instrucción.
La ingeniería rápida no requiere modificar el modelo en sí. Es más adecuado para tareas genéricas de bajo volumen en las que es razonable incluir el contexto necesario en cada instrucción.
La generación aumentada por recuperación (RAG) significa conectar un modelo de IA a una base de datos patentada. El modelo puede extraer información relevante de esta base de datos al responder a las instrucciones.
Por ejemplo, una organización puede dar acceso a un chatbot de atención al cliente a una base de datos de productos de la empresa. Cuando los usuarios hacen preguntas al chatbot sobre estos productos, puede consultar la documentación correspondiente y recuperar la respuesta correcta.
RAG no requiere ningún cambio permanente en el modelo. Puede mejorar la precisión y reducir las alucinaciones, pero también puede aumentar los tiempos de respuesta.
El ajuste fino significa dar a un modelo de IA suficientes datos adicionales para cambiar algunos de sus parámetros. El refinamiento cambia permanentemente el comportamiento de un modelo, adaptándolo a un caso de uso o contexto particular. Además, es más rápido y barato que entrenar un modelo nuevo.
"Si tiene una red neuronal que tiene 100 capas diferentes, entrenarla significaría que está modificando las 100 capas", explica Choie. “El ajuste fino significaría que realmente estás cambiando las últimas capas. Todavía está modificando el modelo, pero no tiene que cambiarlo por completo porque ya está funcionando bien”.
El ajuste fino requiere un poco más de inversión inicial que la ingeniería rápida y el RAG. Es útil para convertir un modelo más pequeño en un experto en un dominio especializado. Por ejemplo, una compañía de seguros puede ajustar un modelo para dominar el arte de procesar nuevas reclamaciones.
Varshney compara un modelo bien ajustado con un nuevo empleado recién salido de la escuela y con una formación intensiva. Es posible que no tengan la amplitud de conocimientos que tiene un genio polímata (o un gran modelo de IA de propósito general), pero son mucho mejores para procesar reclamos que el polímata.
"No puede hacer sus impuestos o redactar un contrato legal", dice Varshney, "pero si le pido que procese un reclamo, sabría cómo hacerlo de inmediato".
El uso de datos propios de esta manera puede ofrecer una ventaja competitiva significativa al familiarizar a los modelos de IA con los procesos, productos, clientes y otros matices únicos de una empresa.
"Si tiene una IA cuyos principales usuarios son de una empresa en particular, es importante que la IA utilice datos de esa misma empresa", dice Choie.
Cuando los modelos de IA tienen acceso a datos de propiedad exclusiva, se basan en un contexto empresarial específico, lo que significa que sus resultados también se basan en ese contexto.
“Puedo tomar un modelo de IA abierto, ajustarlo con mis propios datos de propiedad exclusiva, y esa copia es exclusivamente mía”, dice Varshney. "Yo soy dueño de la propiedad intelectual que hay detrás. Lo ejecuto en mi propia infraestructura”.
Como resultado, estos modelos pueden producir resultados más precisos y efectivos que los modelos sin aumentar, ya que se basan en un conjunto general de datos públicos.
Las organizaciones pueden utilizar muchos tipos diferentes de modelos de IA para lograr resultados. Pero los modelos de código abierto,como los modelos de IBM Granite, que están disponibles bajo una licencia Apache 2.0 para un uso comercial amplio y sin trabas, ofrecen ciertos beneficios.
“Al entrenar un modelo de IA, hay muchos parámetros y técnicas diferentes que debe ajustar para garantizar que el modelo aprenda de manera efectiva y eficiente. Se necesitan científicos de datos y expertos en machine learning para configurarlo”, explica Choie. “El beneficio de perfeccionar los modelos abiertos es que contamos con estos modelos que algunas personas brillantes ya han utilizado. Todo lo que tenemos que hacer es alimentar a los modelos con datos adicionales específicos de la tarea y ajustar algunas capas, que es una tarea mucho más sencilla que construir un modelo".
Además de permitir que las organizaciones se beneficien de la sabiduría de la multitud, los modelos de código abierto pueden permitirles experimentar sin que el costo del fracaso sea demasiado alto. Esta experimentación, a su vez, ayuda a las organizaciones a seguir una estrategia multimodelo, utilizando muchos modelos diferentes y ajustados de manera diferente para tareas específicas del dominio.
Esta estrategia multimodelo se considera una buena práctica. La IA en acción 2024 encontró que el 62% de los líderes de IA utilizan múltiples modelos, en comparación con el 32% de los aprendices de IA.
“Es casi una obviedad usar modelos de código abierto”, dice Choie. "Son rentables, tienen a algunas de las mejores personas de la industria trabajando en ellos, y cada vez que hay actualizaciones o problemas, la comunidad trabaja en ellos juntos".
La gestión de datos eficaz es una de las características clave que distingue a los líderes de IA de otras organizaciones, según La IA en acción 2024. El 61 % de los líderes de IA creen en su capacidad para acceder y gestionar eficazmente los datos de la organización para apoyar las iniciativas de IA, frente al 11% de los aprendices de IA.
Pero alimentar modelos de IA con datos privados no es tan sencillo como parece. Los silos de datos, el control de calidad y otros problemas pueden interponerse en el camino.
En términos generales, la solución es implementar una estructura de datos integrada que destruya los silos, garantice la interoperabilidad y organice un movimiento fluido de datos entre plataformas.
¿Pero cómo se ve esto en la práctica? Estas son algunas consideraciones clave:
Los primeros obstáculos para muchos proyectos de IA son la recopilación y el almacenamiento de datos, procesos que no son tan sencillos como podrían parecer.
La captura de datos en bases de datos tradicionales a menudo conduce a silos de datos, lo que puede impedir que una organización agregue todos los datos que necesita para crear una base de datos RAG eficaz o ajustar modelos. De acuerdo con el IBM Data Diferentiator, 82% de las empresas experimentan silos de datos que ponen fin a sus flujos de trabajo clave.
Las organizaciones necesitan implementar pipelines para recuperar datos de fuentes dispares, prepararlos para su uso y depositarlos en un almacén accesible y centralizado.
La recuperación y preparación de datos puede implicar el uso de herramientas de procesamiento de flujos, como Apache Kafka, o herramientas de integración de datos preparadas para ETL y ELT, como IBM DataStage. Las organizaciones también deben elegir los repositorios adecuados para los datos, que pueden incluir:
Los data lakes, que ofrecen entornos de almacenaje de bajo costo diseñados para manejar cantidades masivas de datos estructurados y no estructurados sin procesar.
Las data warehouses, que están diseñadas para apoyar los esfuerzos de data analytics, business intelligence y ciencia de datos.
Los data lakehouses, como watsonx.data, que fusionan las capacidades de los almacenes y lagos en una única solución de gestión de datos.
Una infraestructura de nube híbrida también es un componente importante de los esfuerzos de integración de datos. Hoy en día, muchas empresas tienen datos distribuidos entre almacenes de datos on premises y múltiples servicios en la nube.
“Debe asegurarse de poder agregar toda esta información, sin importar dónde se encuentre, e incorporarla a sus modelos de IA”, dice Choie. “Si no usa un modelo híbrido, se perderá de algo”.
Las malas entradas conducen a malas salidas. Las organizaciones deben asegurarse de que los datos propietarios que proporcionan a los modelos de IA sean fiables y precisos.
“Debe descubrir el oro en sus datos, el diferenciador, para poder amplificarlo”, dice Varshney. “Desea reducir el ruido en los datos y desea proporcionar datos de alta calidad para ajustarlos”.
Los datos deben limpiarse antes de pasar a una IA. De lo contrario, puede empeorar el rendimiento del modelo.
Varshney ofrece el ejemplo de un ticket de centro de atención telefónica con una solución no tan obvia: “Las personas pueden probar cinco formas diferentes para arreglarlo antes de encontrar la que funciona. No puede enviar ese ticket directamente al modelo. Será muy ruidoso. Contendrá todas las cosas que la gente probó. El modelo podría confundirse sobre cuál es el resultado correcto. Desea limpiar el ruido para que el modelo solo vea la solución real”.
Limpiar, preparar y curar conjuntos de datos implica cierto trabajo manual por parte de científicos de datos y analistas, ya sean asociados internos o socios externos. También implica herramientas como:
Las herramientas de gestión de datos habilitadas por IA pueden validar automáticamente los datos, marcar errores y convertirlos al formato adecuado.
Los generadores de datos sintéticos pueden ayudar a completar los valores que faltan y aumentar los recursos preparados por humanos con corpus más grandes.
Herramientas de preprocesamiento e ingeniería de datos, como Apache Spark y la biblioteca Pandas Python.
Las herramientas de observabilidad de los datos pueden rastrear el flujo de datos a lo largo del tiempo, monitorear el uso y el linaje de datos y detectar anomalías.
Cualesquiera que sean las ventajas competitivas que los datos propietarios puedan aportar a la IA generativa, la ventaja estratégica duradera proviene de desplegar la combinación adecuada de tecnología y procesos empresariales.
"El flujo de trabajo en sí es donde está el dinero", explica Varshney. “El modelo es una mercancía, y vamos a seguir consiguiendo mejores y mejores modelos. Lo que realmente necesitamos averiguar es la combinación quirúrgica adecuada para integrar la IA tradicional, la automatización y la IA generativa en un flujo de trabajo.
En otras palabras, las organizaciones no pueden incorporar la IA generativa, ni siquiera un modelo ajustado que se ajuste a sus especificaciones, en sus procesos y esperar resultados. Más bien, deben evaluar sus procesos y adaptar sus flujos de trabajo a los modelos tanto como adaptan sus modelos a sus flujos de trabajo.
Considere una humilde lavavajillas.
“Cuando desarrollamos lavavajillas, no esperábamos que se levantaran y lavaran como lo hacemos sobre un fregadero”, dice Varshney. “Cambiamos el proceso para que la lavavajillas realmente pudiera sobresalir en el lavado. Planteamos el problema en el formato correcto. Tenemos que hacer lo mismo aquí. Necesitamos rediseñar los procesos y encontrar la combinación adecuada de IA tradicional e IA generativa. Entonces, empezaremos a desbloquear el valor."
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.