Cómo construir una estrategia de datos para respaldar sus aplicaciones de IA generativa

Pared curva enorme de pantallas en una habitación oscura

La IA generativa es la inteligencia artificial (IA) capaz de crear texto, imágenes, vídeo, audio e incluso código de software en respuesta a una petición del usuario. Hoy en día, las organizaciones se preparan para crear nuevas aplicaciones de IA generativa, pero a menudo pasan por alto los pasos necesarios para diseñar una estrategia de datos eficaz que las respalde.

Los modelosde IA generativa (programas informáticos que han sido entrenados para decidir de manera similar al cerebro humano) requieren volúmenes masivos de datos para entrenar. Y aunque las organizaciones pueden tener una idea brillante para una aplicación, si los datos subyacentes no se gestionan correctamente, la aplicación falla.

Desde el coste de recopilar y procesar datos, hasta la infraestructura subyacente necesaria para almacenarlos de forma segura, pasando por los requisitos cambiantes del gobierno de datos, es importante que las organizaciones adopten un enfoque estratégico para que las aplicaciones tengan éxito.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

ChatGPT y el impulso de nuevas aplicaciones empresariales de IA generativa

En 2022, el lanzamiento de ChatGPT marcó el comienzo de una nueva era de innovación en IA generativa, lo que llevó a las organizaciones a buscar formas de aprovechar la tecnología para aplicaciones empresariales. ChatGPT era un chatbot de IA, entrenado con modelos de lenguaje de gran tamaño (LLM), que interactuaba con los usuarios de forma conversacional. Desde su lanzamiento, las organizaciones han intentado aplicar su tecnología subyacente a diversos problemas empresariales, incluyendo la automatización, el aumento de la productividad y el conocimiento de los clientes.

También se han puesto de manifiesto varios riesgos y desafíos. En el ámbito médico, por ejemplo, aunque ha ayudado a automatizar ciertos diagnósticos, también ha planteado preocupaciones sobre la privacidad y la seguridad.1 Además, una condición conocida como alucinaciones de IA sigue siendo persistente, lo que hace que algunos modelos de IA generativa "inventen" hechos cuando no pueden encontrar la respuesta a una pregunta.

Pero mientras estos (y otros) problemas persisten, organizaciones de todos los tamaños y sectores han seguido invirtiendo fuertemente en este sector, buscando nuevas formas de aprovechar su potencia. Según Menlo Ventures, entre 2022 y 2023, la inversión empresarial en IA generativa se multiplicó por seis, pasando de 2300 millones de dólares a 13 800 millones.

AI Academy

El auge de la IA generativa para empresas

Conozca el auge histórico de la IA generativa y lo que significa para las empresas.

Las aplicaciones de IA generativa plantean nuevos retos a la infraestructura de IA

La infraestructura de IA es un término que describe las soluciones de hardware y software necesarias para crear aplicaciones de IA. En la era de la IA generativa, la infraestructura de IA debe evolucionar para satisfacer las mayores demandas de recursos informáticos, capacidad de almacenamiento de datos, ancho de banda y más asociados con la tecnología. Pero las organizaciones tienen tanta prisa por implementar nuevas aplicaciones de IA generativa que a veces pasan por alto las necesidades de IA e infraestructura de datos.

A medida que las organizaciones buscan aprovechar la IA generativa y todo su potencial para fines empresariales, deben replantearse aspectos clave de sus enfoques hacia la infraestructura y la estrategia de datos.

Conversión de datos no estructurados en datos estructurados

Para crear una aplicación empresarial de IA generativa y exitosa, las organizaciones suelen necesitar una combinación de datos estructurados y no estructurados. Los datos estructurados, también conocidos como datos cuantitativos, son datos que han sido previamente formateados para que puedan ser procesados fácilmente por algoritmos de machine learning (ML) que impulsan aplicaciones de IA generativa.

Mediante modelos avanzados de ML, los algoritmos simulan la forma en que los humanos aprenden de grandes cantidades de datos (conjuntos de datos) hasta que pueden comprender preguntas sobre los datos y responder creando nuevos contenidos.

Aunque algunos de los datos recopilados por las empresas ya están estructurados (por ejemplo, la información financiera y sobre clientes, como nombres, fechas e importes de las transacciones), una gran cantidad no lo está. Los datos no estructurados, también conocidos como datos cualitativos, son datos que no tienen un formato predefinido. Los datos no estructurados son muy variados y pueden incluir archivos de vídeo, audio y texto procedentes de correos electrónicos, páginas web, cuentas de redes sociales y sensores del Internet de las Cosas (IoT).

A medida que la economía digital se expande, la cantidad de datos no estructurados recopilados por las empresas crece a un ritmo exponencial. Según Forbes, entre el 80 % y el 90 % de los datos recopilados por las empresas no están estructurados. Los datos no estructurados no son aptos para fines de ML y deben transformarse antes de poder usarse para entrenar un modelo de IA.

Convertir datos no estructurados en datos que puedan procesarse con un ordenador y utilizarse con fines empresariales implica extraer la información relevante y organizarla en un formato predefinido. El volumen y la complejidad de los datos crean desafíos, y el desafiante entorno de gestión de datos y el cumplimiento de las leyes de gobierno de datos pueden ser costosos.

Navegar por el complejo mundo del gobierno de datos

El gobierno de datos es la práctica de ayudar a garantizar la calidad, seguridad y disponibilidad de los datos que pertenecen a una organización a través de conjuntos de políticas y procedimientos. El auge de la IA generativa y el big data ha llevado el gobierno de datos y todos sus requisitos a la vanguardia de la empresa moderna.

La IA generativa, con su capacidad para crear nuevos contenidos basados en los datos sobre los que se ha entrenado, crea nuevas exigencias en la recogida, el almacenamiento y el tratamiento seguros y legales de los datos.

Calidad

Dado que los modelos de IA generativa se entrenan con conjuntos de datos masivos, los datos de esos conjuntos deben ser de la máxima calidad y su integridad debe ser incuestionable. El gobierno de datos desempeña un papel importante para ayudar a garantizar que los conjuntos de datos en los que se entrenan los modelos de IA generativa sean precisos y completos, un componente clave para generar respuestas en las que se puede confiar.

Conformidad

Dependiendo del sector y la ubicación, las aplicaciones empresariales de IA generativa se enfrentan a un riguroso entorno de cumplimiento en la forma en que se pueden utilizar los datos. Las normas del RGPD (Reglamento General de Protección de Datos), por ejemplo, rigen cómo las organizaciones pueden utilizar los datos pertenecientes a residentes de la UE. Las infracciones conllevan fuertes multas y sanciones cuando la información del cliente se ve comprometida de alguna manera.

En 2021, Google y otras empresas fueron multadas con más de mil millones de dólares por violar las normas de protección de datos estipuladas en el RGPD.

Transparencia

Para que una aplicación de IA generativa sea eficaz, el origen de sus datos y cómo se han transformado para uso empresarial debe estar claramente establecido y visible. El gobierno de datos ayuda a garantizar que la documentación exista (y sea transparente para los usuarios) en cada etapa del ciclo de vida de los datos, desde la recopilación, pasando por el almacenamiento, procesamiento y output, para que los usuarios comprendan cómo se generó una respuesta.

Buenas prácticas para construir una estrategia de datos que respalde las aplicaciones de IA generativa

El éxito de las aplicaciones de IA generativa depende de contar con la estrategia de datos y la infraestructura adecuadas para respaldarlas. Estas son algunas buenas prácticas para ayudar a garantizar el éxito.

Comience con una pregunta empresarial específica para la que su organización necesite respuesta

Debido a la naturaleza de los datos no estructurados (de dónde provienen, cómo se recopilan y almacenan) las organizaciones tienden a recopilar mucho.

Pero eso no significa que todo vaya a ser útil para una aplicación de IA generativa. “Empiece con una pregunta”, aconseja Margaret Graves, investigadora sénior del Centro IBM para los Negocios de Gobierno. "No tiene por qué ser solo una pregunta, pueden ser varias, pero intente centrarse en las formas específicas en que la aplicación que desea crear avanzará y respaldará su misión".

Desde el debut de ChatGPT en 2022, las empresas se han apresurado a aplicar la IA generativa a una serie de problemas empresariales, como el aumento de la productividad, la identificación de conocimientos y la aceleración de la transformación digital. Si bien estas son, sin duda, áreas que la tecnología puede abordar, también son amplias y podrían llevar a una organización a crear una aplicación que carezca de especificidad.

Cuanto más específico sea el problema empresarial, más fácil será identificar los conjuntos de datos relevantes que necesitará para entrenar su modelo de IA generativa y el tipo de infraestructura de IA que necesitará para apoyar el proceso.

Elabore una estrategia que ayude a garantizar que su aplicación tenga los datos que necesita

Una vez que una organización ha decidido en qué cuestiones empresariales quiere centrar una aplicación de IA generativa, puede empezar a buscar los conjuntos de datos pertinentes para entrenar sus modelos de IA. Graves compara esta parte del proceso con analizar un espectro. "Por un lado", dice, "tenemos datos internos altamente confidenciales y patentados con los que necesitamos entrenar nuestro modelo. Por otro lado, disponemos de datos más generales que no son exclusivos, pero que ayudarán a que nuestra aplicación funcione mejor".

El mundo de las RFP (solicitudes de propuestas) es un buen ejemplo, ya que es uno de los casos de uso empresarial más convincentes de la IA generativa que ha surgido en los últimos años. Una empresa B2B que busca crear una aplicación de IA generativa para ayudar a automatizar aspectos de su proceso de RFP necesitaría entrenarse con datos internos o no podría presentar las capacidades únicas de una empresa. Pero ese mismo modelo de IA generativa también necesitaría entrenarse con datos más generales, como cómo elaborar una oración y estructurar sus respuestas gramaticalmente, o sus respuestas no tendrían sentido.

"Ambos aspectos deben combinarse en su estrategia de datos: conjuntos de datos amplios y generales y también conjuntos de datos internos más propietarios", afirma Graves. "De lo contrario, lo único que se consigue es crear una herramienta, introducir una gran cantidad de datos en ella y ver qué pasa, lo cual es una pérdida de tiempo y dinero".

Aproveche los datos específicos del dominio cuando corresponda

El uso de datos específicos del dominio, datos relevantes para un sector o campo específico, puede ayudar a las empresas a crear modelos de IA más centrados en sus necesidades empresariales particulares. "Ahora mismo se hace hincapié en los datos específicos del dominio cuando se trata de entrenar modelos de IA, por ejemplo en los campos de finanzas o RR. HH.", afirma Jason Prow, socio sénior de IBM Consulting. "Con todos los datos que existen, organizar su modelo en torno a un dominio específico se está volviendo crítico".

Aprovechar los datos del dominio en la creación de modelos de IA ayuda a adaptar los modelos de forma que puedan ser más aplicables a una necesidad empresarial específica. Los modelos específicos de dominio son más precisos y relevantes para las necesidades de los usuarios y pueden mejorar el rendimiento general de las aplicaciones de IA generativa asociadas.

Los datos específicos de un dominio pueden ser técnicos y complejos, por lo que las organizaciones que buscan aprovecharlos deben considerar agregar una "semántica" más adelante, una capa de abstracción en sus modelos de IA para ayudar a traducirlos. "El sector farmacéutico en particular hace mucha descripción semántica", dice Anthony Vachino, socio asociado de IBM Consulting. “Cada empresa realiza un ensayo distinto, y la capa semántica lo describe de manera que pueda ayudar a que la investigación sea aplicable a otras empresas para que no tengan que replicarla.

Ubique su infraestructura de datos estratégicamente

Tanto si se preparan para cambios geopolíticos que pueden interrumpir las cadenas de suministro como para desastres naturales que amenazan infraestructuras críticas, los líderes de datos modernos están empezando a considerar algo más que el talento y el coste a la hora de elegir dónde almacenar y acceder a los datos. Según el Instituto de valor empresarial de IBM, el 60 % de los líderes del gobierno cree que la frecuencia de las crisis en la cadena de suministro y las infraestructuras aumentará en el futuro, mientras que el 70 % cree que aumentará en intensidad.

Las diferentes regiones tienen diferentes ventajas, y deben tenerse en cuenta aspectos como el talento, el ecosistema y la infraestructura de datos, el gobierno y los factores geopolíticos. Los ejecutivos toman nota: el año pasado, según el mismo informe del IBV, casi el 70 % de los ejecutivos encuestados dijeron que esperaban que la IA cambiara la ubicación de los recursos clave, mientras que este año ese porcentaje aumentó al 96 %.

Dan Chenok, director ejecutivo del IBM Center for the Business of Government, está interesado en el potencial del uso de datos distribuidos en la formación de modelos de IA generativa, ya que permite almacenar y acceder a los datos desde más de una ubicación. “Los datos distribuidos permiten entrenar el modelo con datos que se encuentran en múltiples ubicaciones”, afirma, “mientras que la seguridad y las regulaciones se mantienen mediante el control de acceso”.

El apoyo a las aplicaciones de IA generativa requiere un enfoque abierto e híbrido

Las soluciones modernas e híbridas ayudan a las organizaciones a crear modelos de IA más adecuados para resolver problemas empresariales específicos, ahorrando dinero, tiempo y otros recursos críticos. "Cuando se integra en varias plataformas, puede proporcionar mejores servicios, especialmente si es una empresa que trabaja en varias ubicaciones", añade Chenok. “Y las mejores soluciones ayudan a conciliarlo todo para que la aplicación funcione correctamente”. 

Los lakehouses de datos abiertos e híbridos ofrecen a los usuarios la capacidad de compartir datos en la nube y on-premises (dondequiera que residan los datos) para que las aplicaciones de IA generativa puedan acceder a ellos. Los lakehouses de datos son plataformas que fusionan aspectos de almacén de datos y data lake en una única solución de gestión de datos.

Los data lakes son soluciones de almacenamiento de datos de bajo coste diseñadas para manejar grandes cantidades de datos estructurados y no estructurados, y los almacenes de datos son sistemas que recopilan datos de múltiples fuentes en una sola ubicación para que puedan ser analizados. Aunque no son tan escalables como los lakes o los almacenes, los lakehouses de datos tienden a ser más ágiles, de mayor rendimiento y capaces de soportar una gama más amplia de cargas de trabajo.

Para las empresas que buscan una solución más completa, plataformas como Databricks, Snowflake y Amazon RedShift son cada vez más populares debido a la complejidad de preparar los datos para la IA generativa y desarrollar e implementar las aplicaciones. Las soluciones integrales ayudan en la gestión de datos, el entrenamiento de modelos y la implementación de soluciones, permitiendo a las organizaciones lanzar una aplicación de IA generativa con escalabilidad y gobierno integrados para diversos casos de uso.

IBM watsonx.data es un almacén de datos adaptado creado sobre un lakehouse de datos abierto que aumenta la escalabilidad de las cargas de trabajo de IA generativa. El enfoque abierto, híbrido y diseñado para un propósito mejora la integración con diferentes tipos de bases de datos, permitiendo a las empresas aprovechar datos distribuidos en distintos ecosistemas y entornos, sin quedarse atadas a una sola región o conjunto de reglas.

 

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo