Cómo crear una estrategia de datos para respaldar sus aplicaciones de IA generativa

Pared curva enorme de pantallas en una habitación oscura

La IA generativa, también conocida como IA gen, es una inteligencia artificial (IA) capaz de crear texto, imágenes, vídeo, audio e incluso código de software en respuesta a una solicitud del usuario. Hoy en día, las organizaciones se preparan para crear nuevas aplicaciones de IA generativa, pero a menudo pasan por alto los pasos necesarios para diseñar una estrategia de datos eficaz que las respalde.

Los modelosde IA generativa (programas informáticos que han sido entrenados para decidir de manera similar al cerebro humano) requieren volúmenes masivos de datos para entrenar. Y aunque las organizaciones pueden tener una idea brillante para una aplicación, si los datos subyacentes no se manejan correctamente, la aplicación falla.

Desde el costo de recopilar y procesar datos, pasando por la infraestructura subyacente necesaria para almacenarlos de forma segura, hasta los requisitos cambiantes de la gobernanza de datos, es importante que las organizaciones adopten un enfoque estratégico para que las aplicaciones tengan éxito.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

ChatGPT y el impulso de nuevas aplicaciones empresariales de IA generativa

En 2022, el lanzamiento de ChatGPT marcó el comienzo de una nueva era de innovación en IA generativa, lo que llevó a las organizaciones a buscar formas de aprovechar la tecnología para aplicaciones empresariales. ChatGPT era un chatbot de IA, capacitado con grandes modelos de lenguaje (LLMs), que interactuaba con los usuarios de forma conversacional. Desde su lanzamiento, las organizaciones han buscado aplicar su Tecnología subyacente a diversos problemas empresariales, incluyendo Automatización, el aumento de la productividad y los insights de los clientes.

También se han hecho evidentes varios riesgos y desafíos. En el campo de la medicina, por ejemplo, aunque ha ayudado a automatizar ciertos diagnósticos, también ha suscitado preocupaciones en materia de privacidad y seguridad.1 Además, una condición conocida como alucinaciones de IA sigue siendo persistente, lo que hace que algunos modelos de IA generativa "inventen" hechos cuando no pueden encontrar la respuesta a una pregunta.

Pero mientras persisten estos y otros problemas, organizaciones de todos los tamaños y en diversas industrias han seguido invirtiendo fuertemente en el espacio, buscando nuevas formas de aprovechar su poder. Según Menlo Ventures, de 2022 a 2023, la inversión empresarial en IA generativa se multiplicó por seis, de 2.3 a . 13.8 mil millones.

AI Academy

El auge de la IA generativa para las empresas

Aprenda sobre el auge histórico de la IA generativa y lo que significa para las empresas.

Las aplicaciones de IA generativa plantean nuevos desafíos a la infraestructura de IA

La infraestructura de IA es un término que describe las soluciones de hardware y software necesarias para crear aplicaciones de IA. En la era de la IA generativa, la infraestructura de IA debe evolucionar para satisfacer las mayores demandas de recursos informáticos, capacidad de almacenamiento de datos, ancho de banda y más asociados con la tecnología. Pero las organizaciones tienen tanta prisa por desplegar nuevas aplicaciones de IA generativa que a veces pasan por alto las necesidades de IA e infraestructura de datos.

A medida que las organizaciones buscan aprovechar la IA generativa y todo su potencial para fines comerciales, deben repensar aspectos clave de sus enfoques de infraestructura y estrategia de datos.

Convertir datos no estructurados en datos estructurados

Para crear una aplicación empresarial de IA generativa y exitosa, las organizaciones suelen necesitar una combinación de datos estructurados y no estructurados. Los datos estructurados, también conocidos como datos cuantitativos, son datos que fueron previamente formateados para que puedan ser procesados fácilmente por algoritmos de machine learning (ML) que impulsan aplicaciones de IA generativa.

Mediante modelos avanzados de machine learning (ML), los algoritmos simulan la forma en que los humanos aprenden a partir de grandes cantidades de datos (conjuntos de datos) hasta que puedan comprender las preguntas sobre los datos y responder creando nuevos contenidos.

Si bien algunos datos recopilados por las empresas ya están estructurados (por ejemplo, información financiera y de clientes, como nombres, fechas y montos de transacciones), una gran cantidad no lo está. Los datos no estructurados, también conocidos como datos cualitativos, son datos que no tienen un formato predefinido. Los datos no estructurados son muy variados y pueden incluir archivos de video, audio y texto procedentes de correos electrónicos, páginas web, cuentas de redes sociales y sensores del Internet de las cosas (IoT).

A medida que la economía digital se expande, la cantidad de datos no estructurados que recopilan las empresas crece a un ritmo exponencial. Según Forbes, entre el 80% y el 90% de los datos recopilados por las empresas no están estructurados. Los datos no estructurados no son aptos para fines de machine learning (ML) y deben transformarse antes de poder usarse para capacitar un modelo de IA.

Convertir datos no estructurados en datos que puedan ser procesados por una computadora y utilizados con fines comerciales implica extraer información relevante y organizarla en un formato predefinido. El volumen y la complejidad de los datos crean desafíos, y el desafiante entorno de gestión de datos y el cumplimiento de las leyes de gobernanza de datos pueden ser costosos.

Navegando por el complejo mundo de la gobernanza de datos

Lagobernanza de datos es la práctica de ayudar a garantizar la calidad, seguridad y disponibilidad de los datos que pertenecen a una organización a través de conjuntos de políticas y procedimientos. El auge de la IA generativa y el big data ha llevado la gobernanza de datos y todos sus requisitos a la vanguardia de la empresa moderna.

La IA generativa, con su capacidad para crear nuevos contenidos basados en los datos con los que se ha entrenado, genera nuevas exigencias en materia de recopilación, almacenamiento y tratamiento seguros y legales de los datos.

Calidad

Debido a que los modelos de IA generativa se entrenan en conjuntos de datos masivos, los datos dentro de esos conjuntos deben ser de la más alta calidad y su integridad debe ser incuestionable. La gobernanza de datos desempeña un papel importante para ayudar a garantizar que los conjuntos de datos en los que se capacitan los modelos de IA generativa sean precisos y completos, un componente clave para generar respuestas en las que se pueda confiar.

Cumplimiento normativo

Dependiendo de la industria y la ubicación, las aplicaciones empresariales de IA generativa se enfrentan a un riguroso entorno de cumplimiento en la forma en que se pueden utilizar los datos. Las normas del RGPD (Reglamento General de Protección de Datos), por ejemplo, rigen cómo las organizaciones pueden utilizar los datos que pertenecen a los residentes de la UE. Las infracciones conllevan fuertes multas y sanciones cuando la información del cliente se ve comprometida de alguna manera.

En 2021, Google y otras compañías fueron multadas con más de mil millones de dólares por violar las normas de protección de datos estipuladas en el RGPD.

Transparencia

Para que una aplicación de IA generativa sea eficaz, el origen de sus datos y cómo se han transformado para uso empresarial debe estar claramente establecido y ser visible. La gobernanza de datos ayuda a garantizar que la documentación exista —y sea transparente para los usuarios— en cada etapa del ciclo de vida de los datos, desde la recopilación, pasando por el almacenamiento, procesamiento y salida, para que los usuarios comprendan cómo se generó una respuesta.

Mejores prácticas para crear una estrategia de datos que admita aplicaciones de IA generativa

El éxito de las aplicaciones de IA generativa depende de contar con la estrategia de datos y la infraestructura adecuadas para respaldarlas. Estas son algunas de las mejores prácticas para ayudar a garantizar el éxito.

Comience con una pregunta empresarial específica que su organización necesite responder

Debido a la naturaleza de los datos no estructurados —su procedencia, cómo se recopilan y almacenan—, las organizaciones tienden a recopilar una gran cantidad.

Pero eso no significa que todo vaya a ser útil para una aplicación de IA generativa. “Empiece con una pregunta”, aconseja Margaret Graves, investigadora sénior del Centro IBM para los Negocios de Gobierno. "No tiene que ser solo una pregunta, pueden ser varias, pero trate de enfocarse en formas específicas en que la aplicación que desea crear avanzará y respaldará su misión".

Desde el debut de ChatGPT en 2022, las empresas se apresuraron a aplicar la IA generativa a una variedad de problemas comerciales, incluido el aumento de la productividad, la identificación de insights y la aceleración de la transformación digital. Si bien estas son ciertamente áreas que la tecnología puede abordar, también son amplias y podrían llevar a que una organización construya una aplicación que carece de especificidad.

Cuanto más específico sea el problema empresarial, más fácil será identificar los conjuntos de datos relevantes que necesitará para entrenar su modelo de IA generativa y el tipo de infraestructura de IA que necesitará para respaldar el proceso.

Elabore una estrategia que ayude a garantizar que su aplicación tenga los datos que necesita

Una vez que una organización ha decidido en qué cuestiones empresariales quiere centrar una aplicación de IA generativa, puede empezar a buscar los conjuntos de datos relevantes para entrenar sus modelos de IA. Graves compara esta parte del proceso con observar un espectro. “Por un lado”, dice, “tienes datos internos altamente confidenciales y patentados con los que necesitas entrenar tu modelo. Por otro lado, tiene datos más generales que no son propietarios pero que ayudarán a que su aplicación tenga un mejor rendimiento”.

El mundo de las RFP (Solicitud de propuestas) es un buen ejemplo, ya que es uno de los casos de uso empresarial más convincentes de IA generativa que ha surgido en los últimos años. Una empresa B2B que busca crear una aplicación de IA generativa para ayudar a automatizar aspectos de su proceso de RFP necesitaría capacitarse con datos internos o no podría presentar las capacidades únicas de una empresa. Pero ese mismo modelo de IA generativa también necesitaría entrenarse con datos más generales, como cómo elaborar una oración y estructurar sus respuestas gramaticalmente, o sus respuestas no tendrían sentido.

"Ambos aspectos deben combinarse en su estrategia de datos: conjuntos de datos amplios y generales y también conjuntos de datos internos más patentados", dice Graves. "De lo contrario, solo está creando una herramienta y arrojándole muchos datos y viendo qué sucede, lo que es una pérdida de dinero y tiempo".

Aproveche los datos específicos del dominio cuando corresponda

El uso de datos específicos del dominio, es decir, datos relevantes para un sector o campo concreto, puede ayudar a las empresas a crear modelos de IA más centrados en sus necesidades empresariales particulares. “Hay un énfasis en los datos específicos del dominio en este momento cuando se trata de entrenar modelos de IA, por ejemplo en los campos de finanzas o recursos humanos”, dice Jason Prow, Senior Partner de IBM Consulting. "Con todos los datos que existen, organizar su modelo en torno a un dominio específico se está volviendo crítico".

Aprovechar los datos del dominio en la creación de modelos de IA ayuda a adaptar los modelos de manera que sean más aplicables a una necesidad empresarial específica. Los modelos específicos de dominio son más precisos y relevantes para las necesidades de los usuarios y pueden conducir a un mejor rendimiento general de las aplicaciones de IA generativa asociadas.

Los datos específicos de un dominio pueden ser técnicos y complejos, por lo que las organizaciones que buscan aprovecharlos deben considerar agregar una "semántica" más adelante, una capa de abstracción en sus modelos de IA para ayudar a traducirlos. "La industria farmacéutica en particular hace mucha descripción semántica", dice Anthony Vachino, socio asociado de IBM Consulting. “Diferentes empresas realizan diferentes pruebas, y la capa semántica lo describe de maneras que pueden ayudar a que la investigación sea aplicable a otras empresas para que no tengan que replicarla.

Ubique su infraestructura de datos estratégicamente

Ya sea que se preparen para cambios geopolíticos que pueden interrumpir las cadenas de suministro o desastres naturales que amenazan la infraestructura crítica, los líderes de datos modernos están comenzando a considerar más que solo el talento y el costo al elegir dónde almacenar y acceder a los datos. Según el IBM Institute of Business Value, el 60 % de los líderes gubernamentales cree que la frecuencia de las crisis de la cadena de suministro y la infraestructura aumentará en el futuro, mientras que el 70 % cree que aumentará en intensidad.

Las diferentes regiones tienen diferentes ventajas, y es necesario considerar aspectos como el talento, el ecosistema y la infraestructura de datos, la gobernanza y los factores geopolíticos. Los ejecutivos están tomando nota: el año pasado, según el mismo informe de IBV, casi el 70 % de los ejecutivos encuestados dijeron que esperaban que la IA cambiara la ubicación de los recursos clave, mientras que este año, ese porcentaje aumentó al 96 %.

Dan Chenok, director ejecutivo del IBM Center for the Business del gobierno, está interesado en el potencial de utilizar datos distribuidos en el entrenamiento de modelos de IA generativa, ya que permite almacenar y acceder a datos en más de un lugar. "Los datos distribuidos le permiten entrenar el modelo con datos que se encuentran en múltiples ubicaciones", dice, "mientras que la seguridad y las regulaciones se mantienen a través del control de acceso".

El soporte de las aplicaciones de IA generativa requiere un enfoque abierto e híbrido

Las soluciones híbridas modernas ayudan a las organizaciones a crear modelos de IA más adecuados para resolver problemas empresariales específicos, ahorrando dinero, tiempo y otros recursos críticos. "Cuando se integra en múltiples plataformas, puede proporcionar mejores servicios, especialmente si es una empresa que trabaja en varias ubicaciones", agrega Chenok. "Y las mejores soluciones le ayudan a conciliar todo para que su aplicación funcione". 

Los lakehouses de datos híbridos y abiertos brindan a los usuarios la capacidad de Compartir datos tanto en la infraestructura on premises como en la nube, dondequiera que residan los datos, para que las aplicaciones de IA generativa puedan acceder a ellos. Los data lakehouses son plataformas que fusionan aspectos de data warehouses y data lakes en una única solución unificada de administración de datos.

Los data lakes son soluciones de almacenamiento de datos de bajo costo creadas para manejar cantidades masivas de datos estructurados y no estructurados, y los almacenes de datos son sistemas que recopilan datos de múltiples fuentes en una sola ubicación para que puedan ser analizados. Si bien no son tan escalables como los lagos o los almacenes, los lakehouses de datos tienden a ser más optimizados, de mayor rendimiento y capaces de admitir una gama más amplia de cargas de trabajo.

Para las empresas que buscan una solución más completa, plataformas como Databricks, Snowflake y Amazon RedShift son cada vez más populares debido a la complejidad de preparar datos para la IA generativa y desarrollar y desplegar las aplicaciones. Las soluciones integrales ayudan en la gestión de datos, el entrenamiento de modelos y el despliegue de soluciones, permitiendo a las organizaciones lanzar una aplicación de IA generativa con escalabilidad y gobernanza integradas para diversos casos de uso.

IBM watsonx.data es un almacén de datos adecuado para su propósito creado en un lakehouse de datos abierto que aumenta la escalabilidad de las cargas de trabajo de IA generativa. El enfoque abierto, híbrido y diseñado específicamente para este fin mejora la integración con diferentes tipos de bases de datos, lo que permite a las empresas aprovechar los datos que se encuentran dispersos en diferentes ecosistemas y entornos, sin quedar limitadas a una sola región o conjunto de reglas.

 

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo