La importancia de la ingesta y la integración de datos para la IA empresarial

Una joven y un compañero de trabajo escriben ideas en notas adhesivas

La aparición de la IA generativa llevó a varias empresas destacadas a restringir su uso debido al mal manejo de datos internos sensibles. Según CNN, algunas empresas han impuesto prohibiciones internas sobre las herramientas de IA generativa mientras tratan de comprender mejor la tecnología, y muchas también han bloqueado el uso interno de ChatGPT.

Las empresas siguen aceptando a menudo el riesgo de utilizar datos internos cuando exploran modelos de lenguaje de gran tamaño (LLM), porque estos datos contextuales son los que permiten a los LLM pasar del conocimiento de propósito general al conocimiento específico del dominio. En el ciclo de desarrollo de la IA generativa o IA tradicional, la ingesta de datos sirve como punto de entrada. Aquí, los datos sin procesar que se adaptan a los requisitos de una empresa se pueden recopilar, preprocesar, enmascarar y transformar en un formato adecuado para LLM u otros modelos. Actualmente, no existe un proceso estandarizado para superar los desafíos de la ingesta de datos, pero la precisión del modelo depende de ello.

Las últimas novedades sobre tecnología, respaldadas por conocimientos de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Se ha suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

4 riesgos de una ingesta de datos deficiente

  1. Generación de desinformación: cuando un LLM se entrena con datos contaminados (datos que contienen errores o imprecisiones), puede generar respuestas incorrectas, lo que lleva a una toma de decisiones defectuosa y a posibles problemas en cascada.
  2. Mayor varianza: la varianza mide la coherencia. Los datos insuficientes pueden dar lugar a respuestas variables a lo largo del tiempo, o a valores atípicos engañosos, lo que afecta especialmente a los conjuntos de datos más pequeños. Una alta varianza en un modelo puede indicar que este funciona con datos de entrenamiento, pero que no es adecuado para los casos de uso del sector en el mundo real.
  3. Alcance de datos limitado y respuestas no representativas: cuando las fuentes de datos son restrictivas, homogéneas o contienen duplicados erróneos, los errores estadísticos, como el sesgo de muestreo, pueden sesgar todos los resultados. Esto puede hacer que el modelo excluya áreas enteras, departamentos, datos demográficos, sectores o fuentes de la conversación.
  4. Retos en la rectificación de datos sesgados: si los datos están sesgados desde el principio, “la única forma de eliminar con carácter retroactivo una parte de esos datos es volver a entrenar el algoritmo desde cero”. Es difícil para los modelos LLM desaprender las respuestas que se derivan de datos no representativos o contaminados cuando se han vectorizado. Estos modelos tienden a reforzar su comprensión basándose en respuestas previamente asimiladas.

La ingesta de datos debe realizarse correctamente desde el principio, ya que su mala gestión puede dar lugar a una serie de nuevos problemas. La base del entrenamiento de datos en un modelo de IA es comparable a pilotar un avión. Si el ángulo de despegue se desvía un solo grado, es posible que aterrice en un continente completamente diferente de lo esperado.

Toda el pipeline de la IA generativa depende de los pipelines de datos que la potencian, por lo que es imperativo tomar las precauciones adecuadas.

AI Academy

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso satisfactorio de la IA generativa.

4 componentes clave para garantizar una ingesta de datos fiable

  1. Calidad y gobierno de los datos: la calidad de los datos significa garantizar la seguridad de las fuentes de datos, mantener datos holísticos y proporcionar metadatos claros. Esto también puede implicar trabajar con datos nuevos mediante métodos como el rastreo web o la carga de archivos. El gobierno de datos es un proceso continuo en el ciclo de vida de los datos para ayudar a garantizar el cumplimiento de las leyes y las buenas prácticas de la empresa.
  2. Integración de datos: estas herramientas permiten a las empresas combinar fuentes de datos dispares en una ubicación segura. Un método popular es extraer, cargar, transformar (ELT). En un sistema ELT, los conjuntos de datos se seleccionan de almacenes aislados, se transforman y luego se cargan en grupos de datos de origen o de destino. Las herramientas ELT como IBM® DataStage facilitan transformaciones rápidas y seguras a través de motores de procesamiento paralelo. En 2023, la empresa media recibe cientos de flujos de datos dispares, lo que hace que las transformaciones de datos eficientes y precisas sean cruciales para el desarrollo de modelos de IA tradicionales y nuevos.
  3. Limpieza y preprocesamiento de datos: esto incluye formatear los datos para cumplir con los requisitos específicos de entrenamiento de LLM, herramientas de orquestación o tipos de datos. Los datos de texto se pueden fragmentar o tokenizar, mientras que los datos de imágenes se pueden almacenar como embeddings. Se pueden llevar a cabo transformaciones integrales mediante herramientas de integración de datos. Además, puede ser necesario manipular directamente los datos sin procesar eliminando duplicados o cambiando los tipos de datos.
  4. Almacenamiento de datos: una vez que los datos se limpian y procesan, surge el reto del almacenamiento de los mismos. La mayoría de los datos se alojan en la nube u on-premises, lo que obliga a las empresas a tomar decisiones sobre dónde almacenarlos. Es importante tener cuidado con el uso de LLM externos para manejar información confidencial como datos personales, documentos internos o datos de clientes. Sin embargo, los LLM desempeñan un papel crítico en el ajuste fino o la implementación de un enfoque basado en generación aumentada por recuperación (RAG). Para mitigar los riesgos, es importante ejecutar tantos procesos de integración de datos como sea posible en servidores internos. Una posible solución es utilizar opciones de tiempo de ejecución remotas como.

Comience su ingesta de datos con IBM

IBM® DataStage simplifica la integración de datos mediante al combinación de varias herramientas, lo que le permite extraer, organizar, transformar y almacenar sin esfuerzo los datos necesarios para los modelos de entrenamiento de IA en una nube híbrida. Los profesionales de datos de todos los niveles pueden interactuar con la herramienta utilizando GUI no-code o accediendo a API con código personalizado guiado.

La nueva opción de tiempo de ejecución remota DataStage as a Service Anywhere proporciona flexibilidad para ejecutar sus transformaciones de datos. Le permite utilizar el motor paralelo desde cualquier lugar, lo que le proporciona un control sin precedentes sobre su ubicación. DataStage as a Service Anywhere se presenta como un contenedor ligero, lo que le permite ejecutar todas las capacidades de transformación de datos en cualquier entorno. Esto le permite evitar muchos de los escollos de una ingesta de datos deficiente a medida que ejecuta la integración, la limpieza y el preprocesamiento de datos dentro de su nube privada virtual. Con DataStage, usted mantiene un control total sobre la seguridad, la calidad de los datos y la eficacia, abordando todas sus necesidades de datos para iniciativas de IA generativa.

Aunque prácticamente no hay límites para lo que se puede lograr con la IA generativa, existen límites en los datos que utiliza un modelo, y esos datos también pueden marcar la diferencia.

Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explore StreamSets
IBM watsonx.data

Watsonx.data le permite escalar la analítica y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gobernado.

Descubra watsonx.data
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
De el siguiente paso

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data