La importancia de la ingesta y la integración de datos para la IA empresarial

Mujer joven y colega escriben ideas en notas adhesivas

La aparición de la IA generativa llevó a varias empresas destacadas a restringir su uso debido al mal manejo de datos internos sensibles. Según CNN, algunas empresas impusieron prohibiciones internas a las herramientas de IA generativa mientras buscan comprender mejor la tecnología y muchas también han bloqueado el uso de ChatGPT interno.

Las empresas siguen aceptando a menudo el riesgo de utilizar datos internos al explorar modelos de lenguaje de gran tamaño (LLM) porque estos datos contextuales son los que permiten que los LLM cambien de conocimiento de propósito general a conocimiento específico de dominio. En el ciclo de desarrollo de IA generativa o IA tradicional, la ingesta de datos sirve como punto de entrada. Aquí, los datos sin procesar que se adaptan a los requisitos de una empresa se pueden recopilar, preprocesar, enmascarar y transformar en un formato adecuado para LLM u otros modelos. Actualmente, no existe un proceso estandarizado para superar los desafíos de la ingesta de datos, pero la precisión del modelo depende de ello.

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

4 riesgos de datos mal ingeridos

  1. Generación de desinformación: Cuando un LLM se entrena con datos contaminados (datos que contienen errores o imprecisiones), puede generar respuestas incorrectas, lo que lleva a una toma de decisiones defectuosa y posibles problemas en cascada.
  2. Mayor varianza: la varianzamide la coherencia. Los datos insuficientes pueden dar lugar a respuestas variables a lo largo del tiempo o a valores atípicos engañosos, lo que afecta especialmente a los conjuntos de datos más pequeños. Una alta varianza en un modelo puede indicar que el modelo funciona con datos de entrenamiento, pero ser inadecuado para los casos de uso de la industria del mundo real.
  3. Alcance de datos limitado y respuestas no representativas: cuando las fuentes de datos son restrictivas, homogéneas o contienen duplicados erróneos, los errores estadísticos, como el sesgo de muestreo, pueden sesgar todos los resultados. Esto puede hacer que el modelo excluya áreas, departamentos, datos demográficos, industrias o fuentes enteras de la conversación.
  4. Desafíos en la rectificación de datos con sesgo: Si los datos están con sesgo desde el principio,"la única forma de eliminar retroactivamente una parte de esos datos es volver a entrenar el algoritmo desde cero". Es difícil para los modelos LLM desaprender las respuestas que se derivan de datos no representativos o contaminados cuando se han vectorizado. Estos modelos tienden a reforzar su comprensión a partir de respuestas previamente asimiladas.

La ingestión de datos debe realizarse correctamente desde el principio, ya que su mal manejo puede generar una serie de problemas nuevos. La base del entrenamiento de datos en un modelo de IA es comparable a pilotar un avión. Si el ángulo de despegue está desviado un solo grado, es posible que aterrice en un continente completamente diferente de lo esperado.

Todo el pipeline de IA generativa depende de los pipelines de datos que lo potencian, por lo que es imprescindible tomar las precauciones correctas.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

4 componentes clave para garantizar una ingesta de datos confiable

  1. Calidad y gobernanza de los datos: la calidad de los datos significa garantizar la seguridad de las fuentes de datos, mantener datos holísticos y proporcionar metadatos claros. Esto también puede implicar trabajar con nuevos datos a través de métodos como web scraping o carga. Lagobernanza de datos es un proceso continuo en el ciclo de vida de los datos para ayudar a garantizar el cumplimiento de las leyes y las mejores prácticas de la empresa.
  2. Integración de datos: Estas herramientas permiten a las empresas combinar fuentes de datos Dispar en una ubicación segura. Un método popular es extraer, cargar, transformar (ELT). En un sistema ELT, los conjuntos de datos se seleccionan de almacenes aislados, se transforman y luego se cargan en grupos de datos de origen o de destino. Las herramientas ELT, como IBM® DataStage, facilitan transformaciones rápidas y seguras a través de motores de procesamiento paralelo. En 2023, la empresa promedio recibe cientos de flujos de datos Dispar, lo que hace que las transformaciones de datos eficientes y precisas sean cruciales para el desarrollo de modelos de IA tradicionales y nuevos.
  3. Limpieza y preprocesamiento de datos: esto incluye formatear los datos para cumplir con los requisitos específicos de capacitación de LLM, herramientas de orquestación o tipos de datos. Los datos de texto se pueden fragmentar o tokenizar, mientras que los datos de imágenes se pueden almacenar como incorporaciones. Se pueden llevar a cabo transformaciones integrales utilizando herramientas de integración de datos. Además, puede ser necesario manipular directamente los datos sin procesar eliminando duplicados o cambiando los tipos de datos.
  4. Almacenamiento de datos: una vez que los datos se limpian y procesan, surge el desafío del almacenamiento de datos. La mayoría de los datos se alojan en la nube u on premises, lo que requiere que las empresas tomen decisiones sobre dónde almacenar sus datos. Es importante tener cuidado con el uso de LLM externos para manejar información confidencial, como datos personales, documentos internos o datos de clientes. Sin embargo, los LLM desempeñan un papel crítico en el ajuste fino o la implementación de un enfoque basado en generación aumentada por recuperación (RAG, por sus siglas en inglés). Para mitigar los riesgos, es importante ejecutar tantos procesos de integración de datos como sea posible en servidores internos. Una posible solución es utilizar opciones de tiempo de ejecución remotas como.

Comience su ingesta de datos con IBM

IBM DataStage optimiza la integración de datos combinando varias herramientas, lo que le permite extraer, organizar, transformar y almacenar sin esfuerzo los datos necesarios para los modelos de entrenamiento de IA en un entorno de nube híbrida. Los profesionales de datos de todos los niveles de habilidad pueden interactuar con la herramienta mediante GUI sin código o acceder a API con código personalizado guiado.

La nueva opción de tiempo de ejecución remota DataStage as a Service Anywhere proporciona flexibilidad para ejecutar sus transformaciones de datos. Le permite utilizar el motor paralelo desde cualquier lugar, brindándole un control sin precedentes sobre su ubicación. DataStage as a Service Anywhere se manifiesta como un contenedor ligero, lo que le permite ejecutar todas las capacidades de transformación de datos en cualquier entorno. Esto le permite evitar muchos de los inconvenientes de una ingesta de datos deficiente a medida que ejecuta la integración, la limpieza y el preprocesamiento de datos dentro de su nube privada virtual. Con DataStage, usted mantiene un control total sobre la seguridad, la calidad y la eficacia de los datos, abordando todas sus necesidades de datos para las iniciativas de IA generativa.

Si bien prácticamente no hay límites para lo que se puede lograr con la IA generativa, existen límites en los datos que utiliza un modelo, y esos datos también pueden marcar la diferencia.

Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explorar StreamSets
IBM watsonx.data™

watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.

Descubra watsonx.data
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data