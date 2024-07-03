Las organizaciones deben centrarse en crear una base de datos abierta y fiable para acceder a datos fiables para la IA. Open está creando una base para almacenar, gestionar, integrar y acceder a datos basados en capacidades abiertas e interoperables que abarcan implementaciones en la nube híbrida, almacenamiento de datos, formatos de datos, motores de consulta, gobernanza y metadatos. Esto permite una integración más fácil con sus inversiones en tecnología existentes al tiempo que elimina los silos de datos y acelera la transformación basada en datos.

La creación de una base de datos de confianza permite una gestión de datos y metadatos de alta calidad, fiable, segura y gobernada para que pueda entregarse a aplicaciones de análisis e IA, al tiempo que satisface las necesidades de protección de datos y cumplimiento normativo. Los siguientes cuatro componentes ayudan a crear una base de datos abierta y de confianza.

1. Modernizar su infraestructura de datos a nube híbrida para aplicación, análisis y IA generativa

La adopción de estrategias multinube e híbridas es cada vez más obligatorio, ya que se requieren bases de datos que admitan implementaciones flexibles en la nube híbrida. Gartner predice que el 95 % (enlace externo a ibm.com) de las nuevas iniciativas digitales se desarrollarán en plataformas nativas de la nube, esenciales para las tecnologías de IA que requieren almacenamiento de datos y escalabilidad.

2. Impulse aplicaciones basadas en datos, análisis e IA con las bases de datos adecuadas y una estrategia de lakehouse de datos abierto

Para almacenar y analizar datos, debe utilizar la base de datos adecuada para la carga de trabajo, los tipos de datos y la rentabilidad adecuados. Esto le garantiza una base de datos que crece con sus necesidades de datos, dondequiera que residan sus datos. Su estrategia de datos debe incorporar bases de datos diseñadas con componentes abiertos e integrados, lo que permite una unificación y acceso a los datos sin fisuras para aplicaciones avanzadas de análisis e IA dentro de una plataforma de datos. Esto permite a su Organización extraer conocimientos valiosos e impulsar una toma de decisiones informada.

Por ejemplo, las organizaciones necesitan bases de datos transaccionales de alto rendimiento, seguras y Resilient para gestionar sus datos operativos más críticos. Con la disponibilidad de la nube híbrida, las organizaciones pueden utilizar sus bases de datos para modernizar aplicaciones heredadas, crear nuevas aplicaciones nativas de la nube y potenciar asistentes de IA y aplicaciones empresariales.

A medida que evolucionan los tipos de datos y las aplicaciones, es posible que necesite bases de datos NoSQL especializadas para manejar diversas estructuras de datos y requisitos de aplicaciones específicas. Entre ellas se incluyen series temporales, documentación, mensajería, clave-valor, búsqueda de texto completo y bases de datos en memoria, que satisfacen diversas necesidades, como IoT, gestión de contenidos y aplicaciones geoespaciales.

Para impulsar cargas de trabajo de IA y analytics en sus bases de datos transaccionales y creadas especialmente, debe asegurarse de que se pueden integrar de manera fluida en una arquitectura de lakehouse de datos sin duplicación ni procesos adicionales de extracción, transformación y carga (ETL). Con un lakehouse de datos abierto, puede acceder a una única copia de los datos dondequiera que residan sus datos.

Un lakehouse de datos maneja múltiples formatos abiertos (como Apache Iceberg sobre almacenamiento de objetos en la nube) y combina datos de varias fuentes y repositorios existentes a través de la nube híbrida. El lakehouse de datos más rentable también permite la separación entre almacenamiento y cómputo con múltiples motores de consulta de código abierto e Integración con otros motores de análisis para optimizar las cargas de trabajo y lograr un mejor rendimiento en precios.

Esto incluye la integración con sus motores de almacenamiento de datos, que ahora deben equilibrar el procesamiento de datos y la toma de decisiones en tiempo real con un almacenamiento de objetos rentable, tecnologías de código abierto y una capa de metadatos compartida para compartir los datos sin problemas con su almacén de datos. Con una arquitectura de lakehouse de datos, ahora puede optimizar las cargas de trabajo de su almacén de datos para el precio y el rendimiento y modernizar los data lakes tradicionales con un mejor rendimiento y una mejor gobernanza para la IA.

Las empresas también pueden tener petabytes, si no exabytes, de valiosos datos propietarios almacenados en su mainframe que deben desbloquearse para nuevos conocimientos y modelos de ML/IA. Con un lakehouse de datos que soporta la sincronización de datos entre el mainframe y formatos abiertos como Iceberg, las Organizaciones pueden identificar mejor el fraude, comprender el comportamiento de los constituyentes y crear modelos predictivos de IA para comprender, anticipar e influir en los resultados empresariales avanzados.

Antes de crear una IA generativa de confianza para su empresa, necesita la arquitectura de datos adecuada para preparar y transformar estos datos dispar en datos de calidad. Para la IA generativa, la base de datos adecuada puede incluir varios almacenes de conocimiento que abarquen bases de datos NoSQL para conversaciones, bases de datos transaccionales para datos contextuales, una arquitectura de lakehouse de datos para acceder y preparar sus datos para la IA y el análisis y capacidades de incrustación de vectores para almacenar y recuperar embeddings para generación aumentada por recuperación (RAG). Una capa de metadatos compartida, el gobierno para catalogar sus datos y el linaje de datos permiten obtener resultados de la IA fiables.

3. Establecer una base de confianza: calidad de los datos y gobierno para la IA empresarial

A medida que las organizaciones confían cada vez más en la inteligencia artificial (IA) para impulsar la toma de decisiones críticas, no se puede subestimar la importancia de la calidad y el gobierno de los datos. Según Gartner, se espera que el 30 % de los proyectos de IA generativa se abandonen de aquí a 2025 debido a la mala calidad de los datos, los controles de riesgo inadecuados, el aumento de los costes o la falta de claridad del valor empresarial. Las consecuencias del uso de datos de baja calidad son de gran alcance, incluyendo la erosión de la confianza del cliente, el incumplimiento normativo y el daño financiero y reputacional.

Una gestión eficaz de la calidad de los datos es crucial para mitigar estos riesgos. Una estrategia de arquitectura de datos bien diseñada es esencial para alcanzar este objetivo. Un data fabric proporciona un marco para que los líderes de datos perfilen los datos, diseñen y apliquen reglas de calidad de los datos, descubran violaciones de calidad de los datos, limpien datos y aumenten datos. Este enfoque garantiza que las iniciativas de calidad de los datos cumplan los requisitos de precisión, accesibilidad, puntualidad y pertinencia.

Además, una data fabric permite el monitoreo continuo de los niveles de calidad de los datos mediante capacidades de observabilidad de los datos, permitiendo a las Organizaciones identificar problemas de datos antes de que se agraven en problemas mayores. Esta transparencia en los flujos de datos también permite a los responsables de datos e IA identificar posibles problemas, garantizando que se utilizan los datos correctos para la toma de decisiones.

Al priorizar la calidad de los datos y la gobernanza, las Organizaciones pueden generar confianza en sus sistemas de IA, minimizar riesgos y maximizar el valor de sus datos. Es crucial reconocer que la calidad de los datos no es solo una cuestión técnica, sino un imperativo empresarial crítico que requiere atención e inversión. Al adoptar la estrategia adecuada, las organizaciones pueden desbloquear el potencial total de sus iniciativas de IA y impulsar el éxito empresarial.

4. Gestión y entrega de datos para la IA

Los datos son fundamentales para la IA, desde la creación de modelos de IA con los conjuntos de datos adecuados hasta el ajuste de los modelos de IA con datos empresariales específicos de sectores y el uso de embeddings para crear aplicaciones de IA RAG (incluidos chatbots, sistemas de recomendación personalizados y aplicaciones de búsqueda de similitud de imágenes).

Los datos controlados son esenciales para garantizar la exactitud, la relevancia y la precisión de la IA. Para desbloquear el valor completo de los datos para la IA, las empresas deben ser capaces de navegar por sus complejos panoramas de TI para romper los silos de datos, unificar sus datos y preparar y entregar datos controlados para sus modelos de IA y aplicaciones.

Con una arquitectura de lakehouse de datos abierta impulsada por formatos abiertos para conectarse y acceder a datos críticos de su patrimonio de datos existente (incluidos almacenes de datos, data lakes y entornos mainframe), puede utilizar una única copia de los datos de su empresa para crear y ajustar modelos de IA y aplicaciones.

Con una capa semántica, puede generar enriquecimientos de datos que permitan a los clientes encontrar y comprender datos antes crípticos y estructurados de forma eficaz en todo su patrimonio de datos en lenguaje natural a través de la búsqueda semántica para acelerar la detección de datos y desbloquear conocimiento de datos más rápido, sin necesidad de SQL.

Usando una base de datos vectorial integrada directamente en su lakehouse, puedes almacenar y consultar sus datos de manera fluida como embeddings para casos de uso RAG, mejorando la relevancia y precisión de sus resultados de IA.