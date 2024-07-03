Las organizaciones deben centrarse en construir una base de datos abierta y confiable para acceder a datos confiables para IA. Open está creando una base para almacenar, gestionar, integrar y acceder a datos basados en capacidades abiertas e interoperables que abarcan despliegues en la nube híbrida, almacenamiento de datos, formatos de datos, motores de consulta, gobernanza y metadatos. Esto permite una integración más sencilla con sus inversiones en Tecnología existentes, al tiempo que elimina los silos y acelera la Transformación basada en datos.

Crear una base de datos confiable es permitir una gestión de datos y metadatos de alta calidad, confiable, segura y gobernada para que pueda entregarse para aplicaciones de analytics e IA, al tiempo que satisface las necesidades de privacidad de datos y cumplimiento normativo. Los siguientes cuatro componentes ayudan a crear una base de datos abierta y confiable.

1. Modernizar tu infraestructura de datos a nube híbrida para aplicación, análisis y IA generativa

La adopción de estrategias multinube e híbridas se está volviendo obligatoria, lo que requiere bases de datos que admitan despliegues flexibles en toda la nube híbrida. Gartner predice que el 95 % (enlace externo a ibm.com) de las nuevas iniciativas digitales se desarrollarán en plataformas nativas de la nube, esenciales para las tecnologías de IA que requieren almacenamiento de datos y escalabilidad.

2. Potenciar aplicaciones basadas en datos, analytics y AI con las bases de datos adecuadas y una estrategia de lakehouse de datos abierto

Para almacenar y analizar datos, debe utilizar la base de datos adecuada para la carga de trabajo, los tipos de datos y el rendimiento de los precios adecuados. Esto garantiza que tenga una base de datos que crezca con sus necesidades de datos, dondequiera que residan sus datos. Su estrategia de datos debe incorporar bases de datos diseñadas con componentes abiertos e integrados, lo que permite una unificación y un acceso perfectos a los datos para aplicaciones avanzadas de análisis e IA dentro de una plataforma de datos. Esto permite a su organización extraer insights valiosos e impulsar una toma de decisiones informada.

Por ejemplo, las organizaciones necesitan bases de datos transaccionales de alto rendimiento, seguras y resistentes para gestionar sus datos operativos más críticos. Con la disponibilidad de la nube híbrida, las organizaciones pueden usar sus bases de datos para modernizar aplicaciones heredadas, construir nuevas aplicaciones nativas de la nube y potenciar asistentes de IA y aplicaciones empresariales.

A medida que evolucionan los tipos de datos y las aplicaciones, es posible que necesite bases de datos NoSQL especializadas para manejar diversas estructuras de datos y requisitos de aplicaciones específicas. Estos incluyen series temporales, documentación, mensajería, valor clave, búsqueda de texto completo y bases de datos en memoria, que satisfacen diversas necesidades, como IoT, gestión de contenido y aplicaciones geoespaciales.

Para potenciar cargas de trabajo de IA y analytics a través de sus bases de datos transaccionales y diseñadas específicamente, debe asegurarse de que puedan integrarse perfectamente con una arquitectura de almacén de datos abiertos sin duplicación ni procesos adicionales de extracción, transformación, carga (ETL). Con un lakehouse de datos abierto, puede acceder a una única copia de los datos dondequiera que residan sus datos.

Un lakehouse de datos abiertos maneja múltiples formatos abiertos (como Apache Iceberg sobre cloud object storage) y combina datos de varias fuentes y repositorios existentes en toda la nube híbrida. El data lakehouse de mayor rendimiento también permite la separación de almacenamiento y computación con múltiples motores de consulta de código abierto e integración con otros motores de análisis para optimizar las cargas de trabajo y lograr un mejor rendimiento.

Esto incluye la integración con sus motores de almacén de datos, que ahora deben equilibrar el procesamiento de datos en tiempo real y la toma de decisiones con almacenamiento de objetos rentable, tecnologías de código abierto y una capa de metadatos compartida para Compartir datos perfectamente con su lakehouse de datos. Con una arquitectura de data lakehouse abierta, ahora puede optimizar sus cargas de trabajo de almacén de datos para el rendimiento de precios y modernizar los lagos de datos tradicionales con un mejor rendimiento y gobernanza para la IA.

Las empresas también pueden tener petabytes, si no exabytes, de valiosos datos propios almacenados en su mainframe que deben desbloquearse para obtener nuevos insights y modelos de machine learning (ML) / IA. Con un lakehouse de datos abierto que admite la sincronización de datos entre mainframe y formatos abiertos como Iceberg, las organizaciones pueden identificar mejor el fraude, comprender el comportamiento de los constituyentes y crear modelos predictivos de IA para comprender, anticipar e influir en los resultados empresariales avanzados.

Antes de crear IA generativa confiable para su negocio, necesita la arquitectura de datos adecuada para preparar y transformar estos datos Dispar en datos de calidad. Para la IA generativa, la base de datos adecuada podría incluir varios almacenes de conocimiento que abarquen bases de datos NoSQL para conversaciones, bases de datos transaccionales para datos contextuales, una arquitectura de lakehouse de datos para acceder y preparar sus datos para IA y analytics y capacidades de incorporación de vectores para almacenar y recuperar incorporaciones para generación aumentada por recuperación (RAG, por sus siglas en inglés). Una capa de metadatos compartida, la gestión para catalogar sus datos y el linaje de datos permiten obtener resultados de la IA.

3. Establecer una base de confianza: calidad de datos y gobernanza para la IA empresarial

A medida que las organizaciones confían cada vez más en la inteligencia artificial (IA) para impulsar la toma de decisiones críticas, no se puede subestimar la importancia de la calidad y la gobernanza de los datos. Según Gartner, se espera que el 30 % de los proyectos de IA generativa se abandonen para 2025 debido a la mala calidad de los datos, los controles de riesgo inadecuados, los costos crecientes o el valor comercial poco claro. Las consecuencias del uso de datos de mala calidad son de gran alcance, incluida la erosión de la confianza del cliente, el incumplimiento normativo y el daño financiero y de reputación.

La gestión eficaz de la calidad de los datos es crucial para mitigar estos riesgos. Una estrategia de arquitectura de datos bien diseñada es esencial para lograr este objetivo. Un tejido de datos proporciona una infraestructura sólida para que los líderes de datos perfilen datos, diseñen y apliquen reglas de calidad de datos, descubran violaciones de calidad de datos, limpien datos y aumenten datos. Este enfoque garantiza que las iniciativas de calidad de datos ofrezcan precisión, accesibilidad, puntualidad y relevancia.

Además, un tejido de datos permite el monitoreo continuo de los niveles de calidad de los datos a través de observabilidad de los datos, lo que permite a las organizaciones identificar problemas de datos antes de que se conviertan en problemas mayores. Esta transparencia en los flujos de datos también permite a los líderes de datos e IA identificar posibles problemas, garantizando que se utilicen los datos adecuados para la toma de decisiones.

Al priorizar la calidad y la gobernanza de los datos, las organizaciones pueden generar confianza en sus sistemas de IA, minimizar los riesgos y maximizar el valor de sus datos. Es crucial reconocer que la calidad de los datos no es solo un problema técnico, sino un imperativo empresarial crítico que requiere atención e inversión. Al adoptar la estrategia de arquitectura de datos adecuada, las organizaciones pueden desbloquear todo el potencial de sus iniciativas de IA e impulsar el éxito empresarial.

4. Gestión y entrega de datos para IA

Los datos son fundamentales para la IA, desde la creación de modelos de IA con los conjuntos de datos adecuados hasta el ajuste de los modelos de IA con datos empresariales específicos de la industria y el uso de incorporaciones vectorizadas para crear aplicaciones de IA RAG (incluidos chatbots, sistemas de recomendación personalizados y aplicaciones de búsqueda de similitud de imágenes).

Los datos confiables y regulados son esenciales para garantizar la exactitud, relevancia y precisión de la IA. Para desbloquear el valor completo de los datos para la IA, las compañías deben ser capaces de navegar por sus complejos paisajes de TI para romper silos de datos, unificar sus datos y preparar y entregar datos confiables y gobernados para sus modelos de IA y aplicaciones de IA.

Con una arquitectura de lakehouse de datos abierta impulsada por formatos abiertos para conectarse y acceder a datos críticos de su patrimonio de datos existente (incluidos almacenes de datos, data lakes y entornos de mainframe), puede utilizar una única copia de los datos de su empresa para crear y ajustar modelos de IA y aplicaciones.

Con una capa semántica, puede generar enriquecimientos de datos que permitan a los clientes encontrar y comprender datos antes crípticos y estructurados de manera eficaz en todo su patrimonio de datos en lenguaje natural a través de la búsqueda semántica para acelerar el descubrimiento de datos y desbloquear insights de datos más rápido, sin necesidad de SQL.

Usando una base de datos vectorial integrada directamente en tu casa del lago, puedes almacenar y consultar tus datos perfectamente como incorporaciones vectorizadas para casos de uso RAG, mejorando la relevancia y precisión de tus resultados de la IA.