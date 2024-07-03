As organizações devem se concentrar na construção de uma estrutura de dados aberta e confiável para acessar dados confiáveis para IA. A Open está criando uma base para armazenar, gerenciar, integrar e acessar dados construído em recursos abertos e interoperáveis que abrangem implementações de nuvem híbrida, armazenamento de dados, formatos de dados, mecanismos de consulta, governança e metadados. Isso permite uma integração mais fácil com seus investimentos em tecnologia existentes, eliminando silos de dados e acelerando a transformação baseada em dados.

Criar uma base de dados confiável é possibilitar o gerenciamento de dados e metadados de alta qualidade, confiáveis, seguros e governados, para que possam ser fornecidos para análise de dados e aplicação de IA, atendendo às necessidades de privacidade de dados e conformidade regulatória. Os quatro componentes a seguir ajudam a construir uma base de dados aberta e confiável.

1. Modernizar sua infraestrutura de dados para nuvem híbrida para aplicações, análises de dados e IA generativa

A adoção de estratégias de multinuvem e híbridas está se tornando obrigatória, exigindo bancos de dados que ofereçam suporte a implementações flexíveis na nuvem híbrida. A Gartner prevê que 95% (link está fora de ibm.com) das novas iniciativas digitais serão desenvolvidas em plataformas nativas da nuvem, essenciais para tecnologias de IA que exigem armazenamento de dados e escalabilidade.

2. Impulsionar aplicações baseadas em dados, análise de dados e IA com os bancos de dados certos e estratégia de data lakehouse aberta

Para armazenar e analisar dados, você deve usar o banco de dados certo para a carga de trabalho, os tipos de dados e o desempenho de preço certos. Isso garante que você tenha uma estrutura de dados que cresce com suas necessidades, onde quer que seus dados residam. Sua estratégia de dados deve incorporar bancos de dados projetados com componentes abertos e integrados, permitindo a unificação e o acesso contínuos aos dados para análises avançadas e aplicações de IA dentro de uma plataforma de dados. Isso permite que sua organização extraia insights valiosos e promova a tomada de decisões informadas.

Por exemplo, as organizações precisam de bancos de dados transacionais seguros e resilientes de alto desempenho para gerenciar os dados operacionais mais críticos. Com disponibilidade de nuvem híbrida, as organizações podem usar seus bancos de dados para modernizar aplicativos legados, criar novos aplicativos nativos da nuvem e potencializar assistentes de IA e aplicações corporativas.

À medida que os tipos de dados e as aplicações evoluem, talvez você precise de bancos de dados NoSQL especializados para lidar com diversas estruturas de dados e requisitos específicos de aplicações. Isso inclui séries temporais, documentação, mensagens, chave-valor, pesquisa de texto completo e bancos de dados in-memory, que atendem a diversas necessidades, como IoT, gerenciamento de conteúdo e aplicações geoespaciais.

Para potencializar cargas de trabalho de IA e análise de dados em seus bancos de dados transacionais e específicos, você deve garantir que eles possam se integrar sem dificuldades a uma arquitetura de data lakehouse aberto sem duplicação ou processos adicionais de extração, transformação e carregamento (ETL). Com um data lakehouse aberto, você pode acessar uma única cópia de dados onde quer que seus dados residam.

Um data lakehouse aberto lida com múltiplos formatos abertos (como Apache Iceberg sobre Cloud Object Storage) e combina dados de várias fontes e repositórios existentes em toda a nuvem híbrida. O data lakehouse com melhor desempenho de preço também permite a separação de armazenamento e computação com vários mecanismos de consulta de código aberto e integração com outros mecanismos de análise para otimizar cargas de trabalho e alcançar um desempenho de preço superior.

Isso inclui a integração com seus mecanismos de data warehouse, que agora devem equilibrar o processamento de dados em tempo real e a tomada de decisões com Object Storage econômico, tecnologias de código aberto e uma camada de metadados compartilhada para compartilhar dados sem dificuldades com seu data lakehouse. Com uma arquitetura de data lakehouse aberto, você pode otimizar as cargas de trabalho do seu data warehouse para desempenho e modernizar os data lakes tradicionais com melhor desempenho e governança para IA.

As empresas também podem ter petabytes, se não exabytes, de dados proprietários valiosos armazenados em sua mainframe que precisam ser liberados para novos insights e modelos de ML/IA. Com um data lakehouse aberto que permite a sincronização de dados entre o mainframe e formatos abertos como o Iceberg, as organizações podem identificar melhor fraudes, entender o comportamento dos constituintes e construir modelos preditivos de IA para entender, antecipar e influenciar resultados de negócios avançados.

Antes de construir uma IA generativa confiável para sua empresa, você precisa ter a arquitetura de dados correta para preparar e transformar esses dados díspares em dados de qualidade. Para IA generativa, a base de dados correta pode incluir vários armazenamentos de conhecimento abrangendo bancos de dados NoSQL para conversas, bancos de dados transacionais para dados contextuais, uma arquitetura de data lakehouse para acessar e preparar seus dados para IA e análise de dados e recursos de embedding de vetor para armazenar e recuperar embeddings para geração aumentada de recuperação (RAG). Uma camada de metadados compartilhada, governança para catalogar seus dados e a linhagem de dados viabilizam a produção da IA confiável.

3. Estabelecendo uma base de confiança: qualidade de dados e governança para a IA empresarial

Com o aumento da dependência das organizações da inteligência artificial (IA) para a tomada de decisões críticas, a importância da qualidade e da governança dos dados não pode ser subestimada. Segundo a Gartner, espera-se que 30% dos projetos de IA generativa sejam abandonados até 2025 devido à má qualidade de dados, controles de risco inadequados, custos crescentes ou valor comercial pouco claro. As consequências do uso de dados de baixa qualidade são abrangentes, incluindo erosão da confiança do cliente, não conformidade regulatória e danos financeiros e à reputação.

O gerenciamento eficaz da qualidade de dados é crucial para mitigar esses riscos. Uma estratégia de arquitetura de dados bem projetada é essencial para alcançar esse objetivo. Uma malha de dados fornece um framework para que os líderes de dados criem perfis de dados, projetem e apliquem regras de qualidade de dados, descubram violações de qualidade de dados, limpem dados e enriqueçam dados. Essa abordagem garante que as iniciativas de qualidade de dados forneçam precisão, acessibilidade, pontualidade e relevância.

Além disso, uma malha de dados permite o monitoramento contínuo dos níveis de qualidade de dados por meio de recursos de observabilidade de dados, permitindo que as organizações identifiquem problemas de dados antes que eles se transformem em problemas maiores. Essa transparência nos fluxos de dados também permite que os líderes de dados e IA identifiquem possíveis problemas, garantindo que os dados certos sejam usados para a tomada de decisões.

Ao priorizar a qualidade de dados e a governança, as organizações podem construir confiança em seus sistemas de IA, minimizar riscos e maximizar o valor dos dados. É crucial reconhecer que a qualidade dos dados não é apenas uma questão técnica, mas um imperativo crítico dos negócios que requer atenção e investimento. Ao adotar a estratégia de arquitetura de dados correta, as organizações podem liberar todo o potencial de suas iniciativas de IA e impulsionar o sucesso dos negócios.

4. Gerenciamento e fornecimento de dados para IA

Os dados são fundamentais para a IA, desde a criação de modelos de IA com os conjuntos de dados certos até o ajuste de modelos de IA com dados de setores específicos para empresas até o uso de embeddings para criar aplicações de IA RAG (incluindo chatbot, sistemas de recomendação personalizados e aplicações de pesquisa de similaridade de imagens).

Dados confiáveis e governados são essenciais para garantir a exatidão, a relevância e a precisão da IA. Para liberar o valor total dos dados para a IA, as empresas devem ser capazes de navegar em seus cenários complexos de TI para quebrar silos de dados, unificar os dados e preparar e entregar dados governados e confiáveis para seus modelos de IA e aplicações.

Com uma arquitetura de data lakehouse aberta alimentada por formatos abertos para se conectar e acessar dados críticos do seu patrimônio de dados existente (incluindo data warehouses, data lakes e ambientes de mainframe), você pode usar uma única cópia dos seus dados corporativos para construir e ajustar modelos de IA e aplicações.

Com uma camada semântica, você pode gerar enriquecimentos de dados que permitem que os clientes encontrem e entendam dados anteriormente enigmáticos e efetivamente estruturados em seu patrimônio de dados em linguagem natural por meio de pesquisa semântica para acelerar a descoberta de dados e liberar insights de dados com mais rapidez, sem necessidade de SQL.

Usando um banco de dados de vetores incorporado diretamente em seu lakehouse, você pode armazenar e consultar sem dificuldades seus dados como embeddings vetorizados para casos de uso de RAG, melhorando a relevância e a precisão de sua produção de IA.