Dados confiáveis são essenciais para ajudar as empresas a terem sucesso em suas iniciativas de IA generativa. As empresas enfrentam dificuldades para aproveitar o que poderia ser uma fonte poderosa de insights: os dados não estruturados. Cerca de 90% dos dados produzidos pelas empresas são não estruturados, com informações valiosas armazenadas em e-mails, documentos em PDF, arquivos de vídeo e outros formatos.1
A boa notícia é que soluções e abordagens em constante evolução podem permitir que as empresas organizem, acessem e extraiam inteligência desses dados antes considerados inacessíveis. A colaboradora do Think, Alice Gomstyn, conversou com Dinesh Nirmal, vice-presidente sênior de IBM Software, sobre como as empresas podem liberar o potencial de seus grandes volumes de dados.
Gomstyn: quais desafios as organizações enfrentam ao tentar usar seus dados não estruturados?
Nirmal: existem três desafios principais com dados não estruturados. Escalabilidade é um deles. Como escalar e como aplicar governança? O segundo é como garantir desempenho e precisão nos modelos de IA generativa. E o terceiro envolve como correlacionar dados não estruturados e estruturados para extrair valor dessas informações.
Gomstyn: você pode detalhar o desafio da escalabilidade e o que é necessário para superá-lo?
Nirmal: os dados não estruturados são mais complexos no sentido de que podem ter centenas de campos, e alguns deles podem ser campos massivos ou campos protegidos. Ao ingerir esses documentos, torna-se fundamental que seja uma ingestão governada e que os dados sejam armazenados em um repositório governado, como um data lakehouse.
Você também precisa de governança em seu pipeline de dados. Como trazer observabilidade e monitoramento para esse pipeline? Se houver um desvio ou uma mudança nesse pipeline, como identificá-lo e resolvê-lo rapidamente? Esses pipelines podem ser complexos e longos, e você precisa garantir que está obtendo os resultados corretos, o tempo de execução, o desempenho e a precisão ao longo de todo o processo. Você precisa de ferramentas para garantir que pode construir, governar e observar esses pipelines.
Para as empresas, também se trata de segurança. A segurança de dados se torna um elemento crítico para garantir que não percam esses dados. Temos ferramentas de segurança de dados para garantir que os dados sejam criptografados. Assim, à medida que você escala, é importante garantir que a governança e a segurança que você possui no lado dos dados estruturados também se estendam ao lado dos dados não estruturados.
Gomstyn: e quanto ao segundo desafio principal: obter desempenho em modelos de IA generativa?
Nirmal: há uma grande oportunidade aí, porque a IA generativa só terá sucesso se fornecermos dados governados e confiáveis para treinar e alimentar esses modelos.
As ferramentas de governança também viabilizam o acesso aos dados. Utilizando ferramentas de governança como catálogos de dados, posso disponibilizar dados não estruturados para meus cientistas de dados e engenheiros de prompt, para que possam ajustar seus modelos utilizando esses dados não estruturados.
Governança e inovação andam juntas. Se você realmente deseja inovar ao oferecer autoatendimento de dados, precisa ter governança para viabilizar esse autoatendimento. Na perspectiva de produtos de dados, tornar esses dados acessíveis via autoatendimento é o primeiro elemento que deve ser priorizado.
Gomstyn: como lidar com o terceiro desafio de correlacionar dados estruturados e não estruturados?
Nirmal: o cenário atual é que, se você possui dados não estruturados na forma de um documento, é necessário dividir ou subdividir o documento em várias partes e armazená-las como embeddings dentro de um banco de dados de vetores.
O problema ocorre porque você perde precisão ao não saber exatamente onde está fragmentando os dados. Suponha que você tenha feito um corte no meio de uma tabela. Ao recuperar essa tabela, você traz apenas uma parte dela, e perde a precisão.
O que podemos fazer? Nós não apenas armazenamos os dados em um banco de dados de vetores, mas também pegamos os aspectos transacionais desse documento e os colocamos em um banco de dados transacional. E quando você faz uma consulta de linguagem natural, compara os dois lados para responder: como reunir esses dados para obter melhor precisão e desempenho nesse processo? É aí que entram o RAG SQL ou o Graph RAG — você pode usá-los para obter um nível mais alto de precisão. Esse é exatamente o objetivo de garantir que você está correlacionando os dados entre o banco de dados transacional e o que você possui em um banco de dados de vetores.
Gomstyn: quais são as competências mais críticas que os líderes de TI devem desenvolver para gerenciar dados não estruturados com eficácia?
Nirmal: a engenharia de dados é o ponto mais importante no universo dos dados não estruturados. Nos dados estruturados, a engenharia de dados já é uma disciplina bem estabelecida, mas do lado não estruturado ela ainda não deslanchou, em parte pela enorme quantidade de dados envolvidos.
Mas agora, questões como governança e segurança também estão chegando ao lado não estruturado. Precisamos que os engenheiros de dados realmente trabalhem esses dados, tornando-os disponíveis por meio de pipelines. Eles devem criar produtos de dados a partir de dados não estruturados e disponibilizar autoatendimento para cada cientista de dados e engenheiro. As mesmas habilidades utilizadas com dados estruturados podem ser aplicadas aqui, só que em uma escala muito maior.
Gomstyn: como medir o sucesso de projetos-piloto com dados não estruturados?
Nirmal: o verdadeiro retorno sobre investimento ocorre quando há valor entregue ao usuário final dentro da empresa. Por exemplo, ligo para minha operadora de telefonia e um atendente me responde. Quando faço uma pergunta, ele precisa procurar a resposta antes de me responder.
Agora, com a IA generativa, consigo fazer isso on-line. Posso simplesmente fazer uma pergunta simples a um assistente ou chatbot, que acessa dados em formato não estruturado, como uma fatura. Em 15 segundos, recebo uma resposta que resume minha conta ou traz alguma informação sobre meu perfil. Veja quanto tempo eu economizei. Não precisei esperar 15 minutos ao telefone para alguém me atender. Tenho a resposta na palma da mão. A IA generativa tornou isso possível para mim como usuário final.
Tudo se resume à produtividade, economia de tempo e otimização que a IA generativa está proporcionando, especialmente no que diz respeito aos dados não estruturados.
Esta entrevista foi editada e condensada para fins de clareza e concisão.
Use soluções de bancos de dados da IBM para atender a diversas necessidades de cargas de trabalho em toda a nuvem híbrida.
Explore o IBM Db2, um banco de dados relacional que oferece alto desempenho, escalabilidade e confiabilidade para armazenar e gerenciar dados estruturados. Está disponível como SaaS no IBM Cloud ou para auto-hospedagem.
Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.
1 Valor inexplorado: o que todo executivo precisa saber sobre dados não estruturados. IDC, agosto de 2023