Dados confiáveis são essenciais para ajudar as empresas a prosperar em suas iniciativas de IA generativa. Muitas enfrentam dificuldades para explorar uma fonte poderosa de insights: os dados não estruturados. Cerca de 90% dos dados produzidos pelas empresas são não estruturados, com informações valiosas armazenadas em e-mails, documentos em PDF, arquivos de vídeo e outros formatos.1
A boa notícia é que soluções e abordagens em constante evolução podem permitir que as empresas organizem, acessem e extraiam inteligência desses dados antes considerados inacessíveis. A colaboradora do Think, Alice Gomstyn, conversou com Dinesh Nirmal, vice-presidente sênior de IBM Software, sobre como as empresas podem liberar o potencial de seus grandes volumes de dados.
Gomstyn: quais desafios as organizações enfrentam ao tentar usar seus dados não estruturados?
Nirmal: existem três desafios principais com dados não estruturados. Escalabilidade é um deles. Como escalar e como aplicar governança? O segundo é como garantir desempenho e precisão nos modelos de IA generativa. E o terceiro envolve como correlacionar dados não estruturados e estruturados para extrair valor dessas informações.
Gomstyn: você pode detalhar o desafio da escalabilidade e o que é necessário para superá-lo?
Nirmal: dados não estruturados são mais complexos porque podem conter centenas de campos, alguns deles campos em massa ou campos seguros. Ao ingerir esses documentos, é fundamental que a ingestão seja governada e que os dados sejam armazenados em um repositório governado, como um data lakehouse.
Você também precisa de governança em seu pipeline de dados. Como trazer observabilidade e monitoramento para ele? Se houver uma mudança ou desvio no pipeline, como identificá-lo e resolvê-lo rapidamente? Esses pipelines podem ser longos e complexos, e é necessário garantir resultados corretos, tempo de execução adequado, desempenho e precisão ao longo de todo o processo. Você precisa de ferramentas para construir, governar e observar esses pipelines.
Para as empresas, também entra a questão da segurança. A segurança dos dados torna-se um elemento crítico para evitar perdas. Temos ferramentas de segurança que garantem a criptografia desses dados. Portanto, ao escalar, é fundamental que a governança e a segurança aplicadas aos dados estruturados também sejam estendidas aos dados não estruturados.
Gomstyn: e quanto ao segundo desafio principal: obter desempenho em modelos de IA generativa?
Nirmal: há uma grande oportunidade aí, porque a IA generativa só terá sucesso se fornecermos dados governados e confiáveis para treinar e alimentar esses modelos.
As ferramentas de governança também permitem o acesso aos dados. Usando ferramentas de governança como catálogos de dados, posso disponibilizar dados não estruturados aos meus cientistas de dados e engenheiros de prompts para que eles possam ajustar seus modelos usando os dados não estruturados.
Governança e inovação andam juntas. Se você realmente deseja inovar ao oferecer autoatendimento de dados, precisa ter governança para viabilizar esse autoatendimento. Na perspectiva de produtos de dados, tornar esses dados acessíveis via autoatendimento é o primeiro elemento que deve ser priorizado.
Gomstyn: como lidar com o terceiro desafio de correlacionar dados estruturados e não estruturados?
Nirmal: o cenário atual é o seguinte: se você tem dados não estruturados na forma de documentos, precisa dividi-los ou subdividi-los em várias partes e armazená-los como embeddings em um banco de dados vetorial.
O problema ocorre porque você perde precisão ao não saber exatamente onde está fragmentando os dados. Suponha que você tenha feito um corte no meio de uma tabela. Ao recuperar essa tabela, você traz apenas uma parte dela, e perde a precisão.
O que podemos fazer? Nós não apenas armazenamos os dados em um banco de dados vetorial, como também colocamos os aspectos transacionais desse documento em um banco de dados transacional. Assim, quando você faz uma consulta em linguagem natural, comparamos os dois lados para entender como unir os dados e obter mais precisão e desempenho. É aí que entram o RAG SQL ou o Graph RAG — eles ajudam a alcançar um nível mais alto de precisão. O objetivo é justamente garantir a correlação entre os dados armazenados no banco de dados transacional e no banco vetorial.
Gomstyn: quais são as competências mais críticas que os líderes de TI devem desenvolver para gerenciar dados não estruturados com eficácia?
Nirmal: a engenharia de dados é o ponto mais importante no universo dos dados não estruturados. Nos dados estruturados, a engenharia de dados já é uma disciplina bem estabelecida, mas do lado não estruturado ela ainda não deslanchou, em parte pela enorme quantidade de dados envolvidos.
Mas agora, questões como governança e segurança também estão chegando ao lado não estruturado. Precisamos que os engenheiros de dados realmente trabalhem esses dados, tornando-os disponíveis por meio de pipelines. Eles devem criar produtos de dados a partir de dados não estruturados e disponibilizar autoatendimento para cada cientista de dados e engenheiro. As mesmas habilidades utilizadas com dados estruturados podem ser aplicadas aqui, só que em uma escala muito maior.
Gomstyn: como medir o sucesso de projetos-piloto com dados não estruturados?
Nirmal: o verdadeiro retorno sobre investimento ocorre quando há valor entregue ao usuário final dentro da empresa. Por exemplo, ligo para minha operadora de telefonia e um atendente me responde. Quando faço uma pergunta, ele precisa procurar a resposta antes de me responder.
Agora, com a IA generativa, consigo fazer isso on-line. Posso simplesmente fazer uma pergunta simples a um assistente ou chatbot, que acessa dados em formato não estruturado, como uma fatura. Em 15 segundos, recebo uma resposta que resume minha conta ou traz alguma informação sobre meu perfil. Veja quanto tempo eu economizei. Não precisei esperar 15 minutos ao telefone para alguém me atender. Tenho a resposta na palma da mão. A IA generativa tornou isso possível para mim como usuário final.
Tudo se resume à produtividade, economia de tempo e otimização que a IA generativa está proporcionando, especialmente no que diz respeito aos dados não estruturados.
Esta entrevista foi editada e condensada para fins de clareza e concisão.
Use soluções de bancos de dados da IBM para atender a diversas necessidades de cargas de trabalho em toda a nuvem híbrida.
Explore o IBM Db2, um banco de dados relacional que oferece alto desempenho, escalabilidade e confiabilidade para armazenar e gerenciar dados estruturados. Está disponível como SaaS no IBM Cloud ou para auto-hospedagem.
Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.
1Untapped Value: What Every Executive Needs to Know About Unstructured Data. IDC, agosto de 2023 (PDF, 3,2 MB)