Os dados são o combustível que faz zunir os motores da IA. E muitas empresas não estão tirando o máximo proveito do tesouro de dados não estruturados na ponta dos dedos porque não sabem ao certo como encher o tanque.
É por isso que as empresas que possuem ferramentas para processar dados não estruturados estão chamando a atenção dos investidores. Há apenas um mês, a Salesforce fez uma grande aquisição para impulsionar sua plataforma Agentforce — apenas uma em uma série de investimentos recentes em provedores de gerenciamento de dados não estruturados.
“A IA generativa elevou a importância dos dados não estruturados, principalmente documentos, tanto para RAG quanto para o ajuste fino do LLM e para as análise de dados tradicional para aprendizado de máquina, business intelligence e engenharia de dados”, afirma Edward Calvesbert, Vice-presidente de Gerenciamento de Produtos do IBM watsonx e um dos especialistas em dados residentes da IBM. "A maioria dos dados gerados todos os dias não é estruturada e representa a maior oportunidade nova."
Queríamos saber mais sobre o que os dados não estruturados têm armazenar para a IA. Assim, nos reunimos com Calvesbert e Dave Donahue, Chefe de Estratégia da empresa de ciência de dados Unstructured, que fecharam uma rodada de investimento de US$ 40 milhões com a IBM, Nvidia e Databricks em março, para saber a importância dos dados não estruturados e para onde eles devem seguir .
Edward Calvesbert, IBM: Dados não estruturados (linguagem, imagens etc.) são os "novos" dados dos quais os modelos de base se alimentam e podem ajudar a interpretar, então é o que está em foco agora. Porém, assim como com os dados estruturados, os dados não estruturados precisam ser governados (classificados, avaliados quanto à qualidade, filtrados para PII e conteúdo censurável e deduplicados), para que as estratégias bem-sucedidas apliquem muitos dos recursos tradicionais de gerenciamento de dados estruturados aos dados não estruturados.
Dave Donahue, não estruturados: Dados não estruturados não são inerentemente mais valiosos do que dados estruturados, mas, em geral, grandes organizações produzem quatro vezes mais dados não estruturados do que dados estruturados. A pergunta é: você quer usar mais dados não estruturados gerados por humanos ao implementar a IA? A resposta deve ser um sonoro “Sim”.
Calvesbert: “Bom o suficiente” é um alvo em movimento e depende do caso de uso. Uma base de conhecimento para a RAG melhorar a pesquisa semântica, perguntas e respostas e sumarização para agentes de suporte ao cliente exige que a base de conhecimento do documento seja completa, exata e atualizada. Os dados para realizar um ajuste fino de um modelo exigem um conjunto de exemplos de pares de prompts/respostas selecionados. Documentos processados em tabelas ou bancos de dados gráficos para conduzir casos de uso analíticos requerem extração eficaz de entidades ou valores. Em quase todos os casos, os dados precisam ser classificados, filtrados e governados no contexto do ciclo de vida do caso de uso.
Donahue: No nível corporativo, os dados “bons” são limpos, estruturados e enriquecidos. Esse pipeline de pré-processamento deve minimizar a perda de informações entre o conteúdo original e a versão pronta para LLMs. O não estruturado permite que as empresas transformem seus dados não estruturados em um formato padronizado, independentemente do tipo de arquivo, e os enriqueçam com metadados adicionais. Isso permite que as organizações mitiguem os três principais desafios que enfrentam ao usar LLMs: ficam congelados no tempo, tendem a inventar coisas e não sabem nada sobre a sua organização específica imediatamente.
Calvesbert: Um grande cliente de telecomunicações com o qual trabalhamos começou com uma base de conhecimento interna para suporte ao cliente, o que reduziu o tempo necessário para obter uma resposta aos clientes e melhorou a exatidão dessa resposta. Ele se espalhou organicamente, como incêndio, dentro da central de atendimento, momento em que a empresa teve que dar um passo atrás e começar a trabalhar em governança e desempenho de preços. Internamente, implementamos um caso de uso de automação de marketing em que as diretrizes e exemplos da marca IBM foram ingeridos para gerar novo conteúdo de marketing e selecioná-lo para ter qualidade e tom consistentes.
Donahue: Estamos trabalhando com uma empresa global de bens de consumo embalados para ajudá-la a desenvolver novas ideias de produtos. Você pode perguntar: "O que isso tem a ver com dados não estruturados?" Bem, historicamente, levaria meses para as equipes de marketing e produtos analisarem montanhas de dados de vendas, informações de feedback de produtos e informações demográficas, para gerar novas ideias ou conceitos que elas pudessem testar com os usuários finais nesses mercados específicos. E se pudéssemos ajudar a reduzir esse processo de meses para horas? E se pudéssemos gerar novas ideias para produtos baseadas nos dados que as equipes poderiam testar rapidamente?
Essa é o poder de aproveitar seus dados não estruturados para criar valor de negócios. Agora, essa empresa de CPG está aproveitando seus dados em várias de suas marcas para desenvolver e testar novas ideias de produtos para levar ao mercado.
Calvesbert: Toda empresa possui documentos. Pense no que eles oferecem aos novos funcionários para integrá-los. E isso é o suficiente para começar a usar a RAG e a pesquisa semântica.
Donahue 80% dos dados de uma empresa são não estruturados, sejam e-mails, memorandos, plataformas de mensagens internas (como Slack ou Microsoft Teams) ou apresentações de negócios. A questão é: o que você quer fazer com esses dados? Criar eficiências para engenheiros que atualmente realizam trabalhos similares de limpeza de dados? Desenvolver novas ideias de produtos com base em dados de vendas e marketing? Há inúmeras possibilidades e oportunidades para a IA. Identifique um objetivo. Identifique os dados necessários. Comece pequeno.
Calvesbert: Acho que as arquiteturas de lakehouse e os formatos de tabela aberta, como o Iceberg, se tornaram populares e são a arquitetura de gerenciamento de dados dominante para novos dados/cargas de trabalho. Os recursos de vector foram fornecidos de forma nativa em muitos bancos de dados operacionais e analíticos para que as cargas de trabalho de IA generativa possam ser integradas em aplicações existentes. Estamos começando a ver o setor perceber que a RAG por si só não será suficiente para certos casos de uso empresarial que exigem contextualização adicional baseada em relacionamentos não óbvios (GraphRAG) e precisão aprimorada de registros transacionais (SQL-RAG). Os clientes também estão percebendo que implementar um modelo de autorização de usuário que respeita os controles de acesso em vigor com sistemas de gerenciamento de conteúdo empresarial é um desafio crítico a ser superado para escalar a IA generativa em toda a empresa.
Donahue: Estamos começando a ver equipes de engenharia de ciência de dados e aprendizado de máquina trabalhando mais de perto com as equipes de engenharia de dados. As equipes de engenharia de dados cresceram em torno do aumento do armazenamento de dados e aplicações de business intelligence na última década e, historicamente, operaram no mundo do SQL, bancos de dados estruturados e processos de análise de dados projetados para analistas de dados e consumidores da diretoria executiva, diretores executivos. À medida que as empresas se voltam para os LLMs, a demanda por grandes volumes de dados pré-processados explodiu. No entanto, esses consumidores tendem a operar no mundo do Python, bancos de dados de vetores e interfaces de usuário rápidas e descartáveis. Com o tempo, esperamos que as equipes maduras de engenharia de dados assumam cada vez mais a responsabilidade de fornecer às equipes de IA generativa dados prontos para as empresas.
Calvesbert: Acho que os clientes estão procurando simplificar seus patrimônios de dados e os custos e riscos associados. Para isso, os bancos de dados multimodelos e as arquiteturas lakehouse multimecanismo continuarão a competir com sucesso por cargas de trabalho com bancos de dados isolados, à medida que os clientes buscam se consolidar em um número reduzido de plataformas de dados. Os modelos de text-to-SQL estão ficando muito bons, o que reduzirá drasticamente a barreira de trabalhar com dados para uma ampla gama de casos de uso além do business intelligence.
Da mesma forma, a proliferação de agentes integrará dados em um volume cada vez maior e em uma variedade de fluxos de trabalho automatizados. Alguns desses fluxos de trabalho agênticos revolucionarão muitas atividades dos trabalhadores do conhecimento e criarão novas oportunidades empolgantes. Imagine processar uma conversa interna ou externa com clientes e mapeá-la imediatamente para produtos em um catálogo ou registro de oportunidade em um sistema CRM, incluindo uma avaliação automatizada do status de progressão e propensão ao fechamento.
Donahue: Ao contrário do stack de dados moderno, no qual o Snowflake, o BigQuery e o Databricks estabeleceram a "gravidade dos dados" no espaço de data warehouse, ainda não fizemos o mesmo com os dados não estruturados. E como são quatro vezes mais volumosos que os dados estruturados e crescem exponencialmente a cada ano, os riscos não poderiam ser maiores para a última geração de soluções de armazenamento para LLMs. Os vencedores provavelmente serão claros nos próximos 18 a 24 meses sobre qual combinação de vetores, gráficos, objetos ou outros tipos de armazenamento se tornarão dominantes, e quais vencedores em cada categoria prevalecerão, mas os vencedores provavelmente serão claros nos próximos 18 a 24 meses.