RAG em produção para pesquisa jurídica: como a Shorthills AI escalou a recuperação de dados com o IBM watsonx.data

Ao usar o Astra DB no IBM watsonx.data como banco de dados de vetores e o Langflow para acelerar a iteração ao criar sistemas RAG, a Shorthills obtém uma melhoria de 60% em recuperação e precisão.

Publicado 28/01/2026
Duas empresárias conversando em uma mesa de escritório moderna

Técnicas modernas de inteligência artificial, como a recuperação semântica e a retrieval-augmented generation (RAG), podem reduzir o tempo que escritórios de advocacia dedicam à busca em documentos longos. Eles trabalham encontrando seções conceitualmente relevantes, resumindo o que importa e retornando citações rastreáveis para que os resultados possam ser validados.

Quando bem executada, essa ferramenta transforma a pesquisa jurídica, que antes era um fluxo de trabalho manual com “dez abas abertas”, em uma experiência de busca guiada e baseada em evidências, sem sacrificar o rigor exigido pelas equipes jurídicas. Na pesquisa jurídica, os usuários não precisam apenas de uma resposta; eles precisam da resposta certa. Essa resposta deve ser fundamentada com as autoridades certas, as exceções relevantes e as passagens exatas que podem ser citadas - de forma rápida.

Insights impulsionados por IA para o setor jurídico

Com esse objetivo em mente, a Shorthills AI, sediada em Nova Jersey, desenvolveu uma framework de IA generativa na forma de chatbot otimizado para domínios específicos usando RAG e gráfico de conhecimento. Esse framework oferece insights impulsionados por IA para o setor jurídico em que a relevância, a integridade e o fornecimento verificável são tão importantes quanto a velocidade.

Ao usar o Astra DB no IBM watsonx.data como o banco de dados de vetores e o Langflow para acelerar a iteração ao criar sistemas RAG, a Shorthills obtém uma melhoria de 60% no recuperação e na precisão.

As soluções da IBM também ajudam a melhorar cerca de quatro vezes a abrangência — a forma como os resultados capturam os detalhes e os aspectos da consulta do usuário. Eles também oferecem uma melhoria de nove vezes na diversidade — a capacidade de oferecer aos usuários múltiplas interpretações e ângulos em vez de uma única linha de raciocínio. Essa funcionalidade é crítica para preparar argumentos e refutações em fluxos de trabalho jurídicos.

Colocando em prática: pesquisa de documentos jurídicos em larga escala que melhora a relevância, a integridade e a confiança

Departamentos jurídicos que precisam analisar um conjunto de dados com centenas de milhares de documentos precisam de recuperação confiável, múltiplas perspectivas sobre uma questão e a capacidade de rastrear os resultados até os documentos de origem. Acertar 70% da resposta pode acarretar riscos significativos, e alucinações são inaceitáveis.

Uma das principais limitações para muitos clientes da área jurídica é a implementação. Algumas organizações podem não conseguir compartilhar dados sensíveis em conteúdo jurídico com provedores de hiperescala devido a restrições regulatórias. Essas restrições podem exigir que uma base de conhecimento permaneça local, como conteúdo que inclui informações de identificação pessoal (PII) ou informações de saúde protegidas (PHI).

Arquitetura técnica: um pipeline escalável para pesquisa híbrida de RAG/palavra-chave e recuperação de gráficos

O sistema jurídico de IA da Shorthills consiste em dois pipelines:

  1. Documento, ingestão de dados e processamento
  2. Consulta e recuperação, criado para permitir vários modos de recuperação (palavra-chave, vetor e gráfico) e para direcionar as consultas para a técnica correta com base na intenção

1. Pipeline de ingestão: de arquivos jurídicos brutos a estruturas pesquisáveis

Os arquivos são importados para um data lake e, em seguida, preparados para que a recuperação funcione de forma confiável em escala:

  • Fragmentar documentos em pedaços menores, com ênfase na fragmentação significativa (e não simplesmente dividir por contagem de caracteres e palavras), ajuda a preservar o contexto, como definições, citações e estruturas de argumentos.
  • A extração de entidades, baseada em grandes modelos de linguagem (LLM), identifica campos relevantes para o âmbito jurídico, como nome do juiz, nome do processo, tipo de processo, IDs de documentos e tipo de sentença. Em seguida, um diagrama de relacionamento entre entidades é construído para que os relacionamentos possam ser usados posteriormente durante a recuperação.
  • Embedding de documentos, ao utilizar um modelo de embedding e armazenar os vetores resultantes, é possível viabilizar a recuperação vetorial e híbrida em escala. A Shorthills conta com o Astra DB como base de armazenamento para os dados pesquisáveis.
Processamento de PDF e armazenamento de dados Processamento de PDFs e armazenamento de dados: novos PDFs são lidos, divididos em blocos de texto menores (por exemplo, parágrafos ou seções) e os IDs dos arquivos processados são salvos novamente no arquivo CSV. Essa abordagem cria texto estruturado e fragmentado, pronto para análise, e atualiza o registro de rastreamento para evitar reprocessamento.
Fragmentação e extração de relacionamento de entidade Fragmentação e extração de relacionamento de entidade: fragmentos são enviados ao Amazon Bedrock para detectar entidades, como pessoas, organizações, e seus relacionamentos, como “trabalha em”, “localizado em”. A saída bruta do LLM (texto não estruturado) é temporariamente armazenada em cache em um arquivo JSON local. Esses dados são então analisados em formatos limpos e estruturados — entidades como itens rotulados e relacionamentos como conexões entre eles. Os embeddings (representações numéricas) dos fragmentos também são gerados e armazenados em um banco de dados de vetores para recuperação futura.

2. Pipeline de consulta: roteamento, recuperação híbrida e reclassificação por relevância e latência

Em relação à consulta, a Shorthills emprega uma filosofia pragmática em seu ambiente de produção: evitar a dependência de um único método de pesquisa universal.

  • A pesquisa por palavra-chave ainda é importante para identificadores exatos, como números de documentos ou IDs.
  • A busca vetorial melhora a correspondência semântica quando os usuários fazem perguntas em linguagem natural, como reconhecer que "display" e "tela" podem se referir ao mesmo conceito.
  • A pesquisa de gráficos pode capturar vínculos entre documentos, mas, em escala, pode se tornar lenta e consumir muita memória, portanto deve ser usada forma seletiva.
Pipeline de pesquisa sobre a base de conhecimento Pipeline de busca sobre a base de conhecimento: uma consulta do usuário passa pelo API Gateway e se transforma em uma busca híbrida (por palavras-chave e vetorial), viabilizada pelo Amazon Bedrock, na qual os dados relevantes são recuperados do watsonx. Então, os dados passam por uma camada de eliminação de duplicações e classificação, retornando ao usuário como um resultado de pesquisa refinado e rico em contexto.

Para implementar essa abordagem, o sistema inclui roteadores que enviam uma consulta para a pesquisa por palavra-chave, vetor ou gráfico, dependendo da intenção do usuário. Cada opção apresenta diferentes vantagens e desvantagens em termos de tempo e custo.

Outras considerações críticas incluem:

  • É necessário um implementação de busca híbrida escalável que combine busca por palavras-chave e vetorial com recursos de gráficos quando apropriado. Essa abordagem otimiza a precisão dos resultados da pesquisa e evita que os sistemas fiquem sobrecarregados à medida que o armazenamento de documentos cresce.
  • O sistema inclui um estágio de reclassificação após a recuperação para melhorar a relevância final antes que os resultados sejam retornados ao usuário.

Por fim, a experiência vai além de uma interface que utiliza apenas o chat. Neste caso de uso de pesquisa jurídica, os usuários podem recuperar vários tipos de fontes de dados, incluindo documentos do Word, imagens, PDFs e arquivos de texto.

Benefícios: flexibilidade, segurança e escalabilidade

Um dos principais motivos pelos quais a Shorthills escolheu criar essa plataforma de assistente de IA com o stack da IBM surgiu da realidade da implementação corporativa no mundo jurídico:

  • O suporte no local e a residência de dados são essenciais para os clientes que não podem mover dados confidenciais para hiperescaladores devido à tolerância a riscos ou a requisitos normativos.
  • O IBM watsonx.data libera a capacidade de escalar a busca em grandes volumes de documentos.
  • A segurança de nível empresarial e uma arquitetura escalável viabilizam soluções prontas para IA, agentes de IA criados com o IBM watsonx.data e o Langflow, um ambiente de arrastar e soltar com pouco código para o desenvolvimento de agentes e pipelines RAG.

Esses processos precisavam operar dentro de parâmetros práticos de engenharia: os LLMs consomem muita computação e o dimensionamento no local exige o tempo de execução e as ferramentas de implementação corretos para garantir a eficiência.

Em termos de resultados mensuráveis para o usuário final, a Shorthills relatou:

  • Tempo de busca mais rápido e melhoria de mais de 60% na recuperação e precisão
  • Uma melhoria de cerca de quatro vezes na abrangência e uma melhoria de nove vezes na diversidade
  • Melhor suporte para referências e citações nos resultados retornados, que antes não existiam

O impacto é real: melhoria na recuperação e precisão das informações, maior abrangência e diversidade, além de suporte à citações de alta qualidade. Esse resultado significa que os usuários finais gastam menos tempo procurando material e mais tempo avaliando-o.

Uma base criada para escalar

A principal lição de Shorthills foi que a busca de soluções de IA na produção é um exercício iterativo de engenharia. A escala, que passa de uma pequena quantidade de documentos para milhares (e até mais), altera o problema. Por fim, a “busca” se torna uma jornada de melhoria contínua, evoluindo por meio de pesquisas por palavras-chave, vetoriais, híbridas e gráficas, com roteamento cuidadoso para que a latência e o custo permaneçam previsíveis.

Com base no IBM watsonx.data e no Langflow, a Shorthills implementou um sistema de pesquisa orientado por IA para profissionais da área jurídica que podem operar em escala, lidar com restrições empresariais, incluindo requisitos locais. O sistema proporciona ganhos mensuráveis de relevância e fornece as citações e a amplitude de perspectivas que os usuários finais da área jurídica precisam para determinar os resultados com confiança.

Existem necessidades dos clientes e requisitos de governança semelhantes em todos os setores, como o de saúde e serviços financeiros. A escalabilidade da infraestrutura subjacente nos permite implementar soluções semelhantes em vários setores e em todo o mundo.

Como próxima etapa, a Shorthills vê essa base de recuperação se estendendo aos fluxos de trabalho baseados em agentes. Nesses fluxos de trabalho, um agente pode pesquisar, redigir e organizar as saídas para revisão humana sem a necessidade de reconstruir o stack subjacente de dados e recuperação a cada vez.

