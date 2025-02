O padrão RAG, mostrado no diagrama abaixo, é composto de duas partes: incorporação de dados durante o tempo de construção e prompts para o usuário (ou retorno de resultados de pesquisa) durante o tempo de execução.

Um engenheiro de IA prepara os dados do cliente (por exemplo, manuais de procedimentos, documentação de produtos, tickets de help desk etc.) durante o pré-processamento de dados. Os dados do cliente são transformados e/ou enriquecidos para torná-los adequados para aumento do modelo. As transformações podem incluir conversões de formato simples, como converter documentos PDF em texto, ou transformações mais complexas, como traduzir estruturas de tabelas complexas em instruções do tipo if-then. O enriquecimento pode incluir a expansão de abreviações comuns, adição de metadados, como informações de moedas, e outras adições para melhorar a relevância dos resultados da pesquisa.

Um modelo de incorporação é usado para converter os dados de origem em uma série de vetores que representam as palavras nos dados do cliente. As incorporações facilitam o aprendizado de máquina em grandes entradas, como vetores dispersos que representam palavras. As incorporações são armazenadas como passagens (chamadas pedaços) de dados do cliente (pense em subseções ou parágrafos), para facilitar a localização de informações.

As incorporações geradas são armazenadas em um banco de dados de vetores. Qualquer fonte de dados compatível com consultas "difusas" que retornem resultados com base na relevância provável, como por exemplo, o watsonx Discovery, pode ser usada na arquitetura RAG, mas a implementação mais comum usa um banco de dados de vetores, como o Milvus, FAISS ou Chroma.



O sistema agora está pronto para uso pelos usuários finais.



Os usuários finais interagem com uma aplicação habilitada para a IA generativa e inserem uma consulta.

A aplicação de IA generativa recebe a consulta e executa uma pesquisa no banco de dados de vetores para obter as principais (chamamos de k principais) informações que mais se aproximam da consulta do usuário. Por exemplo, se a consulta do usuário for "Qual é o limite diário de saque na conta da MaxSavers", a pesquisa pode retornar passagens como "A conta da MaxSavers é…", "Limites diários de saque são…". e "…limites de contas…".

As principais passagens, juntamente com um prompt selecionado para a aplicação específica, são enviadas ao LLM.