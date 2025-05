Para aprimorar as aplicações baseadas no Granite existentes e informar o desenvolvimento da próxima geração de adaptadores LoRA para melhoria de desempenho, a IBM também está lançando uma coleção de cinco adaptadores LoRA específicos para RAG para o Granite 3.2 8B Instruct por meio do Granite Experiments, um playground da IBM Research para testar ideias de código aberto. Cada um desses adaptadores LoRA aproveita o conhecimento intrínseco do modelo para habilitar uma tarefa específica, como reescrever consultas de recuperação ou detectar alucinações.

A IBM Research desenvolveu esses adaptadores LoRA "convencionais" juntamente com contrapartes para cada um deles que usam um novo tipo de adaptação de baixo nível, que chamamos de LoRAs ativados (aLoRAs). A troca entre adaptadores LoRA padrão geralmente reduz o desempenho porque o modelo precisa recomputar o contexto da conversa em andamento usando o novo. Mas, ao contrário dos LoRAs padrão, os aLoRAs da IBM simplesmente reutilizam o cache de valor-chave (KV) existente, evitando a necessidade de recomputar o contexto (ou "pré-preenchimento") novamente. Os LoRAs ativados correspondem à qualidade de geração dos LoRAs padrão e, ao mesmo tempo, oferecem vantagens significativas de tempo de execução e computação. O código-fonte para executar os aLoRAs está disponível aqui.

Detecção de alucinação do RAG

Mesmo com RAG, um LLM às vezes pode alucinar. Quando equipado com o LoRA RAG Hallucination Detection, o modelo fornecerá uma "pontuação de fidelidade" entre 0-1 (em incrementos de 0,1), refletindo o quanto sua produção reflete de perto as informações contidas nos documentos recuperados. Pontuações de fidelidade mais baixas indicam maior risco de alucinação. O modelo terá uma produção sem resposta quando a pergunta não puder ser respondida com as informações das fontes disponíveis.

Reescrita de consultas do RAG

Os mecanismos de recuperação retornam resultados significativamente melhores em respostas a consultas independentes que contêm todas as informações relevantes do que em respostas a consultas que exigem contexto do início da conversa para serem praticáveis. Com o LoRA Query Rewrite equipado, o modelo reescreverá automaticamente qualquer consulta não independente do usuário, transformando-a em uma consulta totalmente independente. Por exemplo, considere esta troca:

Usuário: "Quem é o CEO da Apple?" Modelo: “Tim Cook é o CEO da Apple Inc.” Usuário: "E quanto à Microsoft?"

O modelo transmitirá a primeira consulta do usuário como está, mas reescreverá a segunda consulta como: "Quem é o CEO da Microsoft?”. Nos testes, essa reescrita aumentou a relevância das respostas do modelo em até 21 pontos percentuais.

Embora tenha sido projetado com o RAG em mente, a reescrita de consultas não exige a presença de documentos RAG: ela também pode ser usada para reescrever consultas de usuários para outros casos de uso, como chamadas de ferramentas.

RAG Citation Generation

Quando equipado com o LoRA RAG Citation Generaton, o modelo gerará uma citação para cada frase de sua produção (se essa frase tiver sido informada por alguma fonte externa). Cada citação em nível de frase não somente observa quaisquer fontes referenciadas, mas também contém um conjunto de frases das fontes citadas que corroboram a frase de saída correspondente do modelo.

RAG Answerability Prediction

Quando equipado com o LoRA RAG Answerability Prediction, o modelo determinará se a consulta do usuário pode ou não ser respondida usando as informações disponíveis em documentos conectados. Essa classificação binária ("pode ser respondido" ou "não pode ser respondido") pode ser usada para, entre outras coisas, filtrar perguntas sem resposta (reduzindo alucinações) ou dar um prompt para que o modelo consulte novamente o recuperador de uma maneira diferente.

Uncertainty Prediction

Para cada saída do modelo, o LoRA Uncertainty (nascido da pesquisa de calibração de modelosde IA do MIT-IBM Watson AI Lab) permite que o modelo gere uma "pontuação de certeza" quantificada que varia de 0 a 9 (representando 5% a 95% de certeza, respectivamente) . A pontuação reflete essencialmente até que ponto a resposta do modelo é corroborada pelas informações contidas em seus dados de treinamento.