Métrica de avaliação ROUGE

A métrica ROUGE mede a qualidade dos resumos ou traduções gerados em comparação com os resultados de referência.

Detalhes da métrica

O ROUGE (Recall-Oriented Understudy for Gisting Evaluation) é uma métrica de avaliação de qualidade de IA generativa que mede a capacidade dos ativos de IA generativa de executar tarefas.

Escopo

A métrica ROUGE avalia apenas os ativos de IA generativa.

  • Tipos de ativos de IA : Modelos de prompts
  • Tarefas de IA generativa :
    • Resumo de textos
    • Geração de conteúdo
    • Resposta à pergunta
    • Extração de entidade
    • Geração aumentada de recuperação (RAG)
  • Idiomas suportados : Inglês

Pontuações e valores

A pontuação da métrica ROUGE indica a similaridade entre o resumo gerado e os resultados de referência. Pontuações mais altas indicam maior similaridade entre o resumo e a referência.

  • Faixa de valores : 0.0-1.0
  • Melhor pontuação possível : 1.0

Configurações

  • Limiares :
    • Limite inferior: 0.8
    • Limite superior: 1
  • Parâmetros :
    • Use stemmer: Se verdadeiro, os usuários usarão o stemmer para remover os sufixos das palavras. O padrão é false.

Tópico principal: Métricas de avaliação