ROUGE 평가 지표

ROUGE 지표는 생성된 요약 또는 번역이 참조 출력과 비교하여 얼마나 잘 일치하는지를 측정합니다.

메트릭 세부사항

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)는 생성적 AI 자산이 작업을 얼마나 잘 수행하는지 측정하는 생성적 AI 품질 평가 지표입니다.

범위

ROUGE 지표는 생성적 AI 자산만을 평가합니다.

  • AI 자산의 유형 : 프롬프트 템플릿
  • 생성적 AI 작업 :
    • 텍스트 요약
    • 컨텐츠 생성
    • 질문 응답
    • 엔티티 추출
    • 검색 증강 생성(RAG)
  • 지원 언어 아랍어(ar), 덴마크어(da), 영어(en), 프랑스어(fr), 독일어(de), 이탈리아어(it), 일본어(ja), 한국어(ko), 포르투갈어(pt), 스페인어(es).

점수와 가치

ROUGE 메트릭 점수는 생성된 요약과 참고 출력의 유사성을 나타냅니다. 점수가 높을수록 요약과 참고 문헌의 유사성이 높음을 나타냅니다.

  • 값의 범위 : 0.0-1.0
  • 최상의 점수 : 1.0

설정

  • 임계치 :
    • 하한: 0.8
    • 상한: 1
  • 매개변수:
    • 어간 활용: true인 경우, 사용자는 Porter 어간 활용을 통해 단어 접미사를 제거합니다. 기본값은 false입니다.