데이터를 RAG 시스템에 공급하기 전에 데이터를 전처리하는 것은 입력 데이터가 모델에 적합한 형식인지 확인하는 중요한 단계입니다. 간단한 방법은 입력 데이터를 겹치는 고정된 크기의 청크로 나누는 것입니다(예: 청크의 마지막 10문자가 다음 청크의 첫 10문자와 같음). 하지만 이 경우 입력 데이터의 뉘앙스를 놓칠 수 있습니다.

고급 전처리를 통해 입력 텍스트를 조작하여 일반적인 단어 어미 등을 제거할 수 있습니다. stopper, stopping, stopped는 모두 stop으로 바꾸고, the, as, is 등과 같이 정보를 제공하지 않는 '정지' 단어를 삭제하는 등의 기법을 사용합니다. 이는 검색된 정보의 관련성을 크게 향상시킬 수 있지만, 데이터 임베딩과 사용자 프롬프트 단계 모두에 복잡성을 더합니다.

훨씬 더 발전된 기술은 텍스트에서 가능한 한 많은 의미를 유지하기 위해 전체 문장에 대해 작동할 수 있습니다.