데이터 빌더 및 시드 데이터 형식
Synthetic Data Generator 및 데이터 빌더를 사용하여 다양한 형식의 합성 데이터 집합을 만들 수 있습니다. 비정형 합성 데이터의 형식은 선택한 데이터 빌더에 따라 결정됩니다.
다음 데이터 빌더 중 하나를 선택하여 합성 데이터 세트를 생성하세요:
- 지식
- 텍스트를 SQL로 변환
- 도구 호출
비정형 데이터 생성 요청에 지정한 데이터 빌더에 다음 입력을 제공해야 합니다:
- 시드 데이터
- 모든 데이터 빌더는 시드 데이터를 입력으로 요구합니다. 시드 데이터는 모델을 학습시킨 다음 시드 데이터와 동일한 형식의 합성 데이터 세트를 생성합니다. 데이터 빌더마다 서로 다른 종류의 시드 데이터를 사용합니다. 예를 들어, 지식 데이터 빌더에는 질문과 답변 쌍의 형태로 된 시드 데이터가 필요합니다
- 참조 문서
- 도구 호출 및 지식 데이터 빌더와 같은 일부 데이터 빌더는 기초 모델에서 합성 데이터 집합을 생성하라는 메시지가 표시될 때 지식 기반 역할을 하는 도메인별 참조 문서가 필요합니다. 예를 들어 사용 사례 또는 비즈니스와 관련된 정보가 포함된 API 사양 또는 여러 개의 마크다운 파일을 제공할 수 있습니다.
데이터 빌더 비교
사용 사례에 가장 적합한 데이터 빌더를 선택하는 데 도움이 되는 비교표를 검토하세요.
| 데이터 빌더 | 시드 데이터 형식 | 생성된 합성 데이터 사용량 |
|---|---|---|
| 지식 | - 지식창고를 기반으로 한 질문과 답변( QnA ) 쌍 - 지식창고 역할을 하는 참조 문서 |
비즈니스 분류 체계의 주제에 따라 질문 답변, 요약, 대화 작업을 수행하도록 LLM을 교육하는 데 사용됩니다. |
| 텍스트를 SQL로 변환 | - 일반 텍스트의 데이터베이스 작업 - SQL 문 - 데이터베이스 스키마 |
사람이 읽을 수 있는 프롬프트를 애플리케이션에서 직접 사용할 수 있는 정확한 데이터베이스 쿼리로 변환하도록 LLM을 학습시키는 데 사용됩니다. |
| 도구 호출 | - 명령 및 응답 쌍 - 도구에 대한 함수 정의가 포함된 API 사양 파일 |
워크플로우 자동화, 데이터베이스와의 상호 작용, 복잡한 문제 해결 작업, 실시간 의사 결정 등을 위해 LLM을 미세 조정하는 데 사용됩니다. 에이전트 AI 애플리케이션에 가장 적합합니다. |
데이터 빌더에 지원되는 파일 형식
다음 표에는 각 데이터 빌더에 사용할 수 있는 파일 유형이 나와 있습니다. 모든 데이터 빌더는 시드 데이터와 생성된 합성 데이터에 동일한 파일 형식을 사용하지만 지식창고에는 서로 다른 참조 문서가 필요합니다.
| 데이터 빌더 | 시드 데이터 | 참조 문서 | 생성된 데이터 |
|---|---|---|---|
| 지식 | .yaml | .pdf .md .zip* |
.jsonl |
| 텍스트를 SQL로 변환 | .yaml | 필수 아님 | .jsonl |
| 도구 호출 | .yaml | .yaml | .jsonl |
*지식 데이터 빌더의 경우 PDF 또는 마크다운 파일을.zip 파일에 추가할 수도 있습니다.
사용자 지정 출력 형식
생성하는 비정형 합성 데이터의 기본 형식은 watsonx.ai Tuning Studio 을 사용하는 경우 LLM 학습에 적합합니다. 비정형 합성 데이터를 다른 도구와 함께 사용하려면 생성된 JSONL 파일을 해당 튜닝 도구에 적합한 형식으로 변환해야 할 수 있습니다. 시드 데이터와 함께 YAML 파일에 instruction_format 을 추가하여 출력의 기본값을 변경할 수 있습니다.
예를 들어, 텍스트에서 SQL 데이터 빌더의 경우 YAML 파일에 다음 instruction_format 필드를 추가하여 utterance 을 input 으로, query 을 output 으로 변경할 수 있습니다:
instruction_format: { "input": "{{utterance}}", "output": "{{query}}" }
task_description: <Description of this task>
seed_examples:
- utterance: <input question 1>
query: <sample SQL 1>
- utterance: <input question 2>
query: <sample SQL 2>
database:
schema: "<Data Definition Language (DDL) statement of one or more tables. Separate each DDL by a semi-colon>"