Data Refinery 의 Hive 웨어하우스에 저장된 테이블 데이터 정제

Hadoop 클러스터에 있는 Hive 데이터 웨어하우스의 테이블에 저장된 데이터를 정제합니다.

전제조건

Hadoop 클러스터에 연결을 설정합니다. Hive via Execution Engine for Hadoop 연결을 참조하십시오.

제한사항

Data Refinery 의 소스 및 대상과 Hadoop 환경 은 모두 동일한 Hadoop 시스템을 참조해야 합니다.

Hadoop 클러스터에서 Data Refinery 작업을 실행하려면 Hadoop 환경을 사용해야 합니다.

프로시저

  1. 소스 (정제하려는 데이터)에 대한 연결된 데이터 자산을 생성합니다:

    1. 프로젝트 페이지로 이동하세요.
    2. ‘자산’ > ‘자산 가져오기’ > ‘연동된 데이터’를 클릭합니다.
    3. 소스 선택을 클릭하십시오.
    4. Hive via Execution Engine for Hadoop 연결을 선택하십시오. 원하는 데이터로 이동한 다음 ‘선택’을 클릭하세요.
    5. 이름 및 설명을 입력하십시오.
    6. 작성을 클릭하십시오. 자산이 프로젝트 자산 페이지에 표시됩니다.
  2. 1단계를 반복하여 ‘ Data Refinery ’ 플로우의 출력용 대상 파일에 대한 연결된 데이터 자산을 생성합니다.

  3. Data Refinery 워크플로를 생성합니다:

    1. 1단계에서 생성한 소스의 연결된 데이터 자산을 클릭하세요.
    2. ‘데이터 준비’를 클릭하여 ‘ Data Refinery ’를 엽니다.
    3. 데이터를 정제하기 위해 연산을 적용합니다.
  4. 출력 파일의 저장 위치를 변경하려면:

    1. 도구 모음에서 ‘흐름 플로우 설정 설정’ 아이콘을 클릭하세요. ‘대상 데이터 세트 ’ 탭으로 이동한 다음, ‘대상 선택’을 클릭합니다.
    2. ‘데이터 자산’을 클릭한 다음, 대상 출력 파일에 연결된 데이터 자산을 선택하고 ‘다음’을 클릭합니다.
    3. ‘대상 및 형식 속성 선택’ 창에서 쓰기 모드와 테이블 작업을 선택합니다.
    4. ‘저장’을 클릭한 다음 ‘적용’을 클릭하세요.
  5. Hadoop 환경에서 ‘ Data Refinery ’ 흐름을 실행하는 작업을 생성합니다:

    1. Data Refinery 도구 모음에서 ‘작업 ’ 아이콘을 클릭한 다음, ‘저장 및 구인 아이콘작업 생성’을 선택합니다.
    2. 이름 및 설명을 입력하십시오. Hadoop 환경을 선택하십시오.
    3. 선택사항: 일회성 또는 반복 스케줄을 추가하십시오.
    4. 작업을 생성하고 즉시 실행하거나, 작업을 생성한 후 나중에 실행할 수 있습니다.

알려진 문제

Hadoop 환경 문제 해결

자세히 보기