빠른 시작: 데이터 세분화

빠르게 대량의 원시 데이터를 사용 가능하며 분석할 준비가 되어 있는 고품질의 정보로 변환하여 데이터 준비 시간을 절약할 수 있습니다. Data Refinery 도구에 대해 읽고 비디오를 시청하고 초보자에게 적합한 학습서를 사용하여 코딩이 필요하지 않습니다.

서비스 해당 Data Refinery 서비스는 기본적으로 사용할 수 없습니다. 관리자는 IBM Cloud Pak for Data 플랫폼에 서비스 Watson Studio 또는 서비스 IBM Knowledge Catalog 중 하나를 설치해야 합니다. 서비스가 설치되었는지 확인하려면 서비스 목록을 열고 해당 Data Refinery 서비스가 활성화되어 있는지 확인하십시오.

필요한 서비스
Watson Studio 또는 IBM Knowledge Catalog 기본 프리미엄 이 정보는 및 IBM Knowledge Catalog 에 IBM Knowledge Catalog Premium 적용됩니다.

기본 워크플로우에는 다음 태스크가 포함됩니다.

  1. 프로젝트를 작성하십시오. 프로젝트는 데이터 작업을 위해 다른 사용자와 협업하는 위치입니다.
  2. 프로젝트에 데이터를 추가하십시오. 연결을 통해 원격 데이터 소스에서 데이터나 CSV 파일을 추가할 수 있습니다.
  3. Data Refinery에서 데이터를 여십시오.
  4. 데이터를 세분화하는 오퍼레이션을 사용하는 단계를 수행합니다.
  5. 데이터를 변환할 작업을 작성하고 실행합니다.

Data Refinery에 대해 알아보기

Data Refinery를 사용하여 그래픽 플로우 편집기로 표 형식의 데이터를 정리하고 쉐이핑할 수 있습니다. 또한 대화식 템플리트를 사용하여 오퍼레이션, 함수 및 논리 연산자를 코딩할 수도 있습니다. 데이터 정리인 경우 올바르지 않거나, 불완전하거나, 부적절하게 형식화되거나 중복된 데이터를 수정하거나 제거합니다. 데이터를 쉐이핑하는 경우 열을 필터링, 정렬, 결합 또는 제거하고 오퍼레이션을 수행하여 데이터를 사용자 정의합니다.

Data Refinery 플로우를 순서가 지정된 오퍼레이션 세트로 데이터에 작성합니다. Data Refinery에는 데이터를 프로파일링하여 유효성 검증하는 그래픽 인터페이스와 데이터에 퍼스펙티브와 인사이트를 제공하는 20개 이상의 사용자 정의 가능 차트가 포함되어 있습니다. 정제된 데이터 세트를 저장할 때 일반적으로 데이터 세트를 읽은 위치와 다른 위치에 로드합니다. 이러한 방식으로, 소스 데이터는 세분화 프로세스에 의해 영향을 받지 않습니다.

데이터 정제에 대한 자세한 정보 읽기

데이터 세분화에 대한 동영상 보기

비디오 보기 데이터 정제 방법을 보려면 이 비디오를 시청하십시오.

이 동영상은 본 문서의 개념과 작업을 시각적으로 학습할 수 있는 방법을 제공합니다.


데이터를 세분화하는 튜토리얼 시도

이 학습서에서는 다음 태스크를 완료합니다.

이 튜토리얼을 완료하는 데 대략 30분 정도 소요됩니다.




이 튜토리얼을 완료하는 팁
이 튜토리얼을 성공적으로 완료하기 위한 몇 가지 팁입니다.

브라우저 창을 설정하세요

이 튜토리얼을 완료하는 최적의 경험을 위해, 한 브라우저 창에서 계정을 열고 다른 브라우저 창에서 이 튜토리얼 페이지를 열어 두어 두 창 사이를 쉽게 전환하세요. 두 브라우저 창을 나란히 배치하여 따라하기 쉽게 구성하는 것을 고려해 보세요.

나란히 배치된 튜토리얼과 UI

팁: 이 튜토리얼을 사용자 인터페이스에서 완료하는 동안 안내 투어를 만나면 '나중에'를 클릭하세요.



작업 1: 프로젝트 열기

데이터 및 Data Refinery 플로우를 저장하는 프로젝트가 필요합니다. 기존 프로젝트를 사용하거나 새 프로젝트를 생성할 수 있습니다.

  1. 탐색 메뉴에서 프로젝트 탐색 메뉴 > 모든 프로젝트를 선택하세요.

  2. 기존 프로젝트를 엽니다. 새 프로젝트를 사용하려면:

    1. 새 프로젝트를 클릭하십시오.

    2. 빈 프로젝트 작성을 선택하십시오.

    3. 프로젝트의 이름과 선택적 설명을 입력하세요.

    4. 작성을 클릭하십시오.

체크포인트 아이콘 진행 상황을 확인하세요

다음 이미지는 새롭고 빈 프로젝트를 보여줍니다.

다음 이미지는 새롭고 빈 프로젝트를 보여줍니다.

추가 정보나 동영상을 보려면 프로젝트 작성을 참조하십시오.




작업 2: 데이터 세트를 열기 Data Refinery

다음 단계를 따라 프로젝트에 데이터 자산을 추가하고 Data Refinery 플로우를 생성하세요.

  1. 일을 airline-data.csv 다운로드하세요 ( 1.5 MB).

  2. 프로젝트에서 '프로젝트에 자산 업로드' 업로드아이콘을 클릭하세요.

  3. 열리는 로드 패널에서 파일을 airline-data.csv 찾아 선택한 후 열기를 클릭하십시오. 로드가 완료할 때까지 페이지에 그대로 있으십시오.

  4. 자산 탭에서 데이터 airline-data.csv 자산을 클릭하여 내용을 미리 봅니다.

  5. 데이터 준비를 클릭하여 파일 샘플을 열면 Data Refinery, 가 데이터 샘플을 읽고 Data Refinery 처리할 때까지 기다리십시오.

  6. 정보단계 패널을 닫으십시오.

체크포인트 아이콘 진행 상황을 확인하세요

다음 이미지는. Data Refinery 에서 열린 항공사 데이터 자산을 보여줍니다.

다음 이미지는. Data Refinery 에서 열린 항공사 데이터 자산을 보여줍니다.




작업 3: 프로필 및 시각화를 통해 데이터 검토

자산의 내용은 해당 열의 값을 기반으로 자동으로 프로파일링 및 분류됩니다. 프로파일 및 시각화 탭을 사용하여 데이터를 탐색하려면 다음 단계를 수행하십시오.

팁: 데이터를 다듬어 가면서 변경 사항을 확인하려면 프로필 및 시각화 페이지를 사용하세요.
  1. 프로파일 탭을 클릭하여 이상치를 찾을 수 있도록 데이터의 빈도 분포를 검토하십시오.

    1. 각 열의 통계를 보려면 열을 스크롤하세요. 통계는 각 열의 사분위수 범위, 최소값, 최대값, 중앙값 및 표준 편차를 표시합니다.

    2. 막대를 마우스로 가리키면 추가 정보를 볼 수 있습니다.

    다음 이미지는 프로필 탭을 보여줍니다:
    프로파일 탭

  2. 시각화 탭을 클릭하십시오.

    1. 시각화할 UniqueCarrier 열을 선택하십시오. 제안된 차트에서는 해당 아이콘 옆에 파란색 점이 있습니다.

    2. 파이 차트를 클릭하세요. 차트에서 사용 가능한 다른 퍼스펙티브를 사용하여 데이터 내에서 패턴, 연결 및 관계를 식별하십시오.

체크포인트 아이콘 진행 상황을 확인하세요

다음 이미지는 시각화 탭을 보여줍니다. 이제 데이터를 정제할 준비가 되었습니다.

시각화 탭




작업 4: 데이터 정제

Data Refinery 오퍼레이션

Data Refinery는 두 가지 유형의 조작을 사용하여 데이터, GUI 조작코딩 조작을 정제합니다. 이 튜토리얼에서 두 유형의 오퍼레이션을 모두 사용합니다.

  • GUI 오퍼레이션은 여러 개의 단계로 구성될 수 있습니다. 새로운 단계에서 조작을 선택하십시오. 각 열의 오버플로 메뉴(오버플로우 메뉴)에서도 GUI 작업의 일부를 사용할 수 있습니다.

    Data Refinery에서 파일을 열면 변환 열 유형 조작은 비문자열 데이터 유형을 추론된 데이터 유형(예: 정수, 날짜, 부울 등)으로 변환하기 위한 첫 번째 단계로 자동으로 적용됩니다. 이 단계를 실행 취소하거나 편집할 수 있습니다.

  • 코딩 오퍼레이션은 코딩 오퍼레이션, 함수 및 논리 연산자를 위한 대화식 템플리트입니다. 대부분의 오퍼레이션에는 대화식 도움말이 있습니다. 코딩 오퍼레이션과 해당 구문 옵션을 보려면 명령행 텍스트 상자에서 오퍼레이션 이름을 클릭하십시오.

데이터를 정제하는 것은 Data Refinery 플로우를 빌드하기 위한 일련의 단계입니다. 이 작업을 진행하면서 진행 상황을 확인하려면 단계 패널을 참조하십시오. 이를 삭제하거나 편집할 단계를 선택할 수 있습니다. 실수를 하셨다면, 실행 취소 아이콘을 클릭할 수도 실행 취소 있습니다. 데이터를 정제하려면 다음 단계를 따르십시오:

  1. 데이터 탭으로 돌아가십시오.

  2. 열을 선택하십시오. 오버플로 메뉴(오버플로우 메뉴)를 클릭하고 내림차순 정렬을 선택하세요.

  3. 단계 패널에서 새 단계를 보려면 단계를 클릭하세요.

  4. 특정 항공사의 지연에 초점을 맞추십시오. 이 튜토리얼에서는 유나이티드 에어라인(UA)을 사용하지만 다른 항공사를 선택할 수 있습니다.

    1. 새로운 단계를 클릭한 후 GUI 조작 필터를 선택하십시오.

    2. UniqueCarrier 열을 선택하십시오.

    3. 연산자의 경우 Is equal to를 선택하십시오.

    4. 의 경우, 지연 정보를 보려는 항공사의 문자열을 입력하십시오. 예를 들어, UA.
      필터 작업

    5. 적용을 클릭하십시오. 결과를 보려면 UniqueCarrier 열로 스크롤하십시오.

  5. 도착 및 지연 시간을 함께 추가하는 새 열을 작성하십시오.

    1. 해당 DepDelay 열을 선택하십시오.

    2. 값이 숫자인 모든 열의 문자열 데이터 유형을 정수 데이터 유형으로 변환하기 위한 첫 번째 단계로 변환 열 유형 조작이 자동으로 적용되었습니다.

    3. 새로운 단계를 클릭한 후 GUI 조작 계산을 선택하십시오.

    4. 연산자의 경우 덧셈을 선택하십시오.

    5. 열을 선택한 다음 해당 ArrDelay 열을 선택하십시오.

    6. 결과를 위한 새 열 작성을 선택하십시오.

    7. 새 열 이름 에 다음을 입력하십시오 TotalDelay.
      계산 조작

    8. 새 열을 열 목록의 끝에 배치하거나 원래 열 옆에 배치할 수 있습니다. 이 경우 원본 열 옆의 다음을 선택하십시오.

    9. 적용을 클릭하십시오. 새 열인 TotalDelay가 추가되었습니다.

  6. TotalDelay 열을 데이터 세트의 시작 부분으로 이동하십시오.

    1. 명령행 텍스트 상자에서 select 조작을 선택하십시오.

    2. select라는 단어를 클릭한 후 select(`<column>`, everything())을 선택하십시오.

    3. `<column>`을(를) 클릭한 후 TotalDelay 열을 선택하십시오. 완료하면 명령이 다음과 같이 표시되어야 합니다.

      select(`TotalDelay`, everything())
      
    4. 적용을 클릭하십시오. 이제 TotalDelay 열이 첫 번째 열입니다.

  7. 데이터를 네 개의 열(, , DayofMonthTotalDelay)로 줄이십시오. 열을 년, 월 및 일의 그룹으로 나누려면 group_by 코딩 조작을 사용하십시오.

    1. 명령행 텍스트 상자에서 group_by 조작을 선택하십시오.

    2. <column>을(를) 클릭한 후 열을 선택하십시오.

    3. 닫는 괄호 앞에 ,Month,DayofMonth을(를) 입력하십시오. 완료하면 명령이 다음과 같이 표시되어야 합니다.

      group_by(`Year`,Month,DayofMonth)
      
    4. 적용을 클릭하십시오.

    5. TotalDelay 열에 대해 select 코딩 조작을 사용하십시오. 명령행 텍스트 상자에서 select 조작을 선택하십시오.
      <column>을(를) 클릭하고 TotalDelay 열을 선택하십시오. 명령이 다음과 같아야 합니다.

      select(`TotalDelay`)
      
    6. 적용을 클릭하십시오. 이제 구체화된 데이터는 , , DayofMonthTotalDelay 열로 구성됩니다.

      다음 화면 이미지는 데이터의 처음 네 행을 보여줍니다.
      년, 월, DayofMonth 및 TotalDelay 열이 있는 Data Refinery 플로우의 처음 4개 행

  8. 해당 TotalDelay 열의 값들의 평균을 표시하고, 새로운 AverageDelay 열을 생성하십시오:

    1. 새로운 단계를 클릭한 후 GUI 조작 집계를 선택하십시오.

    2. 컬럼 을 선택하려면. TotalDelay 을 선택하십시오.

    3. 산자로 평균을 선택하십시오.

    4. 집계된 열의 이름 에 대해 입력하십시오 AverageDelay.
      집계 조작

    5. 적용을 클릭하십시오.

      새 열은 모든 지연 AverageDelay 시간의 평균값입니다.

체크포인트 아이콘 진행 상황을 확인하세요

다음 이미지는 데이터의 처음 네 행을 보여줍니다.

다음 화면 이미지는 데이터의 처음 네 행을 보여줍니다.




작업 5: Data Refinery 흐름에 대한 작업을 실행하십시오

Data Refinery 플로우에 대한 작업을 실행할 때 전체 데이터 세트에서 단계가 실행됩니다. 런타임을 선택하고 일회성 또는 반복 스케줄을 추가합니다. Data Refinery 플로우의 출력이 프로젝트의 데이터 자산에 추가됩니다. 정제된 데이터 세트를 생성하는 작업을 실행하려면 다음 단계를 따르십시오.

  1. 도구 Data Refinery 모음에서 작업 아이콘을 클릭한 후, 저장 및 작업 생성을 선택합니다.
    작업 저장 및 작성

  2. 작업의 이름 및 설명을 입력하고 다음을 클릭하십시오.

  3. 런타임 환경을 선택하고 다음을 클릭하십시오.

  4. (선택사항)전환 단추를 클릭하고 실행 스케줄을 지정하십시오. 작업을 반복할 날짜, 시간 및 날짜를 지정하고 다음을 클릭하십시오.

  5. (선택사항) 이 작업에 대한 알림을 켜고 다음을 클릭하십시오.

  6. 세부 사항을 검토한 후 '생성 및 실행'을 클릭하여 작업을 즉시 실행하십시오.
    작업 작성

  7. 작업이 작성되면 알림에서 작업 세부사항 링크를 클릭하여 프로젝트의 작업을 보십시오. 또는 프로젝트의 작업 탭으로 이동하여 작업 이름을 클릭하여 열 수 있습니다.

  8. 작업 상태가 완료로 표시되면 프로젝트 탐색 경로를 사용하여 프로젝트의 자산 탭으로 돌아가십시오.

  9. 데이터 > 데이터 자산 섹션을 클릭하여 흐름의 Data Refinery 출력을 확인하세요. airline-data_shaped.csv

  10. 플로우 > Data Refinery 플로우 섹션을 클릭하여 Data Refinery 플로우를 확인하세요. airline-data.csv_flow

체크포인트 아이콘 진행 상황을 확인하세요

다음 이미지는 흐름 Data Refinery 및 모양 자산을 포함한 자산 탭을 보여줍니다.

다음 이미지는 흐름 및 모양 Data Refinery 자산이 포함된 자산 탭을 보여줍니다.




작업 6: Data Refinery 플로우에서 다른 데이터 자산을 생성하십시오

다음 단계를 따라 흐름을 Data Refinery 편집하여 데이터 세트를 더욱 정제하십시오:

  1. 클릭하여 airline-data.csv_flow Data Refinery 흐름을 열기.

  2. 해당 AverageDelay 열을 내림차순으로 정렬하십시오.

    1. 해당 AverageDelay 열을 선택하십시오.

    2. 열의 오버플로 메뉴(오버플로우 메뉴)를 클릭한 다음 내림차순 정렬을 선택합니다.

  3. 흐름 설정 아이콘을 클릭하세요 플로우 설정.

  4. 대상 데이터 세트 패널을 클릭하십시오.

  5. 속성 편집을 클릭하세요.

    1. 포맷 대상 속성 대화 상자에서 데이터 자산 이름을 로 변경하십시오 airline-data_sorted_shaped.csv.
      변경된 출력 파일 이름

    2. 저장을 클릭하여 플로우 설정으로 돌아가세요.

  6. 적용을 클릭하여 설정을 저장하십시오.

  7. 도구 Data Refinery 모음에서 작업 아이콘을 클릭한 후 '작업 저장 및 보기'를 선택합니다.
    작업 저장 및 보기

  8. 항공사 데이터에 대한 작업을 선택한 후 보기를 클릭하십시오.

  9. 작업 창 도구 모음에서 작업 실행 아이콘을 클릭합니다.
    작업 실행

체크포인트 아이콘 진행 상황을 확인하세요

다음 이미지는 완료된 작업 세부 정보를 보여줍니다.

다음 이미지는 완료된 작업 세부 정보를 보여줍니다.




작업 7: 프로젝트 내 데이터 자산 및 Data Refinery 흐름 확인

이제 다음 단계를 따라 세 가지 데이터 자산(원본, 첫 번째 정제된 데이터 세트, 두 번째 정제된 데이터 세트)을 확인하세요:

  1. 작업이 완료되면 프로젝트 페이지로 이동하십시오.

  2. 자산 탭을 클릭하십시오.

  3. 데이터 자산 섹션에서는 업로드한 원래 데이터 세트와 두 Data Refinery 플로우의 출력이 표시됩니다.

    • airline-data_sorted_shaped.csv
    • airline-data_csv_shaped
    • airline-data.csv
  4. 항공사 데이터 CSV 형식의 데이터 자산을 클릭하면 정렬되지 않은 평균 지연 시간을 확인할 수 있습니다. 자산 탭으로 돌아가세요.

  5. airline-data_sorted_shaped.csv 데이터 자산을 클릭하면 평균 지연이 내림차순으로 정렬되어 표시됩니다. 자산 탭으로 돌아가세요.

  6. 플로우 > Data Refinery 플로우 섹션을 클릭하면 다음 Data Refinery 플로우가 표시됩니다: airline-data.csv_flow.

체크포인트 아이콘 진행 상황을 확인하세요

다음 이미지는 모든 자산이 표시된 자산 탭을 보여줍니다.

다음 이미지는 모든 자산이 표시된 자산 탭을 보여줍니다.



다음 단계

이제 데이터를 사용할 준비가 되어 있습니다. 예를 들어, 사용자나 다른 사용자가 다음 태스크를 수행할 수 있습니다.

추가 리소스