데이터 통합 튜토리얼: 다음을 사용하여 배치 데이터 변환 DataStage

이 자습서를 통해 세 가지 외부 데이터 소스에 저장된 데이터를 변환해 보세요. 목표는 DataStage를 사용하여 데이터를 변환한 후 변환된 데이터를 단일 출력 파일로 전달하는 것입니다.

중요:

이 튜토리얼에는 샘플 프로젝트가 필요하며, 일부 지역에서는 제공되지 않을 수 있습니다. watsonx 계정이 달라스 IBM Cloud 지역에 없는 경우 이 튜토리얼을 시작하기 전에 샘플 프로젝트를 사용할 수 있는지 확인하세요. 리소스 허브에서 데이터 통합을 검색합니다.

데이터 통합 튜토리얼: 데이터 관찰 에 필요하므로 프로젝트와 흐름을 저장해야 합니다.

이 학습서의 내용은 골든 뱅크가 자격을 갖춘 대출 신청자에게 대출할 수 없는 새로운 규정을 고수할 필요가 있다는 것입니다. 골든 뱅크의 데이터 엔지니어로서 현재 DataStage를 사용하여 익명화된 모기지 애플리케이션 데이터를 모기지 신청자의 개인 식별 정보와 함께 집계합니다. 대출 기관은 이 정보를 사용하여 모기지 신청을 승인할지 거부할지 결정합니다. 경영진은 각 신용 점수 범위에 있는 대출자에게 제공할 이자율을 매일 계산하는 리스크 분석가를 추가했습니다. 이 정보를 대출 기관과 공유하는 스프레드시트에 통합해야 합니다. 스프레드시트에는 각 신청자의 신용 점수 정보, 신청자의 총 부채, 이자율 조회표가 포함되어 있습니다. 마지막으로, 데이터를 대상 출력 파일 CSV 에 로드하십시오.

튜토리얼 미리보기

이 학습서에서는 다음 태스크를 완료합니다.

전제 조건을 설정합니다.
작업 1: 기존 DataStage 흐름 실행
DataStage 플로우를 다음과 같이 편집하십시오.
정리(선택 사항)

비디오 보기 비디오를 시청하면 이 학습서의 단계를 미리 볼 수 있습니다. 동영상에 표시된 사용자 인터페이스에는 약간의 차이가 있을 수 있습니다. 이 동영상은 서면 튜토리얼을 보조하기 위한 것입니다.

이 동영상은 이 설명서의 개념과 작업을 시각적으로 학습할 수 있는 방법을 제공합니다.

전제 조건 설정

샘플 프로젝트 만들기

이 튜토리얼의 샘플 프로젝트가 이미 있는 경우 작업 1로 건너뛰세요. 그렇지 않으면, 다음 단계를 수행하십시오.

리소스 허브에서 데이터 통합 샘플 프로젝트에 액세스합니다.
프로젝트 작성을 클릭하십시오.
프로젝트를 Cloud Object Storage 인스턴스에 연관시키도록 프롬프트가 표시되면 목록에서 Cloud Object Storage 인스턴스를 선택하십시오.
작성을 클릭하십시오.
프로젝트 가져오기가 완료될 때까지 기다린 다음 새 프로젝트 보기를 클릭하여 프로젝트와 에셋이 성공적으로 생성되었는지 확인합니다.
자산 탭을 클릭하여 연결 및 DataStage 흐름을 확인합니다.

참고: 이 사용 사례에 포함된 튜토리얼을 보여주는 가이드 투어가 표시될 수 있습니다. 가이드 투어의 링크를 클릭하면 이 튜토리얼 지침이 열립니다.

진행 상황을 확인하세요

다음 이미지는 샘플 프로젝트의 자산 탭을 보여줍니다. 이제 튜토리얼을 시작할 준비가 되었습니다.

작업 1: 기존 DataStage 흐름 실행

기본적인 DataStage 흐름을 시작하여 모기지 신청자와 모기지 신청 데이터 세트를 결합한 후, 그 결과를 프로젝트 내의 CSV 파일로 출력합니다. DataStage 흐름을 실행하려면 다음 단계를 따르십시오:

데이터 통합 프로젝트에서 시작하세요. 프로젝트가 열려 있지 않은 경우 다음 단계를 따르세요:
1. 탐색 메뉴에서 프로젝트 > 모든 프로젝트 보기를 선택하세요.
2. 데이터 통합 프로젝트를 엽니다.
에셋 탭을 클릭하면 프로젝트의 모든 에셋을 볼 수 있습니다.
플로우 > DataStage 플로우를 클릭합니다.
목록에서 데이터 통합 플로우를 클릭하여 엽니다. 이 흐름은 Db2 Warehouse 에 저장된 모기지 신청자 ( Mortgage Applicants ) 테이블과 모기지 신청서(Mortgage Applications) 테이블을 결합하고, 캘리포니아 주(State of California)의 레코드로 데이터를 필터링한 후, 출력으로 CSV 형식의 순차 파일을 생성합니다.
도구 모음의 확대 아이콘과 축소 아이콘을 클릭하여 캔버스의 원하는 보기 모드를 설정하세요.
MORTGAGE_APPLICATIONS_1 노드를 두 번 클릭하여 설정을 보십시오.
1. 특성 섹션을 펼치십시오.
2. 아래로 스크롤한 다음 데이터 미리 보기를 클릭합니다. 이 데이터 세트에는 모기지 신청서에서 캡처한 정보가 포함되어 있습니다.
3. 닫기를 클릭하십시오.
MORTGAGE_APPLICANTS_1 노드를 두 번 클릭하여 설정을 보십시오.
1. 특성 섹션을 펼치십시오.
2. 아래로 스크롤하고 데이터 미리보기를 클릭하십시오. 이 데이터 세트에는 대출을 신청한 모기지 신청자에 대한 정보가 포함되어 있습니다.
3. 선택 사항입니다: 데이터를 시각화합니다.
  1. 차트 패널을 클릭합니다.
  2. 시각화할 열 목록에서 상태를 선택합니다.
  3. 데이터 시각화를 클릭하면 상태별 데이터 분포를 보여주는 원형 차트를 볼 수 있습니다.
  4. 차트 유형 섹션에서 트리맵 아이콘을 클릭하면 동일한 데이터를 트리맵 차트에서 볼 수 있습니다.
4. 닫기를 클릭하십시오.
Join_on_ID 노드를 더블클릭하여 설정을 확인합니다.
1. 특성 섹션을 펼치십시오.
2. 조인 키는 ID 열임을 유의하십시오.
3. 취소를 클릭하여 설정을 닫습니다.
도구 모음의 로그 아이콘을 클릭하여 흐름의 진행 상황을 확인할 수 있습니다.
컴파일을 클릭한 후 실행을 클릭하십시오. 또는 실행을 클릭하여 DataStage 플로우를 컴파일한 다음 실행할 수 있습니다. 실행을 완료하는 데 약 1분 정도 소요됩니다.
로그 보기. 흐름의 각 단계에 대한 총 행 수와 초당 행 수를 사용하여 필터가 예상대로 작동하는지 시각적으로 확인할 수 있습니다.
실행이 성공적으로 완료되면 탐색 경로에서 데이터 통합을 클릭하여 프로젝트로 돌아갑니다.
자산 탭에서 데이터 > 데이터 자산을 클릭합니다.
파일을 엽니다 MORTGAGE_DATA.CSV 파일을 엽니다. 이 파일에는 모기지 신청자 및 모기지 신청 데이터 세트의 열이 모두 포함되어 있음을 알 수 있습니다.

진행 상황을 확인하세요

다음 이미지는 결과물인 ` CSV ` 파일을 보여줍니다. 다음 작업은 DataStage 흐름을 편집하는 것입니다.

개요: DataStage 플로우 편집

이제 모기지 신청자 및 신청 데이터를 연결했으므로 DataStage 플로우를 편집할 준비가 되었습니다:

작업 2: 조인 단계의 키 열을 지정합니다.
작업 3: PostgreSQL 데이터베이스에서 신용 점수 데이터를 추가합니다.
작업 4: 조인 단계를 추가하여 신용 점수 데이터를 지원자 및 지원 데이터와 조인합니다.
작업 5: 총 부채를 계산하기 위해 트랜스포머 단계를 추가합니다.
작업 6: MongoDB 데이터베이스에서 이자율 데이터를 추가합니다.
작업 7: 조회 단계를 추가하여 신청자의 신용 점수와 골든뱅크의 일일 금리 범위를 기준으로 금리를 조회할 수 있습니다.

작업 2: 조인 단계의 키 열 지정하기

키 열을 식별하면 해당 열에 고유 값이 포함되어 있음을 DataStage 에 알립니다. Join_on_ID 노드는 조인 키의 ID 열을 사용하여 모기지 신청자 및 모기지 신청 데이터 집합을 조인합니다. 다음 단계는 결과 데이터 집합을 신용 점수 데이터와 조인하는 것입니다. 나중에 필터링된 결과 데이터를 신용 점수 데이터 세트와 조인합니다. 두 번째 조인은 EMAIL_ADDRESS 열을 조인 키로 사용합니다. 이 작업에서는 DataStage 흐름을 편집하여 신용 점수 데이터와 조인할 때 결과 데이터 집합의 키 열로 EMAIL_ADDRESS 열을 지정합니다.

조인 노드 설정을 변경하려면 다음 단계를 따르세요:

탐색 경로에서 데이터 통합을 클릭하여 프로젝트로 돌아갑니다.
자산 탭에서 플로우 > DataStage 플로우를 클릭합니다.
데이터 통합 플로우를 엽니다.
Join_on_ID 노드를 두 번 클릭하여 설정을 편집하십시오.
출력 탭을 클릭하고 열 섹션을 펼쳐 결합된 데이터 세트의 열 목록을 확인하십시오.
편집을 클릭하십시오.
EMAIL_ADDRESS 열 이름으로 키를 선택하십시오.
적용 및 리턴을 클릭하여 Join_on_ID 노드 설정으로 돌아가십시오.
저장을 클릭하여 Join_on_ID 노드 설정을 저장하십시오.

진행 상황을 확인하세요

다음 이미지는 편집된 Join_on_id 단계가 있는 DataStage 플로우를 보여줍니다. 이제 이메일 주소 열을 키 열로 식별했으므로 지원자의 신용 점수가 포함된 PostgreSQL 데이터를 추가할 수 있습니다.

작업 3: PostgreSQL 데이터베이스에서 신용 점수 데이터 추가하기

PostgreSQL 데이터베이스에 저장된 신용 점수 데이터를 DataStage 흐름에 추가하려면 다음 단계를 따르세요:

노드 팔레트에서 커넥터 섹션을 펼치십시오.
에셋 브라우저 커넥터를 캔버스 옆의 MORTGAGE_APPLICANTS_1 노드 옆 캔버스로 드래그합니다.
연결 > Data Fabric 평가판 - Databases for PostgreSQL > 뱅킹 > 크레딧 점수를 선택하여 자산을 찾습니다.

참고: 연결 및 스키마를 확장하려면 확인란 대신 연결 또는 스키마 이름을 클릭합니다.
미리 보기 아이콘을 클릭하여 각 지원자의 신용 점수 데이터를 미리 확인하세요.
추가 를 클릭하십시오.

진행 상황을 확인하세요

다음 이미지는 신용 점수 자산이 추가된 DataStage 플로우를 보여줍니다. 이제 캔버스에 신용 점수 데이터를 추가했으므로 지원자, 지원서, 신용 점수 데이터를 연결해야 합니다.

작업 4: 조인 단계를 추가하여 신용 점수 데이터를 지원자 및 지원 데이터와 조인하기

다음 단계에 따라 다른 조인 단계를 추가하여 필터링된 모기지 신청 및 모기지 신청자 조인 데이터를 DataStage 흐름의 신용 점수 데이터와 조인하려면 다음 단계를 따르세요:

노드 팔레트에서 스테이지 섹션을 펼치십시오.
조인 단계를 캔버스로 끌어다 놓고 필터_상태_코드와 Sequential_file_1 노드를 놓습니다.
화살표를 보려면 CREDIT_SCORE_1 커넥터 위로 마우스를 이동하십시오. 화살표를 결합 스테이지에 연결하십시오.
CREDIT_SCORE_1 노드를 두 번 클릭하여 설정을 편집하십시오.
1. 출력 탭을 클릭하고 열 섹션을 펼쳐 결합된 데이터 세트의 열 목록을 확인하십시오.
2. 편집을 클릭하십시오.
3. EMAIL_ADDRESS 및 CREDIT_SCORE 열 이름의 경우 키를 선택하십시오.
4. 적용 및 리턴을 클릭하여 CREDIT_SCORE_1 노드 설정으로 돌아가십시오.
5. 저장을 클릭하여 CREDIT_SCORE_1 노드 설정을 저장하십시오.
Join_1 노드를 두 번 클릭하여 설정을 편집하십시오.
1. 특성 섹션을 펼치십시오.
2. 키 추가를 클릭하십시오.
  1. 키 추가를 다시 클릭하십시오.
  2. 사용 가능한 키 목록에서 EMAIL_ADDRESS를 선택합니다.
  3. 적용을 클릭하십시오.
3. 적용 및 리턴을 클릭하여 Join_1 노드 설정으로 돌아가십시오.
4. Join_1 노드 이름을 Join_on_email(으)로 변경하십시오.
5. 저장을 클릭하여 Join_1 노드 설정을 저장하십시오.

진행 상황을 확인하세요

다음 이미지는 두 번째 조인 단계가 추가된 DataStage 플로우를 보여줍니다. 이제 지원서, 지원자 및 신용 점수 데이터를 결합했으므로 각 지원자의 총 부채를 계산하려면 트랜스포머 단계를 추가해야 합니다.

작업 5: 총 부채를 계산하기 위해 트랜스포머 단계 추가하기

다음 단계를 따라 LOAN_AMOUNT 및 CREDITCARD_DEBT 열을 합산하여 새 열을 생성하는 Transformer 단계를 추가하십시오:

단계 섹션에서 변환기 단계를 캔버스로 드래그한 후, 이메일 기반 가입(Join_on_email) 노드와 이메일 기반 가입( Sequential_file_1 ) 노드 사이의 연결선에 노드를 드롭합니다.
변환기 노드를 두 번 클릭하여 설정을 편집하십시오.
출력 탭을 클릭하십시오.
1. 열 추가를 클릭하십시오.
2. 새 열을 보려면 열 목록에서 아래로 스크롤하세요.
3. TOTAL_DEBT 열의 이름을 지정하십시오.
4. 해당 행의 '파생' 열에 있는 편집 아이콘을 클릭하세요.
5. 도출 열의 계산기 아이콘을 클릭하여 표현식 빌더를 엽니다.
6. LOAN_AMOUNT을(를) 검색하고 열 이름을 두 번 클릭하여 표현식에 추가하십시오. 링크 번호가 열 이름에 추가됨을 유의하십시오.
7. 더하기 부호(+)를 입력하십시오.
8. 검색한 CREDITCARD_DEBT후, 해당 열 이름을 더블 클릭하여 표현식에 추가합니다. 링크 번호가 열 이름에 추가됨을 유의하십시오.
9. 최종 표현식이 Link_7.LOAN_AMOUNT + Link_7.CREDITCARD_DEBT인지 확인하십시오.
  
  참고: 링크 번호가 다를 수 있습니다.
10. 적용 및 리턴을 클릭하여 변환기 페이지로 돌아갑니다.
11. CREDIT_SCORE 열 이름에 키를 선택합니다.
무대 탭을 클릭합니다.
1. 고급 페이지를 선택합니다.
2. 실행 모드를 순차로 변경하십시오.
캔버스로 리턴하려면 저장 및 리턴을 클릭하십시오.

진행 상황을 확인하세요

다음 이미지는 트랜스포머 단계가 추가된 DataStage 플로우를 보여줍니다. 이제 각 지원자의 총 부채를 계산했으므로 신용 점수 범위에 따라 제공할 이자율 표를 추가해야 합니다.

작업 6: MongoDB 데이터베이스에서 이자율 데이터 추가하기

다음 단계에 따라 MongoDB 데이터베이스에 데이터 자산 커넥터를 추가하여 이자율을 흐름에 포함시키세요:

노드 팔레트에서 커넥터 섹션을 펼치십시오.
자산 브라우저 커넥터를 CREDIT_SCORE_1 노드 옆의 캔버스로 끌어 오십시오.
연결 > Data Fabric 평가판 - 몽고 DB > 문서 > DS_INTEREST_RATES를 선택하여 자산을 찾습니다.
미리보기 아이콘을 클릭하면 각 신용 점수 범위에 해당하는 금리를 미리 확인할 수 있습니다.

STARTING_LIMIT 및 ENDING_LIMIT 열의 값을 사용하여 신청자의 신용 점수에 기반한 적절한 이자율을 조회할 수 있습니다. ID 열이 필요하지 않으므로 다음 단계에서 해당 열을 삭제합니다.
추가 를 클릭하십시오.

진행 상황을 확인하세요

다음 이미지는 MongoDB 외부 소스에서 추가된 이자율 데이터 자산이 있는 DataStage 흐름을 보여줍니다. 이제 이자율 표를 추가했으므로 각 지원자에게 적합한 이자율을 조회할 수 있습니다.

작업 7: 지원자의 이자율을 조회하는 조회 단계 추가하기

각 지원자의 신용 점수를 기반으로 적절한 이자율을 조회할 수 있습니다. 다음 단계에 따라 조회 단계를 추가하고 각 이자율에 대한 신용 점수 한도의 시작 및 종료 범위를 지정합니다:

스테이지 섹션에서 조회 스테이지를 캔버스에 끌어다 놓고 Transformer_1 과 Sequential_file_1 노드에 놓습니다.
DS_INTEREST_RATES_1 커넥터를 Lookup_1 스테이지에 연결하십시오.
DS_INTEREST_RATES_1 노드를 두 번 클릭하여 설정을 편집하십시오.
출력 탭을 클릭하십시오.
1. 열 섹션을 펼치고 편집을 클릭하십시오.
2. _ID 열을 선택하십시오.
3. 삭제 아이콘을 클릭하여 _ID 열을 삭제하십시오.
4. 적용 및 리턴을 클릭하여 DS_INTEREST_RATES_1 노드 설정으로 돌아가십시오.
5. 저장을 클릭하여 DS_INTEREST_RATES_1 노드에 대한 변경 사항을 저장합니다.
Lookup_1 노드를 두 번 클릭하여 설정을 편집하십시오.
특성 섹션을 펼치십시오.
1. 열에 범위 적용 필드의 경우 CREDIT_SCORE를 선택하십시오. 참조 링크, 연산자 및 범위 열 필드가 표시됩니다.
2. 참조 링크의 경우 Link_9를 선택하십시오.
  
  참고: 링크 번호가 다를 수 있습니다.
3. 첫 번째 연산자에서 <=를 선택합니다.
4. 첫 번째 범위 열의 경우 ENDING_LIMIT를 선택하십시오.
5. 두 번째 연산자의 경우 >=를 선택합니다.
6. 두 번째 범위 열의 경우 STARTING_LIMIT를 선택하십시오.
출력 탭을 클릭하십시오.
1. 열 섹션을 펼치고 편집을 클릭하십시오.
2. 시작_한도 및 종료_한도 열을 선택합니다.
3. 이 불필요한 STARTING_LIMIT 및 ENDING_LIMIT 열을 삭제하려면 삭제 아이콘을 클릭하십시오.
4. 적용 및 리턴을 클릭하여 Lookup_1 노드 설정으로 돌아가십시오.
5. 저장을 클릭하여 Lookup_1 노드에 대한 변경 사항을 저장합니다.

진행 상황을 확인하세요

다음 이미지는 조회 단계가 추가된 DataStage 플로우를 보여줍니다. 이제 DataStage 흐름이 완료되었습니다. 플로우를 실행하기 전 마지막 작업은 출력 파일의 이름을 지정하는 것입니다.

작업 8: 순차 파일 노드를 편집하고 DataStage 흐름 실행하기

다음 단계에 따라 순차 파일 노드를 편집하여 프로젝트에서 최종 출력 파일을 데이터 자산으로 만든 다음 DataStage 플로우를 컴파일하고 실행합니다:

Sequential_file_1 노드를 두 번 클릭하여 설정을 편집하십시오.
입력 탭을 클릭하십시오.
특성 섹션을 펼치십시오.
대상 파일의 경우, 파일 이름에 MORTGAGE_APPLICANTS_INTEREST_RATES.CSV 을 복사하여 붙여넣습니다.
데이터 자산 작성을 선택하십시오.
첫 번째 줄은 열 이름 필드에서 참을 선택합니다.
저장 을 클릭하십시오.
실행을 클릭하면 DataStage 흐름이 컴파일되고 실행됩니다. 작업을 완료하는 데 약 1분 정도 걸립니다.
툴바에서 로그를 클릭하여 흐름의 진행 상황을 확인합니다. 실행 중에 경고가 표시되는 것은 정상이며 흐름이 성공적으로 실행되었음을 확인할 수 있습니다.

진행 상황을 확인하세요

다음 이미지는 DataStage 흐름이 성공적으로 실행되었음을 보여줍니다.

작업 9: DataStage 작업을 관찰하기 위한 알림 설정

DataStage 흐름을 실행한 후, 생성한 작업을 모니터링하기 위한 알림을 설정할 수 있습니다. DataStage 작업 상태를 확인하려면 데이터 통합 튜토리얼: 데이터 관찰을 참조하십시오.

정리(선택 사항)

데이터 통합 사용 사례의 튜토리얼을 다시 수강하려면 다음 아티팩트를 삭제하세요.

아티팩트	삭제하는 방법
데이터 통합 샘플 프로젝트	프로젝트 삭제

다음 단계

다른 튜토리얼을 사용해 보세요:
다른 데이터 통합 사용 사례 보기

데이터 통합 튜토리얼: 다음을 사용하여 배치 데이터 변환 DataStage

튜토리얼 미리보기

가입하기 IBM watsonx.data 통합

샘플 프로젝트 만들기

진행 상황을 확인하세요

진행 상황을 확인하세요

진행 상황을 확인하세요

진행 상황을 확인하세요

진행 상황을 확인하세요

진행 상황을 확인하세요

진행 상황을 확인하세요

진행 상황을 확인하세요

진행 상황을 확인하세요

정리(선택 사항)

다음 단계

자세히 보기