IBM Netezza® Analytics 및 IBM Data Warehouse를 사용한 모델 작성

각각의 지원되는 알고리즘에는 해당 모델링 노드가 있습니다. 노드 팔레트의 데이터베이스 모델링 탭에서 IBM Data Warehouse 및 IBM Netezza 모델링 노드에 액세스할 수 있습니다.

데이터 고려사항

데이터 소스에 있는 필드는 모델링 노드에 따라 다양한 데이터 유형의 변수를 포함할 수 있습니다. IBM® SPSS® Modeler에서는 데이터 유형이 측정 수준으로 알려져 있습니다. 모델링 노드의 필드 탭에서는 아이콘을 사용하여 해당 입력 및 대상 필드에 대해 허용되는 측정 수준 유형을 표시합니다.

대상 필드 - 대상 필드는 예측하려는 값이 있는 필드입니다. 목표를 지정할 수 있는 경우 소스 데이터 필드 중 하나만 대상 필드로 선택할 수 있습니다.

레코드 ID 필드 - 각각의 케이스를 고유하게 식별하는 데 사용되는 필드를 지정합니다. 예를 들어, ID 필드(예: CustomerID)가 될 수 있습니다. 소스 데이터가 ID 필드를 포함하지 않는 경우에는 다음 프로시저에 표시된 대로 파생 노드를 사용하여 이 필드를 작성할 수 있습니다.

  1. 소스 노드를 선택하십시오.
  2. 노드 팔레트의 필드 조작 탭에서 파생 노드를 두 번 클릭하십시오.
  3. 캔버스에서 해당 아이콘을 두 번 클릭하여 파생 노드를 여십시오.
  4. 파생 필드 필드에 예를 들어, ID를 입력하십시오.
  5. 수식 필드에서 @INDEX를 입력한 후 확인을 클릭하십시오.
  6. 파생 노드를 나머지 스트림에 연결하십시오.
참고: NUMERIC(18,0) 데이터 유형을 사용하여 Netezza 데이터베이스에서 긴 숫자 데이터를 검색하는 경우 SPSS Modeler는 가져오는 동안 데이터를 반올림할 수 있습니다. 이 문제를 방지하기 위해 BIGINT 또는 NUMERIC(36,0) 데이터 유형을 사용하여 데이터를 저장하십시오.
참고: 사용 가능한 필드 유형에 제한이 있으므로 측정 수준이 유형 없음이고 역할이 레코드 ID인 필드는 Netezza In-Database 모델링 노드(예: K-평균)에 표시되지 않습니다.

널값 처리

입력 데이터에 널값이 포함되어 있는 경우 일부 Netezza 노드를 사용하면 오류 메시지가 표시되거나 장기 실행 스트림이 발생할 수 있으므로 널값이 포함된 레코드는 제거하는 것이 좋습니다. 다음의 방법을 사용하십시오.

  1. 선택 노드를 소스 노드에 연결하십시오.
  2. 선택 노드의 모드 옵션을 삭제로 설정하십시오.
  3. 조건 필드에서 다음을 입력하십시오.
    @NULL(field1) [or @NULL(field2)[... or @NULL(fieldN]])
    모든 입력 필드를 포함해야 합니다.
  4. 선택 노드를 나머지 스트림에 연결하십시오.

모델 출력

IBM Data Warehouse 또는 Netezza 모델링 노드가 포함된 스트림은 실행될 때마다 약간 다른 결과를 생성할 수 있습니다. 이는 모델 작성 전에 데이터를 임시 테이블로 읽어오므로 노드가 소스 데이터를 읽는 순서가 항상 동일하지 않기 때문입니다. 하지만 이 영향에 의해 생성된 차이는 무시할 수 있습니다.

일반 주석

  • IBM SPSS Collaboration and Deployment Services에서는 IBM Data Warehouse 또는 IBM Netezza 데이터베이스 모델링 노드가 포함된 스트림을 사용하여 스코어링 구성을 작성할 수 없습니다.
  • Data Warehouse 또는 Netezza 노드에서 작성된 모델에 대해서는 PMML 내보내기 또는 가져오기를 수행할 수 없습니다.