확장 출력 노드

확장 출력 노드를 사용하면 R, Python 또는 Spark용 Python 작성된 스크립트를 실행하여 출력을 생성할 수 있습니다.

캔버스에 노드를 추가한 후, 해당 노드를 더블클릭하여 속성 창을 엽니다.

구문 탭

구문 유형( R, Python 또는 Spark용Python)을 선택합니다. 그런 다음, 데이터 출력용 사용자 지정 스크립트를 입력하거나 붙여넣습니다. 구문이 준비되면 노드를 실행할 수 있습니다. R 구문에 사용할 수 있는 옵션은 다음과 같습니다:
  • 플래그 필드를 변환합니다. 플래그 필드가 어떻게 처리되는지를 지정합니다. 두 가지 옵션이 있습니다: 고려할 문자열, 두 배로 늘릴 정수와 실수, 논리값(참, 거짓 ). 논리값(참, 거짓)을 선택하면 플래그 필드의 원래 값이 손실됩니다. 예를 들어, 필드에 값이 MaleFemale 인 경우, 이 값들은 TrueFalse 로 변경됩니다.
  • 누락된 값을 R의 'not available' 값(NA)으로 변환합니다. 이 옵션을 선택하면 결측값이 R로 변환됩니다.NA값. 값NAR에서 결측값을 식별하는 데 사용됩니다. 사용하는 일부 R 함수에는 데이터가 포함될 때 함수가 작동하는 방식을 제어할 수 있는 인수가 있을 수 있습니다.NA. 예를 들어, 이 함수를 사용하면 다음을 포함하는 레코드를 자동으로 제외하도록 선택할 수 있습니다.NA. 이 옵션을 선택하지 않으면 누락된 값이 변경되지 않은 상태로 R에 전달되며 R 스크립트를 실행할 때 오류가 발생할 수 있습니다.
  • 날짜/시간 필드를 시간대에 대한 특수한 제어가 있는 R 클래스로 변환 선택하면, 날짜 또는 날짜/시간 형식의 변수가 R 날짜/시간 객체로 변환됩니다. 다음 옵션 중 하나를 선택해야 합니다
    • R POSIXct. 날짜 또는 날짜 시간 형식의 변수가 R로 변환됩니다.POSIXct객체.
    • R POSIXlt (목록). 날짜 또는 날짜 시간 형식의 변수는 R로 변환됩니다.POSIXlt객체.
    참고: POSIX 형식은 고급 옵션입니다. R 스크립트에서 날짜/시간 필드가 이러한 형식을 필요로 하는 방식으로 처리되도록 지정된 경우에만 이 옵션을 사용하십시오. POSIX 형식은 시간 형식을 가진 변수에 적용되지 않습니다.

콘솔 출력 탭

콘솔 출력 탭에는 R 스크립트 또는 R 시놉시스 스크립트( Python )가 실행될 때 수신되는 모든 출력이 포함됩니다(예를 들어, R 스크립트를 사용하는 경우, 시놉시스 탭의 R 시놉시스 필드에 있는 R 스크립트가 실행될 때 R 콘솔에서 수신되는 출력이 표시됨). 이 출력에는 R 또는 Python 스크립트가 실행될 때 발생하는 R 스크립트 또는 Python 스크립트 오류 메시지 또는 경고가 포함될 수 있습니다. 출력물은 주로 스크립트를 디버깅하는 데 사용될 수 있습니다. 콘솔 출력 탭 에는 R 구문 또는 Python 구문 필드의 스크립트도 포함되어 있습니다.

확장 프로그램 가져오기 스크립트가 실행될 때마다 콘솔 출력 탭의 내용이 R 또는 Python 콘솔에서 수신된 출력으로 덮어쓰게 됩니다. 출력물을 편집할 수 없습니다.

참고: 확장 출력 스크립트 실행으로 인해 발생하는 R 또는 Python 오류 메시지 또는 경고는 항상 콘솔 출력 탭에 표시됩니다.

통계적 검정

확장 출력 노드를 구성하여 데이터에 대한 통계적 검정을 실행할 수 있습니다. 다음 예시는 실행할 수 있는 테스트 중 일부입니다.

이러한 테스트 샘플을 보려면 샘플 스트림 extension-output-node-str.zip 을 다운로드하여 SPSS Modeler 에 가져올 수 있습니다. SPSS Modeler 스트림 가져오기에 대한 자세한 내용은 가져오기를 참조하십시오. 그런 다음 확장 출력 노드 속성을 열어 예제 구문을 확인하세요.

T-검정
설명

t-검정은 두 집단의 평균값 사이에 유의미한 차이가 있는지 여부를 판단합니다. 표본 크기가 작고 모집단의 표준편차가 알려지지 않은 경우 이 검정은 유용합니다.

예시 시나리오
한 제약 회사는 신약이 기존 치료법보다 혈압을 더 효과적으로 낮추는지 시험하고자 한다. 25명의 환자를 각 치료군에 무작위로 배정하고, 30일 후 혈압 강하 효과를 측정합니다. t-검정을 통해 집단 간 평균 감소량의 차이가 통계적으로 유의한지 여부를 판단할 수 있다.
Python 라이브러리와 R 함수
Python 도서관
  • scipy.stats.ttest_ind() - 독립 표본 t-검정 (동등한 분산 또는 불동등한 분산)
  • scipy.stats.ttest_rel() - 쌍을 이룬 표본 t-검정
  • scipy.stats.ttest_1samp() - 일원 t-검정
R 함수
  • t.test() - 모든 t-검정 유형에 대한 포괄적인 기능으로, 쌍을 이룬 검정, 일원검정 및 이원검정 옵션 제공
  • var.test() - 분산 동등성 검정 (선행 조건 확인)
F-검정 및 분산분석(ANOVA)
설명

F-검정은 두 개 이상의 집단 간 분산을 비교하는 데 사용됩니다. 이는 분산분석(ANOVA)의 기초를 이루며, t-검정 개념을 세 개 이상의 집단이 포함된 상황으로 확장합니다. F-검정은 집단 간 평균의 변동성이 집단 내 변동성보다 유의미하게 큰지 여부를 판단한다.

예시 시나리오

한 소매 체인점이 5개 매장 위치별로 평균 고객 만족도 점수에 유의미한 차이가 있는지 확인하고자 한다. 각 지점에서 50명의 고객으로부터 만족도 평가를 수집합니다. 일원 분산분석(One-way ANOVA)은 위치가 만족도에 유의미한 영향을 미치는지 검증할 것이다. 유의미한 경우, 사후 검정을 통해 서로 다른 특정 위치를 식별할 수 있을 것이다.

Python 라이브러리와 R 함수

Python 도서관:

  • scipy.stats.f_oneway() - 일원 분산 분석 F-검정
  • statsmodels.formula.api.ols() - 분산분석 모델을 위한 보통최소제곱법
  • statsmodels.stats.anova.anova_lm() - 분산분석표 생성
  • scipy.stats.levene() - 분산 동질성 검정

R 함수:

  • aov() - 분산 분석
  • anova() - 모델 객체에 대한 분산분석(ANOVA) 표
  • var.test() - 두 분산을 비교하기 위한 F-검정
  • TukeyHSD() - Tukey의 정직한 유의차 사후 검정
  • leveneTest() - 분산 동질성에 대한 레벤 검정 (car 패키지)
Z-검정
설명

Z-검정은 통계적 가설 검정이다. 표본과 모집단 매개변수 사이에 유의미한 차이가 있는지 판단하기 위해 표준 정규 분포(Z-분포)를 사용합니다. Z-검정은 모집단의 표준편차가 알려져 있거나 표본 크기가 충분히 커서 표본 분포가 대략 정규 분포를 따를 때 유용하다.

예시 시나리오

온라인 소매업체는 새로운 웹사이트 디자인이 전환율을 기존 평균인 3.5 %보다 높일 수 있는지 테스트하고자 합니다. 새로운 디자인을 일주일 동안 적용한 후, 70,000명의 방문자 중 2,450건의 전환이 발생했습니다. 비율에 대한 Z-검정은 관측된 전환율( 3.5 %)이 과거 전환율과 유의미하게 다른지 판단할 수 있습니다.

Python 라이브러리와 R 함수

Python 도서관:

  • statsmodels.stats.weightstats.ztest() - 평균에 대한 Z-검정
  • statsmodels.stats.proportion.proportions_ztest() - 비율에 대한 Z-검정
  • scipy.stats.norm.cdf() - Z-통계량으로부터 p-값을 계산한다

R 함수:

  • BSDA::z.test() - 평균에 대한 Z-검정 (BSDA 패키지 필요)
  • prop.test() - 비율 검정 (카이제곱 근사법을 사용하며, 대량 표본에 대한 Z-검정과 동등함)
  • 참고: 기본 R에는 Z-검정 기능이 포함되어 있지 않습니다. BSDA, TeachingDemos, 등의 패키지나 사용자 정의 함수가 필요합니다