개요 (MULTIPLE IMPUTATION 명령)

MULTIPLE IMPUTATION 프로시저는 결측 데이터 값의 다중 대치를 수행합니다. 결측값이 포함된 데이터 세트를 지정하면 결측값이 적절한 추정값으로 대체되는 데이터 세트에서 하나 이상의 데이터 세트를 출력합니다. 또한 이 프로시저에서 작업 데이터 세트의 결측값을 요약합니다.

MULTIPLE IMPUTATION 프로시저에서 생성된 데이터 세트는 지원되는 분석 프로시저를 사용하여 다양한 대치된 값 세트 사이의 고유 불확실성을 고려하는 최종 (결합된) 모수 추정값을 얻기 위해 분석할 수 있습니다.

옵션

변수. 대치할 변수를 지정하고 대치된 값 (예: 최소값 및 최대값) 에 대한 제약조건을 지정할 수 있습니다. 다른 변수의 결측값을 대치할 때 예측변수로 사용되는 변수를 지정할 수도 있습니다.

방법. 세 가지 대체 방법이 제공됩니다. 단조 방법은 누락된 단조 패턴을 갖는 데이터에 대한 효율적인 방법입니다. 완전 조건부 사양 (FCS) 은 데이터에 임의 (단조 또는 비단조) 결측 패턴이 있는 경우 적합한 반복 Markov Chain Monte Carlo (MCMC) 방법입니다. 기본 방법 (AUTO) 은 데이터를 스캔하여 최상의 대체 방법 (단조 또는 FCS) 을 판별합니다. 각 방법에 대해 대치 수를 제어할 수 있습니다.

출력. 기본적으로 이 프로시저는 값이 대치된 각 변수에 대한 대치 요약 및 대치 모델뿐만 아니라 데이터의 전체적인 누락 요약을 표시합니다. 결측값의 표 패턴뿐만 아니라 변수별 결측값 분석을 얻을 수 있습니다. 대치를 요청하면 대치된 값에 대한 기술통계를 얻을 수 있습니다.

기본 스펙

기본 지정 사항은 둘 이상의 변수와 대치된 데이터가 기록될 파일 지정 사항입니다.

  • 기본적으로 프로시저는 AUTO 방법을 사용하여 결측값을 대치합니다. 5개의 대치가 수행됩니다.
  • 기본 모델 유형을 대치할 때 변수의 측정 수준에 따라 다릅니다. 범주형 변수의 경우 로지스틱 회귀분석이 사용되고 척도변수의 경우 선형 회귀분석이 사용됩니다.
  • 이 프로시저는 데이터의 누락을 요약하는 출력을 생성하고 값이 대체되는 방법을 요약합니다.

작업

  • 결과 데이터 세트에는 원래 (결측되지 않은) 데이터와 하나 이상의 대치에 대한 데이터가 포함되어 있습니다. 각 대치에는 모든 관측 데이터 및 대치된 데이터 값이 포함됩니다. 원래 데이터와 대치된 데이터는 결과 데이터 세트에 누적됩니다. 특수 변수 Imputation_은 케이스가 원래 데이터 (Imputation_ = 0) 또는 대치된 데이터 (Imputation_ =1…m) 를 나타내는지 여부를 식별합니다.
  • 지원되는 분석 프로시저를 사용하여 여러 대치된 값 세트의 고유 불확실성을 고려하는 최종 (결합된) 모수 추정값을 얻기 위해 여러 대치된 데이터 세트를 분석할 수 있습니다. 통합 모수 추정값을 구하려면 Imputation_ 변수를 분할변수로 정의해야 합니다.
  • 이 프로시저는 글로벌 SET 명령을 통해 지정된 난수 생성기 및 시드를 따릅니다. 대치된 값을 재생성할 수 있도록 하려면 프로시저 호출에서 동일한 시드를 지정하십시오.
  • 프로시저는 WEIGHT 변수를 사용합니다. 결측값을 요약하고 대치 모형을 추정할 때 복제 가중치로 처리됩니다. 복제 가중치 값이 음수이거나 0인 케이스는 무시됩니다. 정수가 아닌 가중치는 가장 가까운 정수로 반올림됩니다. 이 프로시저는 분석 가중치도 허용합니다 ( ANALYSISWEIGHT 하위 명령 참조).
  • 이 프로시저는 SPLIT FILE을 준수합니다. 분할변수의 각 값 조합에 대해 별도의 결측값 분석 및 대치 세트가 생성됩니다. 대치가 요청되고 입력 데이터 세트에 8개의 분할변수가 있는 경우 오류가 발생합니다.
  • 이 프로시저는 FILTER 명령을 따릅니다. 필터링된 케이스는 프로시저에서 무시됩니다.
  • 프로시저는 문자열 변수를 허용하고 이를 범주형으로 처리합니다. 완전히 공백인 문자열 값은 올바른 값으로 처리됩니다. 즉, 대체되지 않습니다.
  • 이 프로시저는 사용자 결측값과 시스템 결측값을 모두 유효하지 않은 값으로 처리합니다. 값이 대치되고 둘 다 대치 모델에서 예측변수로 사용되는 변수의 유효하지 않은 값으로 처리되는 경우 두 가지 유형의 결측값이 모두 대체됩니다. 사용자 및 시스템 결측값도 누락 (결측값 개수 등) 분석에서 결측값으로 처리됩니다.
  • 각 분석 변수에 대한 결측값이 있는 케이스는 누락된 분석에 포함되지만 대치에서는 제외됩니다. 특히 이러한 케이스의 값은 대치되지 않으며 대치 모형을 작성할 때 제외됩니다. 완전히 결측된 케이스는 MAXPCTMISSING 키워드를 사용하여 변수가 대체 모델에서 필터링된 후에 결정됩니다.
  • 대치가 요청되고 입력 데이터 세트에 Imputation_변수가 포함되어 있는 경우 오류가 발생합니다.
  • 입력 및 반복 기록이 요청되고 입력 데이터 세트에 Iteration_ 또는 SummaryStatistic_ 라는 변수가 포함되어 있는 경우 오류가 발생합니다.
주: 측정 수준은 결과에 영향을 줄 수 있습니다. 변수 (필드) 에 알 수 없는 측정 수준이 있는 경우 데이터 전달을 수행하여 분석을 시작하기 전에 측정 수준을 판별합니다. 판별 기준에 대한 정보는 SET SCALEMIN을 참조하십시오.

구문 규칙

  • 둘 이상의 분석 변수가 필요합니다.
  • 대체가 꺼져 있지 않으면 (/IMPUTE METHOD=NONE) OUTFILE 하위 명령이 필요합니다. 다른 모든 하위 명령은 선택사항입니다.
  • 반복할 수 있는 CONSTRAINTS 명령을 제외하고 각 하위 명령의 단일 인스턴스만 허용됩니다.
  • 하위 명령 내에서 속성 또는 키워드가 두 번 이상 지정되면 오류가 발생합니다.
  • 구문 차트에 표시된 등호는 필수입니다.
  • 하위 명령 이름 및 키워드의 전체 철자를 입력해야 합니다.
  • 비어 있는 하위 명령은 허용되지 않습니다.