차등 개인정보 보호 사용

차등 개인정보 보호는 사용자 데이터가 개별 사용자로 추적되지 않도록 보호합니다. 관련된 매개 변수를 개인정보 보호 예산이라고 합니다. 이는 데이터 세트에서 하나의 항목을 추가하거나 제거할 때 발생하는 개인정보 손실을 측정하는 지표입니다.

모방 노드에서 차등 개인정보 보호 설정을 구성하려면 먼저 Synthetic Data Generator 플로우를 만들어야 합니다. 자세한 내용은 합성 데이터 흐름 만들기를 참조하세요.

  1. Synthetic Data Generator 그래픽 플로우 편집기에서 Synthetic Data Generator 플로우를 엽니다.

  2. 흐름에 아직 모방 노드가 없는 경우 노드 팔레트에서 모방 노드를 두 번 클릭하고 흐름에 연결하여 노드를 추가합니다.

  3. 모방 노드 위로 마우스를 가져간 다음 편집을 클릭합니다.

  4. 아래로 스크롤하여 개인정보를 선택합니다. 개인정보 섹션에서 차등 개인정보 보호를 사용 설정합니다.

    이렇게 하면 특정 개인과 관련된 민감한 데이터가 합성 출력물에 노출되지 않습니다. 개인정보 보호 예산(엡실론) 및 누출(델타) 매개변수를 조정하여 개인정보 보호 수준을 제어할 수 있습니다.

  5. 개인정보 보호 예산(엡실론) 을 조정합니다.

    개인정보 보호 예산을 통해 합성 출력에 필요한 개인정보 보호 수준을 조정할 수 있습니다. 값이 작을수록 정확도는 다소 떨어지지만, 개인정보 보호 수준은 높아집니다. 값이 클수록 정확도는 높아지지만, 개인정보 보호 수준은 낮아집니다.

  6. 개인정보 유출 확률(델타 )을 조정합니다.

    델타는 일반적으로 개인정보 유출이 발생할 수 있는 최대 허용 확률을 가리키는 용어입니다. 델타는 n = 표본 크기일 때 1/n*n 이하여야 한다. 델타 값이 작을수록 개인정보 보호 수준이 높아집니다.

  7. 무작위 시드를 생성합니다. 차등 프라이버시가 활성화된 경우, 이 난수 시드 값을 사용하면 차등 프라이버시가 적용된 합성 결과를 재현할 수 있습니다. 차등 프라이버시가 비활성화되면 생성 노드에서 무작위 시드 값을 조정할 수 있습니다.

  8. 열 경계를 수동으로 조정합니다(선택 사항). 열의 범위는 자동으로 설정되지만, 이 범위를 수동으로 조정하여 적합 분석에 사용되는 값의 범위를 제한할 수 있습니다. 숫자 열만 선택할 수 있습니다.

    참고: 흐름이 실행된 후에는 여기에서 열 경계를 설정하더라도 **Generate** 노드 결과에서 열 경계가 업데이트되지 않습니다. 이는 정상적인 동작입니다. 실제 데이터 열 경계보다 크거나 작은 값을 입력하면 차등 개인정보 보호 값이 새 값으로 조정됩니다. 그러나 최소/최대 열 범위는 실제 데이터에만 적용되며 생성된 합성 데이터에는 적용되지 않습니다. 이렇게 하면 **Generate** 노드에서 차등 개인정보 보호 결과가 지정된 최소/최대 열 바운드에 의해 방해받지 않는다는 이점이 있습니다. 최소값과 최대값을 수동으로 설정하면 개인정보가 유출될 가능성이 있습니다.
  9. 개인정보 옵션을 업데이트한 후 저장을 선택합니다.

개인정보 보호 옵션 저장

  1. 모두 실행을 선택합니다.
참고: 차등 개인정보 보호가 활성화된 합성적으로 생성된 데이터 집합을 기반으로 하는 매개변수는 원래 데이터 집합의 매개변수와 다를 수 있습니다.

자세히 알아보기

사용자 지정 데이터 스키마에서 합성 데이터 만들기