Поиск дубликатов наблюдений

Причины появления "дубликатов" наблюдений могут быть разными:

  • Ошибки ввода данных, когда одно и то же наблюдение случайно было введено более одного раза.
  • Один и тот же первичный идентификационный номер у нескольких наблюдений, но разные вторичные идентификационные номера, как например у наблюдений, относящиеся к членам одной семьи.
  • Несколько наблюдений относятся к одному объекту наблюдения, но значения переменных, кроме той, по которой этот объект был идентифицирован, отличаются, например, покупки, совершенные человеком или организацией в разные периоды времени.

Процедура Поиск дубликатов наблюдений позволяет выявить дубликаты почти во всех возможных случаях и предоставляет возможность управлять процессом автоматического разделения наблюдений на уникальные и дубликаты.

Чтобы выявить дубликаты наблюдений:

  1. Выберите в меню:

    Данные > Поиск дубликатов наблюдений...

  2. Выберите одну или несколько (ключевых) переменных, по которым будет вестись поиск дубликаты наблюдений.
  3. Выберите один или несколько параметров в группе Создать переменные.

    Дополнительно вы можете:

  4. Выбрать одну или несколько переменных для сортировки наблюдений внутри групп, задаваемых переменными, по которым ведется поиск дубликаты наблюдений. Порядок сортировки, заданный этими переменными, определяет "первое" и "последнее" наблюдение в каждой группе. Если сортировка дубликатов наблюдений не задана, используется порядок наблюдений в исходном файле.
  5. Дубликаты наблюдений можно отфильтровывать автоматически, чтобы не включать их в отчеты, диаграммы и расчеты статистик.

Поиск дубликатов наблюдений по. Наблюдения считаются дублирующимися, если их значения совпадают по всем выбранным переменным. Если вы хотите обнаружить только те наблюдения, которые совпадают на 100%, выберите все переменные.

Сортировать внутри групп дубликатов наблюдений по. Наблюдения автоматически сортируются по переменным, по которым ведется поиск дублирующихся наблюдений. Вы можете выбрать переменные для дополнительной сортировки. Эти переменные будут определять порядок наблюдений в каждой группе дубликатов наблюдений.

  • Для любой переменной сортировки можно выбрать сортировку в порядке возрастания или в порядке убывания.
  • Если выбрать несколько переменных сортировки, наблюдения сортируются по значениям каждой переменной внутри категорий, задаваемых значениями предшествующей переменной в списке сортирующих. Например, если выбрать дата в качестве первой переменной для сортировки и количество в качестве второй переменной сортировки, то наблюдения будут отсортированы по количеству внутри каждой даты.
  • Для изменения порядка переменных сортировки используйте кнопки в виде стрелок вверх и вниз справа от списка.
  • Порядок сортировки определяет "первое" и "последнее" наблюдения в каждой группе совпадающих наблюдений, что, в свою очередь, определяет значение необязательной индикаторной переменной уникальных наблюдений. Например, если вы хотите отфильтровать (удалить) все наблюдения в каждой группе, кроме последних, можно отсортировать наблюдения в порядке возрастания по переменной дата, в результате чего последние по дате наблюдения будут последними в группе.

Индикатор первичных наблюдений. Создается переменная, принимающая значение 1 для уникальных наблюдений и значение 0 для неуникальных наблюдений в каждой группе.

  • Уникальным может быть первое или последнее наблюдение в каждой группе дубликатов (совпадающих) наблюдений, которые определяются порядком сортировки внутри групп. Если не задать переменные для сортировки, порядок наблюдений в каждой группе определяется исходным порядком наблюдений в файле.
  • Переменную индикатора можно выбрать как переменную фильтра, чтобы исключить непервичные наблюдения из отчетов и результатов анализа, не удаляя эти наблюдения из файла данных.

Последовательность наблюдений-дубликатов в каждой группе. Создается переменная с последовательным номером от 1 до n для наблюдений в каждой группе дублирующихся наблюдений. Последовательность определяется текущим порядком наблюдений в каждой группе, который может соответствовать исходному порядку наблюдений в файле или задаваться переменными сортировки.

Перемещение наблюдений-дубликатов в начало файла. Файл данных сортируется таким образом, что все группы дублирующихся наблюдений оказываются в верхней части файла, что облегчает просмотр дублирующихся наблюдений в Редакторе данных.

Вывод частот для созданных переменных. Частотные таблицы с частотами для каждой созданной переменной. Например, для переменной-индикатора уникальных наблюдений в таблице приводится число наблюдений, имеющих значение 0 в этой переменной, что показывает количество дубликатов, и число наблюдений, имеющих значение 1 в этой переменной, что соответствует количеству уникальных наблюдений.

Пропущенные значения

Наблюдения, содержащие системное значение отсутствия для числовой переменной, по которой ведется поиск дубликатов наблюдений, рассматриваются как дубликаты по этой переменной. В текстовых переменных наблюдения, в которых пропущены значения переменной, по которой ведется поиск дубликатов наблюдений, рассматриваются как дубликаты по этой переменной.

Отфильтрованные наблюдения

Условия фильтра игнорируются. Отфильтрованные наблюдения включаются в оценку наблюдений-дубликатов. Если нужно исключить наблюдения, определите правила отбора при помощи пункта меню Данные > Выбрать наблюдения и выберите опцию Удалить невыбранные наблюдения.