Агрегирование данных
Процедура Агрегировать данные позволяет преобразовать группы наблюдений в наблюдения, содержащие агрегированную информацию по соответствующей группе, и создавать новый - агрегированный - файл данных или создавать новые переменные в активном наборе данных, содержащие агрегированную информацию. Наблюдения агрегируются на основе значений нуля или большего числа группирующих переменных. Если группирующие переменные не заданы, то весь набор данных представляет собой единую группу для агрегирования.
- Если вы создаете новый агрегированный файл данных, то новый файл будет содержать по одному наблюдению на каждую группу, определяемую группирующей переменной. Например, если имеется одна группирующая переменная с двумя значениями, то новый файл данных будет содержать только два наблюдения. Если не заданы группирующие переменные, то новый файл данных будет содержать одно наблюдение.
- Если агрегированные переменные добавляются в активный набор данных, сам файл данных не агрегируется. Каждое наблюдение с одинаковыми значениями группирующих переменных получает одинаковые значения для новых агрегированных переменных. Например, если имеется единственная группирующая переменная gender, то все мужчины будут иметь одинаковое значение новой агрегированной переменной, представляющей средний возраст. Если не задано группирующих переменных, то все наблюдения будут получать одно и то же значение для новой агрегируемой переменной, представляющей средний возраст.
Группирующие переменные. Наблюдения разбиваются на группы, на основании значений этих переменных. Каждая уникальная комбинация значений группирующих переменных определяет группу. Если создается новый, агрегированный файл данных, все группирующие переменные сохраняются в новом файле под своими прежними именами и с информацией из словаря данных. Группирующая переменная, если задана, может быть числовой или текстовой.
Агрегируемые переменные. Для создания новых переменных используются исходные переменные с функциями агрегирования. За именем агрегированной переменной идет необязательная метка переменной, имя агрегирующей функции и имя исходной переменной в скобках.
Можно изменять имена агрегируемых переменных, заданные по умолчанию, добавлять описательные метки переменных, а также изменять функции, используемые для расчета агрегированных значений. Можно также создать переменную, содержащую число наблюдений, попавших в каждую группу при агрегировании.
Как агрегировать файл данных
- Выберите в меню:
- Можно задать группирующие переменные, определяющие, как наблюдения группируются при агрегировании данных. Если группирующие переменные не заданы, то весь набор данных представляет собой единую группу для агрегирования.
- Выберите одну или несколько агрегируемых переменных.
- Выберите агрегирующую функцию для каждой агрегируемой переменной.
Дополнительно вы можете заменить имена агрегируемых переменных по умолчанию на новые имена переменных, задать описательные метки переменных и создать переменную, которая будет содержать количества наблюдений в каждой группе.
Сохранение агрегированных результатов
Вы можете добавить агрегированные переменные в активный набор данных или создать новый, агрегированный файл данных.
- Добавить агрегированные переменные в активный набор данных. В активный набор данных добавляются новые переменные, основанные на функциях агрегирования. Сам файл данных не агрегируется. Каждое наблюдение с одинаковыми значениями группирующих переменных получает одинаковые значения для новых агрегированных переменных.
- Создать новый набор данных, содержащий только агрегированные переменные. Сохраняет агрегированные данные в новом наборе данных в текущем сеансе работы. Файл включает группирующие переменные, задающие агрегированные наблюдения, и все агрегированные переменные, заданные функциями агрегирования. Активный набор данных не меняется.
- Записать новый файл данных, содержащий только агрегированные переменные. Сохраняет агрегированные данные во внешнем файле данных. Файл включает группирующие переменные, задающие агрегированные наблюдения, и все агрегированные переменные, заданные функциями агрегирования. Активный набор данных не меняется.
Параметры сортировки для больших файлов данных
Для очень больших файлов данных более эффективным может быть агрегирование предварительно отсортированных данных.
Данные уже отсортированы по группирующим переменным. Если данные уже отсортированы по значениям группирующих переменных, то этот параметр позволяет процедуре выполняться быстрее и использовать меньше памяти. Пользуйтесь этим параметром с осторожностью.
- Данные должны быть отсортированы по значениям группирующих переменных в том же порядке, в котором группирующие переменные указаны в процедуре Агрегировать данные.
- Если вы добавляете переменные в активный набор данных, выбирайте этот параметр, только если данные отсортированы в порядке возрастания значений группирующих переменных.
Отсортировать данные перед агрегированием. В очень редких случаях с большими файлами данных вам, возможно, потребуется отсортировать файл данных по значениям группирующих переменных до агрегирования. Использовать этот параметр не рекомендуется, пока у вас не возникнут проблемы с памятью или быстродействием.