Fonctions d'agrégation (commande AGGREGATE)

Une variable agrégée est créée en appliquant une fonction d'agrégation à une variable du jeu de données actif. La variable du jeu de données actif est appelée variable source et la nouvelle variable agrégée est la variable cible .

Les fonctions d'agrégation doivent être spécifiées en dernier sur AGGREGATE.
La spécification la plus simple est une liste de variables cible, suivie d'un signe égal, d'un nom de fonction et d'une liste de variables source.
Le nombre de variables cible nommées doit correspondre au nombre de variables source.
Lorsque plusieurs variables d'agrégation sont définies simultanément, la première variable cible nommée est basée sur la première variable source nommée, la deuxième cible nommée est basée sur la deuxième source nommée, etc.
Seules les fonctions MAX, MIN, FIRSTet LAST copient les informations complètes du dictionnaire à partir de la variable source. Pour toutes les autres fonctions, les nouvelles variables n'ont pas de libellés et des formats d'impression et d'écriture de dictionnaire par défaut leur sont affectés. Le format par défaut d'une variable dépend de la fonction utilisée pour la créer (voir la liste des fonctions disponibles ci-dessous).
Vous pouvez fournir un libellé de variable pour une nouvelle variable en spécifiant le libellé entre guillemets simples ou doubles immédiatement après le nouveau nom de variable. Les libellés de valeur ne peuvent pas être affectés dans AGGREGATE.
Pour modifier les formats ou ajouter des libellés de valeur à un jeu de données actif créé par AGGREGATE, utilisez la commande PRINT FORMATS, WRITE FORMATS, FORMATSou VALUE LABELS . Si le fichier d'agrégation est écrit sur le disque, commencez par extraire le fichier à l'aide de GET, spécifiez les nouveaux libellés et formats, puis réenregistrez le fichier.

Voici la liste des fonctions disponibles:

SUM (liste de variables). Somme pour toutes les observations.

MEAN (liste de variables). Moyenne entre les observations:

MEDIAN (liste de variables). Médiane entre les observations.

SD (liste de variables). Ecart type entre les observations:

MAX (liste de variables). Valeur maximale pour toutes les observations. Les informations complètes du dictionnaire sont copiées des variables source vers les variables cible.

MIN (liste de variables). Valeur minimale entre les observations: Les informations complètes du dictionnaire sont copiées des variables source vers les variables cible.

PGT (liste de variables, valeur). Pourcentage d'observations supérieures à la valeur spécifiée.

PLT (liste de variables, valeur). Pourcentage d'observations inférieures à la valeur spécifiée.

PIN (varlist,value1,value2). Pourcentage d'observations comprises entre value1 et value2, inclus.

POUT (varlist,value1,value2). Pourcentage d'observations non compris entre value1 et value2. Les observations où la variable source est égale à value1 ou value2 ne sont pas comptées.

FGT (liste de variables, valeur). Fraction des observations supérieure à la valeur spécifiée.

FLT (liste de variables, valeur). Fraction des observations inférieure à la valeur spécifiée.

FIN (varlist,value1,value2). Fraction des observations comprise entre value1 et value2, inclus.

FOUT (varlist,value1,value2). Fraction des observations non comprise entre value1 et value2. Les observations où la variable source est égale à value1 ou value2 ne sont pas comptées.

CGT (liste de variables, valeur). Nombre d'observations supérieures à la valeur spécifiée.

CLT (liste de variables, valeur). Nombre d'observations inférieures à la valeur spécifiée.

CIN (varlist,value1,value2). Nombre d'observations comprises entre value1 et value2, inclus.

COUT (varlist,value1,value2). Nombre d'observations non comprises entre value1 et value2. Les observations où la variable source est égale à value1 ou value2 ne sont pas comptées.

N (liste de variables). Nombre pondéré d'observations dans le groupe de rupture.

NU (liste de variables). Nombre non pondéré d'observations dans le groupe de rupture.

NMISS (liste de variables). Nombre pondéré d'observations manquantes.

NUMISS (liste de variables). Nombre non pondéré d'observations manquantes.

FIRST (liste de variables). Première valeur observée non manquante dans le groupe de rupture. Les informations complètes du dictionnaire sont copiées des variables source vers les variables cible.

LAST (liste de variables). Dernière valeur observée non manquante dans le groupe de rupture. Les informations complètes du dictionnaire sont copiées des variables source vers les variables cible.

Les fonctions SUM, MEANet SD ne peuvent être appliquées qu'aux variables source numériques. Toutes les autres fonctions peuvent utiliser des variables de chaîne courtes et longues ainsi que des variables numériques.
Les fonctions N et NU ne requièrent pas d'arguments. Sans arguments, ils renvoient le nombre d'observations valides pondérées et non pondérées dans un groupe de rupture. Si vous fournissez une liste de variables, elles renvoient le nombre d'observations valides pondérées et non pondérées pour les variables spécifiées.
Pour plusieurs fonctions, l'argument inclut des valeurs ainsi qu'une désignation de variable source. Vous pouvez utiliser des blancs ou des virgules pour séparer les composants d'une liste d'arguments.
Pour le pourcentage, la fraction et le nombre compris dans ou en dehors d'une plage spécifiée, la première valeur spécifiée doit être inférieure ou égale à la seconde. Si ce n'est pas le cas, ils sont automatiquement inversés. Si les deux valeurs sont égales, PIN, FINet CIN calculent le pourcentage, la fraction ou l'effectif égal à l'argument. POUT, FOUTet COUT calculent le pourcentage, la fraction ou l'effectif non égal à l'argument.
Les valeurs de chaîne spécifiées dans un argument doivent être placées entre guillemets.

Utilisation de la fonction MEAN

AGGREGATE OUTFILE=’AGGEMP.SAV’ /BREAK=LOCATN
 /AVGSAL 'Average Salary' AVGRAISE = MEAN(SALARY RAISE).

AGGREGATE définit deux variables d'agrégation, AVGSAL et AVGRAISE.
AVGSAL est la moyenne de SALAIRE pour chaque groupe de rupture et AVGRAISE est la moyenne de RAISE.
Le libellé Salaire moyen est affecté à AVGSAL.

Utilisation de la fonction PLT

AGGREGATE OUTFILE=* /BREAK=DEPT
 /LOWVAC,LOWSICK = PLT (VACDAY SICKDAY,10).

AGGREGATE crée deux variables agrégées: LOWVAC et LOWSICK. LOWVAC est le pourcentage d'observations avec des valeurs inférieures à 10 pour VACDAYet LOWSICK est le pourcentage d'observations avec des valeurs inférieures à 10 pour SICKDAY.

Utilisation de la fonction FIN

AGGREGATE OUTFILE=’GROUPS.SAV’ /BREAK=OCCGROUP
 /COLLEGE = FIN(EDUC,13,16).

AGGREGATE crée la variable COLLEGE, qui correspond à la fraction des observations ayant entre 13 et 16 ans de formation (variable EDUC).

Utilisation de la fonction PIN

AGGREGATE OUTFILE=* /BREAK=CLASS
 /LOCAL = PIN(STATE,'IL','IO').

AGGREGATE crée la variable LOCAL, qui correspond au pourcentage d'observations dans chaque groupe de rupture dont le code d'état à deux lettres représente l'Illinois, l'Indiana ou l'Iowa. (L'abréviation de Indiana, IN, est entre IL et IO dans une séquence de tri alphabétique.)