Quantiles (effectifs égaux ou somme)
La méthode de regroupement par casiers de type quantile génère des champs nominaux qui peuvent être utilisés pour scinder des enregistrements analysés en groupes de type centiles (ou quartiles, déciles, etc.), de sorte que chaque groupe contienne le même nombre d'enregistrements, ou que la somme des valeurs de chaque groupe soit égale. Les enregistrements sont classés dans l'ordre croissant de la valeur du champ d'intervalle indiqué ; les enregistrements présentant les valeurs les moins élevées pour la variable d'intervalle sélectionnée se voient ainsi attribuer le rang 1, l'ensemble d'enregistrements suivant le rang 2, et ainsi de suite. Les valeurs de seuil de chaque intervalle sont générées automatiquement en fonction des données et de la méthode des quantiles utilisée.
Extension du nom du quantile. Spécifiez l'extension utilisée pour les champs générés à l'aide de centiles standard. L'extension par défaut est _TILE plus N, N étant le numéro du quantile. Vous pouvez également indiquer si l'extension doit être ajoutée au début (Préfixe) ou à la fin (Suffixe) du nom de champ. Par exemple, vous pouvez générer un nouveau champ intitulé revenu_TILE4.
Extension personnalisée du nombre de quantiles. Spécifiez l'extension utilisée pour un intervalle de type quantile personnalisé. La valeur par défaut est _TILEN. Dans ce cas, N n'est pas remplacé par le nombre personnalisé.
Les centiles disponibles sont les suivants :
- Quartile. Génère 4 casiers, chacun contenant 25% des observations.
- Quintile. Génère 5 casiers, chacun contenant 20 % des observations.
- Décile. Génère 10 casiers, chacun contenant 10 % des observations.
- Vingtile. Génère 20 casiers, chacun contenant 5% des observations.
- Percentile. Génère 100 intervalles, chacun contenant 1 % des observations.
- N personnalisé. Sélectionnez cette option pour indiquer le nombre d'intervalles. Par exemple, une valeur de 3 produirait 3 catégories (deux points de césure), chacune contenant 33,3 % des observations.
Si les données contiennent moins de valeurs discrètes que le nombre de quantiles indiqué, tous les quantiles ne sont pas utilisés. La nouvelle proportion peut alors refléter la proportion d'origine des données.
Méthode des quantiles. Indique la méthode utilisée pour affecter des enregistrements à des intervalles.
- Nombre d'enregistrements. Cherche à attribuer un nombre égal d'enregistrements à chaque intervalle.
- Somme des valeurs. Cherche à attribuer des enregistrements à des intervalles de sorte que la somme des valeurs de chaque intervalle soit égale. Lorsque vous vous intéressez aux efforts de ventes par exemple, cette méthode peut être utilisée pour attribuer des prospects à des groupes de type décile en fonction de la valeur par enregistrement (les prospects qui présentent les valeurs les plus élevées étant placés dans l'intervalle supérieur). Par exemple, une entreprise pharmaceutique peut classer les médecins en groupes de type décile en fonction du nombre d'ordonnances qu'ils rédigent. Alors que chaque décile contient environ le même nombre d'ordonnances, le nombre de personnes à l'origine de ces ordonnances est différent (les personnes qui écrivent le plus d'ordonnances étant regroupées dans le décile 10). Cette approche suppose que toutes les valeurs soient supérieures à zéro ; si tel n'est pas le cas, elle risque de renvoyer des résultats inattendus.
Ex aequo. On parle de condition ex aequo lorsque des valeurs de part et d'autre d'un point de césure sont identiques. Par exemple, si vous utilisez des déciles, et que plus de 10 % des enregistrements présentent la même valeur pour le champ d'intervalle, ces enregistrements ne peuvent pas tous tenir dans le même intervalle sans forcer le seuil d'une façon ou d'une autre. Les valeurs ex aequo peuvent être déplacées vers le haut dans l'intervalle suivant ou conservées dans l'intervalle actuel, à condition qu'elles soient résolues de sorte que tous les enregistrements comportant des valeurs identiques se trouvent dans le même intervalle, et ce, même si cela génère un nombre d'enregistrements par intervalle plus important que prévu. Il est, pour cela, également possible d'ajuster les seuils des intervalles suivants ; les valeurs d'un même ensemble de nombres sont ainsi affectées différemment en fonction de la méthode utilisée pour résoudre les valeurs ex aequo.
- Ajouter au suivant. Sélectionnez cette option pour déplacer les valeurs ex aequo vers l'intervalle supérieur suivant.
- Conserver dans l'élément actuel. Conserve les valeurs ex aequo dans l'intervalle (inférieur) actuel. Cette méthode peut générer un nombre inférieur d'intervalles.
- Attribuer de façon aléatoire. Sélectionnez cette option pour attribuer les valeurs ex æquo de façon aléatoire à un intervalle. Ceci permet de conserver le nombre d'enregistrements dans chaque intervalle de façon égale.
Exemple : Création de quantiles en fonction du nombre d'enregistrements
Le tableau ci-dessous illustre la façon dont les valeurs de champ simplifiées sont classées en quartiles lors de la création de quantiles en fonction du nombre d'enregistrements. Les résultats varient en fonction de l'option de valeurs ex aequo sélectionnée.
| Valeurs | Ajouter au suivant | Conserver dans l'élément actuel |
|---|---|---|
| 10 | 1 | 1 |
| 13 | 2 | 1 |
| 15 | 3 | 2 |
| 15 | 3 | 2 |
| 20 | 4 | 3 |
Le nombre d'éléments par intervalle est calculé de la façon suivante :
total number of value / number of tiles
Dans l'exemple simplifié ci-dessus, le nombre souhaité d'éléments par intervalle est de 1,25 (5 valeurs / 4 quartiles). La valeur 13 (valeur numéro 2) chevauche le seuil de comptage souhaité de 1,25 ; elle est par conséquent traitée différemment selon l'option d'ex aequo sélectionnée. En mode Ajouter au suivant, elle est ajoutée à l'intervalle 2. En mode Conserver dans l'élément actuel, elle reste dans l'intervalle 1, ce qui place l'intervalle des valeurs de l'intervalle 4 en dehors de l'intervalle des valeurs de données existantes. Par conséquent, seuls trois casier sont créés et les seuils de chaque casier sont ajustés en conséquence, comme illustré dans le tableau ci-après.
| Intervalle | Inférieur | Supérieur |
|---|---|---|
| 1 | >=10 | <15 |
| 2 | >=15 | <20 |
| 3 | >=20 | <=20 |
Remarque : L'activation du traitement parallèle peut augmenter la vitesse de création d'intervalles par quantiles.