Définition des options d'optimisation pour les flux
Vous pouvez utiliser les paramètres d'optimisation pour optimiser la performance du flux. Les paramètres de performances et d'optimisation de IBM® SPSS Modeler Server (si ce dernier est utilisé) annulent les paramètres équivalents définis pour le client. Si ces paramètres sont désactivés sur le serveur, le client ne peut pas les activer. Par contre, s'ils sont activés sur le serveur, le client peut choisir de les désactiver.
Si la connectivité est activée, vous voyez l'option Activation du serveur dans l'onglet Etat de la licence.
Voir Connexion à pour plus d'informations.
Autoriser la réécriture des flux. Sélectionnez cette option pour activer la réécriture de flux dans IBM SPSS Modeler. Quatre types de réécriture sont disponibles et vous pouvez en sélectionner un ou plusieurs. La réécriture de flux réorganise les noeuds d'un flux en arrière-plan, sans pour autant modifier sa sémantique, afin qu'il soit exécuté de manière plus efficace.
- Optimiser la génération SQL. Cette option permet de réorganiser les noeuds du flux afin d'augmenter le nombre d'opérations pouvant être répercutées, à l'aide d'une génération SQL, pour y être exécutées dans la base de données. Lorsqu'il détecte un noeud qui ne peut pas être affiché sous forme de code SQL, le programme d'optimisation recherche plus en avant tout noeud qui peut l'être et qu'il est possible de ramener avant le noeud problématique sans risquer de modifier la sémantique du flux. Non seulement la base de données peut effectuer les opérations plus efficacement que IBM SPSS Modeler, mais de telles répercussions contribuent également à réduire le volume des données renvoyées à IBM SPSS Modeler pour être traitées. Vous réduisez ainsi le trafic sur le réseau et accélérez les opérations de flux. Veuillez noter que la case Générer SQL doit être sélectionnée pour que l'optimisation SQL ait le moindre effet.
- Optimiser l'expression CLEM Cette option permet à l'optimiseur de rechercher des expressions CLEM qui peuvent être prétraités avant l'exécution du flux, afin d'accroître la vitesse de traitement. Exemple simple : si vous avez une expression telle que log(salary), l'optimiseur calcule la valeur de salary et la transmet pour traitement. Cela peut être utilisé pour améliorer les répercussions et les performances IBM SPSS Modeler Server.
- Optimiser l'exécution de syntaxe. Cette méthode de réécriture de flux augmente l'efficacité des opérations qui incorporent plus d'un noeud contenant une syntaxe IBM SPSS Statistics. L'optimisation est réalisée en combinant des commandes de syntaxe dans une opération unique, au lieu d'exécuter chacune d'elle en tant qu'opération séparée.
- Optimiser les autres exécutions. Cette méthode de réécriture de flux augmente l'efficacité des opérations exécutées (c'est-à-dire des opérations dont l'exécution ne peut pas être déléguée à la base de données). L'optimisation est obtenue en réduisant dès que possible la quantité de données dans le flux. Tout en conservant l'intégrité des données, le flux est réécrit de façon à rapprocher les opérations de la source de données, ceci afin de réduire le volume des données en aval pour les opérations coûteuses, telles que les jointures.
Activer le traitement parallèle. Lorsque vous exécutez ce programme sur un ordinateur doté de plusieurs processeurs, cette option permet au système d'équilibrer la charge entre les différents processeurs et d'augmenter ainsi les performances. Le traitement parallèle peut s'avérer bénéfique en cas d'utilisation de plusieurs noeuds ou des noeuds individuels suivants : C5.0, Fusionner (par clé), Trier, Discrétiser (méthodes des rangs et des quantiles) et Agréger (à l'aide d'un ou de plusieurs champs-clés).
Générer SQL. Sélectionnez cette option pour activer la génération SQL et répercuter ainsi les opérations de flux dans la base de données à l'aide du code SQL pour générer les processus d'exécution ; cette opération peut améliorer les performances. Pour augmenter encore les performances, vous pouvez également sélectionner l'option Optimiser la génération SQL, afin d'accroître au maximum le nombre d'opérations répercutées dans la base de données. Si les opérations d'un noeud ont été retransmises à la base de données, le noeud apparaît en violet au cours de l'exécution du flux.
- Mise en cache de la base de données. Dans le cas des flux exécutés dans la base de données qui génèrent du code SQL, les données peuvent être mises en mémoire cache en milieu de flux dans une table temporaire de la base de données, plutôt que dans le système de fichiers. Vous pouvez combiner cela à la fonction d'optimisation SQL et accroître ainsi les performances de manière significative. Par exemple, la sortie d'un flux qui fusionne plusieurs tables afin de créer une vue d'exploration de données peut être mise en mémoire cache et réutilisée selon les besoins. Une fois la mise en mémoire cache de base de données activée, il vous suffit de cliquer à l'aide du bouton droit de la souris sur un noeud non terminal afin de mettre les données en mémoire cache à ce stade du flux ; le cache est automatiquement créé dans la base de données lors de l'exécution suivante du flux. Le code SQL peut ainsi être généré pour les noeuds en aval, ce qui améliore encore les performances. Vous pouvez également désactiver cette option si besoin est, par exemple lorsque des règles ou des permissions empêchent l'écriture des données dans la base de données. Si la mise en mémoire cache de base de données ou l'optimisation SQL n'est pas activée, le cache est écrit dans le système de fichiers. Pour plus d'informations, voir la rubrique Options de mise en cache des noeuds.
- Utiliser une conversion élargie. Cette option permet la conversion des données de chaînes à nombres ou de nombres à chaînes, si elles sont stockées dans un format approprié. Par exemple, si les données sont conservées dans la base de données en tant que chaîne, mais contiennent en fait un nombre important, les données peuvent être converties pour être utilisées au moment des répercussions.
Enregistrer par défaut. Les options spécifiées s'appliquent uniquement au flux en cours. Cliquez sur ce bouton pour définir ces options comme paramètre par défaut de tous les flux.