Définition des options d'optimisation pour les flux

Vous pouvez utiliser les paramètres d'optimisation pour optimiser la performance du flux. Les paramètres de performances et d'optimisation de IBM® SPSS Modeler Server (si ce dernier est utilisé) annulent les paramètres équivalents définis pour le client. Si ces paramètres sont désactivés sur le serveur, le client ne peut pas les activer. Par contre, s'ils sont activés sur le serveur, le client peut choisir de les désactiver.

Remarque : La modélisation de base de données et l'optimisation SQL requièrent l'activation de la connectivité à IBM SPSS Modeler Server sur l'ordinateur IBM SPSS Modeler. Avec ce paramètre activé, vous pouvez accéder aux algorithmes de la base de données, effectuer le push back de SQL directement depuis IBM SPSS Modeler et accéder à IBM SPSS Modeler Server. Pour vérifier le statut actuel de la licence, choisissez ce qui suit dans le menu IBM SPSS Modeler.

Aide > A propos de > Informations supplémentaires

Si la connectivité est activée, vous voyez l'option Activation du serveur dans l'onglet Etat de la licence.

Voir Connexion à pour plus d'informations.

Remarque : La prise en charge des conversions et de l'optimisation SQL dépend du type de base de données utilisé. Pour obtenir les informations les plus récentes sur les bases de données et pilotes ODBC pris en charge et testés pour une utilisation avec IBM SPSS Modeler, consultez le site Web de support technique de l'entreprise à l'adresse http://www.ibm.com/support.

Autoriser la réécriture des flux. Sélectionnez cette option pour activer la réécriture de flux dans IBM SPSS Modeler. Quatre types de réécriture sont disponibles et vous pouvez en sélectionner un ou plusieurs. La réécriture de flux réorganise les noeuds d'un flux en arrière-plan, sans pour autant modifier sa sémantique, afin qu'il soit exécuté de manière plus efficace.

Optimiser la génération SQL. Cette option permet de réorganiser les noeuds du flux afin d'augmenter le nombre d'opérations pouvant être répercutées, à l'aide d'une génération SQL, pour y être exécutées dans la base de données. Lorsqu'il détecte un noeud qui ne peut pas être affiché sous forme de code SQL, le programme d'optimisation recherche plus en avant tout noeud qui peut l'être et qu'il est possible de ramener avant le noeud problématique sans risquer de modifier la sémantique du flux. Non seulement la base de données peut effectuer les opérations plus efficacement que IBM SPSS Modeler, mais de telles répercussions contribuent également à réduire le volume des données renvoyées à IBM SPSS Modeler pour être traitées. Vous réduisez ainsi le trafic sur le réseau et accélérez les opérations de flux. Veuillez noter que la case Générer SQL doit être sélectionnée pour que l'optimisation SQL ait le moindre effet.
Optimiser l'expression CLEM Cette option permet à l'optimiseur de rechercher des expressions CLEM qui peuvent être prétraités avant l'exécution du flux, afin d'accroître la vitesse de traitement. Exemple simple : si vous avez une expression telle que log(salary), l'optimiseur calcule la valeur de salary et la transmet pour traitement. Cela peut être utilisé pour améliorer les répercussions et les performances IBM SPSS Modeler Server.
Optimiser l'exécution de syntaxe. Cette méthode de réécriture de flux augmente l'efficacité des opérations qui incorporent plus d'un noeud contenant une syntaxe IBM SPSS Statistics. L'optimisation est réalisée en combinant des commandes de syntaxe dans une opération unique, au lieu d'exécuter chacune d'elle en tant qu'opération séparée.
Optimiser les autres exécutions. Cette méthode de réécriture de flux augmente l'efficacité des opérations exécutées (c'est-à-dire des opérations dont l'exécution ne peut pas être déléguée à la base de données). L'optimisation est obtenue en réduisant dès que possible la quantité de données dans le flux. Tout en conservant l'intégrité des données, le flux est réécrit de façon à rapprocher les opérations de la source de données, ceci afin de réduire le volume des données en aval pour les opérations coûteuses, telles que les jointures.

Activer le traitement parallèle. Lorsque vous exécutez ce programme sur un ordinateur doté de plusieurs processeurs, cette option permet au système d'équilibrer la charge entre les différents processeurs et d'augmenter ainsi les performances. Le traitement parallèle peut s'avérer bénéfique en cas d'utilisation de plusieurs noeuds ou des noeuds individuels suivants : C5.0, Fusionner (par clé), Trier, Discrétiser (méthodes des rangs et des quantiles) et Agréger (à l'aide d'un ou de plusieurs champs-clés).

Générer SQL. Sélectionnez cette option pour activer la génération SQL et répercuter ainsi les opérations de flux dans la base de données à l'aide du code SQL pour générer les processus d'exécution ; cette opération peut améliorer les performances. Pour augmenter encore les performances, vous pouvez également sélectionner l'option Optimiser la génération SQL, afin d'accroître au maximum le nombre d'opérations répercutées dans la base de données. Si les opérations d'un noeud ont été retransmises à la base de données, le noeud apparaît en violet au cours de l'exécution du flux.

Mise en cache de la base de données. Dans le cas des flux exécutés dans la base de données qui génèrent du code SQL, les données peuvent être mises en mémoire cache en milieu de flux dans une table temporaire de la base de données, plutôt que dans le système de fichiers. Vous pouvez combiner cela à la fonction d'optimisation SQL et accroître ainsi les performances de manière significative. Par exemple, la sortie d'un flux qui fusionne plusieurs tables afin de créer une vue d'exploration de données peut être mise en mémoire cache et réutilisée selon les besoins. Une fois la mise en mémoire cache de base de données activée, il vous suffit de cliquer à l'aide du bouton droit de la souris sur un noeud non terminal afin de mettre les données en mémoire cache à ce stade du flux ; le cache est automatiquement créé dans la base de données lors de l'exécution suivante du flux. Le code SQL peut ainsi être généré pour les noeuds en aval, ce qui améliore encore les performances. Vous pouvez également désactiver cette option si besoin est, par exemple lorsque des règles ou des permissions empêchent l'écriture des données dans la base de données. Si la mise en mémoire cache de base de données ou l'optimisation SQL n'est pas activée, le cache est écrit dans le système de fichiers. Pour plus d'informations, voir la rubrique Options de mise en cache des noeuds.
Utiliser une conversion élargie. Cette option permet la conversion des données de chaînes à nombres ou de nombres à chaînes, si elles sont stockées dans un format approprié. Par exemple, si les données sont conservées dans la base de données en tant que chaîne, mais contiennent en fait un nombre important, les données peuvent être converties pour être utilisées au moment des répercussions.

Remarque : En raison de différences d'implémentation SQL mineures, les flux exécutés dans une base de données peuvent renvoyer des résultats légèrement différents de ceux renvoyés lors de leur exécution dans IBM SPSS Modeler. Pour ces mêmes raisons, ces différences peuvent également varier en fonction du fournisseur de base de données.

Enregistrer par défaut. Les options spécifiées s'appliquent uniquement au flux en cours. Cliquez sur ce bouton pour définir ces options comme paramètre par défaut de tous les flux.