AutoML
environnement de cloud
Qu'est-ce qu'AutoML ?

Découvrez comment AutoML peut vous aider à générer des solutions d'IA reproductibles et explicables.

L'apprentissage automatique automatisé (AutoML)est devenu un sujet tendance dans la recherche sur l'intelligence artificielle (IA) industrielle et académique ces dernières années. L'AutoML s'avère prometteur dans la fourniture de solutions pour l'IA dans les industries réglementées pour obtenir des résultats reproductibles et explicables. L'AutoML permet un plus grand accès au développement de l'IA pour ceux sans les connaissances théoriques actuellement nécessaires pour jouer un rôle dans la science des données

Chaque étape du pipeline de science des données prototypique actuel, notamment le prétraitement des données, l'ingénierie des fonctions et l'optimisation d'hyperparamètres, doit être effectuée manuellement par des spécialistes de l'apprentissage automatique. Par comparaison, l'adoption d'AutoML permet un processus de développement plus simple par lequel quelques lignes de code peuvent générer le code nécessaire pour commencer à développer un modèle d'apprentissage automatique. 

On peut considérer l'AutoML, indépendamment du fait qu'il génère des classificateurs ou des régressions d'entraînement, comme un concept de recherche généralisée, avec des algorithmes de recherche spécialisés pour trouver les solutions optimales pour chaque composants du pipeline d'apprentissage automatique. Dans la génération d'un système qui permet l'automatisation de seulement trois éléments clés d'automatisation, d'ingénierie des fonctions, d'optimisation d'hyperparamètres et de recherche d'architecture neuronale, l'AutoML promet un avenir dans lequel l'apprentissage automatique démocratisé est une réalité. 

Produits à la une

Watson Studio


Types d'AutoML

Dans un pipeline de science des données, une équipe de science des données doit suivre de nombreuses étapes pour générer un modèle prédictif. Même les équipes expérimentées de scientifiques des données et les ingénieurs d'apprentissage automatique peuvent bénéficier de la vitesse et de la transparence accrues offertes par AutoML. Un spécialiste des données doit débuter avec une hypothèse, regrouper les fichiers corrects, essayer une visualisation des données, concevoir des fonctionnalités supplémentaires pour exploiter tous les signaux disponibles, entraîner un modèle avec des hyperparamètres (le lien réside en dehors d'IBM), et pour l'apprentissage en profondeur de pointe, il doit concevoir l'architecture optimale pour un réseau neuronal profond, si possible sur une unité de traitement graphique s'il en dispose d'une.

 

Ingénierie des fonctions automatisée


Une fonction de données fait partie des données entrées dans un modèle d'apprentissage automatique, et l'ingénierie des fonctions se réfère au processus de transformation dans lequel le scientifique des données obtient de nouvelles informations des données existantes. L'ingénierie des fonctions est l'un des processus clé à valeur ajoutée dans le flux d'apprentissage automatique, et les bonnes fonctions sont la différence entre un modèle avec des performances acceptables et un modèle très performant. Ces transformations mathématiques des données brutes sont lues dans le modèle et constituent le cœur du processus d'apprentissage automatique. L'ingénierie des fonctions automatisée (PDF 1,7 Mo) (AFE) (le lien réside en dehors d'IBM) est le processus d'exploration de l'espace des combinaisons viables de fonctions dans un mode mécanique, plutôt que manuel.

L'ingénierie des fonctions manuelle est une alchimie moderne qui coûte cher en termes de temps : la génération d'une seule fonction peut prendre des heures, et le nombre de fonctions requises pour un score de précision minimum, sans parler de la référence d'exactitude au niveau production, peut se chiffrer en centaines. En automatisant l'exploration d'un espace de fonctions, AutoML réduit le temps qu'une équipe de science des données passe dans cette phase de jours à minutes.

La réduction des heures d'intervention manuelle par un spécialiste des données n'est pas le seul bénéfice pour l'ingénierie des fonctions. Les caractéristiques générées sont souvent clairement interprétables. Dans des secteurs strictement réglementés comme la santé ou la finance, l'explicabilité (le lien réside en dehors d'IBM) est importante car elle supprime les obstacles à l'adoption de l'intelligence artificielle via l'interprétabilité. De plus, un spécialiste ou un analyste des données bénéficie de la clarté de ces fonctions, car elles rendent les modèles de haute qualité plus convaincants et exploitables. Les fonctions générées de manière automatisée ont également le potentiel de trouver de nouveaux indicateurs de performance clés pour qu'une organisation utilise pour la surveillance et les actions. Une fois qu'un spécialiste des données a terminé l'ingénierie des fonctions, il doit optimiser ses modèles avec une sélection des fonctions stratégiques.

 

Optimisation automatisée des hyperparamètres


Les hyperparamètres font partie des algorithmes d'apprentissage automatique mieux compris par analogie comme des leviers pour affiner les performances du modèle, bien que des ajustements incrémentiels aient souvent un impact énorme. Dans la modélisation de la science des données à petite échelle, les hyperparamètres peuvent facilement être définis à la main et optimisés par essais et erreurs.

Pour les applications d'apprentissage en profondeur, le nombre d'hyperparamètres croît de façon exponentielle, ce qui place leur optimisation au-delà des capacités de ce qu'une équipe de science des données peut accomplir manuellement et en temps opportun. L'optimisation d'hyperparamètres automatisée (HPO) (le lien réside en dehors d'IBM) soulage les équipes de la responsabilité soutenue d'exploration et d'optimisation au sein de tout l'espace d'événements pour les hyperparamètres et permet plutôt aux équipes d'itérer et d'expérimenter des fonctions et des modèles.

Un autre point fort de l'automatisation du processus d'apprentissage automatique est que les scientifiques des données peuvent désormais se concentrer sur le pourquoi de la création d'un modèle plutôt que sur le comment.Compte tenu du nombre extrêmement important de données disponibles pour de nombreuses entreprises et du nombre énorme de questions trouvant réponse avec ces données, une équipe d'analyse doit faire attention aux aspects du modèle devant être optimisés, notamment le problème classique des faux négatifs dans les tests médicaux.

Recherche d'architecture neuronale (NAS)


Le processus le plus complexe et chronophage de l'apprentissage en profondeur est la création d'une architecture neuronale. Les équipes de science des données passent énormément de temps à sélectionner les couches appropriées et les taux d'apprentissage qui en fin de compte ne sont destinés qu'aux pondérations dans le modèle, comme dans de nombreux modèles de langage. La recherche d'architecture neuronale (NAS) (le lien réside en dehors d'IBM) a été décrite comme « utilisant des réseaux neuronaux pour concevoir des réseaux neuronaux » et est l'un des domaines les plus évidents de l'apprentissage automatique à bénéficier de l'automatisation.

Les recherches NAS commencent par un choix d'architectures à essayer. Le résultat du NAS est déterminé par la mesure par rapport à laquelle chaque architecture est jugée. Il existe plusieurs algorithmes communs à utiliser dans une recherche d'architecture neuronale. Si le nombre potentiel d'architectures est faible, des choix de test peuvent être faits au hasard. Les approches par gradient, par lesquelles l'espace de recherche discret est transformé en une représentation continue, se sont avérées très efficaces. Les équipes de scientifiques de données peuvent également essayer des algorithmes évolutifs dans lesquels les architectures sont évaluées au hasard, et les changements sont appliqués lentement, propageant les architectures enfants qui réussissent le mieux tout en élaguant celles qui échouent.

Les recherches d'architecture neuronale sont l'un des éléments clés d'AutoML qui promettent de démocratiser l'intelligence artificielle. Mais ces recherches s'accompagnent souvent d'une très haute empreinte carbone. Un examen de ces compromis n'a pas encore été fait, et l'optimisation du coût écologique est un domaine de recherche continu dans les approches NAS.

Liens connexes

Science des données

Apprentissage automatique

AutoAI


Stratégies d'utilisation d'AutoML

L'apprentissage automatique automatisé semble être la panacée du solutionnisme technique qu'une organisation peut utiliser pour remplacer les scientifiques des données coûteux, mais en réalité, son utilisation nécessite des stratégies intelligentes pour une organisation. Les scientifiques des données remplissent des rôles essentiels pour concevoir des expériences, convertir des résultats en résultats commerciaux et gérer le cycle de vie complet de leurs modèles d'apprentissage automatique. Alors, comment les équipes transversales peuvent-elles utiliser AutoML pour optimiser leur utilisation du temps et raccourcir le temps pour tirer de la valeur de leurs modèles ?

Le flux optimal pour inclure les API d'AutoML est celui qui l'utilise pour paralléliser des charges de travail et raccourcir les temps consacrés aux tâches manuelles laborieuses. Au lieu de passer des jours sur le réglage d'hyperparamètres, un spécialiste des données pourrait à la place automatiser ce processus sur plusieurs types de modèles simultanément, puis par la suite tester ce qui était le plus performant.  

De plus, il existe des fonctionnalités AutoML qui permettent aux membres de l'équipe avec différents niveaux de compétence de contribuer désormais au pipeline de science des données. Un analyste de données sans compétences Python pourrait optimiser un kit d'outils, tel que AutoAI sur Watson Studio, pour entraîner un modèle prédictif à partir des données qu'il peut extraire des leurs via une requête. À l'aide d'AuotML, un analyste de données peut désormais prétraiter les données, générer un pipeline d'apprentissage automatique et produire un modèle entraîné qu'il peut utiliser pour valider ses propres hypothèses sans nécessiter l'attention de toute l'équipe de science des données.


AutoML et IBM AutoAI

Les chercheurs et développeurs IBM contribuent à la croissance et au développement d'AutoML. Le développement continu de produits avec AutoAI sur IBM Watson et le travail des chercheurs IBM sur Lale (le lien réside en dehors d'IBM), une bibliothèque automatisée de science des données à code source ouvert, ne sont que quelques méthodes qu'IBM aide pour créer la prochaine génération d'approches de l'IA. Bien que Lale soit un projet en code source ouvert, il est en fait la base pour de nombreuses capacités d'AutoAI. 

Pour les équipes de science des données qui utilisent Python comme base de leur pile d'apprentissage automatique, Lale offre une bibliothèque semi-automatisée qui s'intègre en toute transparence dans les pipelines scikit-learn (le lien réside en dehors d'IBM), différents d'auto-sklearn (le lien réside en dehors d'IBM), ou une bibliothèque telle que TPOT (le lien réside en dehors d'IBM). Lale va au-delà de scikit-learn avec l'automatisation, les contrôles d'exactitude et l'interopérabilité. Bien que basé sur le paradigme scikit-learn, il possède un nombre croissant de transformateurs et d'opérateurs d'autres bibliothèques Python et de bibliothèques dans des langages tels que Java et R. 

AutoAI fournit tous les éléments de l'apprentissage automatique décrits ci-dessus et bien plus encore. Les capacités actuelles d'AutoML automatisent une petite partie des charges de travail du scientifique des données et de l'ingénieur en apprentissage automatique. Watson Studio et AutoAI permettent à l'équipe de science des données d'automatiser rapidement au sein de tout le cycle de vie IA/ML et d'expérimenter afin de résoudre les obstacles commerciaux. Les équipes peuvent raccourcir leur temps de mise sur le marché grâce à leurs capacités prédictives en commençant par un ensemble de prototypes pour les modèles d'apprentissage automatique. AutoAI dans Watson Studio simplifie l'ingénierie des fonctions, l'optimisation d'hyperparamètres et la sélection de modèles d'apprentissage automatique. Les équipes de scientifiques des données et d'analystes des données peuvent évaluer leurs hypothèses rapidement, et lorsqu'elles ont certifié la validité de leurs modèles, elles peuvent déjà les avoir déployés pour consommation dans des contextes d'assurance de la qualité et de production. 

Si vous ou votre équipe voulez essayer AutoML pour les pratiques de science des données avancées, nous pouvons établir un partenariat avec vous reposant sur vos initiatives de génération de nouveaux modèles. Les organisations ont prouvé la valeur du prototypage rapide d'entraînement, de sélection et de déploiement de modèle. Si vous venez de démarrer, pensez à quelques tutoriels et cas d'utilisation sur IBM Developer

Inscrivez-vous pour un compte IBM Cloud gratuit dans lequel vous pouvez essayer le prototypage rapide avec AutoAI dans Watson Studio avec un plan Lite


Solutions connexes

AutoAI

AutoAI est une variation de l'apprentissage automatique automatisé (AutoML). Il étend l'automatisation de la génération de modèle à l'ensemble du cycle de vie d'un modèle d'apprentissage automatique.