Infrastructures

Data Challenge JFR 2019 : l’IA aide à détecter les nodules pulmonaires

Share this post:

IBM France est l’un des trois lauréats du Data Challenge 2019 organisé lors des Journées Francophones de Radiologie. L’équipe d’IBM a su exploiter l’intelligence artificielle afin de détecter les nodules présents sur les images de scanners du poumon.

Les Journées Francophones de Radiologie 2019 (JFR 2019) – la grand-messe de l’imagerie médicale – accueillaient pour la deuxième fois un forum dédié à l’intelligence artificielle ; et un concours, le Data Challenge, centré cette année sur le thème du radiologue augmenté. Objectif : aider les radiologues à faire de meilleurs diagnostics, en leur montrant ce qui leur a échappé ou en détectant des problèmes non recherchés initialement. Le tout au travers de l’utilisation de l’intelligence artificielle (IA).

 

Un concours basé sur des cas réels

Trois épreuves ont été organisées par la Société Française de Radiologie :

  • calcul de la surface des muscles pour la sarcopénie ;
  • prédiction du handicap des patients touchés par la sclérose en plaques ;
  • classification d’images de scanners du poumon suivant la taille des nodules.

C’est ce dernier défi qu’a relevé – et remporté ! – l’équipe Systems d’IBM France. Un domaine où l’apport de l’intelligence artificielle est indéniable et hors de toute polémique, la technologie se mettant ici incontestablement au service de l’humain.

Le prérequis imposé pour ce concours, mais aussi nécessaire à la réussite d’un projet d’intelligence artificielle, était de constituer une équipe comprenant plusieurs profils de compétences ;

  • des data scientists ;
  • des experts venant de sociétés d’imagerie ;
  • un ou plusieurs radiologues ;
  • des étudiants.

IBM Montpellier s’est chargé de fournir les data scientists et de trouver les étudiants. Les sociétés QuantaCell et DataValoris ont apporté leur savoir-faire en imagerie. Un radiologue issu du centre de cancérologie Jean Perrin (Membre de groupement privé UNICANCER) a complété cette équipe.

Les organisateurs du concours ont proposé trois jeux de données successifs comprenant des centaines de scanners annotés par des radiologues. Des données anonymisées livrées au format Dicom et faisant apparaitre des nodules de tailles diverses, avec une annotation différenciée pour ceux de moins de 100 mm3 et ceux dépassant ce volume. Chaque scanner correspond à 100-200 Mo de données et chaque dataset comprend environ 80 Go d’informations. Un défi en matière de capacité de traitement.

 

La victoire d’une équipe

Réussir un tel projet impose de travailler de concert, car la datascience est avant tout un sport d’équipe. Le data scientist seul ne peut en effet rien faire. Il lui faut les jeux de données et la compétence métier des radiologues, ainsi que le savoir-faire d’experts en imagerie. Le radiologue a également eu pour tâche de vérifier les jeux de données, d’analyser les annotations, puis de contrôler la qualité du travail fourni par l’IA.

La chaine de traitement s’est composée de plusieurs tâches clés :

  • le prétraitement des images 3D, l’extraction des annotations et le détourage du poumon ;
  • l’entrainement du modèle de réseau de neurones à la détection des nodules ;
  • l’apprentissage de la classification des nodules, basé sur les détections opérées par le réseau de neurones et les analyses des radiologues.

L’IA n’apprend qu’à travers les données. C’est pourquoi il est essentiel de passer beaucoup de temps à collecter, traiter et nettoyer les données. Ces dernières doivent ensuite être analysées, afin de détecter les biais et informations manquantes, qui pourraient induire l’IA en erreur. Ce travail en amont est fastidieux, mais crucial. C’est celui qui prendra le plus de temps aux data scientists et data stewards[1]. Il faut savoir se montrer prudent et méthodique, afin de livrer des données propres, sans biais, défauts ou manques.

Les deux premiers jeux de données étaient fournis avec les annotations de radiologues, afin d’aider les équipes à entrainer leurs IA. Le troisième, livré sans annotations, constituait l’épreuve de vérité pour le système mis en place. Avec un score approchant les 90 % de réussite, l’équipe IBM a remporté le challenge. Les 90 % prennent en compte à la fois la capacité à détecter les nodules, à les classer en taille et à éviter les faux positifs. Le système mis au point s’est donc montré très bon à détecter les cas pathologiques, mais aussi à ne pas les « surdétecter ». Ainsi, sur 300 cas proposés, un seul faux positif a été relevé.

 

Des serveurs à la hauteur de l’enjeu

La chaine de traitement mise en place par l’équipe IBM s’est montrée particulièrement performante. Et pourtant ce sont des technologies standards d’intelligence artificielle et Open Source qui ont été utilisées, avec des algorithmes développés à partir de librairies Python Open Source elles aussi.

L’autre secret de la réussite d’IBM réside dans le matériel utilisé. Des serveurs conçus pour faire de l’intelligence artificielle. L’entrainement du réseau de neurones employé n’aurait probablement pas pu être mené à son terme en utilisant les GPU présents sur des cartes graphiques traditionnelles. Une puissance adaptée a permis d’explorer divers algorithmes et d’évaluer des hypothèses impossibles à tester sur d’autres machines.

Le volume de données exploité est aussi un facteur clé, car son accroissement permet de couvrir un plus large ensemble de cas et de lisser les biais présents dans certaines données. Rappelons que l’IA n’apprend que des données. Plus elles sont présentes en nombre et en qualité, plus le système pourra progresser. La capacité de traitement est donc l’autre aspect sur lequel les serveurs IBM ont su faire la différence. Une fierté pour l’équipe investie dans ce projet, qui fait partie de la Business Unit IBM créant ces solutions d’infrastructure.

Ce concours a permis aux data scientists d’IBM d’explorer de nouveaux jeux de données et de démontrer leur capacité à servir le secteur médical. Ceci permet de donner de la visibilité à IBM et de lui ouvrir les portes du monde de l’imagerie médicale, avide d’intelligence artificielle. Ce projet démontre également notre capacité à travailler en équipe avec des acteurs du secteur. Il montre enfin l’importance de l’infrastructure informatique et son impact sur l’efficacité d’une IA. Ici aussi, l’infrastructure IT peut aider à faire la différence.

 

[1] Coordonnateur des données

Technical Sales Specialist - Linux Servers

More Infrastructures stories
10 décembre 2019

IBM Cloud Object Storage et les containers en environnement Kubernetes

Introduction : volumes persistants pour les containers en environnement Kubernetes La technologie de containers et leur orchestration par Kubernetes s’impose aujourd’hui comme un standard pour des plates-formes de développement agile d’applications « Cloud-ready », par exemple grâce à l’environnement Redhat OpenShift promu par IBM. Contrairement à un environnement traditionnel de machines virtuelles, les containers sont […]

Continue reading

4 décembre 2019

IBM orchestrateur de son écosystème

Nous sommes désormais les orchestrateurs de notre channel. Nos solutions se commercialisent dans une optique de cocréation de valeur avec nos partenaires. Les fortes mutations que connaît IBM se répercutent sur son écosystème de partenaires qui doit apprendre à se transformer en même temps que Big Blue. IBM est en phase de transformation depuis plusieurs […]

Continue reading

3 décembre 2019

Comment Lenovo booste l’efficacité de sa Supply Chain grâce à l’intelligence artificielle d’IBM Watson

Une Supply Chain parfaitement maîtrisée et optimisée est l’un des leviers essentiels à la réussite d’une entreprise. Lenovo, numéro un mondial du marché des PC, est bien placé pour en parler : grâce à IBM Sterling Supply Chain Insights, le fabricant chinois dispose d’une Supply Chain proactive, prédictive et innovante. Résultats ? Des décisions plus […]

Continue reading