Infrastructures

Data Challenge JFR 2019 : l’IA aide à détecter les nodules pulmonaires

Share this post:

IBM France est l’un des trois lauréats du Data Challenge 2019 organisé lors des Journées Francophones de Radiologie. L’équipe d’IBM a su exploiter l’intelligence artificielle afin de détecter les nodules présents sur les images de scanners du poumon.

Les Journées Francophones de Radiologie 2019 (JFR 2019) – la grand-messe de l’imagerie médicale – accueillaient pour la deuxième fois un forum dédié à l’intelligence artificielle ; et un concours, le Data Challenge, centré cette année sur le thème du radiologue augmenté. Objectif : aider les radiologues à faire de meilleurs diagnostics, en leur montrant ce qui leur a échappé ou en détectant des problèmes non recherchés initialement. Le tout au travers de l’utilisation de l’intelligence artificielle (IA).

 

Un concours basé sur des cas réels

Trois épreuves ont été organisées par la Société Française de Radiologie :

  • calcul de la surface des muscles pour la sarcopénie ;
  • prédiction du handicap des patients touchés par la sclérose en plaques ;
  • classification d’images de scanners du poumon suivant la taille des nodules.

C’est ce dernier défi qu’a relevé – et remporté ! – l’équipe Systems d’IBM France. Un domaine où l’apport de l’intelligence artificielle est indéniable et hors de toute polémique, la technologie se mettant ici incontestablement au service de l’humain.

Le prérequis imposé pour ce concours, mais aussi nécessaire à la réussite d’un projet d’intelligence artificielle, était de constituer une équipe comprenant plusieurs profils de compétences ;

  • des data scientists ;
  • des experts venant de sociétés d’imagerie ;
  • un ou plusieurs radiologues ;
  • des étudiants.

IBM Montpellier s’est chargé de fournir les data scientists et de trouver les étudiants. Les sociétés QuantaCell et DataValoris ont apporté leur savoir-faire en imagerie. Un radiologue issu du centre de cancérologie Jean Perrin (Membre de groupement privé UNICANCER) a complété cette équipe.

Les organisateurs du concours ont proposé trois jeux de données successifs comprenant des centaines de scanners annotés par des radiologues. Des données anonymisées livrées au format Dicom et faisant apparaitre des nodules de tailles diverses, avec une annotation différenciée pour ceux de moins de 100 mm3 et ceux dépassant ce volume. Chaque scanner correspond à 100-200 Mo de données et chaque dataset comprend environ 80 Go d’informations. Un défi en matière de capacité de traitement.

 

La victoire d’une équipe

Réussir un tel projet impose de travailler de concert, car la datascience est avant tout un sport d’équipe. Le data scientist seul ne peut en effet rien faire. Il lui faut les jeux de données et la compétence métier des radiologues, ainsi que le savoir-faire d’experts en imagerie. Le radiologue a également eu pour tâche de vérifier les jeux de données, d’analyser les annotations, puis de contrôler la qualité du travail fourni par l’IA.

La chaine de traitement s’est composée de plusieurs tâches clés :

  • le prétraitement des images 3D, l’extraction des annotations et le détourage du poumon ;
  • l’entrainement du modèle de réseau de neurones à la détection des nodules ;
  • l’apprentissage de la classification des nodules, basé sur les détections opérées par le réseau de neurones et les analyses des radiologues.

L’IA n’apprend qu’à travers les données. C’est pourquoi il est essentiel de passer beaucoup de temps à collecter, traiter et nettoyer les données. Ces dernières doivent ensuite être analysées, afin de détecter les biais et informations manquantes, qui pourraient induire l’IA en erreur. Ce travail en amont est fastidieux, mais crucial. C’est celui qui prendra le plus de temps aux data scientists et data stewards[1]. Il faut savoir se montrer prudent et méthodique, afin de livrer des données propres, sans biais, défauts ou manques.

Les deux premiers jeux de données étaient fournis avec les annotations de radiologues, afin d’aider les équipes à entrainer leurs IA. Le troisième, livré sans annotations, constituait l’épreuve de vérité pour le système mis en place. Avec un score approchant les 90 % de réussite, l’équipe IBM a remporté le challenge. Les 90 % prennent en compte à la fois la capacité à détecter les nodules, à les classer en taille et à éviter les faux positifs. Le système mis au point s’est donc montré très bon à détecter les cas pathologiques, mais aussi à ne pas les « surdétecter ». Ainsi, sur 300 cas proposés, un seul faux positif a été relevé.

 

Des serveurs à la hauteur de l’enjeu

La chaine de traitement mise en place par l’équipe IBM s’est montrée particulièrement performante. Et pourtant ce sont des technologies standards d’intelligence artificielle et Open Source qui ont été utilisées, avec des algorithmes développés à partir de librairies Python Open Source elles aussi.

L’autre secret de la réussite d’IBM réside dans le matériel utilisé. Des serveurs conçus pour faire de l’intelligence artificielle. L’entrainement du réseau de neurones employé n’aurait probablement pas pu être mené à son terme en utilisant les GPU présents sur des cartes graphiques traditionnelles. Une puissance adaptée a permis d’explorer divers algorithmes et d’évaluer des hypothèses impossibles à tester sur d’autres machines.

Le volume de données exploité est aussi un facteur clé, car son accroissement permet de couvrir un plus large ensemble de cas et de lisser les biais présents dans certaines données. Rappelons que l’IA n’apprend que des données. Plus elles sont présentes en nombre et en qualité, plus le système pourra progresser. La capacité de traitement est donc l’autre aspect sur lequel les serveurs IBM ont su faire la différence. Une fierté pour l’équipe investie dans ce projet, qui fait partie de la Business Unit IBM créant ces solutions d’infrastructure.

Ce concours a permis aux data scientists d’IBM d’explorer de nouveaux jeux de données et de démontrer leur capacité à servir le secteur médical. Ceci permet de donner de la visibilité à IBM et de lui ouvrir les portes du monde de l’imagerie médicale, avide d’intelligence artificielle. Ce projet démontre également notre capacité à travailler en équipe avec des acteurs du secteur. Il montre enfin l’importance de l’infrastructure informatique et son impact sur l’efficacité d’une IA. Ici aussi, l’infrastructure IT peut aider à faire la différence.

 

[1] Coordonnateur des données

Technical Sales Specialist - Linux Servers

More Infrastructures stories
24 novembre 2020

Succès des projets d’IA : quand le Cloud et le Edge montrent leur complémentarité

Suite au webinar co-organisé par IBM et IDC sur le sujet du cloud et de l’edge computing au service de l’industrialisation des projets Data & IA dont vous pouvez trouver le replay ici : https://weevents.idc.com/d/27qc9p?RefID=IBM-track  IDC nous présente une synthèse de l’intérêt de l’usage de ces technologies combinées comme accélérateurs des projets d’Intelligence Artificielle. Le […]

Continue reading

12 novembre 2020

IBM Cloud Code Engine : vers le serverless 2.0 !

IBM Cloud Code Engine est une plate-forme entièrement gérée et sans serveur (serverless, FaaS [1]) qui exécute vos charges de travail conteneurisées, y compris les applications Web, les micro-services, les fonctions événementielles ou les travaux par lots (batch). Code Engine crée même des images de conteneurs à partir de votre code. Étant donné que ces […]

Continue reading

12 novembre 2020

Du développement monolithique aux micro-services : comment moderniser vos applications ?

L’utilisation d’une architecture modulaire par micro-services devient un standard dans le développement Cloud. L’idée est similaire à celle des ingrédients semi-finis dans le domaine culinaire. Selon un récent sondage mené par O’Reilly, plus de 75 % des organisations basent actuellement leurs architectures sur des micro-services. Quels en sont les avantages ? Tout comme dans le […]

Continue reading