Infrastructures

Data Challenge JFR 2019 : l’IA aide à détecter les nodules pulmonaires

Share this post:

IBM France est l’un des trois lauréats du Data Challenge 2019 organisé lors des Journées Francophones de Radiologie. L’équipe d’IBM a su exploiter l’intelligence artificielle afin de détecter les nodules présents sur les images de scanners du poumon.

Les Journées Francophones de Radiologie 2019 (JFR 2019) – la grand-messe de l’imagerie médicale – accueillaient pour la deuxième fois un forum dédié à l’intelligence artificielle ; et un concours, le Data Challenge, centré cette année sur le thème du radiologue augmenté. Objectif : aider les radiologues à faire de meilleurs diagnostics, en leur montrant ce qui leur a échappé ou en détectant des problèmes non recherchés initialement. Le tout au travers de l’utilisation de l’intelligence artificielle (IA).

 

Un concours basé sur des cas réels

Trois épreuves ont été organisées par la Société Française de Radiologie :

  • calcul de la surface des muscles pour la sarcopénie ;
  • prédiction du handicap des patients touchés par la sclérose en plaques ;
  • classification d’images de scanners du poumon suivant la taille des nodules.

C’est ce dernier défi qu’a relevé – et remporté ! – l’équipe Systems d’IBM France. Un domaine où l’apport de l’intelligence artificielle est indéniable et hors de toute polémique, la technologie se mettant ici incontestablement au service de l’humain.

Le prérequis imposé pour ce concours, mais aussi nécessaire à la réussite d’un projet d’intelligence artificielle, était de constituer une équipe comprenant plusieurs profils de compétences ;

  • des data scientists ;
  • des experts venant de sociétés d’imagerie ;
  • un ou plusieurs radiologues ;
  • des étudiants.

IBM Montpellier s’est chargé de fournir les data scientists et de trouver les étudiants. Les sociétés QuantaCell et DataValoris ont apporté leur savoir-faire en imagerie. Un radiologue issu du centre de cancérologie Jean Perrin (Membre de groupement privé UNICANCER) a complété cette équipe.

Les organisateurs du concours ont proposé trois jeux de données successifs comprenant des centaines de scanners annotés par des radiologues. Des données anonymisées livrées au format Dicom et faisant apparaitre des nodules de tailles diverses, avec une annotation différenciée pour ceux de moins de 100 mm3 et ceux dépassant ce volume. Chaque scanner correspond à 100-200 Mo de données et chaque dataset comprend environ 80 Go d’informations. Un défi en matière de capacité de traitement.

 

La victoire d’une équipe

Réussir un tel projet impose de travailler de concert, car la datascience est avant tout un sport d’équipe. Le data scientist seul ne peut en effet rien faire. Il lui faut les jeux de données et la compétence métier des radiologues, ainsi que le savoir-faire d’experts en imagerie. Le radiologue a également eu pour tâche de vérifier les jeux de données, d’analyser les annotations, puis de contrôler la qualité du travail fourni par l’IA.

La chaine de traitement s’est composée de plusieurs tâches clés :

  • le prétraitement des images 3D, l’extraction des annotations et le détourage du poumon ;
  • l’entrainement du modèle de réseau de neurones à la détection des nodules ;
  • l’apprentissage de la classification des nodules, basé sur les détections opérées par le réseau de neurones et les analyses des radiologues.

L’IA n’apprend qu’à travers les données. C’est pourquoi il est essentiel de passer beaucoup de temps à collecter, traiter et nettoyer les données. Ces dernières doivent ensuite être analysées, afin de détecter les biais et informations manquantes, qui pourraient induire l’IA en erreur. Ce travail en amont est fastidieux, mais crucial. C’est celui qui prendra le plus de temps aux data scientists et data stewards[1]. Il faut savoir se montrer prudent et méthodique, afin de livrer des données propres, sans biais, défauts ou manques.

Les deux premiers jeux de données étaient fournis avec les annotations de radiologues, afin d’aider les équipes à entrainer leurs IA. Le troisième, livré sans annotations, constituait l’épreuve de vérité pour le système mis en place. Avec un score approchant les 90 % de réussite, l’équipe IBM a remporté le challenge. Les 90 % prennent en compte à la fois la capacité à détecter les nodules, à les classer en taille et à éviter les faux positifs. Le système mis au point s’est donc montré très bon à détecter les cas pathologiques, mais aussi à ne pas les « surdétecter ». Ainsi, sur 300 cas proposés, un seul faux positif a été relevé.

 

Des serveurs à la hauteur de l’enjeu

La chaine de traitement mise en place par l’équipe IBM s’est montrée particulièrement performante. Et pourtant ce sont des technologies standards d’intelligence artificielle et Open Source qui ont été utilisées, avec des algorithmes développés à partir de librairies Python Open Source elles aussi.

L’autre secret de la réussite d’IBM réside dans le matériel utilisé. Des serveurs conçus pour faire de l’intelligence artificielle. L’entrainement du réseau de neurones employé n’aurait probablement pas pu être mené à son terme en utilisant les GPU présents sur des cartes graphiques traditionnelles. Une puissance adaptée a permis d’explorer divers algorithmes et d’évaluer des hypothèses impossibles à tester sur d’autres machines.

Le volume de données exploité est aussi un facteur clé, car son accroissement permet de couvrir un plus large ensemble de cas et de lisser les biais présents dans certaines données. Rappelons que l’IA n’apprend que des données. Plus elles sont présentes en nombre et en qualité, plus le système pourra progresser. La capacité de traitement est donc l’autre aspect sur lequel les serveurs IBM ont su faire la différence. Une fierté pour l’équipe investie dans ce projet, qui fait partie de la Business Unit IBM créant ces solutions d’infrastructure.

Ce concours a permis aux data scientists d’IBM d’explorer de nouveaux jeux de données et de démontrer leur capacité à servir le secteur médical. Ceci permet de donner de la visibilité à IBM et de lui ouvrir les portes du monde de l’imagerie médicale, avide d’intelligence artificielle. Ce projet démontre également notre capacité à travailler en équipe avec des acteurs du secteur. Il montre enfin l’importance de l’infrastructure informatique et son impact sur l’efficacité d’une IA. Ici aussi, l’infrastructure IT peut aider à faire la différence.

 

[1] Coordonnateur des données

Technical Sales Specialist - Linux Servers

More Infrastructures stories
25 mai 2020

Bien connaitre vos données pour mieux les protéger

Afin de sécuriser vos données avec efficacité, il faudra vous poser deux questions : que faut-il protéger et comment ? La réponse passe par un inventaire précis des données ainsi que par la mise en place de solutions préventives et curatives. Un projet mené par l’IT, sous le contrôle de la DG et avec l’appui des métiers. […]

Continue reading

27 avril 2020

IBM Power System IC922 : un accélérateur de nouvelles technologies

Puissant et bien équipé, le serveur IBM Power System IC922 est capable de s’attaquer à de nouveaux workflows : analytique Big Data, intelligence artificielle, calcul à haute performance et services en conteneurs, le tout appuyé par les solutions Open Source et frameworks IBM. L’IBM Power System IC922 est un serveur multifonction adapté aux besoins des entreprises […]

Continue reading

22 avril 2020

IBM z15 T02 et LinuxONE III LT2 : des mainframes résilients prêts pour le cloud

Permettant d’étendre l’offre z15 aux entreprises de toutes tailles, les IBM z15 T02 et IBM LinuxONE III LT2 reprennent les qualités de leur ainé, l’IBM z15 T01. Ces machines puissantes et réactives sont prêtes pour le cloud, où elles apporteront fiabilité et sécurité. En septembre dernier, IBM levait le voile sur un mainframe de nouvelle […]

Continue reading