A partir de ce point, lorsque nous parlerons d’IA, nous ferons référence à l’apprentissage statistique, également appelé apprentissage machine ou machine learning. Ce concept, bien qu’il soit très médiatisé aujourd’hui, n’est pas nouveau : ses premières utilisations remontent à la seconde guerre mondiale avec la théorisation du « cerveau électronique ». Il a connu une succession de périodes fastes sur le plan scientifique et de périodes d’échec qui se sont traduites par ce que l’on appelle l’hiver de l’Intelligence Artificielle, qui a duré de la fin des années 60 au milieu des années 80. C’est ensuite à Toronto, au Canada, que l’IA connaîtra un nouvel essor, sous l’impulsion de l’équipe de Geoffrey Hinton, qui créera le concept de Deep Learning. En médecine, l’essor du machine learning a été rendu possible par la digitalisation croissante des données de santé. Avec la généralisation du dossier médical informatisé, des logiciels de prescription, de l’imagerie médicale et du séquençage génétique, il est aujourd’hui possible de récolter une quantité importante de données pour les patients afin de définir leur génotype et leur phénotype. 

L’ensemble de ces données constitue le « Big Data ». On parle ainsi des 4 « V » du Big Data :

- Le volume important de données,

- L’hétérogénéité (variété) des données (gérer et exploiter des données scannographiques ne se fait pas de la même façon que l’exploitation de données génétiques par exemple),

- La vélocité, qui traduit l’importance de la vitesse d’accès et de traitement de ces données,

- La véracité, qui signifie que la qualité des données est primordiale dans ce domaine. Si les données exploitées, même en grand volume, sont de mauvaise qualité, le résultat obtenu sera médiocre. On parle alors de « Garbage in, garbage out ».

Cette variété d’information entraîne des problématiques d’analyse des données : la complexité des modèles créés accroît significativement avec le nombre de variables intégrées.Les techniques d’apprentissage automatique ont beaucoup évolué et si des connaissances techniques très poussées étaient auparavant nécessaires, il est aujourd’hui possible d’utiliser des logiciels afin de répondre à des problématiques médicales. Leur utilisation doit cependant passer par la compréhension des résultats qu’ils fournissent et des méthodes utilisées. Ces méthodes et leur démocratisation sont progressivement en train de modifier la façon dont la recherche et plus tard la médecine vont être pratiquées. Il est donc important de connaître les grands principes et concepts du machine learning afin d’être capable d’interpréter les résultats d’une étude ou d’un système. Comme nous l’avons dit, l’essor de l’utilisation du machine learning dans le domaine médical est intimement lié à la digitalisation de la médecine. De plus, à l’heure de la médecine personnalisée, une prise de décision optimale, qui intégrerait des centaines de variables n’est pas possible pour un humain, puisqu’on considère que nos capacités cognitives permettent d’intégrer uniquement 5 facteurs.

L’intérêt du machine learning réside donc dans sa capacité à exploiter ces données afin de pouvoir faire de la classification ou de la prédiction à partir de profils patients complexes. Il existe de nombreuses méthodes : de la plus simple (la régression logistique), à la plus complexe (le Deep Learning), chacune d’entre elles présente des avantages et des inconvénients. Ces caractéristiques doivent guider le choix de la méthode en respectant toujours le principe de simplicité, aussi appelé rasoir d’Ockham : il est inutile d’utiliser un algorithme complexe si une méthode plus simple fournit le même résultat. Quelle que soit la méthode utilisée, le schéma global reste le même : on utilise une base de données dite d’apprentissage sur laquelle on entraîne un algorithme afin qu’il classifie correctement les individus et observations de cette base. Lorsque l’entraînement est terminé, on teste l’algorithme sur une seconde base de données, qui lui est inconnue, afin de vérifier la concordance des prédictions données par l’algorithme et la réalité.

 

Pr Jean-Emmanuel Bibault
Oncologue radiothérapeute
twitter.com/jebibault
01 56 09 34 03


Service d'oncologie radiothérapie
Hôpital Européen Georges Pompidou
Assistance Publique - Hôpitaux de Paris
20 rue Leblanc
75015 Paris