Explorons maintenant quelques algorithmes d’apprentissage, du plus simple, au plus complexe.

Dans la régression logistique, on créé un modèle mathématique simple à partir d’observations réelles. Elle peut être utilisée lorsque l’on explore un nombre restreint de variables. Des méthodes de réduction de la dimensionalité (le nombre de variables à inclure), telle que le LASSO, peuvent être utilisées pour sélectionner des variables importantes.

Dans la machine à vecteur de support, ou Support Vector Machine, on va chercher à créer un modèle qui permet de calculer la marge maximale qui peut exister entre deux échantillons, que l’on appelle vecteurs support. Une fois cette distance calculée, chaque observation sera classifiée par rapport à cette marge.

Dans la méthode des k plus proches voisins, ou k Nearest Neighbor, on créé des groupes en tenant compte des k échantillons d’apprentissage dont l’entrée est la plus proche de la nouvelle entrée à classifier.

 Dans la méthode des arbres décisionnels, ou Decision Tree, on définit un arbre de caractéristiques binaires qui permet de successivement classer de façon mutuellement exclusive des individus d’un groupe. Le principe des forêts aléatoires est de générer des décisions depuis des milliers d’arbres créés à partir des données, afin de réduire l’aléas lié à l’utilisation d’un seul arbre.

Enfin, les réseaux neuronaux, ou Neural Network, correspondent à des réseaux de neurones virtuels où chaque nœud possède un poids et un biais. Le réseau va converger afin d’apprendre, à partir de données existantes, à réaliser correctement une classification, qui sera donné par les neurones de sortie.

 

Pr Jean-Emmanuel Bibault
Oncologue radiothérapeute
twitter.com/jebibault
01 56 09 34 03


Service d'oncologie radiothérapie
Hôpital Européen Georges Pompidou
Assistance Publique - Hôpitaux de Paris
20 rue Leblanc
75015 Paris