Les modèles d’apprentissage automatique (<b>machine learning</b>) sont capables d’exploiter des données volumineuses (<b>big data mining</b>) en vue d'identifier des marqueurs génétiques, socio-économiques ou biologiques permettant de prédire qu'un traitement est approprié pour un individu. A ce titre, ils sont considérés comme des outils prometteurs pour le développement de la <b>médecine de précision</b> et l'amélioration des résultats médicaux. Là où le bât blesse, c’est que ces modèles ne sont souvent validés que sur base de leur succès dans certains ensembles de données ou contextes cliniques. Ce qui ne signifie pas que ce serait le cas en d'autres circonstances comme le montre un <a href="https://www.science.org/doi/10.1126/science.adg8538" target="_blank" rel="noopener">travail mené par des chercheurs américains et allemands</a> qui ont évalué l'efficacité de modèles d'apprentissage automatique construits à partir d'essais cliniques testant des <b>antipsychotiques pour la schizophrénie</b>. Alors que les modèles prédisent les résultats avec une grande précision au sein de l'ensemble des données à partir duquel ils ont été développés, leurs performances ne sont pas meilleures que le <b>pur hasard</b> lorsqu'ils sont appliqués à des données d'essais indépendants. Et cela vaut, même lorsque le modèle a été formé et "éduqué" à partir du regroupement des données de plusieurs essais cliniques et qu'il est appliqué à un autre essai indépendant. A terme, les approches d’apprentissage automatique pourront peut-être parfaire l'<b>adéquation traitement-patient</b>, mais pour l'instant, il importe principalement de s'assurer que les résultats des modèles prédictifs qui nous sont proposés ont été <b>validés sur des données autres</b> que celles qui ont servi à les élaborer (cohorte de dérivation et cohorte de validation différentes et non pas issues de la même population initiale).