Met modellen <b>voor machinaal leren kunnen </b>grote hoeveelheden gegevens worden geëxploiteerd (<b>big data mining</b>) om genetische, sociaaleconomische of biologische markers te identificeren die kunnen voorspellen of een behandeling geschikt is voor een individu. Als zodanig worden ze gezien als veelbelovende hulpmiddelen voor het ontwikkelen van <b>precisiegeneeskunde </b>en het verbeteren van medische resultaten. Het probleem is dat deze modellen vaak alleen worden gevalideerd op basis van hun succes in bepaalde datasets of bepaalde klinische contexten . Dit betekent geenszins dat dit ook het geval zou zijn in andere omstandigheden, zoals blijkt uit <a href="https://www.science.org/doi/10.1126/science.adg8538" target="_blank" rel="noopener">werk dat werd uitgevoerd door Amerikaanse en Duitse onderzoekers</a>, die de doeltreffendheid evalueerden van modellen voor machinaal leren die waren gebouwd op basis van klinische onderzoeken waarbij <b>antipsychotica voor schizofrenie werden </b>getest. Hoewel de modellen resultaten met een hoge mate van nauwkeurigheid voorspellen binnen de dataset op basis waarvan ze zijn ontwikkeld, is hun prestatie niet beter dan <b>puur toeval </b>wanneer ze worden toegepast op onafhankelijke testgegevens. En dit geldt zelfs wanneer het model is gevormd en 'geleerd' uit het samenvoegen van gegevens van verschillende klinische onderzoeken en wordt toegepast op een ander onafhankelijk onderzoek. Na verloop van tijd kunnen machine-learning benaderingen de <b>match tussen behandeling en patiënt </b>perfectioneren, maar voorlopig is het belangrijk om ervoor te zorgen dat de resultaten van de voorspellende modellen die aan ons zijn voorgesteld, <b>gevalideerd zijn op andere gegevens dan </b>degenen die zijn gebruikt om ze te ontwikkelen (verschillend afleiding cohort en validatie cohort en niet van dezelfde initiële populatie).