Trois pièges à éviter en apprentissage automatique

[ad_1]

Les chercheurs de TAE Technologies en Californie et de Google utilisent l'apprentissage automatique pour optimiser les équipements produisant un plasma à haute énergie.Crédit: Liz Kuball

L'apprentissage automatique motive les découvertes scientifiques. Ses puissants outils de recherche de motifs et de prédiction aident les chercheurs dans tous les domaines – de la recherche de nouvelles méthodes de fabrication de molécules aux signaux subtils dans les tests, en passant par l’amélioration des diagnostics médicaux et la révélation de particules fondamentales.

Cependant, les outils d’apprentissage automatique peuvent également faire remonter l’or des fous – faux positifs, impasses et erreurs. La plupart des algorithmes sont si compliqués qu'il est impossible d'inspecter tous les paramètres ou de raisonner sur la manière dont les entrées ont été manipulées. À mesure que ces algorithmes commenceront à être appliqués de plus en plus largement, les risques d'interprétation erronée, de conclusions erronées et de gaspillage d'efforts scientifiques vont s'accentuer.

Ces problèmes ne sont pas nouveaux. Le domaine de l’apprentissage automatique se résout depuis des décennies avec le «problème du réservoir». L’étude initiale semble avoir été réalisée dans les années 1960 (la référence 1 est la référence plausible la plus ancienne connue pour cette étude; grâce à l’ingénieur en logiciels Jeff Kaufman) et est obscurcie par la nuit des temps, mais l’histoire est la suivante. Les chercheurs ont écrit un algorithme pour repérer les chars d'assaut sur des photographies fournies par l'armée. Le modèle a trouvé les réservoirs avec succès dans les images de test. Mais cela a échoué plus tard avec de vraies photos réelles sur le terrain. Pourquoi? Les détails varient selon le récit, mais les images sur lesquelles il a été formé contenaient d'autres motifs – des chars apparaissant à la lumière du matin ou sous les nuages. Donc, c’est d’autres facteurs, tels que ceux-là, qui ont motivé l’algorithme, et non la présence de chars.

Des confusions similaires provoquent une introspection aujourd'hui. De nombreux documents d’apprentissage automatique ne permettent pas d’effectuer un ensemble adéquat d’expériences. Les normes d'examen sont incohérentes. Et la concurrence incite certains chercheurs à réduire les coûts et à sauter des vérifications une fois qu’ils pensent avoir la réponse qu’ils veulent.

Nous ne pouvons pas prédire toutes les difficultés qui surgiront avec chaque analyse. Mais, au minimum, les chercheurs qui intègrent l'apprentissage automatique dans leurs domaines devraient se familiariser avec les pièges courants et les pratiques qu'ils peuvent utiliser pour les détecter et les éviter.

À titre d’illustration, j’insiste sur trois problèmes d’analyses d’apprentissage automatique auxquels nous avons été confrontés et que nous avons surmontés.

Trois problèmes

Division des données de manière inappropriée. Lors de la création de modèles, les praticiens de l'apprentissage automatique fragmentent généralement les données en ensembles de formation et de test. L’ensemble d’apprentissage enseigne le modèle et ses performances sont évaluées en fonction de la qualité de sa description. Les chercheurs séparent généralement les données au hasard. Mais les données réelles sont rarement aléatoires. Ils peuvent contenir des tendances dans le temps, telles que des modifications dans la manière dont les données ont été collectées ou des choix variés quant aux informations à collecter.

Ces modèles historiques sont par exemple enfouis dans des ensembles de données sur des molécules, qui sont analysés virtuellement par des algorithmes d'apprentissage automatique pour trouver des candidats à des médicaments. Le défi consiste à prédire avec quelle efficacité une molécule hypothétique sera absorbée par l'organisme ou réduira l'inflammation. Le criblage commence par des données sur les molécules qui ont ou non l'effet désiré. Mais les contextes dans lesquels les données ont été collectées peuvent différer de la manière dont le modèle d'apprentissage automatique doit être utilisé.

Par exemple, un modèle peut être construit sur un ensemble de molécules accessible au public, mais ensuite utilisé sur un ensemble propriétaire différent. Et le regard des chimistes passe souvent de certains groupes de molécules à d’autres, lorsque des pistes prometteuses sont examinées et écartées. Ainsi, les chercheurs surestiment souvent les résultats concrets du modèle.. Cela peut conduire à des attentes exagérées et à une perte de temps et d’argent pour des molécules mal choisies. De nombreux constructeurs de modèles (y compris moi-même) sont tombés dans ce piège.

En d'autres termes, la question à laquelle vous souhaitez répondre devrait affecter la manière dont vous divisez vos données. Pour que le modèle puisse prédire l’effet de l’ajout de quelques atomes à une molécule, chaque molécule de l’ensemble de tests doit avoir un partenaire dans l’entraînement qui est différent de deux atomes. Si vous souhaitez obtenir de bonnes prédictions sur des molécules chimiquement diverses, chaque molécule du jeu de tests doit être différente de tout ce qui se trouve dans le jeu de formation. La «bonne» méthode de fractionnement des données n’est peut-être pas évidente, mais un examen attentif et l’essai de plusieurs approches donneront un meilleur aperçu.

Variables cachées. Dans une expérience idéale, le chercheur ne modifie que les variables d'intérêt et corrige toutes les autres. Ce niveau de contrôle est souvent impossible dans le monde réel. La précision des équipements fluctue dans le temps, les lots de réactifs diffèrent, une condition expérimentale est effectuée avant une autre et les résultats peuvent même être faussés par les conditions météorologiques. De telles variables non contrôlées peuvent être pernicieuses dans les modèles d'apprentissage automatique.

Par exemple, mon équipe chez Google collabore avec la start-up spécialisée dans la fusion nucléaire TAE Technologies à Foothill Ranch en Californie pour optimiser une expérience de production de plasma à haute énergie.. Nous avons construit des modèles pour essayer de comprendre les meilleurs réglages d’équipement pour la machine à plasma. Il y avait des centaines de paramètres de contrôle, du moment de l'activation des électrodes à la tension à régler sur les aimants. Une gamme de mesures a été enregistrée, y compris les températures et les spectres.

Nous avons pris des données sur des milliers d'essais de la machine à plasma sur plusieurs mois. Les paramètres variaient au fur et à mesure que le périphérique était réglé et modifié, et que les composants s'usaient et que différentes idées étaient essayées. Nous étions heureux d’arriver à un modèle qui prédit bien, pour des paramètres donnés, si l’énergie du plasma serait élevée. Bientôt, il est devenu évident que nos prédictions n'étaient pas basées sur ce que nous pensions.

Examen de la vue à l'hôpital Aravind de Madurai, en Inde, où le personnel et les chercheurs de Google tentent d'automatiser le diagnostic de la cécité causée par le diabète.Crédit: Atul Loke / Le New York Times / Red / eyevine

Lorsque nous avons à nouveau formé le modèle, avec l'heure de l'expérience comme seule entrée, plutôt que tous les paramètres de la machine, nous avons obtenu un pouvoir prédictif similaire. Pourquoi? Nous pensons que notre premier modèle s'est verrouillé sur les tendances temporelles plutôt que sur les phénomènes physiques. Au cours des expériences, il y a eu des périodes au cours desquelles les machines fonctionnaient bien et des périodes au contraire. Par conséquent, l'heure à laquelle l'expérience a été effectuée vous donne des informations sur le fait que le plasma produit soit à haute énergie ou non. De plus, il est possible de prédire approximativement quand une expérience est faite à partir de la configuration des paramètres de contrôle – il existe également des tendances temporelles dans la façon dont celles-ci varient.

Les variables cachées peuvent également provenir de la disposition des expériences. Par exemple, nous travaillons avec de nombreux collaborateurs sur l'interprétation d'images de microscope, notamment l'Institut de recherche de la Fondation des cellules souches de New York à New York. Les images comprennent des réseaux d'expériences biologiques sur des plaques – généralement une grille de puits contenant des cellules et des liquides. L’objectif est de repérer les puits présentant certaines caractéristiques, telles que le changement d’apparence des cellules après un traitement chimique. Mais la variation biologique signifie que chaque plaque aura toujours un aspect légèrement différent. Et il peut y avoir des variations sur une seule plaque. Les bords ont souvent un aspect différent du centre, par exemple, si une plus grande quantité de liquide s’est évaporée dans les puits périphériques ou si la plaque a été inclinée.

Un algorithme d’apprentissage automatique peut facilement détecter ces variations non intentionnelles. Par exemple, le modèle pourrait simplement identifier les puits situés sur le bord de la plaque. Un moyen simple de vérifier si cela s'est produit est de demander au modèle de prédire d'autres choses, telles que l'emplacement sur la plaque, la plaque et le lot de l'image. Si cela peut le faire, méfiez-vous de vos résultats.

La leçon à retenir est la suivante: utilisez plusieurs modèles d’apprentissage automatique pour détecter des variables inattendues et cachées. Un modèle se concentre sur la question qui vous tient à cœur: le plasma à haute ou basse énergie; les cellules sont-elles en bonne santé ou malades? D'autres modèles éliminent les facteurs de confusion. Si le dernier résultat est fort, normalisez vos données, effectuez d'autres expériences ou tempérez vos conclusions.

Se tromper d'objectif. Les algorithmes d’apprentissage automatique exigent des chercheurs qu’ils spécifient une «fonction de perte», qui détermine la gravité de diverses erreurs – par exemple, s’il vaut mieux faire deux erreurs de 1% chacune ou une seule erreur de 2%. Les praticiens ont tendance à utiliser un petit ensemble de fonctions qui peuvent ne pas capturer ce qui les intéresse vraiment.

Par exemple, nous avons utilisé l’apprentissage automatique pour aider à résoudre des équations aux dérivées partielles.. Ces formules sont courantes dans toutes les sciences, y compris dans les domaines de la dynamique des fluides, de l'électromagnétisme, de la science des matériaux, de l'astrophysique et de la modélisation économique. Souvent, ils doivent être résolus numériquement et nous avons formé des modèles pour offrir une meilleure précision à une résolution limitée.

Nous avons commencé par une équation décrivant la façon dont les vagues d'eau se propagent dans une dimension. L'algorithme a été chargé de prédire à plusieurs reprises le prochain pas de temps par rapport au pas actuel. Nous avions deux formulations légèrement différentes et des modèles formés sur les deux. Selon nos fonctions de perte, les deux modèles étaient également bons. Cependant, l’un produisait un non-sens tandis que l’autre restait proche du résultat souhaité.

Pourquoi? La fonction de perte contrôlant l'apprentissage ne tenait compte que de l'erreur de l'étape suivante, et non de la validité de la solution sur plusieurs étapes, ce que nous souhaitons réellement.

Des objectifs divergents sont également apparus dans nos travaux sur le dépistage automatique de la rétinopathie diabétique à la machine., complication du diabète et une des principales causes de cécité évitable dans le monde. La condition peut être traitée efficacement si elle est détectée tôt, à partir d'images de l'arrière de l'œil. Alors que nous rassemblions des données et demandions aux ophtalmologistes d’offrir des diagnostics basés sur les images, nous avons demandé à nos outils d’apprentissage automatique de prédire ce que l’ophtalmologue dirait. Deux problèmes sont apparus.

Premièrement, les ophtalmologistes étaient souvent en désaccord sur le diagnostic. Ainsi, nous avons réalisé que nous ne pouvions pas baser notre modèle sur une seule prédiction. Nous ne pourrions pas non plus utiliser un vote à la majorité car, en ce qui concerne l'exactitude médicale, l'opinion de la minorité est parfois la bonne. Deuxièmement, le diagnostic d’une seule maladie n’était pas le véritable objectif. Nous aurions dû demander: «Ce patient devrait-il voir un médecin?» Nous avons donc élargi notre objectif du diagnostic d’une maladie unique à plusieurs maladies.

Il est facile pour les utilisateurs d’apprentissage automatique de se focaliser sur un objectif "évident" dans lequel les données et les étiquettes sont claires. Mais ils pourraient configurer l’algorithme pour résoudre le mauvais problème. Il faut garder à l’esprit l’objectif général, sinon nous produirons des systèmes précis qui répondent aux mauvaises questions.

Et ensuite?

Premièrement, les experts en apprentissage automatique doivent se tenir, ainsi que leurs collègues, à des normes plus élevées. Quand une nouvelle pièce d'équipement de laboratoire arrive, nous attendons de nos collègues de laboratoire qu'ils comprennent son fonctionnement, comment l'étalonner, comment détecter les erreurs et connaître les limites de ses capacités. Il en va de même pour l'apprentissage automatique. Il n'y a pas de magie en jeu, et les outils doivent être compris de ceux qui les utilisent.

Deuxièmement, différentes disciplines doivent élaborer des normes claires sur la manière d'effectuer et de rapporter l'apprentissage automatique dans leurs domaines respectifs. Les contrôles appropriés, les contrôles de validité et les mesures d'erreur varieront d'un domaine à l'autre. Ils doivent être clairement définis afin que les chercheurs, les réviseurs et les éditeurs puissent encourager un bon comportement.

Troisièmement, la formation des scientifiques à l’apprentissage automatique doit inclure ces questions plus vastes. Bien que certaines ressources existent (telles que), nous devons en faire plus. Nous enseignons souvent les algorithmes et les outils, mais les étudiants doivent en apprendre davantage sur la façon d'appliquer leurs algorithmes et de les interroger de manière appropriée.

Nous en sommes à un point étonnant: la puissance de calcul, les données et les algorithmes s'unissent pour créer de grandes opportunités de découvertes grâce à l'apprentissage automatique. En tant que communauté scientifique, il est de notre devoir de veiller à bien utiliser cette opportunité.

[ad_2]