Les algorithmes de repliement des protéines de l'IA résolvent les structures plus rapidement que jamais

[ad_1]

Prédire les structures protéiques à partir de leurs séquences faciliterait la conception des médicaments.Crédit: Edward Kinsman / Science Photo Library

La course au crack de l’un des plus grands défis de la biologie – prédire les structures 3D des protéines à partir de leurs séquences d’acides aminés – s’intensifie, grâce aux nouvelles approches en intelligence artificielle (IA).

À la fin de l’année dernière, l’entreprise d’intelligence artificielle de Google, DeepMind, a lancé un algorithme appelé, combinant deux techniques émergentes sur le terrain et dépassant de loin les concurrents établis dans une compétition sur la prédiction de la structure des protéines. Et en avril de cette année, un chercheur américain a révélé un algorithme utilisant une approche totalement différente. Il affirme que son intelligence artificielle est jusqu’à un million de fois plus rapide que celle de DeepMind pour prévoir les structures, bien qu’elle ne soit probablement pas aussi précise dans toutes les situations.

Plus généralement, les biologistes se demandent comment l’apprentissage en profondeur – la technique d’IA utilisée par les deux approches – pourrait s’appliquer à la prédiction des arrangements protéiques, qui dictent en fin de compte la fonction d’une protéine. Ces approches sont moins coûteuses et plus rapides que le savoir et les connaissances pourraient aider les chercheurs à mieux comprendre les maladies et à concevoir des médicaments. «Il y a beaucoup d'enthousiasme quant à l'avenir des projets», déclare John Moult, biologiste à l'Université du Maryland à College Park et fondateur de la compétition biennale intitulée Évaluation critique de la prévision de la structure des protéines (CASP). mis au défi de concevoir des programmes informatiques qui prédisent les structures protéiques à partir de séquences.

Approche innovative

Le créateur du dernier algorithme, Mohammed AlQuraishi, biologiste à la Harvard Medical School de Boston, dans le Massachusetts, n'a pas encore comparé directement la précision de sa méthode à celle d'AlphaFold. similaires à celui analysé sont disponibles pour référence. Mais il dit que parce que son algorithme utilise une fonction mathématique pour calculer les structures de protéines en une seule étape – plutôt qu'en deux étapes comme AlphaFold, qui utilise les structures similaires en tant que travail préparatoire dans la première étape – il peut prédire des structures en millisecondes plutôt qu'en heures journées.

«L’approche d’AlQuraishi est très prometteuse. Il s'appuie sur les avancées en apprentissage en profondeur ainsi que sur de nouvelles astuces inventées par AlQuraishi », déclare Ian Holmes, biologiste informaticien à l'Université de Californie à Berkeley. «Il est possible que son idée puisse être associée à d’autres pour faire avancer le domaine», explique Jinbo Xu, informaticien au Toyota Technological Institute de Chicago, dans l’Illinois, qui a participé au CASP13.

Le système d’AlQuraishi repose sur un réseau de neurones, un type d’algorithme inspiré par le câblage du cerveau et tiré d’exemples. Il est alimenté par des données connues sur la manière dont les séquences d’acides aminés se mappent aux structures protéiques, puis apprend à produire de nouvelles structures à partir de séquences inconnues. La partie nouvelle de son réseau réside dans sa capacité à créer de telles correspondances de bout en bout; d'autres systèmes utilisent un réseau de neurones pour prédire certaines caractéristiques d'une structure, puis un autre type d'algorithme pour rechercher péniblement une structure plausible intégrant ces caractéristiques. Il faut des mois pour former le réseau d’AlQuraishi, mais une fois formé, il peut transformer une séquence en une structure presque immédiatement.

Son approche, qu’il qualifie de réseau géométrique récurrent, prédit la structure d’un segment de protéine en partie sur la base de ce qui vient avant et après. Ceci est similaire à la façon dont les mots qui entourent peuvent influencer l'interprétation des mots dans une phrase. ces interprétations sont à leur tour influencées par le mot central.

Des difficultés techniques ont fait que l’algorithme d’AlQuraishi n’a pas bien fonctionné lors de la 13e conférence. Il a publié les détails de l'IA dans Systèmes cellulaires en avril et fait son code publiquement, en espérant que d’autres vont s’appuyer sur son travail. (Les structures de la plupart des protéines testées dans CASP13 n’ont pas encore été rendues publiques. Il n’a donc toujours pas été en mesure de comparer directement sa méthode avec AlphaFold.)

Les réseaux de neurones

AlphaFold a concouru avec succès à CASP13 et a fait sensation en surperformant de près de 15% tous les autres algorithmes sur les cibles dures, selon une mesure.

AlphaFold fonctionne en deux étapes. Comme d'autres approches utilisées dans la compétition, cela commence par quelque chose appelé alignements multiples de séquences. Il compare la séquence d’une protéine à des séquences similaires dans une base de données pour révéler des paires d’acides aminés qui ne sont pas côte à côte dans une chaîne, mais qui ont tendance à apparaître en tandem. Ceci suggère que ces deux acides aminés sont situés l'un près de l'autre dans la protéine repliée. DeepMind a entraîné un réseau de neurones à prendre de telles paires et à prédire la distance entre deux acides aminés appariés dans la protéine repliée.

En comparant ses prévisions avec les distances mesurées avec précision dans les protéines, il a appris à mieux deviner comment les protéines se replieraient. Un réseau neuronal parallèle prédit les angles des articulations entre des acides aminés consécutifs dans la chaîne protéique repliée.

Mais ces étapes ne peuvent pas prédire une structure par elles-mêmes, car l’ensemble exact de distances et d’angles prédits pourrait ne pas être physiquement possible. Ainsi, dans un deuxième temps, AlphaFold a créé un arrangement de pliage physiquement possible – mais presque aléatoire – pour une séquence. Au lieu d'un autre réseau de neurones, il a utilisé une méthode d'optimisation appelée descente de gradient pour affiner la structure de manière itérative de sorte qu'elle se rapproche des prédictions (pas tout à fait possibles) de la première étape.

Quelques autres équipes ont utilisé l'une des approches, mais aucune n'a utilisé les deux. Dans un premier temps, la plupart des équipes ont simplement prédit le contact par paires d'acides aminés, et non par la distance. Dans la deuxième étape, la plupart des règles d’optimisation complexes ont été utilisées au lieu de la descente de gradient, ce qui est presque automatique.

"Ils ont fait un excellent travail. Ils ont environ un an d’avance sur les autres groupes », déclare Xu.

Directions futures

DeepMind n'a pas encore publié tous les détails sur AlphaFold – mais d'autres groupes ont depuis commencé à adopter des tactiques démontrées par DeepMind et d'autres équipes dirigeantes lors de CASP13. Jianlin Cheng, informaticien à l’Université du Missouri en Colombie, dit qu’il modifiera ses réseaux neuronaux profonds afin d’avoir certaines caractéristiques d’AlphaFold, par exemple en ajoutant davantage de couches au réseau neuronal au stade de prédiction de distance. Avoir plus de couches – un réseau plus profond – permet souvent aux réseaux de traiter les informations plus en profondeur, d'où le nom d'apprentissage en profondeur.

«Nous sommes impatients de voir des systèmes similaires utilisés», a déclaré Andrew Senior, informaticien chez DeepMind, qui dirigeait l'équipe AlphaFold.

Moult a déclaré qu'il y avait eu beaucoup de discussions à la 13e conférence des parties prenantes sur la manière d'appliquer autrement l'apprentissage en profondeur au repliement des protéines. Peut-être que cela pourrait aider à affiner les prévisions de structure approximative; rendre compte de la confiance de l'algorithme dans une prédiction de repliement; ou des interactions modèles entre protéines.

Et bien que les prévisions informatiques ne soient pas encore suffisamment précises pour être largement utilisées dans la conception de médicaments, cette précision croissante permet d’autres applications, telles que la compréhension de la contribution d’une protéine mutée à la maladie ou la détermination de la partie de la protéine à transformer en vaccin pour immunothérapie. . «Ces modèles commencent à être utiles», déclare Moult.

[ad_2]