Séquençage de l'exome de 20 791 cas de diabète de type 2 et de 24 440 témoins

[ad_1]

Une description complète des méthodes utilisées dans cette étude est disponible en tant que méthodes supplémentaires.


Rapport de données

Les expériences n'ont pas été randomisées et les investigateurs n'ont pas été aveuglés lors de l'attribution pendant les expériences et l'évaluation des résultats.


Selection d'Echantillon

Nous avons prélevé des échantillons pour le séquençage de l'exome dans six consortiums, dont la plupart consistaient en plusieurs études. Ils sont décrits en détail dans le tableau complémentaire 1. Le statut des cas de DT2 a été déterminé en fonction de critères spécifiques décrits dans le tableau supplémentaire et les méthodes supplémentaires. Toutes les personnes ont fourni un consentement éclairé et tous les échantillons ont été approuvés pour utilisation par le comité d'examen ou le comité d'éthique de leur institution, comme indiqué précédemment10,46,47,48. Les échantillons qui ont été récemment séquencés à The Broad Institute dans le cadre de T2D-GENES, SIGMA et ProDiGY sont couverts par le protocole 2017P000445 / PHS du Partenaire de recherche humaine, «Génétique du diabète et caractéristiques connexes».


Génération de données

Les détails relatifs à la génération de données, à l'appel de variante, au contrôle de qualité et à l'annotation de variante sont décrits en détail dans les méthodes supplémentaires. En bref, pour chaque consortium, les données de séquençage ont été agrégées (si auparavant disponibles) ou nouvellement générées (sinon), puis traitées via un pipeline d'appels variant standard. Nous avons ensuite mesuré les échantillons et les variantes selon plusieurs paramètres indicatifs de la qualité du séquençage, à l'exclusion de ceux qui étaient aberrants par rapport à la distribution globale (Figure supplémentaire, Tableau supplémentaire 2). Ces exclusions ont produit un jeu de données «épuré» de 49 484 échantillons et 7,02 millions de variantes.

Après le contrôle de qualité initial des échantillons et des variants, nous avons effectué des cycles supplémentaires d'exclusion d'échantillon de l'analyse d'association (Extended Data Fig. 2). Nous avons également exclu les 3 510 cas de diabète infantile des études SEARCH et TODAY fondées sur une analyse suggérant que leur absence de témoins appariés induirait des artefacts dans les analyses d'association au niveau des gènes (Figure supplémentaire 17). Ces exclusions ont produit un ensemble de données «d’analyse» comprenant 45 231 individus et 6,33 millions de variantes. Une analyse de la puissance de cet ensemble de données est présentée dans les méthodes supplémentaires.

Après ces trois séries d'exclusions d'échantillons, nous avons estimé, au sein de chaque ascendance, les valeurs par identité d'identité par paire, les matrices de parenté génétique et les principales composantes à utiliser dans les analyses d'association en aval. Nous avons utilisé les valeurs par identité pour générer des listes d'individus non apparentés dans chaque ascendance, en excluant 2 157 individus pour produire un ensemble "d'analyse non apparentée" de 43 090 individus (19 828 cas et 23 262 témoins) et 6,29 millions de variants non monomorphes. Nous avons utilisé cet ensemble d'individus et de variants pour des tests à un seul variant et au niveau d'un gène (décrits ci-dessous) nécessitant un ensemble d'individus non apparentés.

Nous avons annoté les variantes avec le prédicteur d’effet de variante ENSEMBL49 (VEP, version 87). Nous avons produit à la fois des annotations au niveau de la transcription pour chaque variant ainsi qu’une annotation au niveau du gène «meilleure estimation» utilisant l’option –flag-pick-allele (avec les critères de classement décrits dans les méthodes supplémentaires). Nous avons utilisé VEP LofTee () et dbNSFP (version 3.2)50 des plugins pour générer des prédictions bioinformatiques supplémentaires de la nocivité des variantes; du plugin dbNSFP, nous avons pris des annotations de 15 algorithmes bioinformatiques différents (listés dans Extended Data Fig. 5), puis nous avons ajouté des annotations du mCAP.51 algorithme. Comme ces annotations n'étaient pas spécifiques à la transcription, nous les avons affectées à toutes les transcriptions aux fins d'analyse en aval.

Bien que nous ayons incorporé des annotations au niveau de la transcription et au niveau du gène dans les analyses au niveau du gène (voir ci-dessous), toutes les analyses à un seul variant rapportées dans le manuscrit ou les figures sont annotées à l’aide de l’annotation «meilleure estimation» pour chaque variante.


Analyse d'association à variant unique dans les données de séquençage

Pour effectuer des analyses d'association à une seule variante, nous avons d'abord stratifié des échantillons par cohorte d'origine et technologie de séquençage (à quelques exceptions près décrites dans les Méthodes supplémentaires), ce qui a donné 25 sous-groupes d'échantillons distincts (Extended Data Fig. 3). Pour chaque sous-groupe, nous avons effectué un contrôle de qualité des variantes supplémentaire à celui utilisé pour le jeu de données «clean», en excluant les variantes selon les critères spécifiques aux sous-groupes décrits dans Extended Data Fig. 3; En général, ces critères étaient stricts, en particulier pour les variants multialléliques et les variants du chromosome X. Nous avons vérifié que ces filtres conduisaient à une analyse finale bien calibrée grâce à l'inspection des tracés quantile – quantile au sein et entre les ancêtres (Extended Data Fig. 4).

Pour chacun des 25 sous-groupes d'échantillons, nous avons ensuite effectué deux analyses d'association avec un seul variant: l'un de tous les échantillons (y compris les échantillons connexes) en utilisant le test EMMAX (à deux côtés).52 et un des échantillons non apparentés utilisant le test de régression logistique de Firth (à deux côtés)53. Les deux analyses comprenaient des covariables pour la technologie de séquençage et l'analyse de Firth incluait des covariables pour les principales composantes de l'ascendance génétique (celles parmi les 10 premières qui ont montré P <0,05 association avec T2D).

Nous avons ensuite effectué une méta-analyse pondérée en fonction de la variance inverse à 25 effets fixes pour chacun des tests Firth et EMMAX, en utilisant METAL.54. Nous avons utilisé les résultats EMMAX pour l'association P valeurs et résultats de Firth pour l'estimation de la taille d'effet.


Analyse complémentaire de rs145181683

Pour évaluer si la variante rs145181683 dans SFI1 (P = 3,2 × 10−8 dans l'analyse de l'exome-séquençage) représente une véritable association novatrice, nous avons obtenu des statistiques d'association auprès de 4 522 Latinos55) qui ne se chevauchent pas avec la présente étude. Sur la base du rapport de cotes (1,19) estimé dans notre analyse et du CRG (12,7%) dans l'échantillon de réplication, la puissance était de 91% pour atteindre P <0,05 sous un test d'association unilatéral. Les preuves observées (P = 0,90, rapport de cotes = 1,00) ne prend pas en charge rs145181683 en tant que véritable association T2D. Une analyse plus poussée de cette absence de preuve de réplication a suggéré que, bien que l'association issue de notre analyse de séquence ne soit probablement pas un artefact technique (qualité du génotypage élevée), elle pourrait éventuellement être un indicateur indirect d'un non-codage différent (spécifique aux Amérindiens) variante causale (les détails complets sont disponibles dans les méthodes supplémentaires). Des efforts supplémentaires de cartographie fine et de réplication seront nécessaires pour tester cette hypothèse.


Analyse au niveau des gènes

Suite à des études antérieures pour chaque gène10,56,57, nous avons testé séparément sept «masques» différents de variants groupés par gravité prédite similaire (définie dans Extended Data Fig. 5). Pour chaque gène et chaque masque, nous avons créé jusqu'à trois groupements d'allèles, correspondant à différents ensembles de transcription du gène; pour de nombreux gènes, deux ou plus de ces groupes d'allèles étaient identiques.

Avant d'exécuter des tests au niveau des gènes, nous avons effectué un contrôle de qualité supplémentaire sur les génotypes de l'échantillon. Pour chacun des 25 sous-groupes de l'échantillon (les mêmes que ceux utilisés pour les analyses avec un seul variant), nous avons identifié les variants qui échouaient aux critères de contrôle de la qualité spécifiques à un sous-groupe (présentés dans la figure 5) et avons défini des génotypes pour ces variants chez tous les individus du groupe. sous-groupe comme "manquant".

Nous avons effectué deux tests d’association au niveau des gènes: un test de charge, qui suppose que toutes les variantes analysées d’un gène ont le même effet, et SKAT.15, qui permet une variabilité dans la taille de l’effet variant (et dans la direction); chacun de ces tests est bilatéral. Nous avons effectué chaque test sur tous les individus non apparentés avec 10 composantes principales d'ascendance génétique, de sous-groupe d'échantillons et de technologie de séquençage en tant que covariables. Comme cette stratégie de «méga-analyse» était différente de la stratégie de méta-analyse utilisée pour les analyses à une seule variante, nous avons mené une méga-analyse à une variante et nous avons constaté que ses résultats montraient une grande corrélation avec ceux de la méta-analyse initiale (Fig. 18 supplémentaire).

Nous avons ensuite développé deux méthodes pour consolider le 2 × 7 = 14 P valeurs produites pour chaque gène (décrites en détail dans Extended Data Fig. 5, Méthodes supplémentaires et Fig. 5, 6). D'abord, nous avons corrigé le plus petit P valeur pour chaque gène en fonction du nombre effectif de masques indépendants testés pour le gène (variable, mais en moyenne 3,6), basée sur la corrélation spécifique au gène des variants d'un masque à l'autre58 (appelé le minimum Ptest de valeur; Fig. 19 supplémentaire. Deuxièmement, nous avons testé tous les variants non synonymes (c'est-à-dire le faux-sens, les mutations du site d'épissage et de la protéine), mais nous avons pondéré chaque variant en fonction de sa probabilité estimée d'inactivation du gène.9 (appelé test pondéré, qui a essentiellement évalué l’effet de l’haploinsuffisance des gènes à partir de l’analyse combinée de variants tronqueurs de protéines et de faux-sens; Figure complémentaire 6). Nous avons vérifié que ces deux méthodes de consolidation étaient bien calibrées (Extended Data Fig. 6) et globalement cohérentes mais distinctes: sur les 10 gènes les plus significativement associés, P les valeurs étaient nominalement significatives en utilisant les deux méthodes pour 8 gènes mais variaient de 1 à 3 ordres de grandeur (tableau étendu des données 2).

En effet, chaque masque de gène pouvant représenter jusqu'à trois ensembles d'allèles (en raison de la stratégie d'annotation spécifique au transcrit que nous avons utilisée), pour chacune des quatre analyses plusieurs P les valeurs étaient possibles pour certains gènes. Produire un seul niveau de gène P valeur pour chacune des quatre analyses, nous avons donc rassemblé (pour chaque gène) l’ensemble des P valeurs à travers les ensembles de transcription en un seul niveau de gène P valeur en utilisant le minimum Ptest de valeur.

Nous avons utilisé un seuil de signification conservateur corrigé par Bonferroni au niveau des gènes, à l'échelle de l'exome P = 0,05 / (2 tests × 2 méthodes de consolidation × 19 020 gènes) = 6,57 × 10−7. Pour chaque gène référencé dans le manuscrit, nous rapportons la P valeur et rapport de cotes de l'analyse qui a atteint le plus bas P valeur pour le gène.


Analyse au niveau des gènes près des signaux T2D GWAS

En principe, une association proche variante commune pourrait conduire à une surestimation ou à une sous-estimation de la force d'une association au niveau d'un gène59. Pour évaluer si des profils différentiels de variation rare parmi des haplotypes de variants communs pouvaient affecter de manière significative nos résultats au niveau des gènes, nous avons effectué deux analyses (décrites dans les Méthodes supplémentaires) et nous n'avons trouvé aucune preuve que la confusion avec des haplotypes de variants communs était principalement responsable des associations. qui ont été observés dans nos analyses au niveau des gènes.


Exploration plus poussée des associations significatives au niveau des gènes

Pour nos associations géniques significatives au niveau de l’exome (MC4R, PAM et SLC30A8), nous avons effectué des analyses supplémentaires au niveau des gènes afin de disséquer les signaux agrégés observés. Tout d'abord, nous avons effectué des tests en éliminant progressivement les allèles dans l'ordre de l'analyse du variant unique le plus bas. P valeur, afin de comprendre le nombre (minimum) d’allèles ayant contribué statistiquement au signal global. Deuxièmement, nous avons effectué des tests conditionnels sur chaque allèle de la séquence (c’est-à-dire en calculant des modèles séparés avec chaque allèle individuel en tant que covariable), puis nous avons comparé les résultats obtenus. P valeurs au niveau du gène complet P valeur, afin d’évaluer la contribution de chaque allèle individuellement au signal. Enfin, pour MC4R, nous avons effectué une analyse avec une covariable d’échantillon supplémentaire pour l’indice de masse corporelle et avons constaté que, comme indiqué précédemment60,61, réduit l’importance du signal Ile269Asn à variant unique (P = 1,0 × 10−5) et le signal génique non attribuable à Ile269Asn (P = 0,035).

Pour évaluer quelles ancêtres ont contribué à des variantes MC4R, SLC30A8, et PAM, nous avons calculé la proportion de variantes dans chaque signal propre à une ascendance et également comparé la signification et la direction de l’effet de chaque signal entre les ancêtres. Parmi les trois signaux, 68,4% (287 sur 419) des variantes étaient uniques à une ascendance (63,9% pour MC4R, 67,0% pour SLC30A8 et 71,6% pour PAM). Chaque signal avait une direction d’effet qui était cohérente pour les cinq ancêtres et chaque signal était atteint P <0,05 dans au moins deux ancêtres (MC4R chez les Asiatiques et les Hispaniques; SLC30A8 dans toutes les ancêtres autres que les Afro-Américains; et PAM Européens, Asiatiques du Sud et Hispaniques).


Analyse des exomes du système de santé Geisinger

Nous avons obtenu des résultats d'association au niveau des gènes qui avaient été précédemment calculés à partir d'une analyse de 49 199 personnes (12 973 cas de DT2 et 36 226 témoins) du système de santé de Geisinger (SGH). Les statistiques d'association étaient disponibles pour 44 des 50 gènes avec les associations de gènes les plus fortes de notre étude. Une analyse de puissance de l'analyse de réplication SGH est disponible dans les méthodes supplémentaires.

Les données de séquençage GHS ont été traitées et analysées comme décrit précédemment24, et les variantes ont été regroupées dans quatre masques (imbriqués) (correspondant approximativement aux masques LofTee, 5/5, 1/5 1% et 0/5 1%; des informations plus détaillées sont disponibles dans les méthodes supplémentaires). Pour chaque masque, les résultats d'association ont été calculés en utilisant une régression logistique à deux côtés sous un modèle de charge additive (avec phénotype régressé sur le nombre de variants portés par chaque individu) avec l'âge, l'âge.2 et le sexe en tant que covariables. Produire un seul SGH P valeur pour chaque gène, nous avons appliqué le minimum Pprocédure -value à travers les quatre résultats au niveau du masque.


Analyse d'exomes du consortium CHARGE

Nous avons collaboré avec le consortium CHARGE pour analyser les 50 gènes présentant les associations de niveaux de gènes les plus fortes de notre étude chez 12 467 personnes (3 062 cas de DT2 et 9 405 témoins) issues de leur étude décrite précédemment.62,63. Une analyse de puissance de l'analyse de réplication CHARGE est disponible dans les méthodes supplémentaires.

Les variantes des exomes de CHARGE ont été annotées et regroupées en sept masques en suivant la même procédure que pour l'analyse de séquençage exome originale. Des tests d'association Burden et SKAT ont ensuite été effectués dans Analysis Commons64 en utilisant un modèle logistique mixte à deux côtés65 en supposant un modèle génétique additif et ajusté pour l'âge, le sexe, l'étude, la race et la parenté. Produire une seule charge P valeur pour chaque gène, nous avons appliqué le minimum Pprocédure de valeur sur les sept résultats au niveau du masque, comme pour l'analyse SGH.


Méta-analyse avec CHARGE et GHS

Nous avons effectué une méta-analyse parmi notre analyse de charge initiale et celles de CHARGE et du SGH. Pour chaque gène, nous avons sélectionné le masque qui a obtenu le plus bas P notre analyse initiale et avons mené une méta-analyse pondérée en fonction de la taille de l’échantillon bilatéral avec les résultats de CHARGE et du SGH pour le même masque (ou un masque analogue tel que défini dans les Méthodes supplémentaires).


Enquête de la UBE2NL association

Nous avons étudié la nouvelle association trouvée dans la méta-analyse au niveau du gène (UBE2NL, méta-analyse P = 5,6 × 10−7) plus en détail. le UBE2NL le signal de charge était dû à cinq PTV lors de l'analyse initiale (observés dans 29 cas et un contrôle; tous ayant une couverture de séquençage élevée (> 45 ×); Tableau 8 supplémentaire) et a été reproduit à P = 0,02 en CHARGE; UBE2NL les résultats n'étaient pas disponibles dans le SGH. Comme UBE2NL sur le chromosome X, nous avons effectué une analyse sexuée des échantillons originaux et observé des associations indépendantes chez les deux hommes (P = 5,7 × 10−4) et les femmes (P = 1,6 × 10−3). UBE2NL ne se trouve pas près d'associations GWAS connues () et a peu de références disponibles66,67,68, suggérant qu'il pourrait s'agir d'un nouveau gène pertinent pour le DT2, bien qu'une réplication ultérieure soit importante pour établir son association.


Évaluation de la cohérence directionnelle entre les analyses de séquençage exome, CHARGE et SGH

Nous avons examiné la concordance des estimations de direction de la taille de l'effet (c'est-à-dire les deux rapports de cotes> 1 ou <1) entre les tests de charge de notre analyse de séquençage exome initiale et ceux de CHARGE et du SGH. Pour les 46 gènes avancés pour la réplication avec charge P <0,05 pour au moins un masque (c'est-à-dire, en ignorant ceux qui présentent des preuves d'association uniquement dans le modèle SKAT), nous avons comparé la direction de l'effet estimée pour le masque avec le plus bas P-valeur de masque à celle estimée pour le même masque (ou analogue) dans l'analyse GHS ou CHARGE. Nous avons ensuite effectué un test binomial exact unilatéral afin de déterminer si la fraction de résultats avec une direction d'effets cohérente était significativement plus grande que prévu par le hasard.


Analyse de jeux de gènes dans les données de séquençage

Nous avons sélectionné 16 ensembles de gènes candidats au DT2, définis dans le tableau supplémentaire 9, avec les critères spécifiés dans les méthodes supplémentaires. Pour chaque ensemble de gènes, nous avons construit des ensembles de gènes appariés contenant des nombres et des fréquences similaires de variants (les détails sont fournis dans les méthodes supplémentaires). Une analyse de sensibilité de cette stratégie d'appariement est présentée dans les méthodes supplémentaires.

Pour effectuer une analyse de l'ensemble de gènes, nous avons ensuite combiné les gènes de l'ensemble de gènes avec les gènes correspondants. Dans la liste combinée de gènes, nous avons classé les gènes en utilisant le P valeurs observées pour le minimum Ptest de la charge de valeur. Nous avons ensuite utilisé un test unilatéral de classement de Wilcoxon pour déterminer si les gènes de l'ensemble de gènes avaient des rangs significativement plus élevés que les gènes de comparaison.


Utilisation d'associations au niveau des gènes pour prédire les gènes effecteurs

Afin de déterminer si les associations de gènes issues du séquençage d'exome – composées principalement de variants rares indépendants de toute association de GWAS – pourraient prioriser les gènes effecteurs potentiels dans les loci T2D GWAS connus, nous avons d'abord évalué si les gènes effecteurs prédits (sur la base d'associations de variants communs) ont également été enrichis pour les associations de variantes de codage rares. Notre analyse (décrite en détail dans les méthodes supplémentaires) a montré que les gènes effecteurs prédits à partir d’associations de variants de codage courantes montrent un enrichissement significatif (P = 8,8 × 10−3), mais les gènes effecteurs prédits à partir d'associations au niveau de la transcription ne le sont pas (P = 0,72).

Nous avons ensuite organisé une liste de 94 locus T2D GWAS et de 595 gènes situés à moins de 250 kb de tout variant d'indice T2D GWAS, tirés d'une revue de la génétique réalisée en 2016 par T2D.69 et observé 40 avec un P <0,05 signal au niveau du gène (tableau supplémentaire 12), supérieur au 595 × 0,05 = 29,75 attendu par hasard (P = 0,038). Seulement trois (SLC30A8, PAM et HNF1A) faisaient partie de la liste que nous avons organisée de 11 gènes avec des variants de codage communs causaux6. Nous avons constaté que ces 40 gènes étaient significativement plus enrichis pour les interactions protéiques (P = 0,03; moyenne observée = 11,4, moyenne attendue = 4,5) que les 184 gènes impliqués, en fonction de la proximité du SNP index (P = 0,64; moyenne observée = 21,1, moyenne attendue = 21,9), bien que l'évaluation de la candidature biologique de ces gènes nécessite des études fonctionnelles approfondies70. De rares variantes de codage pourraient donc, en principe, compléter la cartographie fine des variantes communes.71,72 et données expérimentales4,70 aider à interpréter les associations T2D GWAS; Cependant, nos résultats indiquent que des tailles d'échantillon beaucoup plus grandes et / ou des données expérimentales orthogonales seront nécessaires pour impliquer clairement des gènes effecteurs spécifiques. Une description complète de cette analyse est incluse dans les méthodes supplémentaires.


Utilisation d'associations au niveau des gènes pour prédire la direction de l'effet

Pour évaluer si des analyses d'association au niveau des gènes de variants délétères prédits pourraient être utilisées pour prédire la direction thérapeutique de l'effet, nous avons comparé les odds ratios estimés à partir d'une procédure de test de charge pondérée modifiée (décrite dans les méthodes supplémentaires) à ceux attendus pour les cibles de médicaments les cibles agonistes doivent avoir un rapport de cotes vrai> 1 et les inhibiteurs, un rapport de cotes vrai <1). Pour une comparaison similaire aux attentes concernant l'inactivation du gène de la souris, nous avons utilisé la relation entre le phénotype de la souris et le phénotype humain spécifié dans les méthodes supplémentaires. Les gènes présents dans deux ensembles de gènes avec une direction d'effet attendue opposée ont été exclus de cette analyse.


Collecte et analyse des données du tableau SNP

Pour comparer les découvertes de nos analyses de séquençage exome avec celles possibles de GWAS de variantes communes des mêmes échantillons, nous avons agrégé toutes les données de matrice SNP disponibles pour les échantillons séquencés exome (18 233 cas et 17 679 contrôles; tableau supplémentaire 13). Après le contrôle de la qualité des échantillons et des variants (décrit dans les méthodes supplémentaires), nous avons imputé les variants de la phase 3 de 1000 génomes.32 (1000G) et le consortium de référence Haplotype33 Panneaux de référence (HRC) utilisant le serveur d’imputation du Michigan73. Nous avons utilisé l'imputation 1000G pour toutes les analyses d'association et l'imputation HRC pour évaluer le nombre de variants de séquence exome imputables au plus grand panel de référence européen disponible (détails disponibles dans les méthodes supplémentaires).

Après imputation, nous avons effectué un contrôle de la qualité des échantillons et des variants, ainsi que des tests d'association bilatéraux, analogues aux analyses à un seul variant exome-séquence. Contrairement aux analyses de séquençage exome, un graphique quantile – quantile a suggéré que les associations du test EMMAX n'étaient pas bien calibrées et nous avons donc utilisé uniquement le test de Firth (c'est-à-dire, P rapports de cotes) dans l’analyse GWAS imputée.

Pour effectuer une analyse des ensembles de gènes avec les données GWAS imputées, nous avons d’abord utilisé la méthode mise en œuvre dans MAGENTA.74 calculer les scores des gènes à partir des résultats d'association à variant unique GWAS imputés. En suivant le même protocole que pour l'analyse des ensembles de gènes à partir des résultats de séquençage exome, nous avons ensuite effectué un test unilatéral de Wilcoxon afin de comparer les scores des gènes à ceux des gènes de comparaison appariés. Nous avons suivi la même approche pour l’analyse des ensembles de gènes que celle que nous avons conduite dans une plus grande publication précédemment publiée.13 GWAS.


Calculs LVE

Pour calculer les VEM, nous avons utilisé une formule présentée précédemment75 (des équations sont disponibles dans les méthodes supplémentaires) pour calculer la VEM d’un variant à trois génotypes (AA, Aa et aa) et des risques relatifs correspondants (1, RR1 et RR2). Lorsque nous avons présenté les valeurs LVE les plus fortes pour l'analyse GWAS imputée, nous avons uniquement pris en compte les variants génotypés chez au moins 10 000 individus afin d'éviter les artefacts potentiels résultant d'une association parasite dans un sous-groupe de petits échantillons. Pour les calculs LVE au niveau des gènes, nous avons utilisé le masque variant avec le plus bas P valeur pour calculer les LVE. Nous avons également effectué une analyse de sensibilité pour déterminer dans quelle mesure nos estimations d'EVG au niveau des gènes pourraient être biaisées à la baisse en raison de l'inclusion d'allèles bénins; cette analyse (décrite en détail dans les méthodes supplémentaires) a produit des limites supérieures des VLE au niveau des gènes qui étaient au plus deux fois plus élevées que les estimations ponctuelles.


Prédiction de LVE expliquée par les 100 et 1000 principales associations au niveau des gènes

Pour prévoir le LVE qui sera expliqué une fois que 100 (ou 1 000) associations significatives au niveau du gène T2D sont détectées, nous avons appliqué un modèle précédemment suggéré.34 dans lequel la VEM d'un gène est liée à son rang dans le niveau global du gène Pdistribution des valeurs. Plus précisément, le modèle est LVEn = Eun + b où LVEn est le LVE du gène avec nniveau de gène le plus bas P valeur. Nous avons ajusté ce modèle en utilisant la régression linéaire aux 50 gènes les plus importants de notre analyse (Fig. 20 supplémentaire), donnant des estimations de une = −0,044 et b = -7.07. Nous avons ensuite calculé le LVE des 100 (ou 1 000) gènes les plus importants en faisant la somme des VLE réels des trois premiers signaux (qui ont atteint une signification exome dans notre analyse) avec le LVE prédit par le modèle pour les gènes classés entre 4 et 100 (ou 4–1 000).


Puissance estimée pour détecter les associations au niveau des gènes avec les cibles de médicaments de DT2

Pour estimer le pouvoir des futures études visant à détecter des associations de gènes au niveau des gènes avec des tailles d’effet similaires à celles des cibles de médicaments établies pour le DT2, nous avons utilisé les fréquences alléliques globales et les odds ratios estimés à partir de notre analyse au niveau des gènes et une prévalence supposée de K = 0,08 pour calculer un proxy pour les fréquences de population réelles et les risques relatifs. Pour chaque gène, nous avons utilisé les rapports de cotes et les fréquences du masque variant qui ont donné la plus forte association au niveau des gènes. Comme, en moyenne, ces cibles médicamenteuses comportaient cinq tests efficaces par masque, nous avons utilisé un seuil de α = 1,25 × 10−7 pour les calculs de puissance. Nous avons calculé la puissance comme décrit précédemment76.

Les fourchettes indiquées dans le texte principal (75 000 à 185 000 cas de maladie) représentent les chiffres tirés des calculs de puissance pour INSR (la cible du médicament ayant la taille d'effet observée la plus élevée) et IGF1R (le médicament ciblé ayant la taille d'effet observée la plus faible, autre que KCNJ11 et ABCC8). Nous avons exclu KCNJ11 et ABCC8 à partir de cette plage rapportée, étant donné qu’un mélange de variants de ces gènes augmentant et diminuant le risque a probablement dilué leurs signaux de charge. Nous n'avons pas tenu compte de l'incertitude des rapports de cotes estimés ni de la fréquence des variantes agrégée dans ces calculs, car aucun gène ne présentait d'intervalles de confiance de 95% qui ne chevauchaient pas les rapports de cotes = 1.


Interprétation d'associations suggestives

Nous avons quantifié le PPA des variants non synonymes observés dans notre ensemble de données en fonction de la force d'association mesurée par un seul variant. P valeurs. Nous définissons une association vraie comme une variante qui, lorsqu'elle est étudiée dans des échantillons plus grands, finira par atteindre une signification statistique en raison d'un véritable rapport de cotes 1. Nous distinguons les associations vraies des associations de causalité: les variantes associées de manière causale sont le sous-ensemble de variantes réellement associées que la variante elle-même est la cause de l'augmentation du risque de maladie, par opposition à une véritable association due à un déséquilibre de liaison (LD) avec une variante différente associée de manière causale (c'est-à-dire un "proxy LD"). La figure 7, intitulée Données détaillées, donne un aperçu de la méthode que nous avons développée pour les calculs de PPA. Une description complète de la méthode est incluse dans les méthodes supplémentaires. Ici, nous décrivons les étapes de la démarche.

Tout d'abord, pour diverses variantes simples Pseuils de valeur dans l'analyse exome-sequencing, nous avons calculé la fraction de variants ayant atteint ce seuil avec une direction d'effet concordante avec celle d'une étude indépendante sur les matrices exome.dix. Par exemple, 61,3% des variantes non synonymes dans les loci T2D GWAS ayant atteint P <0,05 dans l’analyse de séquençage exome avait des directions d’effet concordantes avec l’étude indépendante, une fraction qui a diminué (comme prévu) Pseuils de valeur (par exemple, 49,4% à P > 0,5) ou lorsque seules les variantes en dehors des loci T2D GWAS ont été analysées (51,9% à P <0,05).

Deuxièmement, nous avons dérivé une équation pour convertir la fraction d'associations concordantes en une proportion estimée d'associations vraies. Cette valeur fournit une estimation PPA, en fonction de P valeur, pour une variante arbitraire de l'ensemble initialement utilisée pour calculer les concordances de direction d'effet. Nous avons calculé des mappages distincts pour les variantes non synonymes synonymes (en utilisant toutes les variantes non synonymes anonymes) et un pour les variantes non synonymes dans les locus GWAS (en utilisant uniquement des variantes non synonymes dans les 94 locus T2D GWAS). Nous notons que la cartographie produite à partir de notre analyse s’applique uniquement aux résultats de la présente étude: comme d’autres études ont des tailles d’échantillons différentes et peuvent appliquer des tests statistiques différents, la cartographie devra être recalculée pour interpréter les associations d’autres études utilisant le même méthode.

Troisièmement, nous avons converti les estimations de l’APP en estimations de la probabilité a posteriori d’associations de cause à effet (PPAc). Cette conversion nécessite des estimations de la fraction d'associations de variantes de codage qui sont causales (par opposition aux mandataires LD). Nous avons exploré plusieurs valeurs pour ce paramètre, comme décrit dans les méthodes supplémentaires et indiqué dans Extended Data Fig. 8.

Quatrièmement, nous avons étendu les estimations du PPA afin d’intégrer des antécédents de gènes spécifiques en recensant les probabilités postérieures d’association causale (POc) à un facteur de Bayes pour l'association causale (BFc). Ce calcul nécessite un ensemble de variantes d’entraînement avec un préalable connu. Pour cet ensemble de formations, nous utilisons des variantes non synonymes dans les loci GWAS et des hypothèses de modélisation pour leurs précédents. Les détails de ce modèle sont décrits dans les méthodes supplémentaires et une analyse de sensibilité de ses hypothèses est présentée dans Extended Data Fig. 8.

Enfin, à titre d’estimation préliminaire d’une vraisemblance antérieure fondée sur des principes pour l’ensemble des gènes de la souris NIDD, nous avons estimé la proportion d’associations non nulles pour tous les gènes de l’ensemble. Pour utiliser de vraies données antérieures (plutôt que les associations de l’étude actuelle), nous avons calculé P valeurs pour chaque gène de la série à l’aide de MAGENTA74 algorithme appliqué à un T2D GWAS transethnique récent13. Nous avons ensuite utilisé une approche précédemment développée40,77 qui modélise la distribution des observés P les valeurs sont un mélange de distributions uniformes (représentant la distribution nulle) et bêta (représentant la distribution non nulle), ce qui donne une valeur antérieure de 23,2%.

Notre PPAc les calculs ont actuellement plusieurs limitations. Ils s'appliquent uniquement aux associations à un seul variant et non (encore) aux associations au niveau des gènes; les élargir pour s’appliquer aux associations au niveau des gènes éviterait la possibilité de résultats contradictoires entre les variantes d’un gène, mais exigerait des données de réplication au niveau des gènes plus grandes que celles que nous avions dans l’analyse actuelle. Des travaux supplémentaires seront également nécessaires pour générer des données et développer des méthodes d'estimation objective de gènes plutôt que subjectifs (les chercheurs peuvent souvent surestimer les preuves de la pertinence de la maladie pour les gènes dans lesquels ils ont déployé des efforts considérables), afin de réduire la dépendance de nos conclusions sur les hypothèses de modélisation ( Extended Data Fig. 8) et d’explorer dans quelle mesure le grand nombre d’associations de variants que nous prédisons à partir de nos données se localisent à des annotations fonctionnelles spécifiques de gènes ou de variants78.


Résumé du rapport

De plus amples informations sur la conception de la recherche sont disponibles dans le Résumé du rapport de recherche sur la nature lié au présent document

[ad_2]