Du chaos, des tempêtes et des chemins balisés: les principes de l'incertitude

[ad_1]

Le dépistage des drogues repose sur des modèles statistiques.Crédit: Krisztian Bocsi / Bloomberg via Getty

Les dés jouent-ils à Dieu? Les mathématiques de l'incertitude Ian Stewart Profil (2019)

L’incertitude «n’est pas toujours mauvais» commence Les dés jouent-ils à Dieu?, le dernier livre du célèbre écrivain en mathématiques Ian Stewart. Il se termine ainsi: "L'avenir est incertain, mais la science de l'incertitude est la science de l'avenir." Entre-temps, Stewart aborde des sujets allant des mathématiques à la météorologie, dans lesquels l'acceptation de l'incertitude est nécessaire pour comprendre le fonctionnement du monde. Il aborde la théorie des probabilités et le chaos (le sujet de son livre de 1989 Dieu joue-t-il aux dés?). Et il explore le lien entre l'intrication quantique et la communication, avec des excursions intéressantes dans l'histoire des mathématiques, du jeu et de la science.

Ce que je préfère dans ce livre, ce sont les liens qu’il établit entre les paradoxes familiers (pour moi), les modèles dans les affaires humaines, les idées modernes en matière de codage et bien plus encore. Nous avons une idée des différents «âges d'incertitude», comme le dit Stewart.

Mais tous les exemples ne fonctionnent pas aussi bien. La principale faiblesse de ce livre, de mon point de vue, réside dans son hypothèse selon laquelle les modèles mathématiques s’appliquent directement à la vie réelle, sans tenir compte de la confusion dans laquelle se trouvent les données réelles. C’est quelque chose dont je suis particulièrement conscient, car c’est l’activité de mon domaine – les statistiques appliquées.

Par exemple, après une discussion sur l'incertitude, les sondages et l'échantillonnage aléatoire, Stewart écrit: «Les sondages à la sortie, dans lesquels on demande aux personnes pour qui ils ont voté peu après avoir voté, sont souvent très précis, donnant le résultat exact longtemps avant le vote officiel. le compte le révèle. "Ceci est incorrect. Les sondages bruts à la sortie ne sont pas directement utiles. Avant qu'elles ne soient partagées avec le public, les données doivent être ajustées pour tenir compte de la non-réponse, afin de correspondre aux données démographiques des électeurs et aux résultats des élections. Les résultats bruts ne sont même jamais rapportés. La vraie valeur du sondage de sortie n’est pas qu’il puisse fournir un décompte précis des votes anticipés, mais qu’il donne une idée de qui a voté pour quels partis une fois l’élection terminée.

Il est également décevant de voir Stewart tracer des idées fausses sur les tests d’hypothèses, la théorie statistique qui sous-tend le P <0,05 (dans lequel Psignifie probabilité) si souvent utilisé dans ce journal et d'autres pour indiquer qu'un certain résultat empirique est doté d'un sceau d'approbation statistique.

Voici comment Stewart le situe dans le contexte d’un exemple clairement décrit de comptes de dénombrement des naissances de garçons et de filles: p= 0,05, il n’ya donc qu’une probabilité de 5% que de telles valeurs extrêmes se produisent par hasard »; Ainsi, «nous sommes convaincus à 95% que l’hypothèse nulle est fausse et nous acceptons l’hypothèse alternative». (En général, l'hypothèse nulle est un point de comparaison dans une analyse statistique. Ici, on suppose que les naissances des garçons et des filles se produisent avec des probabilités égales; en fait, la naissance d'un garçon est légèrement plus probable.)

Stewart commet l'erreur mathématique courante de transposer les probabilités. Il interprète 0,05 comme la probabilité que l'hypothèse soit vraie; c'est en fait une déclaration sur la probabilité de voir les résultats ou quelque chose de plus extrême si l'hypothèse nulle était vraie. (Ce n’est pas le cas ici.)

Plus tard, il a déclaré à tort qu’un intervalle de confiance indiquait «le niveau de confiance dans les résultats»; en fait, il s’agit d’une procédure statistique permettant d’exprimer l’incertitude ou une plage de valeurs cohérente avec les données.

Stewart discute toutefois d'une erreur trop commune parmi les chercheurs et les étudiants: utiliser le rejet statistique d'une hypothèse nulle comme homme de paille pour valider une affirmation scientifique sur le monde réel. Dans des cas simples, cela pourrait ne pas être un problème. En rejetant le modèle selon lequel les naissances des garçons et des filles sont également probables, nous apprenons en même temps le fait général que les naissances des garçons sont plus probables. Mais ce type d'apprentissage par rejet peut échouer dans des contextes plus complexes. Une hypothèse nulle est extrêmement spécifique, et l’alternative inclut non seulement une réponse correcte, mais toutes les autres possibilités.

Dans une expérience médicale, l'hypothèse nulle pourrait être qu'un nouveau médicament n'a aucun effet. Mais l'hypothèse sera présentée dans un modèle statistique qui suppose qu'il n'y a aucune erreur systématique. Ce n'est pas nécessairement vrai: des erreurs peuvent survenir même dans une étude randomisée en aveugle, par exemple si certains participants déterminent le groupe de traitement auquel ils ont été assignés. Cela peut entraîner le rejet de l'hypothèse nulle même lorsque le nouveau médicament n'a aucun effet, à l'instar d'autres complexités, telles qu'une erreur de mesure non modélisée.

Dire que P= 0,05 devrait amener à accepter l'hypothèse alternative est tentante – quelques millions de scientifiques le font chaque année. Mais c'est faux et cela a conduit à des crises de réplication dans de nombreux domaines des sciences sociales, comportementales et biologiques.

Les statistiques – pour reprendre l’opinion d’Homère Simpson sur l’alcool – sont la cause et la solution de tous les problèmes de la science. De nombreuses difficultés ont été associées à l’utilisation abusive de statistiques pour faire des affirmations fort inappropriées à partir de données bruitées, mais je ne pense pas que la solution consiste à abandonner les statistiques officielles. La variation et l’incertitude sont inhérentes à la science moderne. Nous devons plutôt approfondir notre modélisation statistique. Par exemple, dans les sondages, nous admettons que nous ne pouvons pas obtenir un échantillonnage propre randomisé ou représentatif. Nous recueillons donc les données nécessaires pour ajuster notre échantillon à la population.

Si je me souviens bien que l’analyste de baseball Bill James ait écrit quelque part, l’alternative à de bonnes statistiques n’est pas une statistique: c’est une mauvaise statistique. Nous devons concevoir nos enquêtes, nos essais cliniques et nos études météorologiques dans l'optique d'éliminer les biais potentiels, et nous devons ajuster les données obtenues pour compenser les biais qui subsistent. Sinon, les gens peuvent prendre les chiffres disponibles et tirer toutes sortes de conclusions trompeuses. Ce qui me plaît dans le livre de Stewart, c’est qu’il fait directement face à certains de ces défis.

Dans un sens, la réponse à la question de Stewart, "Est-ce que les dés jouent à Dieu?", Est oui. La probabilité est un modèle mathématique d'efficacité déraisonnablement efficace pour l'incertitude dans de nombreux domaines de la vie. Je pense que l’avenir dans la science de l’incertitude reposera essentiellement sur des outils permettant de faire en sorte que les ajustements que nous devons apporter aux données soient plus transparents et faciles à comprendre. Et nous développerons cette compréhension, en partie, à travers des exemples mathématiques et historiques du type discuté dans ce livre stimulant.

[ad_2]