Le plan d’exploitation des documents de recherche du monde

[ad_1]

Carl Malamud est en croisade pour libérer des informations enfermées derrière des barrières de paiement – et ses campagnes ont remporté de nombreuses victoires. Il a passé des décennies à publier des documents juridiques protégés par le droit d'auteur, des codes de la construction aux archives judiciaires, puis à faire valoir que de tels textes représentent une loi du domaine public qui devrait être accessible à tout citoyen en ligne. Parfois, il a gagné ces arguments devant les tribunaux. Aujourd'hui, le technologue américain âgé de 60 ans se tourne vers un nouvel objectif: libérer la littérature scientifique payante. Et il pense qu'il a un moyen légal de le faire.

Au cours de l’année écoulée, Malamud s’est associé – sans demander aux éditeurs – à des chercheurs indiens pour constituer un stock gigantesque de textes et d’images, extraits de 73 millions d’articles de revues datant de 1847 à nos jours. Le cache, qui est toujours en cours de création, sera conservé dans une installation de stockage de 576 téraoctets à l’Université Jawaharlal Nehru (JNU) à New Delhi. "Ce n’est pas tous les articles de journaux jamais écrits, mais c’est beaucoup", dit Malamud. C’est comparable à la taille de la collection principale de la base de données Web of Science, par exemple. Malamud et son collaborateur JNU, le bioinformaticien Andrew Lynn, appellent leurs installations le dépôt de données JNU.

Personne ne sera autorisé à lire ou à télécharger des travaux depuis le référentiel, car cela violerait les droits d'auteur des éditeurs. Malamud envisage plutôt de permettre aux chercheurs de parcourir son texte et ses données à l'aide d'un logiciel informatique, en parcourant la littérature scientifique mondiale pour en tirer des conclusions sans lire le texte.

Ce projet sans précédent suscite beaucoup d'enthousiasme car il pourrait, pour la première fois, ouvrir de vastes pans de la littérature payante pour une analyse facile par ordinateur. Des dizaines de groupes de recherche exploitent déjà des papiers pour construire des bases de données de gènes et de produits chimiques, pour établir des associations de protéines et de maladies. Mais les éditeurs contrôlent – et limitent souvent – la vitesse et la portée de tels projets, qui se limitent généralement à des résumés et non à des textes intégraux. Des chercheurs en Inde, aux États-Unis et au Royaume-Uni envisagent déjà d'utiliser le magasin JNU à la place. Malamud et Lynn ont organisé des ateliers dans les laboratoires du gouvernement indien et les universités pour expliquer l’idée. «Nous faisons venir des professeurs et expliquons ce que nous faisons. Ils sont tous excités et se disent: «Oh, ça alors, c’est merveilleux», dit Malamud.

Mais le statut juridique du dépôt n’est pas encore clair. Malamud, qui a contacté plusieurs avocats spécialisés en propriété intellectuelle avant de commencer à travailler au dépôt, espère éviter une action en justice. «Notre position est que ce que nous faisons est parfaitement légal», dit-il. Pour le moment, il procède avec prudence: le dépôt de données de JNU est isolé, ce qui signifie que personne ne peut y accéder depuis Internet. Les utilisateurs doivent se rendre physiquement sur les lieux et seuls les chercheurs souhaitant exploiter des mines à des fins non commerciales sont actuellement autorisés à entrer. Malamud indique que son équipe envisage d'autoriser l'accès à distance à l'avenir. «L’espoir est de le faire lentement et délibérément. Nous n'ouvrons pas tout cela immédiatement », dit-il.

Le pouvoir de l'exploration de données

Selon Max Häussler, chercheur en bioinformatique à l’Université de Californie à Santa Cruz (UCSC), le magasin de données JNU pourrait faire disparaître les obstacles qui dissuadent encore les scientifiques d’utiliser des logiciels d’analyse de la recherche. «La fouille de textes de textes académiques est pratiquement impossible à l’heure actuelle», déclare-t-il, même pour quelqu'un comme lui qui dispose déjà d’un accès institutionnel à des articles payants.

Depuis 2009, Häussler et ses collègues ont mis au point Internet, qui relie les séquences d’ADN du génome humain à des parties de documents de recherche mentionnant les mêmes séquences. Pour ce faire, les chercheurs ont contacté plus de 40 éditeurs pour leur demander l’autorisation d’utiliser un logiciel afin de fouiller dans la recherche afin de trouver des mentions d’ADN. Mais 15 éditeurs. Häussler ne sait pas s'il peut légalement exploiter des papiers sans autorisation. Il n'essaie donc pas. Dans le passé, il avait des éditeurs qui avaient repéré son logiciel rampant sur leurs sites. «Je passe 90% de mon temps à contacter des éditeurs ou à écrire des logiciels pour télécharger des articles», explique Häussler.

Chris Hartgerink, un statisticien qui travaille à temps partiel au centre QUEST de Berlin pour la transformation de la recherche biomédicale, affirme qu'il se limite maintenant au travail d'extraction de texte d'éditeurs à accès libre uniquement, car «il est trop compliqué de traiter avec ces éditeurs fermés». . Il y a quelques années, alors que Hartgerink poursuivait son doctorat aux Pays-Bas, trois éditeurs l'avaient empêché d'accéder à leur journal après avoir tenté de télécharger des articles en vrac à des fins minières.

Certains pays ont modifié leurs lois pour affirmer que les chercheurs travaillant sur des projets non commerciaux n’ont pas besoin de l’autorisation du détenteur du droit d’auteur pour exploiter ce qu’ils ont accès légalement. Le Royaume-Uni a adopté une telle loi en 2014 et l'Union européenne a voté cette année. Cela n’aide pas les universitaires des pays pauvres qui n’ont pas légalement accès aux papiers. Et même au Royaume-Uni, les éditeurs peuvent légalement s’engager dans le processus, par exemple en canalisant les scientifiques via des interfaces spécifiques aux éditeurs et en limitant la vitesse de la recherche électronique ou du téléchargement en bloc pour protéger les serveurs de la surcharge. John McNaught, directeur adjoint du National Center for Text Mining de l’Université de Manchester, au Royaume-Uni, estime que ces limites sont un gros problème. «Une limite, disons, d'un article toutes les cinq secondes, ce qui sonne vite pour un humain, est extrêmement lente pour une machine. Il faudrait un an pour télécharger environ six millions d'articles, et cinq ans pour télécharger tous les articles publiés concernant uniquement la biomédecine », a-t-il déclaré.

Les entreprises pharmaceutiques fortunées paient souvent davantage pour négocier un accès spécial à l'extraction de texte, car leur travail a un but commercial, dit McNaught. Dans certains cas, les éditeurs autorisent ces entreprises à télécharger des documents en vrac, évitant ainsi les limites tarifaires, selon un chercheur d'une entreprise pharmaceutique qui ne voulait pas être identifié car il n'était pas autorisé à parler aux médias. Toutefois, les universitaires se limitent souvent à extraire des résumés d'articles à partir de bases de données telles que PubMed. Cela fournit des informations, mais les textes complets sont beaucoup plus utiles. En 2018, une équipe dirigée par le biologiste informaticien Søren Brunak de l'Université technique du Danemark à Lyngby a montré que les recherches en texte intégral généraient beaucoup plus de liens gène-maladie que les recherches de résumés ().

Carl Malamud et Andrew Lynn supervisent le projet de l'université Jawaharlal Nehru de New Delhi visant à extraire du texte et des images de 73 millions d'articles de recherche.Crédit: Smita Sharma pour La nature

Les scientifiques doivent également surmonter les obstacles techniques lors de l'extraction d'articles. Il est difficile d'extraire du texte des différentes mises en page utilisées par les éditeurs – quelque chose avec lequel l'équipe JNU se débat actuellement. Les outils permettant de convertir des PDF en texte brut ne font pas toujours la distinction entre les paragraphes, les notes de bas de page et les images, par exemple. Une fois que l’équipe JNU aura terminé, d’autres efforts seront sauvés. L’équipe est sur le point de terminer le premier cycle d’extraction du corpus de 73 millions de papiers, a déclaré Malamud, bien qu’ils devront vérifier les erreurs. Il s’attend donc à ce que la base de données ne soit pas prête avant la fin de l’année.

Un monde de possibilités

Les premiers enthousiastes se préparent déjà à utiliser le dépôt JNU. L’une d’elles est Gitanjali Yadav, biologiste informaticienne à l’Institut national de recherche sur le génome des plantes de Delhi (NIPGR) et chargée de cours à l’Université de Cambridge, au Royaume-Uni. En 2006, Yadav a dirigé un effort chez NIPGR pour construire une base de données de produits chimiques sécrétés par les plantes. Appelée, cette base de données est aujourd'hui explorée par des groupes allant des développeurs de médicaments aux parfumeurs à la recherche de pistes. Yadav pense que le "Compendium de Carl", comme elle l’appelle, pourrait donner un coup de pouce à sa base de données.

Pour réaliser EssOilDB, l’équipe de Yadav a dû rechercher dans les publications pertinentes PubMed et Google Scholar, extraire les données des textes intégraux dans la mesure du possible et visiter manuellement les bibliothèques pour copier les tableaux de revues rares. Le dépôt pourrait accélérer ce travail, explique Yadav, dont l’équipe rédige actuellement les requêtes qu’elle utilisera pour extraire les données.

Srinivasan Ramachandran, chercheur en bioinformatique à l’Institut de génomique et de biologie intégrative de Delhi, est également enthousiasmé par le plan de Malamud. Son équipe court; ils ont parcouru des résumés sur PubMed pour trouver des articles. Maintenant, il espère que le dépôt pourra élargir son réseau minier.

Et au Massachusetts Institute of Technology (MIT) de Cambridge, une équipe du Knowledge Futures Group a déclaré vouloir extraire le dépôt afin de cartographier l'évolution de l'édition universitaire au fil du temps. Le groupe espère pouvoir prévoir les domaines de recherche émergents et identifier des solutions de rechange aux mesures conventionnelles pour mesurer l’impact de la recherche, a déclaré James Weis, membre de l’équipe, doctorant au MIT Media Lab.

Une carrière qui déverrouille le droit d'auteur

Malamud n’a eu que récemment l’idée d’étendre son activisme à la publication universitaire. Malamud, fondateur d'une société à but non lucratif basée à Sebastopol, en Californie, s'est concentré sur l'achat et la publication d'ouvrages juridiques appartenant au gouvernement. Celles-ci incluent, par exemple, le code juridique annoté de l’état de la Géorgie, les normes européennes de sécurité des jouets et plus de 19 000 normes indiennes, allant des bâtiments aux pesticides en passant par le matériel chirurgical.

Parce que ces documents sont souvent une source de revenus pour les agences gouvernementales, certains d’entre eux ont poursuivi Malamud, qui a soutenu que les documents qui ont force de loi ne peuvent être enfermés sous le droit d’auteur. Dans le cas de la Géorgie, une cour d’appel américaine l’a blanchi des accusations d’infraction en 2018, mais l’État a fait appel et l’affaire est devant la Cour suprême des États-Unis. Dans le même temps, un tribunal allemand a statué en 2017 que la publication de normes relatives aux jouets par Public Resource, y compris une norme relative aux sucettes pour bébés (sucettes), était illégale.

Mais Malamud a également remporté des victoires. En 2013, il a engagé une action en justice devant un tribunal fédéral américain demandant à l'Internal Revenue Service (IRS) de publier les formulaires recueillis auprès d'organisations à but non lucratif exonérées d'impôt – des données qui pourraient aider à demander des comptes à ces organisations. Ici, incitant l'IRS à publier les informations financières de milliers d'organisations à but non lucratif dans un format lisible par machine.

Au début de 2017, avec l'aide d'Arcadia Fund, une organisation caritative basée à Londres qui promeut le libre accès, Malamud s'est tourné vers les articles de recherche. En vertu de la législation américaine, les œuvres des employés du gouvernement fédéral américain ne peuvent pas être protégées par le droit d'auteur. Public Resource a déclaré avoir trouvé des centaines de milliers d'articles académiques qui sont des œuvres du gouvernement américain et semblent déroger à cette règle. Malamud a demandé que de tels articles soient libérés des affirmations relatives au droit d’auteur, mais il n’est pas clair si cela pourrait tenir devant les tribunaux. Il a, mais a suspendu la poursuite de sa campagne, parce que le projet l’a incité à se donner une mission plus large: démocratiser l’accès à toute la littérature scientifique.

Opportunité en Inde

La décision de la Haute Cour de Delhi en 2016 a été à l'origine du déclenchement de cette mission. L'affaire concernait Rameshwari Photocopy Services, un magasin situé sur le campus de l'Université de Delhi. Pendant des années, l’entreprise préparait des modules de cours pour les étudiants en photocopiant des pages de manuels coûteux. Avec des prix compris entre 500 et 19 000 roupies (entre 7 et 277 USD), ces manuels étaient hors de portée pour de nombreux étudiants.

Les services de photocopie Rameshwari à New Delhi ont été poursuivis en justice pour avoir copié des parties de manuels et ont été gagnés.Crédit: Sajjad Hussain / AFP / Getty

En 2012, Oxford University Press, Cambridge University Press et Taylor and Francis ont engagé une action en justice contre l’université, exigeant qu’elle achète une licence permettant de reproduire une partie de chaque texte. Mais la Haute Cour de Delhi a rejeté le procès. Dans son jugement, le tribunal a cité l'article 52 de la loi indienne sur le droit d'auteur de 1957, qui autorise la reproduction d'œuvres protégées par le droit d'auteur à des fins éducatives. Une autre disposition de la même section autorise la reproduction à des fins de recherche.

Malamud a une longue association avec l'Inde: il y est allé pour la première fois en tant que touriste dans les années 1980 et il a écrit l'un de ses premiers livres, sur la conception de bases de données, sur une péniche à Srinagar. Et à peu près au même moment où il avait entendu parler du jugement Rameshwari, il était entré en possession (il ne dira pas comment) de huit disques durs contenant des millions d’articles de journaux de Sci-Hub, le site pirate qui distribue des lis. Sci-Hub s’oppose aux éditeurs devant les tribunaux américains pour ses violations du droit d’auteur, mais malgré ces jugements, certains de ses domaines fonctionnent encore de nos jours.

Malamud a commencé à se demander s'il pouvait légalement utiliser les lecteurs Sci-Hub au profit des étudiants indiens. Dans un livre publié en 2018 et co-écrit avec l'entrepreneur de technologie indien Sam Pitroda, Malamud écrit qu'il avait imaginé se présenter sur les campus indiens avec l'équivalent d'un camion-taco américain, prêt à servir les articles à ceux qui le désiraient.

En fin de compte, il s'est concentré sur l'idée du dépôt d'extraction de texte JNU. (Malamud a également contribué à la création d’une autre installation d’exploitation minière contenant 250 téraoctets de données à l’Institut indien de technologie de Delhi, qui n’est pas encore utilisé.) Mais il a une idée précise de la provenance des articles du dépôt. Lorsqu'on lui a demandé directement si certains des articles du dépôt de text mining proviennent de Sci-Hub, il a répondu qu'il ne ferait aucun commentaire et n'a nommé que des sources proposant des versions gratuites de documents (telles que PubMed Central et l'outil 'Unpaywall'). ). Mais il dit qu'il n'a pas de contrat avec les éditeurs pour accéder aux revues dans le dépôt.

Est-ce légal?

Malamud dit que la provenance des articles ne devrait pas avoir d’importance. L’exploration de données, dit-il, est non consommatrice: terme technique qui signifie que les chercheurs ne lisent pas ou n’affiche pas une grande partie des travaux qu’ils analysent. «Vous ne pouvez pas insérer un identifiant d'article (DOI) et extraire l'article», explique-t-il. Malamud fait valoir qu'il est légalement permis de procéder à une telle extraction de contenu soumis au droit d'auteur dans des pays tels que les États-Unis. En 2015, par exemple, un tribunal américain a autorisé Google Books à porter des accusations de violation du droit d'auteur après une opération similaire à celle du dépôt JNU: numériser des milliers de livres protégés sans acheter les droits, et afficher des extraits de ces livres dans le cadre de ses recherches. service, mais ne les autorisant pas à être téléchargés ou lus dans leur intégralité par un humain.

Selon Joseph Gratz, avocat en droit de la propriété intellectuelle au cabinet Durie Tangri à San Francisco, en Californie, l’affaire Google Books était un test d’exploration de données non consommatrice, qui représentait Google dans l’affaire et avait précédemment représenté Public Resource. Même si Google affichait des extraits, le tribunal a jugé que le texte était trop limité pour constituer une violation. Google numérisait les copies autorisées des livres (dans les bibliothèques dans de nombreux cas), même s'il n'en demandait pas l'autorisation. Les titulaires de droits d'auteur pourraient faire valoir que si Sci-Hub ou d'autres sources non autorisées fournissaient le dépôt JNU, la situation serait différente de celle de Google Livres, ajoute Gratz. Mais une affaire impliquant des sources non autorisées n'a jamais été débattue devant les tribunaux américains, ce qui rend difficile la prévision du résultat. "Il y a de bonnes raisons pour lesquelles la source ne devrait pas avoir d’importance, mais certains arguments peuvent le justifier", déclare Gratz.

La question de la légalité de l'installation aux États-Unis pourrait même ne pas être pertinente, car les chercheurs internationaux obtiendraient les résultats d'un dépôt situé en Inde, même s'ils y ont accès à distance. Ainsi, le droit indien est susceptible de s’appliquer à la question de savoir s’il est légal de créer le corpus, explique Michael W. Carroll, professeur au Washington College of Law de l’Université américaine à Washington.

Ici, les lois indiennes sur le droit d’auteur pourraient aider Malamud – une autre raison pour laquelle l’installation se trouve à New Delhi. L’exemption de recherche prévue à la section 52 signifie que les actions du dépôt de données de JNU seraient considérées comme une utilisation équitable du matériel protégé par le droit d’auteur en vertu du droit indien, affirme Arul George Scaria, professeur adjoint à la National Law University de Delhi. Cependant, tout le monde n'est pas d'accord avec cette interprétation. La section 52 autorise les chercheurs à photocopier un article de revue pour son usage personnel, mais n'autorise pas nécessairement la reproduction intégrale de revues comme l'a fait le dépôt JNU, déclare T. Prashant Reddy, chercheur en droit au Vidhi Center for Legal Policy de New Delhi. . Le fait que des articles entiers ne soient pas partagés avec les utilisateurs aide, mais la reproduction en masse du texte utilisé pour créer la base de données place l’installation dans «une zone grise légale», explique Reddy.

Affaire risquée

Quand La nature Ayant contacté 15 éditeurs au sujet du dépôt de données JNU, les six qui ont répondu ont déclaré que c’était la première fois qu’ils entendaient parler de ce projet et qu’ils ne pouvaient pas en dire plus sur sa légalité sans informations complémentaires. Mais tous les six – Elsevier, BMJ, American Chemical Society, Springer Nature, Association américaine pour le progrès des sciences et US National Academy of Sciences – ont déclaré que les chercheurs cherchant à extraire leurs papiers avaient besoin de leur autorisation. (Springer Nature publie ce journal; La natureL’équipe de presse est indépendante du point de vue éditorial de son éditeur.)

Malamud reconnaît qu'il y a un risque dans ce qu'il fait. Mais il fait valoir qu'il est «moralement crucial» de le faire, en particulier en Inde. Les universités indiennes et les laboratoires publics dépensent énormément pour les abonnements à des revues, dit-il, et ne disposent toujours pas de toutes les publications dont ils ont besoin. Les données publiées par Sci-Hub indiquent que les Indiens sont parmi les plus grands utilisateurs de leur site Web au monde, ce qui suggère que les licences universitaires ne vont pas assez loin. Bien que les mouvements en libre accès en Europe et aux États-Unis soient précieux, l'Inde doit montrer la voie en matière de libération de l'accès au savoir scientifique, a déclaré Malamud. "Je ne pense pas que nous puissions attendre que l'Europe et les États-Unis résolvent ce problème, car le besoin est pressant ici."

[ad_2]