L'IA, mon nouvel assistant pour mes travaux de recherche ?

Fin mars, j'ai eu l'opportunité d'assister à une table ronde en tant que conférencier lors de l'événement français "Documation - iExpo" sur les défis et les opportunités de l'IA en matière de science ouverte. Thomas Parisot, directeur général adjoint de Cairn était également présent en tant qu'intervenant et nous avons échangé pendant 30 minutes sur des cas d'utilisation spécifiques de l'IA en science ouverte. Étant donné que ce sujet est étroitement lié à vos/nos activités (Polaris OS et Sirius), je suggère de résumer ce dont nous avons discuté et ce que j'ai retenu (les opinions exprimées ci-dessous sont les miennes).

 

Cet article est aussi disponible en anglais.

Étant un vaste sujet, nous avons décidé de nous concentrer sur des défis spécifiques liés à l’IA et à la science ouverte :

 

1.     Aide à la rédaction

 

En tant que chercheur travaillant dans un domaine de plus en plus internationalisé, l'un de mes principaux défis est d'augmenter l'impact de mes articles. Pour y parvenir, il est devenu indispensable que mes articles soient publiés en anglais et si possible en utilisant la meilleure terminologie (grammaticale et syntaxique). Des outils alimentés par l'IA comme Writefull ou Paperpal

peuvent aider les chercheurs en suggérant des termes percutants et en améliorant la qualité de leur rédaction. « … les anglophones non natifs auront plus de facilité à surmonter la barrière de la langue. Ils pourront produire des articles de recherche de haute qualité sans se soucier des problèmes de grammaire ou de syntaxe. De plus, l'écriture assistée par l'IA peut aider les chercheurs à gagner du temps, leur permettant de se concentrer sur l’affinement de leurs idées, de mieux formuler leurs arguments et de mener des analyses plus approfondies. » comme l’écrit Saikiran Chandha dans un excellent article publié sur le blog The Scholarly Kitchen.

 

Un autre défi auquel je suis confronté est d'identifier les citations pertinentes pour mes articles. Avec le grand nombre d'articles publiés chaque année (environ 2,5 millions), il devient très difficile de suivre les dernières avancées scientifiques dans un domaine spécifique. Cependant, une solution telle que Scite a récemment lancé une fonctionnalité alimentée par une IA, qui aide les chercheurs à identifier les citations les plus appropriées en fonction du texte qu'ils écrivent.

 

2.     Découverte et recommandation

 

Pour notre travail chez MyScienceWork, nous utilisons fréquemment des bases de données et des plateformes pour rechercher des articles, des ensembles de données et d'autres contenus pertinents. Cependant, le grand nombre d'articles disponibles rend difficile la recherche de résultats pertinents dans un temps qui est (toujours) limité. Ainsi, les plateformes qui mettent à disposition des articles (qu'ils proviennent de plateformes d'éditeurs ou de bases de données ouvertes) doivent offrir aux lecteurs des résultats pertinents pour leur recherche.

Il y a plusieurs années, la recherche sémantique (qui s’applique sur le texte intégral) s'est révélée prometteuse pour la recherche dans de vastes collections de documents. Cependant, si ce type de recherche a considérablement élargi le champ de la découverte, il n'a pas toujours produit de résultats pertinents et même souvent produit le résultat inverse (beaucoup de bruits).

Désormais, le défi consiste à utiliser l'IA pour développer des moteurs de recherche et des outils de recommandation capables de fournir des résultats plus pertinents. Plusieurs approches existent pour interroger les utilisateurs afin d'identifier les articles les plus pertinents :

1)    Utiliser les données d'autres lecteurs de la même plateforme : si un utilisateur a consulté le même article que moi et a ensuite consulté d'autres articles connexes, la plateforme peut me recommander ces articles.

2)    S'appuyer sur des métadonnées similaires basées sur des mots-clés, des auteurs, des co-auteurs…

3)    Utiliser des techniques de traitement du langage naturel pour identifier les similitudes et les liens entre les publications.

 

Un autre défi auquel les chercheurs sont confrontés est de se tenir au courant des dernières avancées dans leur domaine disciplinaire, car le nombre de publications ne cesse d'augmenter chaque année. Pour relever ce défi, de nouveaux outils alimentés par l'IA tels que Opscidia, Scholarcy, ou SciencePOD peuvent produire des résumés automatiques de plusieurs articles en quelques secondes. Ces outils peuvent être extrêmement utiles pour obtenir rapidement une compréhension de pointe dans un domaine spécifique.

 

3.     Évaluation et flux de travail

 

Avoir plus d'articles signifie aussi avoir plus de revues, et avec le libre accès, il devient de plus en plus difficile pour les chercheurs d'identifier la meilleure option pour la publication de leurs articles, compte tenu de la politique de frais de publications des revues et du défi d'éviter de publier dans des revues prédatrices. Open Access Journal Finder est un excellent outil permettant aux chercheurs de trouver la bonne revue et d'obtenir des informations sur les politiques des revues en termes de frais de gestion.

 

D’autre part, pour le processus d'évaluation des articles, un autre défi se pose. Avec environ 2,5 millions d'articles scientifiques publiés chaque année, il y a un manque évident de relecteurs pour tous les examiner.

En utilisant l'IA, l'examen automatique de certains critères peut aider à réduire le nombre de publications qui seront envoyées aux pairs relecteurs. L'IA aide à automatiser certaines tâches, comme ce que propose et déclare StatReviewer : « StatReviewer propose un examen automatisé de l'intégrité des manuscrits scientifiques. Les manuscrits sont numérisés et un rapport est généré. Le rapport ressemblera soit à un véritable examen par les pairs, soit à une liste de contrôle, selon les directives spécifiées par la revue."

 

4.      Traduction automatisée

 

Le mouvement de la science ouverte a remis sur le devant de la scène un vieux défi : la richesse de la recherche et la capacité des chercheurs à publier dans différentes langues. L'hégémonie de l'anglais est indiscutable, et on en comprend les raisons : être accessible au plus grand nombre, avoir un plus grand impact, etc. Néanmoins, publier dans sa langue d’origine apporte une richesse aux travaux de recherche, qu'il est essentiel de maintenir et d'encourager. Dès lors, comment concilier ces deux défis ?

La traduction automatique peut jouer un rôle important avec un enjeu majeur : les algorithmes de traduction sont aujourd'hui majoritairement entraînés sur des données génériques, et la traduction de termes techniques et/ou de concepts propres à certaines langues leur échappent souvent, ce qui peut avoir des conséquences significatives sur le sens d'un article.

Bien que des outils de traduction académique comme AJE Academics voient le jour, et que des éditeurs les proposent à leurs auteurs (voir SpringerNature Press Release), un contrôle humain reste nécessaire pour valider les traductions réalisées par la machine.

 

5.     Détections de fraude

 

Personne n’a pu passer à côté des prouesses de CHAT GPT et toutes les questions que cela soulève, y compris concernant la transparence et la vérification des faits.

Le monde de la recherche fait face à des défis similaires, principalement avec le mouvement de Science Ouverte qui englobe notamment les enjeux de l'intégrité scientifique. Les récentes actualités nous ont donné des exemples parlant des défis qui se présentent pour la détection de la fraude (comme la manipulation d'images), les systèmes de revues prédatrices et les problèmes liés à l'évaluation (voir Hindawi News). Les règles de transparence qui accompagnent actuellement les politiques de science ouverte en ont fait un enjeu de taille, particulièrement à un moment où la confiance dans la science est ébranlée, et qu’il s’agit d’un pilier essentiel du progrès de nos sociétés et démocraties. Comment l'IA peut-elle apporter plus de transparence en aidant les éditeurs à identifier les fraudes dans le processus de publication ?

Les solutions basées sur l'IA aident déjà les chercheurs et les éditeurs à :

1)    Identifier les manipulations d'images (voir Proofig)

2)    Détecter si les textes ont été écrits par un humain ou par une IA. Cela se fait principalement via des outils de détection de plagiat existants tels que Compilatio

 

6.     Analyse de tendances

 

Chez MyScienceWork, les enjeux d’analyse des activités de la recherche sont au cœur de la plupart de nos projets (Polaris OS et/ou Sirius) car les informations issues de la recherche sont essentielles pour comprendre le monde dans lequel nous vivons. Les décideurs doivent nourrir leur réflexion avec des indicateurs clés factuels. Comprendre les activités de recherche de leur institution, leur impact, sur quoi travaillent les autres institutions de recherche, la tendance globale des activités de recherche dans le monde, etc. sont essentiels pour être efficace et accélérer l'innovation.

Avec la science ouverte, les acteurs de la recherche ont réalisé que l'ouverture de l'accès aux résultats et aux données de la recherche peut être d’une aide précieuse pour y parvenir. Des outils basés sur l'IA comme Sirius peuvent grandement aider à produire des indicateurs d’analyses basés sur les données (tendances, expertise, compétences, nouveaux champs de recherche, analyse de marché, etc.).

 

En conclusion, l'IA est une excellente opportunité d'aider les chercheurs et les acteurs de l'édition scientifique à surmonter les défis auxquels ils sont confrontés. L'IA semble être un assistant de recherche utile. Affaire à suivre…