Pour la première session de DHNord2022 nous avons reçu les représentants de trois infrastructures : le BnF DataLab, le HumaNum Lab et CLARIN.
Intervention riginale de Marie Carlin, Bibliothèque nationale de France, et Antoine Silvestre de Sacy, IR* Huma-Num
Le BnF DataLab est un service à destination des chercheurs qui souhaitent travailler sur les collections numériques de la BnF. Il prend son origine dans le projet Corpus, inscrit au au plan quadriennal de la recherche de la BnF entre 2016 et 2019, qui identifie clairement cette évolution des publics, des pratiques de recherche, des méthodes et outils, et ce besoin exprimé par les chercheurs d’un lieu dédié à la BnF aux humanités numériques et au traitement des collections numériques.
Le BnF DataLab a été inauguré et a ouvert ses portes en octobre 2021. Les équipes en charge de ce service de coordination, porté par le département de la Découverte des Collections et de l’Accompagnement aux chercheurs (DCA), ont ainsi pu accueillir les premières équipes de recherche et se frotter à la réalité du terrain face aux services et procédures imaginées dans les années de mise en place et de préparation du DataLab. Cette année 2022 représente donc une année charnière, une année de transition entre le mode projet et la mise en place effective des services.
L’accueil des premiers projets dans le cadre de l’appel à projets lancé conjointement par l’IR* Huma-Num (UAR 3598) et le BnF DataLab dans le cadre du partenariat entre la BnF et le CNRS a permis de mettre à l’épreuve le catalogue de service, les usages de l’espace, les besoins des chercheurs, la coordination entre les départements des collections et les chercheurs accueillis, les experts de la BnF, les ingénieurs, les développeurs.
Si le BnF DataLab a pour vocation d’être un laboratoire dédié aux humanités numériques permettant aux chercheurs en sciences humaines et sociales d’accéder et de traiter les immenses collections numériques dont dispose la BnF, il a aussi pour objectif d’être un laboratoire interne permettant de transformer les pratiques à la fois dans la façon dont dialoguent les chercheurs avec les conservateurs, les experts des collections, des services, les ingénieurs, mais également dans la façon dont sont présentées et organisées les collections numériques.
C’est dans ces nouvelles formes de collaborations multidirectionnelles et réciproques que le BnF DataLab trouve sa raison d’être et s’inscrit pleinement dans les enjeux émergents du monde des humanités numériques : transdisciplinarité, co-construction des projets, changement des pratiques. Il permet de mettre en lumière la fécondité du dialogue entre deux mondes qui ont vocation à approfondir leurs liens : celui des bibliothèques et des chercheurs en humanités numériques.
Intervention originale de Stéphane Pouyllau, IR* Huma-Num
L’organisation des programmes de recherche nécessite des socles technologiques qui évoluent par cycles et dont les techniques et méthodes pour leurs anticipations doivent être incluses désormais dans les formations initiales universitaires (à minima). Mais pour celles et ceux qui n’ont pas pu en bénéficier quelles sont les principales étapes actuellement et dans les années futures ? Indirectement, cela pose la question de l’implication des enseignants-chercheurs dans la construction des infrastructures de recherche.
Intervention originale de Francesca Frontini, Istituto di Linguistica Computazionale A. Zampolli, et d'Eva Soroli, Université de Lille
Le numérique et les systèmes d'information en réseau sont aujourd’hui omniprésents dans les Sciences humaines et Sociales (SHS) et concernent la recherche, l’enseignement et presque toute forme d’expression et de création. Les Humanités Numériques, à l’intersection entre Informatique et disciplines traditionnelles des SHS (histoire, philosophie, linguistique, lettres, arts, archéologie, anthropologie, ethnologie, etc.) se définissent comme une « transdiscipline » porteuse des outils et des méthodes de l’informatique et de l’édition numérique qui, face à l’augmentation des données, des corpus numériques, du nombre d'applications et de logiciels, s’interroge sur l’accessibilité et l’interopérabilité de ses objets, l’hétérogénéité de ses méthodes et ses implications sociétales, culturelles et politiques. Dans ce contexte et dans une démarche de science ouverte, où de plus en plus de données deviennent disponibles dans des formats numériques divers, le rôle des infrastructures de recherche digitales devient central, notamment pour le partage des connaissances, l’homogénéisation des pratiques, et la promotion de la recherche interdisciplinaire.
Dans le domaine des Sciences du Langage (SDL), cet aspect numérique et transdisciplinaire est très présent, et d’emblée intégré dans les méthodes et les pratiques en linguistique computationnelle, en linguistique de corpus, en traitement automatique des langues, et en linguistique expérimentale. L'approche numérique, même si elle a commencé avec de grands corpus de textes numérisés permettant des analyses quantitatives fines sur les occurrences de certains mots, la fréquence de certains phénomènes linguistiques et la typologie des styles littéraires, s’étend aujourd’hui à d’autres domaines comme l’analyse du discours, la textométrie et la modélisation s'enrichissant des techniques issues de la fouille de données, de la simulation expérimentale, de l’apprentissage automatique (Machine learning) et des réseaux neuronaux profonds. Ainsi, le volume de données linguistiques augmente, les approches se multiplient, et il est plus que jamais nécessaire de partager les connaissances, les pratiques et les ressources disponibles, d’éviter la duplication d’efforts suivant les principes FAIR en rendant ces ressources trouvables, accessibles, interopérables et réutilisables. Ces principes sont applicables à toute discipline scientifique, mais aussi de plus en plus pertinents pour les SDL, typiquement caractérisées par une grande variabilité dans les pratiques de collecte et par une importante hétérogénéité au niveau des formats utilisés.
CLARIN, l’infrastructure européenne de recherche sur les ressources et les technologies d’exploitation de données linguistiques créée en 2012, fournit aux chercheurs en sciences humaines et sociales une plateforme d’accès facile et durable aux données linguistiques numériques, et propose des outils avancés pour leur exploration, leur comparaison, leur annotation et leur analyse. CLARIN facilite l’utilisation et l’étude des données linguistiques, l’interopérabilité des traitements, et vise à renforcer le potentiel de la recherche comparative selon les principes FAIR à travers une organisation en réseau distribué de plus de 70 centres de données (repositories) et centres de connaissance (knowledge-centres) présents dans 25 pays participants. A travers ces centres de données et de connaissance, et grâce au développement d’une interface qui permet une connexion sécurisée unique à toutes les institutions-membres, CLARIN assure un partage continu de ressources entre tous les acteurs impliqués dans la constitution, l’exploitation et l’utilisation de corpus de langage. La mission de ces centres est de veiller à ce que les connaissances et l’expertise disponibles n’existent pas sous la forme d’une collection fragmentée d’éléments non connectés, mais qu’elles soient
accessibles de manière organisée à la fois pour les membres de la communauté CLARIN et pour toute personne intéressée par ce type de ressources (chercheurs, ingénieurs, éducateurs).
Pour la plupart des institutions, partager des connaissances signifie partager des informations fragmentées et donner accès à des centres de dépôt où les ressources sont stockées. Cependant, partager des connaissances ne consiste pas seulement à donner accès à des ressources isolées, à des corpus ou à des outils d’analyse. Les informations partagées sont plus utiles et aident d’autant plus les utilisateurs à localiser les ressources et à évaluer leur utilité lorsqu’elles sont organisées et connectées à un « savoir-faire » qui décrit : (a) la manière avec laquelle un ensemble de données est construit (cf. service : language families), et peut être cité (cf. virtual collections) ; (b) à quelles fins le jeu de données a été constitué ou peut être utilisé/réutilisé (cf. language resource inventory) ; et (c) les procédures ou principes d’annotation et possibilités d’accès, d’exploitation (cf. virtual language observatory) et de traitement de cette ressource (cf. outils switchboard). Un exemple de ce type est le projet ParlaMint, soutenu par CLARIN, qui met à disposition des corpus parlementaires dans 17 langues (auxquelles d’autres vont s’ajouter). Ces corpus sont conçus avec les mêmes standards d’encodage (TEI ParlaMint) et peuvent être exploités avec les mêmes outils et la même interface de manière comparative.
L’intérêt de cette démarche réside dans la mutualisation de différents outils et collections autour du langage et des langues. L’objectif est de permettre aux chercheurs mais aussi à toute personne intéressée par ce type de ressources d’accéder à l’ensemble de services, d’étudier les objets selon ses perspectives de recherche en naviguant sans difficulté d’une base à l’autre et d’un outil à l’autre tout en gardant les mêmes standards d’encodage, en ayant recours à des technologies communes et en partageant une même volonté politique d’ouverture, de réplicabilité, de mutualisation, d’enrichissement et d’interconnexion dans une démarche de science ouverte.
URI/Permalink: