Cette intervention aborde le thème des convergences entre les humanités numériques et le numérique à l'École à partir des enjeux de formation. Notre analyse s’appuie principalement sur deux champs d’observation :
- les formations au numérique proposées en académie à destination des professeurs des écoles, collèges et lycées ;
- les formations en humanités numériques, à partir d'une analyse en cours de la base Dariah course registry.
Notre hypothèse est que ces formations soulèvent des questionnements communs : À quels besoins sociaux, pédagogiques et scientifiques répondent-elles ? Quel continuum de formation au numérique de l’école à l’université ? Quelle place du numérique dans les référentiels, les discours institutionnels ? Quelle est la réalité des pratiques dans l'enseignement, la recherche et la formation ? Concernant les contenus de formation, quel équilibre établir entre approches disciplinaire et interdisciplinaire, approche par les outils et les techniques et approche par la culture et/ou la conduite de projet ?
À terme il s’agirait donc d’envisager une réflexion commune entre les acteurs de l’éducation et ceux de la recherche sur la question plus globale de la construction et de la diffusion des savoirs en environnement numérique.
Cette intervention se propose de dresser une cartographie des enseignements du numérique dans les différentes formations de Licence, Master et Doctorat en SHS des universités de la région Hauts-de-France. Au-delà des formations estampillées « humanités numériques », qu'en est-il de la formation au numérique dans les différentes disciplines des SHS dans la réalité des maquettes pédagogiques ? Quelles compétences sont privilégiées, pour quels enjeux de formation et de recherche ?
Les données recueillies sont issues des catalogues de formations et guides des études des universités de Lille, d’Artois, de l’UPJV, l’UPHF et l’ULCO de l’année 2018/2019. Elles permettent d’identifier une large variété de cours et d’initiatives, d’en étudier la part respective au sein de chaque formation et d'en distinguer les principaux acteurs. En s'appuyant sur « Le socle commun de formation aux outils numériques » par Emilien Ruiz et Franziska Heimburger1, cette étude permet de montrer en fonction des disciplines et des niveaux de formation les compétences privilégiées. Elle permet également de mieux comprendre le rôle que joue – ou pourrait jouer – l'un des partenaires souvent privilégié de ces formations, à savoir les bibliothèques universitaires.
1 – RUIZ Émilien. Vers un socle commun de formation aux outils numériques, 2011. URL : http://www.boiteaoutils.info/2011/08/vers-un-socle-commun-de-formation-aux/
Tous les étudiants ne deviennent pas chercheurs, il est alors de notre responsabilité d'enseignant de nous demander à quoi on prépare nos étudiants ou au minimum d'établir des objectifs pédagogiques qui ne se limitent pas à la pratique de la recherche. Or, avec la montée en puissance de la donnée et du numérique dans les organisations, nous disposons d'une opportunité sans précédent pour offrir des débouchés d'avenir à nos étudiants.
En effet, la formation qu'ils reçoivent leur permet d'analyser et de comprendre l'humain et les traces qu'il crée. On peut alors facilement faire le parallèle avec le travail des informaticiens dans les organisations qui consiste à traduire les processus et besoins des métiers en termes d'applications et à gérer les données issues de l'activité des métiers. Ainsi, les personnes venant des SHS pourraient non seulement devenir des intermédiaires privilégiés entre le métier et les informaticiens mais aussi des ingénieurs en charge de la gestion et du traitement des données.
Or, ce profil d'ingénieur issu des SHS ne peut émerger qu'à condition de faire évoluer la vision de l'ingénieur dans la recherche en SHS et de dialoguer avec de futurs employeurs dans les secteurs publics et privés pour mieux comprendre leurs besoins. Il sera alors possible de penser une solide formation aux technologies numériques qui renforce les points forts de ces profils et évite de les mettre en concurrence avec les profils traditionnels d'ingénieur.
Depuis septembre 2017, l’université de Sorbonne-Nouvelle propose une mineure en Humanités numériques, adossée à la licence de Lettres, respectivement de Sciences du langage, à laquelle vient s’ajouter, à partir de la rentrée 2019, un master en « Humanités numériques ». À partir d’une présentation des étapes et contraintes qui ont accompagné la création de ce parcours d’études complet, il s’agira de réfléchir aux similitudes et aux différences entre « humanités numériques textuelles » et « traitement automatique du langage ».
En effet, fortement ancrés dans les sciences du texte, les diplômes mentionnés n’échappent pas à une comparaison avec cette spécialité aux interfaces de la linguistique et de l’informatique. Les points de ressemblance entre HN et TAL sont ainsi tantôt minimisés dans une perspective qui insiste sur le besoin de sens, l’instrumentalisation nécessaire et la distance obligatoire par rapport à la « machine », tantôt exhibés et assortis d’une invitation adressée aux humanistes à acquérir plus de compétences en programmation, apprentissage supervisé et non supervisé, et autres techniques du TAL.
Le point de partage entre les deux types de formation semble se faire autour de la notion d’encodage, ou d’annotation, que les deux disciplines perçoivent de façon très différente. En outre, cette présentation cherchera à penser la place des humanités numériques textuelles face au TAL en prenant appui sur une comparaison avec les formations à la linguistique de corpus.
Né de la mutualisation des enseignements d’informatique de la formation de lexicographie et teminographie proposée en Sciences du langage ainsi que d’une solide formation à la recherche en Lettres modernes, le parcours Édition Numérique et Imprimée de Textes Littéraires (ÉdNITL) a été conçu afin de former de jeunes chercheurs capables de réaliser des éditions savantes imprimées et numériques, d’où son intitulé.
Ce projet universitaire est venu fructueusement rencontrer les attentes d’éditeurs commerciaux en termes d’édition numérique : d’une part, de publications multisupports à partir d’un flux XML et, d’autre part, de créations éditoriales conçues pour la lecture sur écrans.
Depuis 5 ans que les collègues littéraires non-informaticiens s’acclimatent aux nouveaux types de productions en co-accompagnant les réalisations numériques des étudiants, et que ces derniers développent des projets de plus en plus audacieux, nous constatons que notre travail s’inscrit naturellement dans le champ des humanités numériques.
Durant l’intervention, je reviendrai sur la genèse de la formation puis j’évoquerai les travaux développés en master ÉdNITL et ceux qu’une diplômée engage en doctorat, en traitant un corpus littéraire transmédial d’adaptations du mythe d’Orphée et Eurydice. J’analyserai ainsi en quoi les contenus de formation et les projets numériques des étudiants s’inscrivent dans le champ des humanités numériques.
Lors de la préparation de ses nouvelles maquettes de formation, l'université de Poitiers a lancé deux projets ambitieux : systématiser l'enseignement de la culture numérique et informatique dans toutes les mentions de licence de l'établissement d'une part et, d'autre part, mettre en place la certification informatique PIX qui remplace le C2i depuis 2017.
Pour mettre en œuvre le projet, un groupe de travail composé d'une quinzaine de collègues issus de toutes les composantes de l'Université a travaillé sur un référentiel de compétences propres aux enseignements des UE de Numérique, sur des niveaux cibles en fonction de l'année de formation et du cursus de l'étudiant et, enfin, sur un programme d'enseignements appliqués permettant de préparer l'étudiant à la certification. Cette communication vise à présenter les jalons de ce projet et à proposer un point d'étape à quelques mois de la première campagne de certifications PIX (décembre 2019).
Les étudiants rattachés au Centre de Recherche Interuniversitaire en Humanités Numériques (CRIHN) sont très présents dans les activités du centre. Dans un contexte disciplinaire où le travail solitaire est souvent la norme plus que l’exception, l’importance accordée au travail d’équipe constitue une contribution majeure de notre centre à la vie scientifique. Le CRIHN répond ainsi à un besoin pédagogique majeur en matière de littératie numérique de la communauté étudiante, et plus particulièrement des personnes en SHS, dont la professionnalisation passe aujourd’hui par de nouvelles compétences.
L’intégration du numérique dans les pratiques de recherche ne progresse pas au rythme de l’adoption des technologies dans la société. En dépit d’une demande importante du marché professionnel, il n’existe pas encore de formation spécifique en ce domaine qui est souvent investi par des compétences acquises avec la pratique quotidienne ou amateure. Ces limitations se situent bien sûr du coté technologique (accès et connaissances des technologies disponibles), mais également conceptuel, le numérique offrant de nouvelles avenues de recherche (fouilles de données, visualisation, éditorialisation, etc.). Si le numérique représente un facteur attractif certain pour la communauté étudiante, pour assurer une capacité d’encadrement suffisante, il est nécessaire de regrouper les forces vives du secteur afin de la faire pleinement bénéficier de l’effervescence suscitée par le sujet.
Après une dizaine d'années de développement des humanités numériques en France, nos disciplines sont à la croisée des chemins. Pourquoi former au numérique des étudiants en SHS ? Comment les initier à la critique et à l'exploitation de corpus et d'archives à « l'ère numérique » ? Qui doit se charger de tels enseignements ? Si des masters professionnels de haut niveau existent, ces questions fondamentales restent ouvertes pour les formations initiales généralistes.
Tandis que le monde qui nous entoure poursuit sa conversion, en SHS les réticences perdurent chez certains étudiants comme parmi leurs enseignants. Nos disciplines sont ainsi encore souvent perçues comme quasiment étrangères à ces enjeux. Dès lors, la tentation d'un repli sur soi des partisans des humanités numériques peut être grande. Pourtant les injonctions à « faire du numérique » se multiplient. Souvent assimilées à des contraintes, elles sont, en réalité, une chance pour les SHS.
Intégrer pleinement le numérique dans nos licences et nos masters permettra bien sûr de mieux former les apprenti·es chercheur·ses. Mais c'est aussi une occasion rêvée de repenser et d'élargir l'éventail des débouchés professionnels offerts à celles et ceux qui ne souhaiteraient (ou ne pourraient) pas rejoindre le monde académique au terme de leurs études. Pour cela, au moins une condition semble indispensable : cesser de considérer le numérique comme une spécialité pour le placer au cœur de nos pratiques pédagogiques.
Cette intervention commencera par une présentation du « Goût de l'archive à l'ère numérique », projet co-dirigé par Caroline Muller (MCF en histoire contemporaine, Université Rennes 2) et Frédéric Clavert (professeur assistant, C2DH, Université du Luxembourg), et en fera un bilan, pour le moment temporaire. En insistant sur les différentes contributions en ligne abordant la thématique du corpus, elle tentera de donner quelques pistes sur les relations complexes entre les historien.ne.s et leur corpus d'archives numérisées ou nées numériques.
Les archives électorales françaises de la Ve République du Centre de recherche politiques de Sciences Po (CEVIPOF) ont commencé à être numérisées en partenariat avec la bibliothèque de Sciences Po à partir de 2013. Constitué dans un but de recherche en interne par les politologues et les sociologues du CEVIPOF, le fonds d’archives papier contient des professions de foi, bulletins de vote, tracts, affiches mais aussi des résultats électoraux, de la presse et des travaux de chercheurs effectués à partir de ces documents.
De nombreuses questions ont été soulevées à cette occasion : Quelles typologies faut-il numériser ? Quels choix doivent être effectués ? Mais aussi quel risque juridique peut-on prendre ? Quels sont les droits qui s’appliquent à ces différents types de documents ? Quelles sont les modalités de réutilisation à envisager ? Finalement, le corpus mis en ligne est-il ou non le reflet du fonds papier de départ ?
Non, et ce, pour plusieurs raisons. De nombreux enjeux apparaissent dans la distorsion entre le fonds papier d’origine et son miroir infidèle mis en ligne. Ce corpus est-il donc utilisable en toute connaissance de cause et d’une manière éthique par les chercheurs universitaires en science politique, histoire ou sociologie, les particuliers, généalogistes, passionnés de politique ou simples curieux ? Quels usages peuvent-ils être envisagés à partir de ces données ? C’est ce que nous souhaiterions vous présenter dans le cadre de l’appel à projet de la MSHNord.
Archive et numérique sont deux mots dont la conjonction est devenue presque un topique. Nous mesurons, au fil du temps, que le public se déplace moins dans les dépôts d’archives, la consultation d’un document se faisant à travers une application numérique. Pourtant la donnée numérique n’est pas l’archive, elle n’est qu’une représentation approchante. Autrement dit, la donnée numérique n’est qu’un artefact de la donnée archivistique.
L’appréhension de ce lien distendu entre document archivistique et document numérique se manifeste à travers la « granularité des données ». D’un autre côté, la donnée archivistique est par nature beaucoup plus statique, car elle se trouve dans un entrepôt ou une bibliothèque, alors que, sans être volatile, la donnée numérique est interopérable, grâce aux métadonnées qui la caractérisent. À travers un cas concret d’archives judiciaires, le lecteur trouvera ici de quoi nourrir sa réflexion sur la granularité des données et les métadonnées.
Ma proposition de communication entend partir de l’expérience pédagogique menée avec des étudiants d’histoire en master 2 recherche à l’Université de Toulouse Jean Jaurès. Intitulée Tribulations historiennes. Le quotidien de jeunes chercheur.es en histoire, cette expérience a fait raconter aux étudiants le quotidien de leurs recherches en billets de blogs. L’ensemble a fourni un corpus de 361 billets permettant de dessiner les pratiques de cette génération d’historiens, partagées entre le « tout numérique » et les pratiques de leurs aînés.
Parmi ces pratiques hybrides, celle liée à la matérialité des sources apparaît régulièrement dans les interrogations des étudiants. À l’inverse des générations précédentes, de nombreux étudiants ne connaissent pas ou plus les dépôts d’archives, travaillant exclusivement à partir d’archives numérisées ou nées numériques. Mobiliser ces types d’archives induit donc une forme d’effacement, d’atténuation du rapport aux sources, transformant les expériences et les sensibilités.
Réfléchir sur les conséquences de cette évolution impose de revenir sur les rapports que les historiens entretiennent avec le numérique, notamment dans ce que j’appelle « la numérisation du métier d’historien ». Cela revient à étudier la manière dont les outils accompagnent, influencent ou freinent la mutation de notre profession. Reste à mesurer comment et dans quelle mesure cette évolution a lieu. Les Tribulations permettent de proposer quelques éléments de réponse.
De l’émergence de pratiques informelles liées à l’usage par les historiens de la photographie numérique pour collecter les archives jusqu’à la collaboration entre laboratoires et dépôts d’archives, différentes expériences menées ces dernières années ont permis de montrer la nécessité de produire des guides de bonnes pratiques et des « boîtes à outils ». Dans une démarche méthodique, la MSH de Dijon a travaillé à la structuration et à la normalisation de bases de données et instruments de recherche électroniques notamment autour de trois thèmes : mouvements sociaux, vigne et vin, et archives de la recherche.
L’ouverture des archives russes après 1990 a rendu consultables les archives du communisme français restées longtemps inaccessibles. La coopération entre chercheurs, archivistes et informaticiens dans une entreprise de guide des fonds, collecte des archives numérisées, organisation des données, stockage et mise en ligne a permis d’offrir à la communauté scientifique l’accès aux archives via un outil performant, visant à l’exhaustivité des inventaires indexés, pour une histoire renouvelée de la galaxie communiste. Quant à la constitution d’instruments recherche consacrés aux ressources sur la vigne et le vin et aux archives de la recherche sous la forme notamment de bases de données interopérables, elle a permis d’envisager des corpus plus vastes en croisant des sources de natures diverses : archives, imprimés – brochures et revues –, archives électroniques natives, etc.
En 1980, le philosophe et sociologue Langdon Winner se demandait dans un article qui a fait école : « Est-ce que les artefacts sont politiques ? » Si l’on souhaite appliquer cette hypothèse aux archives du Web, il s’agit de comprendre en quoi, dans l’archivage du Web, existent des formes spécifiques d’autorité et de pouvoir (DENARDIS 2014)1 qui dessinent un microcosme de la gouvernance d’Internet. Les points suivants seront abordés :
– L’archivage du Web repose sur un modèle multi-parties prenantes. Une variété d’acteurs est concernée : des fondations comme Internet Archive ; des organisations transnationales, à commencer par l’IIPC ; la société civile ; et enfin le secteur privé.
– L’archivage du Web n’échappe pas à des tensions ayant trait à la standardisation et à des visions et imaginaires divergents, des communs aux formats propriétaires.
– L’archivage du Web révèle également la présence de tensions géopolitiques, et on y retrouve des dynamiques qui rappellent le problème de la fracture numérique.
– Enfin, on retrouve dans l’archivage du Web la relation complexe entre différentes pratiques et sources d’autorité ou de normativité, de la technologie au marché, de la concertation transnationale et internationale aux standards et aux droits.
Cette intervention se fonde sur un travail mené en collaboration avec Valérie Schafer, Camille Paloque-Berges et Benjamin Thierry.
La diplomatique est une discipline élaborée pour déterminer méthodiquement, scientifiquement, si un acte est authentique ou si c'est un faux. La méthode propose une sorte de quadrillage du document avec un vocabulaire dédié à la description des différentes zones et valeurs d'information, ainsi qu'une démarche de critique de l'écrit comparé à d'autres écrits comparables. Autrement dit, au-delà de la critique du contenu, c’est-à-dire du message exprimé par l'auteur, la diplomatique s'intéresse à la forme, c’est-à-dire à tout ce que l'on peut apprendre par l'examen de l'agencement des données et des références de production ou de transmission, plus encore qu'en analysant l'apparence de l'écrit et la structure des données.
Si la diplomatique est pertinente pour identifier les faux millénaires, pourquoi ne le serait-elle pas pour établir le degré de véracité des écrits d'aujourd'hui mais aussi pour détecter les faux administratifs (en recrudescence) voire les fake news ? La diplomatique numérique consiste alors à transposer la démarche traditionnelle aux traces numériques des actes et gestes qui peuvent engager la responsabilité des individus dans leurs relations administratives, contractuelles, sociales ou privées. Cette discipline reste originale et efficace dans l'évaluation de la fiabilité des données mais elle doit reformuler son champ d'application au 21e siècle, moderniser son vocabulaire au sein des SHS, et multiplier les expérimentations.
Une question sociale importante dans le domaine du patrimoine culturel est liée à la collecte, l'analyse, la publication et la mise en valeur de la mémoire des acteurs du domaine. La formalisation de l'information sur le patrimoine culturel constitue un véritable défi. La plupart des tentatives de résolution des problèmes d'interopérabilité sémantique se concentrent sur la standardisation et le développement de structures communes telles que FRBR, FRBRoo, CIDOC CRM, etc. Parmi ces modèles, le CIDOC est une référence conceptuelle, modèle spécialement conçu pour la modélisation du patrimoine culturel. Ce modèle offre en effet un schéma commun de métadonnées rendant les concepts compréhensibles et interopérables.
Afin d'aider les experts du domaine à produire et fournir des contenus numériques, nous adoptons une méthodologie en trois étapes : nous recueillons et formalisons l'historique par le biais d'entretiens avec les acteurs du domaine ; notre système opère l'identification et l'extraction d'informations à partir de milliers de documents textuels hétérogènes collectés auprès de ces acteurs ; enfin, nous présentons une première version de l'ontologie construite automatiquement au format OWL en utilisant le modèle CIDOC CRM comme base conceptuelle, pour fusionner toutes les informations extraites. Les expériences sont menées sur un corpus relatif au patrimoine industriel textile collecté grâce au projet DENIM.
À travers un parcours de recherche centré tantôt sur l’étude du journalisme numérique, tantôt sur l’étude du journalisme avec le numérique, cette présentation interrogera ce que les études médiatiques ont à apporter aux humanités numériques, et réciproquement. Deux projets de recherche récents, l’un portant sur l’évolution du copier-coller dans la presse, l’autre sur Franklin Ford, un obscur journaliste et théoricien des médias américain de la fin du XIXe siècle, m’ont permis d’expérimenter différentes façons d’aborder, de traverser et de travailler des corpus de presse nativement numériques ou numérisés
Ce parcours révèle des tensions productives entre lecture distante et lecture rapprochée, entre anciens et nouveaux médias, entre l’aléatoire et le linéaire. Au gré des erreurs d’OCR, des corpus aux frontières indisciplinées, et d’un dialogue parfois surprenant avec un bot, je propose de mettre en évidence des enjeux liés à la matérialité des archives, aux différentes couches de remédiation que celles-ci traversent inévitablement, et à la possibilité d’inclure le désordre dans nos démarches méthodologiques.
Les philologues disposent aujourd’hui d’un nombre considérable de textes sanskrits numériques. Pour la plupart disponibles en accès libre, ces documents sont encodés dans des formats variables, plus ou moins standardisés, et peuvent être notés dans une écriture indienne ou dans l’un des nombreux systèmes de translittération élaborés en Occident.
En dépit de leur difficulté d’exploitation, ces documents sont devenus essentiels pour la philologie sanskrite. En effet, les emprunts textuels abondent dans la littérature sanskrite, dès une date ancienne. Dans ce cadre, le travail philologique requiert de découvrir des parallèles textuels et de les interpréter. Les philologues des siècles derniers menaient déjà ce type d’enquête, en s’appuyant sur des index compilés manuellement ; ceux d’aujourd’hui le poursuivent avec des outils de recherche plein texte, à une échelle bien plus large.
L’amplification du volume d’informations disponibles a considérablement accru l’érudition et la complexité des travaux de recherche. L’exercice de la pensée devient de moins en moins aisé, car il est dorénavant nécessaire d’assimiler et de synthétiser un nombre important de textes et d’idées, sans pour autant disposer d’outils spécialisés pour faciliter ce travail. Si donc l’herméneutique est théoriquement facilitée par la disponibilité de corpus électroniques, la philologie sanskrite, en tant que pratique, devient paradoxalement de plus en plus hermétique.
La communication s’inscrit dans le cadre du projet ANR Mémo-Mines qui se donne comme objectif d’améliorer la visibilité du patrimoine minier des Hauts-de-France en tenant compte de sa dimension mémorielle. Dans ce contexte, l’une des solutions retenues pour la sauvegarde des mémoires est de concevoir une ontologie du domaine minier. Les ontologies s’inscrivent dans les technologies du web sémantique qui sont désormais utilisées dans le cadre de la sauvegarde du patrimoine culturel et industriel et participent à la préservation et la valorisation du patrimoine, en particulier le patrimoine proche de la disparition.
Le modèle conceptuel de référence est le CIDOC CRM qui est un modèle de représentation de données qui doit permettre l’interopérabilité des référencements des objets de musées puis, par extension, de tout objet du patrimoine culturel matériel ou immatériel, selon la définition proposée par l’UNESCO. Pour définir le modèle ontologique et pour le peupler, la démarche s’appuie sur la constitution de deux types de corpus. Nous présentons dans un premier temps les étapes de constitution d’un corpus presse sur le domaine minier puis dans un deuxième temps, celles de la constitution d’un corpus audiovisuel à partir de vidéos témoignage d’anciens mineurs. Suite à la présentation de notre démarche d’analyse de chacun de ces corpus, nous tentons de montrer ce que le numérique apporte aux corpus d’archives patrimoniaux dans le champ de l’organisation des connaissances.
Le projet ANR TIME-US ambitionne de créer un corpus permettant d’analyser les rémunérations et budgets-temps des hommes et femmes travaillant dans l'industrie du textile dans les régions de Lille, Paris, Lyon et Marseille. Il s'agit de collecter et analyser des données couvrant une période longue, allant de la fin du XVIIe au début du XXe siècle. Pour mener cette recherche, le projet rassemble les expertises d'historien·nes, de sociologues, de spécialistes du TAL et du traitement numérique des documents historiques. Outre l'analyse classique des sources, le projet entend créer des séries comparables de données sur les rémunérations et le temps alloué à l'emploi des travailleur·ses du textile. Le traitement du corpus tire profit de la variété des méthodologies en jeu dans cette approche pluridisciplinaire tout en visant à correspondre aux attentes de chacun·e.
En deux ans, de nombreux fonds d’archives ont été dépouillés et numérisés, aboutissant à la création d’un corpus disparate de 18 000 images qui mêlent imprimés et manuscrits. La diversité de ces documents a conduit à l'élaboration de plusieurs stratégies pour traiter et unifier le corpus ; celles-ci se sont avérées, jusqu'à un certain point, généralisables entre type de documents. Nous présentons les stratégies mises en œuvre pour l’acquisition des doubles numériques, l’extraction du texte et des données, ainsi que leurs transversalités et limites.
En s’appuyant sur une expérience en cours – la constitution d’un catalogue raisonné numérique de plusieurs milliers d’estampes dans le cadre d’une thèse – cette communication portera sur les interactions entre les historiens de l’art et les institutions patrimoniales détentrices du matériau mobilisé dans le cadre de la recherche. La mise en ligne des collections patrimoniales permet aujourd’hui une récupération et un traitement automatisés d’importantes quantités de données et d’images numérisées.
Bien que s’inscrivant dans une démarche de recherche scientifique, ces nouvelles façons de constituer un corpus à l’aide d’outils numériques peuvent susciter des inquiétudes chez les agents des institutions propriétaires des originaux (« avez-vous le droit de récupérer nos données ? », « qu’allez-vous faire de nos images ? »). Des blocages peuvent alors survenir compliquant un traitement computationnel du matériau.
Pour le chercheur, travailler à partir de données produites par des professionnels de l’information (ici en bibliothèques et en musées) nécessite de connaître et de comprendre leurs pratiques métiers spécifiques, parfois éloignées de celles du monde universitaire. Comment travailler ensemble sur un matériau commun à l’heure du numérique ? Comment concilier des pratiques métiers parfois divergentes ? Comment rendre interopérables les données produites et enrichies de part et d’autre ? La communication esquissera quelques pistes possibles.
L’ouverture des collections muséales – ou Open GLAM – suppose que les musées envisagent tant dans leurs politiques que dans leur organisation les nouvelles modalités qu’impliquent la publicisation de ces collections. Il ne s’agit pas tant ici d’évoquer les catalogues en ligne, leurs applications pour terminaux mobiles, ou les déploiements d’expositions virtuelles, mais plutôt des formes plus spécifiques à l’informatique comme la mise à disposition de jeux de données, ou la création d’interfaces programmables qui peuvent directement intéresser les historiens d’art. Comment ces diverses formes de publication offrent de nouvelles interfaces destinées à la création de services numériques et à des usages nouveaux des collections ?
Alexander Galloway, dans The Interface Effect invite non seulement à définir l’interface mais à l’interpréter (GALLOWAY 2012)1. Elles ne sont pas des objets simples ou des points de contact, mais constituent selon lui des zones autonomes d’activité. Ce ne sont pas des choses mais plutôt des processus qui effectuent un résultat, et qui racontent les forces plus larges qui les ont engendrées. Il s’agit pour lui d’une allégorie du contrôle. Avec cette communication, nous voudrions aborder les enjeux politiques qui se posent actuellement dans la mise en place de ce type d’accès qui oblige à penser le musée comme service d’information et proposer l’esquisse d’une politique des interfaces.
1 – GALLOWAY Alexander R. The Interface Effect. Polity, 2012.
À l’heure de la multiplication des plateformes mettant à disposition des services de mise en ligne de contenus numérisés, il nous semble pertinent d’analyser les principales options et problématiques devant lesquelles tout acteur (des GLAM jusqu’à l’amateur en passant par les laboratoires de recherche) est confronté lors d’un projet de mise en ligne de corpus numérisés.
Ainsi, faudrait-il développer sa propre plateforme ad hoc ; utiliser des plateformes open source sur ses propres serveurs ; utiliser des solutions liées à des prestataires, des services d’institutions culturelles ; déporter la publication en utilisant des services tiers – qu’ils soient liés au monde du libre (Wikimedia Commons, Internet Archives, MediaHAL) ou plus opaques (flickR, Google Art & Culture). Ou finalement la question n’est-elle pas – au-delà de l’outil utilisé – de promouvoir un cadre permettant la fourniture de corpus numérisés et de métadonnées associées, riches et structurées, comme le promeut l’IIIF (International Image Interoperability Framework).
L’objectif de cette intervention sera également d’évoquer le champs des possibles ouvert par la mise à disposition de ces corpus numérisés comme à la fois un réel terrain de collaboration pour maximiser les connaissances sur les objets culturels ou encore de penser à de nouveaux modes de recherche (avec les avancées du deep learning) tout en évoquant l’éventail des réutilisations, de la médiation numérique à la création artistique.
Librement accessible à l’adresse http://enccre.academie-sciences.fr depuis le 19 octobre 2017, l’Édition Numérique Collaborative et CRitique de l’Encyclopédie (1751-1772), l’ENCCRE, est un projet numérique réalisé par une équipe internationale et pluridisciplinaire de 130 membres, parmi lesquels figurent plus d’une centaine de chercheurs spécialistes de l’Encyclopédie de Diderot et D'Alembert, des chercheurs en informatique, des ingénieurs, des étudiants et des bénévoles.
L’édition réalisée dans ce cadre repose sur une ambitieuse politique d’annotation fondée sur plusieurs niveaux d’articulation entre la matérialité de l’exemplaire original sur lequel s’appuie l’édition, la représentation numérique de l’œuvre et l’apparat critique que nous sommes en mesure de constituer. L’ENCCRE s’appuie en effet sur une interface de consultation, complétée, en amont, par une interface collaborative d’édition munie de nombreux outils à disposition des chercheurs pour décrire, annoter et effectuer des recherches sur l’œuvre. Nous examinerons les possibilités et limites actuelles de cet espace numérique au regard de ce qu’il tend et aspire progressivement à devenir : un laboratoire virtuel de recherche sur l’Encyclopédie, où l’étude collective de l’œuvre et de son contexte doit permettre aux diverses facettes de l’histoire des idées, des sciences et des techniques au siècle des Lumières de se rencontrer, de s’enrichir et d’avancer de concert.
Le Programme des registres de la Comédie-Française associe depuis 2008 plusieurs universités françaises, américaines, canadiennes, et un établissement culturel – la Comédie-Française – autour d’un ensemble d’archives physiques d’une très grande richesse nous renseignant sur l’histoire du théâtre depuis la fin du XVIIe siècle. Par le numérique, ce corpus de documents s’est transformé en corpus de données toujours plus vaste, s’élargissant au fil des années et des contributions de chercheurs, apportant leur pierre à la réflexion sur les méthodes, les outils et l’exploitation des données.
Néanmoins, le chercheur est confronté à une nouvelle difficulté : le raisonnement s’appuie sur un corpus en extension. Au fil des mois, des financements et des projets on rajoute des corpus, des tables, des outils de visualisation. Alors que la consultation des archives papier est nécessairement limité à l’unité de communication en salle de lecture, l’archive numérique n’est peut-être pas réellement « définitive ». Si la pérennité est assurée par l’interopérabilité des systèmes et l’archivage du site sur des plateformes d’État, l’accroissement des corpus et la mobilité des outils (visualisations, design) pose de nouveaux défis à la recherche et à la démarche scientifique.
Le projet ANR Phœbus-eBalzac (www.ebalzac.com), porté par les équipes CELLF et LIP6 de Sorbonne Université et par l’équipe ALITHILA de l’Université de Lille, consiste à mettre en résonance l’ensemble de l’œuvre balzacienne avec un vaste corpus d’écrits contemporains qui ont pu la nourrir (œuvres romanesques, littérature panoramique, ouvrages scientifiques). L’objectif du projet est de permettre des recherches et des comparaisons intertextuelles élaborées afin de détecter des citations, des reprises ou des plagiats éventuels, et de constituer ainsi une cartographie de l’univers intellectuel de Balzac à partir des traces que d’autres textes ont laissées dans l’œuvre.
Lors de cette communication, nous décrirons les enjeux littéraires, informatiques et éditoriaux de la constitution d’une bibliothèque hypertextuelle des sources balzaciennes. Comment traiter une base de données de plus de 20 000 homologies binaires obtenue grâce au logiciel TEXTPAIR, développé en collaboration avec l’Université de Chicago ? Comment pré-traiter le corpus afin d’augmenter la pertinence de ces résultats et de limiter le nombre des banalités ? Enfin, comment optimiser la visualisation, par exemple à l’aide de graphes, pour qu’elle soit la plus lisible possible et fournisse des informations adaptées aux besoins spécifiques des lecteurs ? Ces questions, auxquelles nous tâchons de répondre dans la phase actuelle du projet, constitueront les points centraux de l’intervention.
URI/Permalien:
Aidez nous à la corriger : signalez la en cliquant ici.
Lille Nord de France
365 bis, rue Jules Guesde 59650 Villeneuve d'Ascq
Tél : +33 (0)3 20 12 58 56
50° 38' 21" N, 3° 8' 12" E