Ecrire des data papers en SHS : exemples et partage d’expériences
Intervention originale de Pierre Carl Langlais, Université Paul Valéry – Montpellier 3
Retrouvez cette présentation en format augmenté ici
Ce data paper décrit un grand corpus de 470 000 images extraits de 110 000 publications françaises de sciences humaines et sociales, soit l’ensemble des documents en libre accès indexés par le moteur de recherche spécialisé Isidore pendant l’année 2019. Ce corpus final couvre une grande diversité de formats (articles, thèses, ouvrages, mémoires, billets...), de disciplines et d’usages iconographiques et ouvre un nouveau terrain de recherche quantitatif sur l’étude des cultures visuelles scientifiques.
Le corpus a été constitué pour une étude commandée par le Ministère de la recherche sur l’usage des œuvres d’arts visuelles en sciences humaines et sociales 1 , qui vise à préparer la mise en œuvre des licences collectives prévues à l’article 28 de la loi pour la programmation de la recherche de 2020. La collecte visait à produire un échantillon représentatif de 1500 images annotées manuellement pour définir leur statut légal au regard du droit d’auteur.
La réalisation de cette étude nous a contraint à problématiser la notion d’image scientifique en ligne. Contrairement aux attentes initiales, le dénombrement des images n’a pas été une procédure triviale. Elle a requis le développement en amont d’un modèle de classification par deep learning et l’élaboration d’une typologie des objets visuels usuellement présents dans ces publications. L’usage de la modélisation non à des fins d’exploration mais de définition initiale du corpus sera l’un des principaux thèmes de la présentation.
URI/Permalien: