Workflow

Cette chaîne de traitement a été développée dans le cadre du projet Artl@sarrow-up-right, en particulier pour BasArtarrow-up-right, sa base numérique et géoréférencée de catalogues d'expositions. Ce workflow est le fruit du travail de Caroline Corbièresarrow-up-right et de Juliette Janèsarrow-up-right, qui ont apporté des améliorations successives dans le but d'extraire les données de catalogues d'exposition de façon semi-automatisée (plus d'informations iciarrow-up-right).

Nos données de départ sont des catalogues d'expositions disponibles au format IIIF, permettant de les importer très facilement dans FoNDUEarrow-up-right, infrastructure d'HTR (Handwritten Text Recognition) développée par l'Université de Genève basée sur eScriptoriumarrow-up-right. Les données d'HTR et de segmentation issues des pages d'un catalogue sont ensuite exportées au format XML ALTO (Analysed Layout and Text Object).

Un programme en Python développé par Juliette Janès et grandement amélioré par Esteban Sánchez Oeconomo (le programme mis à jour est disponible iciarrow-up-right), permet ensuite d'extraire de manière automatisée les données textuelles et de mise en page des fichiers ALTO et de les structurer en XML TEI (Text Encoding Initiative). Une feuille de transformation XSLTarrow-up-right (eXtensible Stylesheet Language Transformations) permet enfin de transposer ces données structurées dans un fichier CSV (Comma-Separated Values), afin d'obtenir des données sous la forme d'un tableur adapté aux besoins de BasArt.

Les données contenues dans le fichier CSV sont ensuite nettoyées et enrichies grâce à OpenRefinearrow-up-right, afin de répartir les données dans les colonnes correspondantes mais aussi de géoréférencer l'ensemble des données géographiques disponibles. A partir d'un CSV enrichi, il est alors possible de réaliser des visualisations de différentes natures (cartographies, graphiques, etc.) et ainsi de procéder à l'analyse statistique et géographique des données issues des catalogues.

Bien que nous renvoyions systématiquement dans cette documentation aux différents travaux qui composent notre chaîne de traitement, les différents fichiers nécessaires entrant en jeu dans cette dernière ont également été centralisés dans un dépôt GitHub dédiéarrow-up-right afin de faciliter leur récupération par toute personne susceptible de les réemployer.

Les pages suivantes détailleront davantage chaque étape de cette chaîne de traitement.

Last updated