Workflow

Cette chaîne de traitement a été développée dans le cadre du projet Artl@s, en particulier pour BasArt, sa base numérique et géoréférencée de catalogues d'expositions. Ce workflow est le fruit du travail de Caroline Corbières et de Juliette Janès, qui ont apporté des améliorations successives dans le but d'extraire les données de catalogues d'exposition de façon semi-automatisée (plus d'informations ici).

Nos données de départ sont des catalogues d'expositions disponibles au format IIIF, permettant de les importer très facilement dans FoNDUE, infrastructure d'HTR (Handwritten Text Recognition) développée par l'Université de Genève basée sur eScriptorium. Les données d'HTR et de segmentation issues des pages d'un catalogue sont ensuite exportées au format XML ALTO (Analysed Layout and Text Object).

Un programme en Python développé par Juliette Janès et grandement amélioré par Esteban Sánchez Oeconomo (le programme mis à jour est disponible ici), permet ensuite d'extraire de manière automatisée les données textuelles et de mise en page des fichiers ALTO et de les structurer en XML TEI (Text Encoding Initiative). Une feuille de transformation XSLT (eXtensible Stylesheet Language Transformations) permet enfin de transposer ces données structurées dans un fichier CSV (Comma-Separated Values), afin d'obtenir des données sous la forme d'un tableur adapté aux besoins de BasArt.

Les données contenues dans le fichier CSV sont ensuite nettoyées et enrichies grâce à OpenRefine, afin de répartir les données dans les colonnes correspondantes mais aussi de géoréférencer l'ensemble des données géographiques disponibles. A partir d'un CSV enrichi, il est alors possible de réaliser des visualisations de différentes natures (cartographies, graphiques, etc.) et ainsi de procéder à l'analyse statistique et géographique des données issues des catalogues.

Bien que nous renvoyions systématiquement dans cette documentation aux différents travaux qui composent notre chaîne de traitement, les différents fichiers nécessaires entrant en jeu dans cette dernière ont également été centralisés dans un dépôt GitHub dédié afin de faciliter leur récupération par toute personne susceptible de les réemployer.

Les pages suivantes détailleront davantage chaque étape de cette chaîne de traitement.

PreviousAbout the project NextHTR and Layout Analysis

Last updated 3 years ago