HTR and Layout Analysis
Last updated
Last updated
La première étape du traitement de notre corpus correspond à la transcription et la segmentation des pages de catalogues.
Cette étape a été réalisée au moyen de FoNDUE, infrastructure d'HTR développée par l'Université de Genève basée sur eScriptorium. L'interface graphique de ces outils facilite grandement les opérations d'acquisition et de correction. La transcription et la segmentation peuvent être réalisées entièrement manuellement ou être facilitées par l'usage de modèles entrainés avec des méthodes d'apprentissage automatique. FoNDUE propose des modèles de transcription et de segmentation par défaut mais permet aussi d'importer d'autres modèles ainsi que d'entraîner ses propres modèles à partir de pages déjà traitées.
La segmentation (ou layout analysis) permet d'identifier et décrire les différentes zones composant un document manuscrit ou imprimé. Cette opération connait de nombreuses applications en termes d'analyses computationnelles. Dans le cas précis du traitement des catalogues d'exposition, documents semi-structurés sous la forme d'entrées, la segmentation permet en particulier d'identifier les zones d'une page correspondant aux différentes entrées. La structure des entrées peut varier selon les catalogues, mais dans notre cas elle contient des informations factuelles concernant chaque exposant et chaque œuvre exposée par ce dernier.
La segmentation est, avec la transcription, essentielle dans la chaîne de traitement des catalogues car ces différentes informations seront contenues dans les fichiers XML ALTO générés par FoNDUE pour chaque page du catalogue traité. C'est ce qui permettra ensuite au programme Python d'extraire automatiquement les données correspondant aux exposants et œuvres exposées sous forme structurée en XML TEI.
Dans le cadre de la segmentation d'un document, il est important de définir et respecter un vocabulaire qui permettra d'annoter et décrire chaque zone d'une page selon sa fonction. Nous avons adopté le vocabulaire contrôlé SegmOnto, conçu pour les documents historiques, afin de favoriser l'interopérabilité des données obtenues, notamment dans la perspective d'une mutualisation de la vérité de terrain et de l'entraînement de nouveaux modèles (pour en savoir plus).
Les zones utilisées pour l'annotation de notre corpus sont les suivantes :
MainZone
: pour la zone contenant l'ensemble du texte d'une page.
NumberingZone
: pour la numérotation des pages.
MarginTextZone
: pour les légendes des illustrations.
QuireMarksZone
: pour les numéros de cahier.
TitlePageZone
: pour la ou les pages de titre.
GraphicZone:illustration
: pour les illustrations.
GraphicZone:ornamentation
: pour les ornements typographiques.
CustomZone:entry
: pour les entrées de catalogue.
CustomZone:entryEnd
: pour les entrées qui se poursuivent sur la page suivante (rares dans notre corpus).
CustomZone
est un type à utiliser pour toute zone autre que celles définies par SegmOnto, elle permet à ce vocabulaire contrôlé de s'adapter à une typologie de document spécifique grâce à l'ajout d'un sous-type librement choisi par l'utilisateur. Dans le cas des catalogues, les sous-types retenus sont entry
et entryEnd
. L'usage de CustomZone:entry
et CustomZone:entryEnd
pour la segmentation est particulièrement important dans le cadre de la chaîne de traitement appliquée aux catalogues, ce sont ces zones qui permettront de délimiter et extraire les données concernant les items exposés et leurs exposants.
Les lignes utilisées pour l'annotation de notre corpus sont les suivantes :
HeadingLine
: pour les lignes contenant un élément de titre.
DefaultLine
: pour le reste des lignes du document.
Dans l'exemple ci-dessus, la zone orange est une NumberingZone
, la zone rose une MainZone
et les zones bleues des CustomZone:entry
. Les lignes de cette page sont toutes des DefaultLine
.
Juliette Janès a également mis à disposition des modèles entrainés à partir des catalogues qu'elle a traités au cours de son travail. Le plus performant sur notre corpus était le modèle de transcription "Gruyère". Les données à partir desquelles ont été entrainés ces différents modèles n'étant pas natives d'eScriptorium, car préparées à l'origine grâce à Transkribus, les résultats obtenus lors d'un usage du modèle sur eScriptorium demandent encore énormément de corrections. De nouveaux modèles ont été entraînés avec des pages de notre corpus grâce à FoNDUE, mais n'ayant été entrainés que sur un nombre limité de pages toutes semblables, ils ne sont vraisemblablement performants que pour les catalogues de notre corpus.
Un entraînement sur FoNDUE ne permet de sélectionner que les pages d'un seul document comme vérité de terrain. Pour procéder à un entraînement sur un nombre plus important de documents présentant une plus grande variété, il faut utiliser directement un outil d'HTR tel que Kraken (logiciel OpenSource sur lequel s'appuient eScriptorium et FoNDUE). Cependant, un ordinateur personnel n'offre pas la puissance nécessaire pour réaliser efficacement un tel entraînement, en particulier concernant des modèles de segmentation.
L'ensemble des données issues de la transcription et la segmentation réalisées dans le cadre de ce projet de recherche représente une vérité de terrain suffisamment importante en termes de quantité pour entraîner de nouveaux modèles plus performants pour les catalogues historiques. A ces données s'ajoutent celles mises à disposition par Juliette Janès à l'issue de son travail, lesquelles ont été transformées par nos soins pour être conformes à la nouvelle version de SegmOnto. Esteban Sánchez Oeconomo et Paul Kervegan ont également contribué à augmenter cette vérité de terrain avec l'ajout de données issues d'autres catalogues. Ces jeux de données (fichiers ALTO et images correspondantes) sont disponibles sur le dépôt GitHub du projet PictoCatalogs et pourront servir à l'entraînement de nouveaux modèles d'HTR et de segmentation pour des catalogues de différentes natures.
Ce dépôt GitHub intègre différentes GitHub actions visant à automatiser le contrôle qualité des données partagées sur le dépôt et la compatibilité avec l'initiative HTR-United. HTR-United vise à mutualiser la vérité de terrain issue de différents projets de recherche. Il s'agit de favoriser ainsi le décloisonnement des ressources, en particulier pour l'entraînement de nouveaux modèles de transcription automatique grâce à une vérité de terrain de qualité et couvrant une grande variété de documents de différentes périodes historiques.