Data analysis
Last updated
Last updated
Une des priorités de notre étude était de parvenir à étudier le plus précisement possible la répartition géographique des exposants dans le cadre de ces expositions internationales. Parmi les catalogues du corpus, seuls les catalogues d'exposition du Photo-Club de Paris (1894, 1895, 1896, 1897, 1898, 1902, 1904, 1906) ont été traités grâce à la chaîne de traitement Artl@s, permettant d'extraire les informations relatives aux exposants. 5050 oeuvres ont été extraites de ces catalogues et avec elles, la totalité des pays et des villes d'origine de leur exposant, et près de 55% des adresses des photographes ont pu être associées avec leurs coordonnées géographiques.
Des visualisations des données réalisées grâce à un logiciel tableur type Excel ou Numbers peuvent déjà fournir de très bons résultats du point de vue des analyses quantitatives. Certaines recherches, telles que celles croisant différentes facettes, se réalisent particulièrement rapidement au moyen d'OpenRefine et à partir de notre fichier TSV concaténant toutes les données extraites des différents catalogues.
Au moyen d'Excel, nous avons réalisé un comptage par années des pays et des villes d'où provenaient les auteurs des photographies présentées aux expositions du Photo-Club de Paris.
A partir de ces feuilles de calcul nous avons visualisé ces données grâce à un graphique en aires :
Par le biais d'un notebook Python, nous avons également procédé à la cartographie de ces données géolocalisées. Nous avons fait le choix d'une cartographie zoomable réalisée grâce à la librairie Python Folium, qui permet de réaliser des cartographie interactives.
La cartographie ci-dessous présente les rues parisiennes ayant été géolocalisées. La taille du repère dépend du nombre d'oeuvres exposées. Seules les rues de la ville de Paris ont été géolocalisées de manière exhaustive, car toutes les rues du corpus traité ne disposaient pas de notices Wikidata permettant de récupérer les coordonnées géographiques automatiquement grâce à OpenRefine.
Différentes manières s'offrent là encore à nous pour étudier l'iconographie des photographies exposées.
D'une part, à partir des données textuelles extraites des catalogues d'exposition du Photo-Club de Paris, nous avons pu constater la fréquence de certains mots dans les titres des oeuvres exposées se référant au genre et au sujet de l'image. Grâce à un notebook Python, nous avons réalisé un nuage de mots pour les termes les plus récurrents dans les titres.
Afin de tagger rapidement l'ensemble des catalogues illustrés du corpus international, nous avons utilisé une autre méthode, celle du tagging, au moyen du logiciel open source Tropy. Grâce à son interface graphique et ses différents plugins, Tropy permet d'importer et modifier les métadonnées de chaque page numérisée ainsi que d'indexer rapidement l'ensemble du corpus de photographies reproduites et de publicités dans 76 catalogues d'exposition de 1892 à 1914. Le logiciel permet aussi de réaliser un export CSV des images en conservant les métadonnées et les différents mots-clefs choisis. A partir de ce CSV nous avons pu réaliser des analyses quantitatives.
Pour les reproductions de photographies dans les catalogues, nous avons utilisé des mots-clefs librement inspirés du thésaurus iconographique Garnier, en particulier concernant le genre de la représentation (1. Caractères généraux de la représentation pp. 40-49). Les mots-cléfs utilisés sont les suivants :
photographie : pour toutes les pages contenant une reproduction
marine
nature morte
paysage
paysage (eau)
paysage (montagne)
portrait (animal)
portrait (enfant)
portrait (femme, enfant)
portrait (femme)
portrait (homme)
représentation d'objet
représentation scientifique
scène
scène (animaux)
scène (champêtre)
scène (intérieur)
scène (nu)
scène (travaux)
scène biblique
scène historique
scène littéraire
vue d'architecture
vue d'artichecture (ville)
vue d'intérieur
Dans l'exemple ci-dessous, nous avons réalisé des pourcentages par année des photographies représentant un paysage :
Pour les publicités nous avons simplement utilisé des mots-cléfs relatifs à la typologie de produit :
publicité : pour toutes les pages contenant des publicités
publicité (appareils)
publicité (concours)
publicité (divers)
publicité (exposition, galerie)
publicité (kodak)
publicité (matériel, produit, accessoires)
publicité (objectifs)
publicité (photographies)
publicité (plaques, papiers, pellicules)
publicité (publications, librairies)
publicité (services)
L'ensemble des notebooks Python utilisés sont disponibles ici.
Les fichiers TSV (complet ou par année) contenant les données enrichies issues des catalogues d'expositions du Photo-Club de Paris sont disponibles ici.
Le fichier TSV exporté depuis Tropy contenant les 76 catalogues d'expositions illustrés indéxés est disponible ici.
Le classeur Excel comportant quelques feuilles de calcul réalisées dans le cadre de nos analyses est disponible ici.