Aspects informatiques du projet : généralités > la fabrique du corpus numérique

Les deux documents primaires étudiés ici ont été informatisés, et ce qu’on manipule dans la présente application est le résultat actuel de ce processus d’informatisation. Nous appellerons ce résultat corpus numérique ; nous présentons ci-après les grandes caractéristiques de ce corpus.

Les choix technologiques sont tous faits en tenant compte de la nécessité de garantir la réutilisabilité des fichiers à moyen et long terme, que ce soit pour les porteurs du projet, qui s’inscrit dans la longue durée, ou pour d’autres potentiels utilisateurs. D’où l’emploi de standards, au premier plan desquels XML.

Les images numériques

Les images numériques disponibles reproduisent la totalité des registres originaux pour la période étudiée (du Haut Moyen Âge à 1302). La décision de numériser ces documents (pour l’Inventaire, les images numériques n’existaient pas) et d’intégrer toutes les images au corpus numérique a été prise dès le début du projet, en 2007. En effet, beaucoup de travail restant à faire pour éditer ou simplement mieux exploiter le Cartulaire blanc après l’édition de quatre de ses chapitres, on souhaitait offrir aux chercheurs des moyens efficaces de voir les registres eux-mêmes. Par ailleurs, qu’il s’agisse de l’Inventaire ou du Cartulaire blanc, les images sont publiées comme la référence de l’édition scientifique qui en a été faite, qui si elle est exhaustive et critique, n’en exprime pas tous les aspects, n’en donne qu’un point de vue, et peut toujours être modifiée.

Pour obtenir la qualité nécessaire, le choix de la numérisation couleur directe à une résolution relativement élevée s’est imposé. Techniquement il s’agit aujourd’hui d’une opération classique. La numérisation à la page a été choisie ; ce choix convenait à tous. Il est conforme à la pratique habituelle en cas de numérisation directe de registre. La page (ou le feuillet) est la principale unité d’organisation physique des documents, numériser en double page ouverte aurait produit des collections d’images structurées selon un autre modèle et compliqué une donne déjà complexe. Les images ont été stockées dans un système de fichiers, un dossier par document (l’inventaire, le cartulaire), un sous-dossier par tome.

L’édition structurée en XML/EAD de l’Inventaire général

Le deuxième composant du corpus numérique est constitué de l’édition structurée de l’Inventaire général, qu’il fallait absolument rendre lisible et cherchable. Ce texte a certaines des caractéristiques d’un inventaire analytique d’archives, comme le montre la présentation qui en est faite. Ce qui intéresse les porteurs du projet de recherche dans ce texte, c’est avant tout son contenu. Il a donc été décidé d’utiliser le modèle XML/EAD 2002, qui permet de baliser efficacement des métadonnées archivistiques, pour encoder cet ancien inventaire ; ce choix correspond aussi aux travaux entrepris par les Archives nationales il y a près de dix ans pour convertir les très nombreux inventaires de ses fonds et collections en fichiers XML/EAD. L’Inventaire général est cependant également un manuscrit ancien, qu’il fallait éditer. Des règles spécifiques d’emploi du modèle EAD ont donc été définies, visant notamment à distinguer nettement le texte original transcrit des interventions éditoriales telles que les notes, et à intégrer aux fichiers XML toutes les informations supplémentaires jugées utiles par l’éditeur scientifique (datation avec les méthodes scientifiques actuelles, indexation des auteurs d’actes, éléments de bibliographie).

Au total, trois fichiers XML/EAD ont été produits, un par tome de l’Inventaire général.

L’édition structurée en XML/TEI P5 du Cartulaire blanc

Le troisième composant du corpus numérique, qui est appelé (nous l’espérons en tout cas) à beaucoup s’enrichir, est au 15 juin 2011 constituée de l’édition structurée de cinq chapitres du Cartulaire blanc. En 2006, l’édition de deux de ces chapitres avait déjà été publiée, sans les images numériques, par l’Ecole des chartes. Les lignes de force des choix faits à ce moment-là ont été conservées : c’est donc le modèle TEI qui a été utilisé. Depuis 2006 ce modèle a lui-même beaucoup évolué, avec la publication d’une version P5 majeure en novembre 2007, légèrement revue depuis. Le travail de structuration s’est fait après avoir défini de nouvelles règles d’encodage, les fichiers anciens ont été revus pour être rendus conformes à ces règles. Ce travail a été mené en même temps que beaucoup d’autres de même nature à l’Ecole des chartes ; il a été affiné au printemps 2011. L’essentiel a été fait manuellement.

Les fichiers XML/TEI produits, accompagnés de leur modèle XML documenté, seront très bientôt téléchargeables. Le modèle TEI est proche de celui défini pour d’autres projets d’édition d’actes par l'Ecole des chartes, avec quelques particularités qui l’en distinguent. Pour le projet, l’important est qu’il sera désormais beaucoup plus facile, grâce à ce modèle d’une part, et à l’application d’autre part, de poursuivre le travail d’édition structurée, et de publier d’autres chapitres.

Liens entre composants

Un des souhaits du responsable scientifique du projet, et un des objectifs informatiques importants, était de permettre la navigation entre les regestes de l’Inventaire et les actes que ces regestes décrivent tels que copiés au Cartulaire, et vice-versa, qu’il s’agisse des images ou des textes édités. Les deux collections d’images, et les deux groupes de fichiers XML (EAD et TEI) décrits rapidement ci-dessus ont cependant été produits séparément, par des processus distincts ; de plus on souhaitait pouvoir les faire évoluer, les réutiliser et les rendre réutilisables par d’autres, indépendamment l’un de l’autre. Rappelons que les collections d’images ont été produites en prenant comme base de travail les principales unités d’organisation physique des originaux, tome et page ; les fichiers XML ont, eux, été produits en prenant comme base de travail les unités principale d’organisation logique, le regeste et l’acte. La correspondance entre les quatre composants ne pouvait être déduite de cet existant. Il fallait donc une solution externe à ces fichiers pour exprimer les liens entre ces quatre composants.

Le choix fait a consisté à déclarer ces liens à l’intérieur de fichiers METS (un modèle XML pour décrire des paquets de fichiers, et pour stocker des métadonnées sur ces paquets, en particulier des métadonnées de préservation). Chacun des fichiers METS produits l’a été par la société Dataland, en même temps qu’elle procédait à la numérisation, en partant des documents originaux ou des images numériques. En effet, pour l’Inventaire général et pour le Cartulaire blanc, il fallait déclarer le lien entre le numéro de page et l’image correspondante, donc revenir aux originaux. D’autre part un regeste de l’Inventaire général mentionne le cas échéant la copie de l’acte au Cartulaire blanc. Les fichiers METS ont ensuite été revus à la main ; pour le Cartulaire blanc, les tableaux de la tradition présents dans l’édition critique des actes ont servi de base de travail pour encoder le lien avec le regeste de l’Inventaire général. Les fichiers METS servent donc actuellement de ressource pour :

  • générer la table cumulative des actes en rapportant à chaque acte édité du Cartulaire tous les liens qu’il entretient avec d’autres unités ;
  • ajouter certains critères de recherche dans les formulaires de recherche avancée ;
  • augmenter de liens l’édition d’un acte ou d’un regeste, ou la page de consultation des images ;
  • permettre la recherche par page dans la fenêtre de consultation des images.
© École nationale des chartes, 2010-....   |  Mentions légales | Crédits