Commençons par un rappel des constats et principes qui ont gouverné l’informatisation du texte de l’Inventaire général. Comme déjà expliqué dans la section de présentation du contenu de l'Inventaire, les trois volumes concernés par le projet sont comparables à un instrument de recherche archivistique moderne, plus précisément à un inventaire analytique. Chacun des volumes possède une page de titre, puis, si on laisse de côté l’introduction présente au début du volume I, on y trouve une séquence plate de regestes classés dans l’ordre chronologique tel qu’établi à l’époque.
On rencontre dans les centres d’archives nombre d’inventaires analytiques construits selon ce modèle séquentiel plat, en particulier pour les fonds anciens classés et inventoriés au XIXe siècle et au début du XXe siècle. Cependant le plus souvent au XIXe siècle on décrit réellement des documents physiquement présents, en donnant leur cote ou en organisant l’inventaire par unités de cotation, ou en fonction d’un plan de classement. L’Inventaire général est, lui, conçu de manière un peu plus abstraite, incluant à peu près tous les témoins des chartes, même si l’original est manquant. De ce fait cet inventaire n’a pas de structure hiérarchique interne - la logique de rédaction est purement chronologique, aucun plan de classement n’est présent.
Un autre point est important : l’Inventaire général fournit systématiquement les mêmes informations pour chaque acte, et ces informations sont placées au même endroit sur la page et présentées de la même manière ; cette homogénéité en faisait un bon candidat pour une opération de structuration directe (une seule phase de travail combinant transcription et structuration, suivie bien sûr de travaux de relecture), cohérente et efficace.
Le choix du standard XML/EAD 2002 pour baliser cet inventaire analytique était naturel car adapté à la nature du document et aux besoins du projet. Une seule autre option pouvait être envisagée, consistant à utiliser le modèle TEI P5. Cette option aurait été choisie si on avait eu un point de vue différent sur cet inventaire, si on l’avait avant tout considéré comme un document et s’il avait été l’objet principal d’étude du projet. Mais comme on l’a déjà dit on souhaitait avant tout exploiter son contenu, constitué de métadonnées archivistiques, pour lesquelles le standard EAD a justement été défini.
Chacun des volumes traités étant doté de sa page de titre et constituant une unité, un fichier XML/EAD a été produit par volume ; on a donc au total trois fichiers XML/EAD, interrogeables séparément ou ensemble. Dans chaque fichier, on a encodé la page de titre. Pour faciliter la navigation au sein de ces fichiers, on a choisi d’y regrouper les regestes en une vingtaine de blocs en tout, correspondant à autant de tranches chronologiques. Cet aménagement est facilement réversible et n’a pas d’incidence sur les fonctionnalités de recherche. Une table des matières facile à utiliser a pu ainsi être générée pour chaque volume.
Chaque regeste a été encodé au sein d’un élément conteneur qui lui est propre, et qui dispose d’un identifiant informatique dérivé du numéro de regeste fourni par l’Inventaire. Cet identifiant a été utilisé pour indexer le regeste, donc pour générer l’URL pérenne.
Chacun des segments d’information identifiés pour les besoins du projet dans le texte original a été encodé dans un élément EAD spécifique, celui qui est approprié. Ainsi, au sein de chaque regeste, on a isolé (autrement dit balisé) le numéro du regeste, la date, l’analyse proprement dite, les références données dans le tableau de la tradition, les informations complémentaires apportées par l’auteur. Ultérieurement, on pourra isoler les toponymes, les noms de personnes, ou d’autres segments, en fonction des besoins qui se feront jour. Isoler ces informations permet de les indexer séparément, donc de les rendre cherchables. C’est ainsi que l’on peut faire des recherches sur les mots de l’analyse, par exemple. On a gardé aussi la trace des changements de taille de l’écriture, pour les termes en langue latine écrits en caractères plus gros.
Pour tirer un parti plus avancé des possibilités de l’informatique, et en s’éloignant de ce qu’une édition imprimée aurait offert, une indexation des types d’auteur d’actes a aussi été réalisée, pour permettre la recherche par ce critère. Enfin les renvois explicites faits par l’auteur d’un regeste à un autre ont été exprimés sous la forme de liens hypertextes. Par la suite chacun des regestes édités a été relié à l’image ou aux images numériques de la ou des pages sur laquelle il est inscrit.
Même si le projet s’intéresse surtout au document en tant que point d’accès au chartrier, donc aux métadonnées de description des chartes qu’il donne à lire, et non pas au document pour lui-même, au contexte et aux modalités de sa rédaction, à sa forme ou à son écriture, on avait aussi affaire à un document manuscrit rédigé sous l’Ancien Régime. Il fallait impérativement, pour rendre le texte intelligible et pleinement utilisable, en faire une édition scientifique, même assez rapide, et en compléter ou corriger le contenu. Il a donc été choisi d’ajouter au moins au texte initial, lui-même édité selon les règles classiques d’édition des textes de l’époque moderne, des notes relevant les erreurs de syntaxe et les hésitations de l’auteur, des éléments de datation fine (servant également à la recherche par date) et des références bibliographiques.
Dans les fichiers EAD, chacune des interventions éditoriales listées ci-dessus est l’objet d’un élément ou d’un attribut distinct, en fonction de la nature de l’intervention. On a ainsi utilisé ainsi les éléments et attributs EAD de balisage des notes, de normalisation des dates, de saisie de références bibliographiques.
De manière plus générale, dès lors qu’on a ajouté au texte original une information (intervention éditoriale, élément d’indexation, lien, etc.), l’élément utilisé, si c’est un élément, a été marqué par un attribut spécifiant que l’auteur de l’ajout est l’École des chartes. Il est alors facile de retrouver et de modifier ces ajouts. De plus, si on a besoin de revenir au texte transcrit brut, il suffira de supprimer par programme tout ou partie de ces ajouts.