Les lettres issues des « Prize Papers » ont été transcrites et balisées au format XML-TEI. Le XML-TEI a été développé afin de décrire les fonds patrimoniaux. Il permet, via un système de balisage, d'annoter et de décrire la forme et le contenu d'une lettre mais aussi de lui fournir des métadonnées, c'est-à-dire les informations qui nous avons sur le document (auteur, date de rédaction, lieu de transit, etc.). Vous pouvez trouver un guide complet, sur les choix de transcription effectués ainsi que sur l'emploi et l'intérêt des balises TEI retenues pour annoter les lettres, ici.
Dans le cadre du travail d'annotation et de balisage des lettres au format XML-TEI, chaque token des lettres (un token est la plus petite unité lexicale possible) est balisé dans une balise <w> (word) qui reçoit un attribut lemma et "POS" (Part of Speech, c'est-à-dire la nature grammaticale.
La lemmatisation a été réalisée avec l'outil LGeRM et les lemmes employés sont ceux du TLF, Trésor de la Langue Français ou à défaut du DMF, Dictionnaire de Moyen Français.
Vous pouvez trouver le protocole de lemmatisation ici.