Protocole de lemmatisation
Les noms propres
Les noms propres comportant un article sont lemmatisés sans l’article.
Ex.: 'Le Havre' est
lemmatisé seulement 'Havre' et 'le' est exclu et lemmatisé comme un article défini (à part).
Les abréviations
Elles portent la balise <abbr> et sont résolues lors de la lemmatisation (il faut parfois rétablir
en toutes lettres le lemme non reconnu).
Les partitifs
Il existe un lemme de « art. partitif ».
Nous lemmatisons de la façon suivante :
- "Je mange du gâteau." 'du' > lemme de « art. partitif » ;
- "Je mange de la soupe." 'de' > lemme de « art. partitif », la > lemme le « art. défini » ;
- "Je mange des épinards." 'des' > lemme de « art. partitif »;
Plusieurs cas sont ambigus, notamment dans les phrases négatives. On passe à l’affirmatif :
- "Je ne vois pas de vagues" > forme affirmative > de art. partitif + le art. déf.
- "Je vois des vagues" > lemme un « art. indéf. »
Les locutions
Nous choisissons de ne pas utiliser le lemme « loc. adv. », « loc. prép. » ou « loc. conj. » mais
d’attribuer un lemme à chaque unité constituant une locution.
Par exemple :
- "Après qu’il eut fini […]." 'après' > lemme « prép. », 'que' > lemme « conj. »
- Du depuis le temps > du, double lemme « prép. » (de) + « art. défini » (le), depuis lemme
« prép. »
- Du depuis que depuis > lemme « prép. », que > lemme « conj. »
- Pendant que pendant lemme « prép. », que lemme « conj. »
- Bien que bien lemme « adv. », que lemme « conj. »
- Autant que lemme « adv. », que lemme « conj. »
N.B. Nous reprenons les lemmes du DMF tels quels, qui comportent parfois deux catégories
grammaticales.
Il ne faut pas aller plus loin dans l’analyse pour la lemmatisation : attribuer le
lemme du DMF, sans plus.
Les démonstratifs
- 'Celui-ci' (et formes affines, en alternance avec ici), pronom dém.
Nous segmentons dans la lemmatisation celui et ci (ou ici) séparément, même si le TLF
comprend bien une entrée CELUI-CI pron. dém. - 'Ceci', parce que nous rencontrons les formes
-
'celui-ici' (lemmatisé celui pron. dém. + ici adv.) et 'celui-ci' (lemmatisé celui pron. dém. + ci
pron. dém.), qui sont en variation libre dans le corpus.
- La forme féminine 'celle' est
lemmatisée sous CELUI pron. dém.
Les temps composés
Nous lemmatisons séparément l’auxiliaire et le participe.
Ex. 'a parti' > 'a', auxiliaire avoir et
parti, verbe partir.
Le pronom on et son allomorphe l’on (ou l on, lon)
Le segment 'l' est placé entre deux balises <w> et est rangé parmi les « mots exclus » lors de
la lemmatisation, càd qu’on ne lui attribue pas de lemme.
Liaisons et t euphonique.
Pour compléter le protocole de transcription, ajoutons que :
- Lorsqu’un segment de liaison est exprimé plusieurs fois, il est isolé entre deux balises <w>
pour la lemmatisation et se voit attribuer l’étiquette « mot exclu ».
-
Exemple, extrait de HCA-30381-FL-1 :
"les demoiselle sont tel jolie" > = les demoiselle sont <w>t</w><w>el</w> jolie
Le
segment <t> est exclu de la lemmatisation.
- Dans le cas des pluriels de syntagmes nominaux, en revanche, le segment de liaison peut
être réexprimé. Il est ainsi placé à l’initiale du mot lexical et la forme avec expression de la
liaison devient un allomorphe de celle sans liaison.
- Exemple, extrait de HCA-32205-Adrienz-
1671 :
et <w>a</w><w>ses</w><w>zan fan</w> et <w>a</w><w>tous</w>
<w>ses</w><w>zamis</w><lb/>.
Zanfan est un allomorphe d’anfan, et zamis d’amis.
- Le t euphonique est considéré comme segment exclu.
- Exemple, extrait de FL (ci-dessus) :
"comment à tel suporté" = comment à <w>t</w><w>el</w> suporté, <t>;
mot exclu de la
lemmatisation. Idem pour les syntagmes verbaux, nous excluons les consonnes de liaison de
la lemmatisation.
Ex. vous zavest « vous avez » = <w>vous</w> <w>z</w> <w>avest</w>.
L’apostrophe
L’apostrophe doit être liée au segment élidé.
Exemple :
<w>qu’</w><w>il</w>.
- Le syntagme "Dieu merci" :
'Dieu' est substantif masculin et 'merci' est interjection.
"Que" : pronom, conjonction et adverbe (exceptif / restrictif)
Lorsqu’il peut être remplacé par seulement, nous le considérons comme un adv. Il y a donc
trois 'que' : - 'que' pron.
- 'que' conj.
- 'que' adv.
À noter que certaines occurrences de 'que'
admettent autant une interprétation pron. que conj. : celles-ci font l’objet d’un choix (parfois
déchirant) de lemmatisation au cas par cas et bien que nous ayons essayé d’être cohérents,
nous recommandons de chercher 'que' pron. & 'que' conj. pour être assuré d’atteindre
l’ensemble des occurrences.
Demande de création d’un nouveau lemme
- (1) remplir la case Lemme (à gauche, juste en dessous des lemmes proposés par LGeRM)
avec le lemme que l’on souhaite créer ;
- (2) cliquer sur la case Code > et choisir dans la liste déroulante la catégorie grammaticale
appropriée ;
- (3) cocher la case « absent nomenclature » ;
- (4) ajouter une note indiquant qu’une demande de création de nouveau lemme a été effectuée.