Protocole de lemmatisation

Table matières

Les noms propres

Les noms propres comportant un article sont lemmatisés sans l’article.
Ex.: 'Le Havre' est lemmatisé seulement 'Havre' et 'le' est exclu et lemmatisé comme un article défini (à part).

Les abréviations

Elles portent la balise <abbr> et sont résolues lors de la lemmatisation (il faut parfois rétablir en toutes lettres le lemme non reconnu).

Les partitifs

Il existe un lemme de « art. partitif ».
Nous lemmatisons de la façon suivante : Plusieurs cas sont ambigus, notamment dans les phrases négatives. On passe à l’affirmatif :

Les locutions

Nous choisissons de ne pas utiliser le lemme « loc. adv. », « loc. prép. » ou « loc. conj. » mais d’attribuer un lemme à chaque unité constituant une locution.
Par exemple :
N.B. Nous reprenons les lemmes du DMF tels quels, qui comportent parfois deux catégories grammaticales.
Il ne faut pas aller plus loin dans l’analyse pour la lemmatisation : attribuer le lemme du DMF, sans plus.

Les démonstratifs

Les temps composés

Nous lemmatisons séparément l’auxiliaire et le participe.
Ex. 'a parti' > 'a', auxiliaire avoir et parti, verbe partir.

Le pronom on et son allomorphe l’on (ou l on, lon)

Le segment 'l' est placé entre deux balises <w> et est rangé parmi les « mots exclus » lors de la lemmatisation, càd qu’on ne lui attribue pas de lemme.

Liaisons et t euphonique.

Pour compléter le protocole de transcription, ajoutons que :

L’apostrophe

L’apostrophe doit être liée au segment élidé.
Exemple :
<w>qu’</w><w>il</w>.

"Que" : pronom, conjonction et adverbe (exceptif / restrictif)


Lorsqu’il peut être remplacé par seulement, nous le considérons comme un adv. Il y a donc trois 'que' :
À noter que certaines occurrences de 'que' admettent autant une interprétation pron. que conj. : celles-ci font l’objet d’un choix (parfois déchirant) de lemmatisation au cas par cas et bien que nous ayons essayé d’être cohérents, nous recommandons de chercher 'que' pron. & 'que' conj. pour être assuré d’atteindre l’ensemble des occurrences.

Demande de création d’un nouveau lemme



[Retour au corpus Macintosh]