Mode d'emploi et conseils d'utilisation de l'outil BlackLab et ses différents niveaux de recherche
L'interface et les différents modes de recherche
Recherche Simple (Simple)
La recherche Simple permet d'effectuer une recherche rapide par mots ou par lemme.
Pour effectuer une recherche, il suffit simplement d'entrer le mot recherché dans la barre de recherche et d'appuyer sur Entrée ou de cliquer sur Search.
A noter: dans la recherche Simple, les recherches sont insensibles à la casse, c'est-à-dire que les accents ou majuscules et minuscules ne sont pas pris en compte: ainsi les recherches "mère", "mere, "Mère", "Mere" fourniront les mêmes résultats.
De plus, il est possible pour d'utiliser des caractères génériques afin d'affiner le niveau de la recherche:
- * : L'astérisque représente n'importe quel caractère apparaissant zéro ou plusieurs fois.
Exemple: une recherche "me*" permet de relever tous les mots commençant par 'me-';
une recherche "*me" permet de relever tous les mots se terminant par '-me';
une recherche "m*e" permet de relever tous les mots commençant par 'm-' et se terminant par '-e';
une recherche "m*e*" permet de relever tous les mots commençant par 'm-' et comportant un 'e';
-
? : Le point d'interrogation représente un caractère inconnu.
Ainsi, entrer 'm?' permet de chercher tous les mots dans les lettres commençant par un 'm-' suivi d'un seul caractère;
une recherche 'm??' permet de chercher tous les mots commençant par un 'm-' suivi de deux caractères;
une recherche '????m' permet de chercher tous les mots se terminant par un '-m' précédé par quatre caractères;
- | : La barre verticale symbolise 'ou' et propose une alternative.
Si vous entrez une recherche comme 'm*|n*', vous exprimez que vous recherchez toutes les chaînes de caractères commençant par 'm' ou toutes les chaînes de caractères commençant par 'n'.
Recherche Etendue (Extended)
La recherche Etendue est un prolongement de la recherche Simple et vous permet de retrouver toutes les occurrences d'un token avec ses attributs spécifiques.
Un token représente généralement un seul mot et est la plus petite unité au sein du corpus.
Un token possède différents attributs qui sont :
- Word : représente le token, le mot tel qu'il apparaît écrit dans les lettres du corpus.
- Lemma : représente le lemme rattaché au token.
- PoS (Part of Speech) : représente la nature grammaticale du token dans la lettre.
Dans les champs de recherche Word et Lemma, vous pouvez soit rentrer la valeur des attributs, soit télécharger votre liste des valeurs recherchées.
Dans les champs de recherche Part of Speech vous pouvez sélectionner la valeur recherchée.
Appuyez ensuite sur Entrée ou cliquez sur le bouton Rechercher pour exécuter la recherche et afficher les résultats.
Veuillez noter qu'il existe une différence importante entre les champs de recherche Word et Lemma.
Exemple : saisir la mot "aimer" dans Word ne vous fournira que les occurrences de cette chaîne exacte
de caractères. Lorsque vous entrez "aimer" dans le champ de recherche Lemma, vous obtiendrez - en plus du lemme "aimer" - toutes les formes de mots liées à ce lemme, comme c'est-à-dire ses formes à tous les temps et tous les modes ("j'aimerai", "nous aimions", etc.) ainsi que des variantes orthographiques, des formes incorrectement écrites par les auteurs (ex:"j ème", "émé", etc.).
Dans la recherche Etendue, afin de permettre la recherche de formes de mots spécifiques et complexes, l'utilisation de caractères génériques est toujours mise en avant dans le cadre de la recherche avec les champs Word et Lemma .
Pour rappel, un caractère générique est un symbole utilisé pour remplacer ou représenter un ou plusieurs caractères.
Comme pour la recherche simple, les caractères génériques utilisables ici sont :
- * : L'astérisque qui correspond à n'importe quel caractère zéro ou plusieurs fois.
-
? : Le point d'interrogation correspond à un caractère inconnu.
- | : La barre verticiale propose une alternative
Pour le champ de recherche Word et Lemma, il est également possible de rechercher une séquence, une série de jetons en saisissant plusieurs valeurs, y compris avec des caractères génériques, séparés par un espace.
Exemple: dans Word, taper 'je n* * pas' signifie que l'on cherche un premier token 'je' suivi d'un second commençant par 'n-', d'un troisième quelconque et un dernier token 'pas'.
À droite sur les champs de recherche Word et Lemma, il y a une option pour télécharger une liste de valeurs à rechercher ;
ces valeurs doivent toutes être séparées par un espace blanc. Notez que cette fonction ne fonctionne que pour les fichiers .txt.
(Si vous utilisez un éditeur de texte comme Word, vous devez d'abord enregistrer votre fichier au format .txt.)
Chaque mot du fichier téléchargé sera ajouté à la liste des valeurs à rechercher.
Vous pouvez lancer une nouvelle recherche en appuyant sur le bouton Réinitialiser.
Ce faisant, la requête de recherche et les résultats trouvés disparaîtront.
Votre historique de recherche restera cependant inchangé.
Recherche Avancée (Advanced)
La recherche Avancée permet de créer des requêtes complexes sans besoin de maîtriser le langage de requêtes CQL (Corpus Query Language).
L'élément de base de la recherche Avancée et de son générateur de requêtes est la boîte à token. Une boîte représente un
token. En cliquant sur l'icône bleu '+', vous pouvez rajouter un nombre illimité de boîte à token, l'ensemble formant ainsi une séquence.
Une boîte à token comporte deux onglets : search et options.
L'onglet search
L'onglet search de la boîte à token permet de définir l'ensemble des attributs ou valeurs que le token doit ou peut posséder.
Les attributs du token
La spécification des attributs de token permet de mieux centrer et spécifier sa recherche.
Vous pouvez sélectionner un attribut du token (Word, Lemma, POS) et saisir la valeur qu'il doit avoir ou non.
Une boîte à token peut combiner plusieurs attributs.
Les options AND et OR dans les boîtes à token
En cliquant sur le bouton blanc '+' à droite dans la boîte à token,
vous pouvez ajouter de nouveaux attributs à votre token avec les options AND (définit des valeurs obligatoires) et OR (définit des valeurs alternatives).
L'option AND crée, dans une clause, une nouvelle condition, un nouvel attribut indispensable à votre token.
L'objet recherché est tous les mots 'fer' qui sont des verbes. On trouve ici 9 occurences.
L'option OR ajoute une nouvelle alternative, une nouvelle clause, une valeur que l'attribut du token peut potentiellement prendre.
L'objet recherché est tous les mots 'fer' ou tous les tokens qui sont des verbes. On trouvera ici 9 658 occurences.
La différence entre les îcones '+' blancs de la boîte à token
La différence entre le signe '+' à droite d'un token et celui situé dans le bas de la boîte à toke est que le signe '+'
à droite conserve l'attribut nouvellement ajouté dans une sous-clause tandis que celui du bas crée une nouvelle clause.
Exemple :
Supposons que nous voulions rechercher tous les mots 'nous' ou 'vous' utilisés comme 'adjectif possessif'.
Si nous n'utilions que le '+' à droite, nous pouvons pas appliquer l'exclusivité du champ de recherche aux adjectifs possessifs.
Ici, la requête va rechercher tous les mots 'nous' (qu'importe leur POS) et les mots 'vous' dont le POS est adjectif possessif.
Si nous ajoutons les attributs en utilisant le signe '+' en bas du de la boîte à token, nous pouvons créer une clause.
En cliquant sur le '+' en bas de la boîte à token, nous avons créé une clause selon laquelle la requête cherche les tous mots ayant pour valeur 'nous' ou 'vous', clause à laquelle vient se rajouter l'argument que les tokens recherchés doivent avoir 'adjectif possessif' pour POS.
Recherche Expert (Expert)
Le mode de recherche Expert permet d'éditer des requêtes par le biais du langage BlackLab Corpus Query Language, un dialecte du Corpus Query Language (CQL).
Ce langage est utilisé pour interroger les textes des corpus par le biais de requêtes. Les requêtes CQL sont des expressions
construites à l'aide d'opérateurs de séquence et de crochets de blocs, à l'intérieur desquels un ou plusieurs attributs de token sont spécifiés.
En CQL, les espaces n'affectent une recherche que s'ils sont inclus entre guillemets.
Quelques exemples de recherche avec le langage BCQL:
- Rechercher un mot ou un lemme : [word="ai"];[lemma="avoir"]
- Recherche plus précise d'un mot (rappel: un encadrement entre crochets = un token, c'est-à-dire un mot et ses attributs) : 1. [word="a" & lemma="à" & pos="prép." ] 2. [word="a" & lemma="avoir" & pos="verbe"].
Dans le cas 1, la requête cherche tous les tokens dont le caractère est 'a', le lemme est 'à' et le pos est 'prép'.
Dans le cas 2, la requête recherche tous les tokens dont le mot est 'a', le lemme est 'avoir' et le pos 'verbe'.
- Rechercher avec des caractères génériques : [word=".*ent"] [lemma=".*er"] Ces recherches correspondent à tous les mots se terminant par '-ent' suivi d'un token dont le lemme se terminant par '-er'.
NB : à l'inverse dans la Recherche Simple, ici pensez à rajouter un point '.' devant l'astérisque '*' sinon vous n'obtiendrez aucun résultat.
- Rechercher en fonction du POS (part of speech): [pos="adj."] Cette requête recherche tous les adjectifs du corpus;
- Exclure un mot, un lemme ou pos de la recherche : [word="tout" pos!="adv."] L'élément '!=' signifie 'pas égale'. Ici donc, la requête cherche les tokens dont le mot
est 'tout' mais dont le pos est différent de 'adv.' (adverbe).
- Recherche par combinaison d'attributs : Il est possible d'utiliser divers opérateurs pour écrire des requêtes complexes:
- Barre droite '|' pour 'ou' (ex:[word="ma"|"mon"] Ici on recherche le mot "ma" ou le mot "mon"
- L'esperluette '&' pour indiquer une addition d'attributs: [word="a" & pos="prép."] Ici la requête recherche les tokens avec le mot 'a' et dont le part of speech est 'préposition'
- Les opérateurs de répétitions: On utilise les accolades '{}'pour définir une séquence.
Exemple:
[pos="adj."]{2} correspond à une séquence de 2 adjectifs;
[pos="adj."]{2,4}, on recherche une séquence de 2 à 4 adjectifs à la suite.
[pos="adj."]{2,} cette requête correspond à la recherche d'une séquence de 3 ou plus d'adjectifs à la suite.
- Les crochets vides '[]' correspondent à n'importe quel token : par exemple, [word="ma"][]{1,3}[word="mere"], cette requête ressort toutes les séquences où les mots "ma" et "mere" sont séparés par 1 à 3 tokens.
Pour plus d'informations sur le CQL, cliquez ici.
Le corpus Macintosh a été enrichi d'un ensemble de métadonnées fournissant des informations sur les lettres (lieu d'écriture, auteur, année, lieu d'arrivée, etc.).
Ces métadonnées permettent donc de filtrer et d'affiner la recherche (en mode Extended, Advanced et Expert) avec des exigences temporelles, géographiques et nominatives.
Ci-dessous se trouve une description des métadonnées présentes sur l'outil de recherche:
Letters
- Reference : ce champ permet de renseigner les cotes des lettres recherchées.
- Sent from : indique le lieu d'où la lettre est envoyée.
- Transit point : indique le point de transit de la lettre.
- Ship : ce champ permet de retrouver des lettres faisant mention de navire en particulier.
- Year : ce champ permet de définir une période de rédaction des lettres.
Sender
- Sender : indique le nom de l'auteur de la lettre.
- Sender's address : renseigne sur l'adresse de l'auteur.
Addressee
- Recipient : indique le nom du destinataire de la lettre.
- Recipient's address : renseigne l'adresse du destinataire.
Affichage des résultats
Les résultats peuvent être visualisés de deux façons:
- Soit par hit : le hit est défini comme le token qui correspond au résultat de la requête.
- Soit par document: affiche la liste des documents où sont présents les tokens recherchés et indique le nombre de token trouvé par document.
Les résultats par hit
Si vous cliquez sur une des résultats de votre recherche, vous pourrez afficher les propriétés et les valeurs du token trouvé ainsi qu'un extrait de texte dont le token est issue.
Les lignes des résultats sont toujours précédées d'une ligne contenant le nom de la lettre dans laquelle le ou les tokens ont été détectés.
Si vous voulez, vous pouvez toujours masquer le titre des documents en cliquant en bas à droite de votre écran sur 'Hide Titles' tout en bas de votre page web.
Affiche du contenu et des métadonnées de la lettre
En cliquant sur le nom de la lettre ou sur l'hyperlien au-dessus du token dans l'extrait du texte, vous ouvrirez un nouvel onglet vous présentant le contenu de la lettre ainsi que les métadonnées relatives à cette dernière.
Trier les résultats
Vous pouvez cliquer sur les en-têtes des colonnes afin de trier les résultats selon les valeurs de cette colonne, c'est-à-dire les attributs word,lemma ou pos :
Les en-têtes en question :
- Before hit : Fait le tri des résultats selon le terme précédant le hit en fonction soit de sa valeur word, lemma ou pos.
- Hit : Fait le tri tokens trouvés en fonction de leur word, lemma ou pos.
- After Hit : Fait le tri des résultats selon le terme suivant le hit en fonction de son word, lemma ou pos.
- Lemma : Fait le tri des tokens en fonction de la valeur de leur attribut lemma.
- POS : Fait le tri des tokens en fonction de la valeur de leur part of speech.
Vous pouvez aussi trier vos résultats grâce à l'onglet 'Sort by ... ' en bas en droite du tableau de résultat. En cliquant dessus, vous ouvrirez un menu déroulant et pourrez trier les résultats en fonction des attributs de Hit, Before hit, After hit, ainsi qu'en fonction des métadonnées des lettres.
Regrouper les résultats
Il est possible aussi de regrouper vos hits. Une fois votre recherche effectuée, en haut à gauche du tableau des résultats, vous pouvez cliquez sur 'Group hits by ...'.
Ensuite, vous pouvez sélectionner un type de regroupement.
Les critères de regroupement sont les mêmes que les critères de tri. Une fois votre critère de regroupement déterminé,
l'outil vous affichera des groupes de résultats.
Ici nous avons choisi de regrouper les résultats par lemme.
En cliquant sur l'un des groupes obtenus, vous pourrez accéder de nouveau à l'outil de recherche uniquement avec les lettres du groupe choisi en cliquant sur 'View detailled concordances'.
En cliquant sur sur 'View detailled concordances' nous avons regroupé ici les résultats ayant 'vous' pour lemme.
Parmi les critères de regroupement, vous pourrez toutefois remarquer qu'il s'en trouve un nouveau, Context (advanced). Cette option vous permet de regrouper les résultats en délimitant un contexte. Vous pouvez ainsi choisir le nature des hits(word, lemma, pos) et surtout délimiter (de 1 à 5 tokens) le nombre de hit, before hit et after hit à afficher.
Exporter les résultats
Les résultats de recherche peuvent être exportés en cliquant en bas à droite du tableau de résultats sur les boutons 'Export' ou 'Export for Excel'. Le premier bouton exporte les résultats dans un fichier .csv tandis que le second les exporte dans un fichier .csv plus adapté pour le logiciel Excel.
Une fois une recherche effectuée, vous pouvez cliquer sur le titre d'un document ou l'hyperlien d'un token afin d'ouvrir un nouvel onglet, l'onglet Content qui contient la transcription de la lettre.
Content
Les résultats de la requête actuelle seront mis en évidence en souligné, gras et rouge dans la transcription du document.
Dans le cas de plusieurs résultats, seul le résultat actuel apparaîtra également en grisé. Vous pouvez naviguer d'un résultat à l'autre en utilisant
les flèches du bouton Hits.
Si vous passez votre curseur sur un mot spécifique dans le document une
fenêtre contextuelle apparaitra avec le lemme du mot et l'option Show details. En cliquant sur Show details , vous
verrez des informations supplémentaires au niveau du mot comme son POS et des explications sur sa transcription et sa signification.
Metadata
Dans cet onglet, toutes les propriétés des métadonnées de la lettre sont affichées et fournissent des informations.
Statistics
L'onglet Statistics affiche plusieurs statistiques du document : le nombre de tokens, le nombre de formes uniques de mots, le nombre de lemmes et le ratio mot unique/token.
Il est possible d'imprimer ou de télécharger ces statistiques via le menu déroulant à droite du titre Distribution of parts of speech in the letter.
Images
Dans cet onglet, vous trouverez les images des lettres transcrites avec des outils afin de zoomer ou orienter les images.
L'interface Explore
L'onglet Explore
Cet onglet comporte trois subdivisions:
- Documents
- N-grams
- Statistiques
Documents
'Documents' permet de regrouper les lettres en fonction de leurs métadonnées (destinataire, lieu d'envoi, etc.).
Cet onglet vous permet de regrouper les lettres du corpus en fonction des métadonnées (lieu géographique, dates, etc.).
N-grams
N-grams permet de répertorier la fréquence de N-éléments (word, lemma, pos) dans le corpus. D'une certaine manière, c'est une version simplifiée pour rechercher et regrouper des séquences.
Pour se faire, vous disposez de différentes options:
- N-gram size : la longueur de la séquence (un nombre de 1 à 5 ; le paramètre par défaut est 5)
- N-gram type : choisissez pour les séquences de mot (c'est-à-dire la forme du mot), de lemme ou de partie du discours. Si vous
ne spécifiez pas davantage le terme de recherche, une série de cinq mots, lemmes ou parties du discours
consécutifs sera recherchée.
Vous pouvez toujours filtrer vos résultats grâce aux métadonnées.
Statistics
Avec Statistics vous pouvez dresser des listes de fréquences en fonction de word, lemma et pos à l'échelle du corpus (comme d'habitude, vous pouvez filtrer les résultats en fonction des métadonnées, les trier et les regrouper)