ELICO
ELICO : une base diachronique d'observables linguistiques
- La spécificité de la base ELICO
- Détails techniques
Le but central du projet ELICO a été l'étude de l'évolution du « système » de détermination, et en particulier l'étude de l'évolution des déterminants du 13ème au 18ème siècle en français, en constituant et en exploitant un corpus annoté à cet effet. La base de données réalisée est une collection d'environ 20.000 occurrences de déterminants présentés dans un contexte de citation, qui utilise un balisage qui enregistre principalement les propriétés de leurs environnements locaux, par exemple le fait qu'ils apparaissent dans une question, dans une phrase qui est modalisée, dans un groupe nominal avec une tête nominale massive, etc.
L'originalité de la base réside avant tout dans son contenu. Pour ne pas imposer une analyse préalable des déterminants, l'annotation ne porte pas sur ceux-ci, mais sur un certain nombre de propriétés des environnements. Ce balisage permet de constituer un ensemble d'observables linguistiquement pertinents, puisqu'on classe les occurrences en fonction de traits linguistiques. Il permet également de mettre en relation les propriétés globales des textes (leur type textuel) avec des observables linguistiques déjà enrichis. Par exemple, les requêtes que ELICO rend possible de formuler ne permettent pas simplement de savoir si tel type de texte contient significativement plus ou moins de tout / toute / tous, mais s'il contient significativement plus ou moins de tout / toute / tous dans certains environnements (les questions, les phrases négatives, etc.). De ce fait, la base de données ELICO permet des recherches avancées qui se rapportent à des cadres théoriques différents et peut être utilisée pour tester des hypothèses linguistiques. De plus, ELICO est innovante, car elle permet l'étude de l'évolution des déterminants par l'examen de leurs emplois et de la sensibilité possible de ces emplois aux types de textes, étude qui ne sera donc plus basée seulement sur des données principalement quantitatives relatives à des unités, à savoir les aspects plus classiques tels que la fréquence, l'apparition ou la disparition des unités.
Les déterminants du français contemporain ont été considérés dans ELICO, de façon tout à fait traditionnelle, comme l'expression élémentaire qui, associée à un nom commun, permet d'obtenir un Groupe Nominal (GN en abrégé), par exemple les articles simples (le, un, cet), des unités telles que tout, certains, plusieurs, etc., et des formes complexes comme beaucoup de, un quelconque, un certain, tous les, n'importe quel, etc. Nous n'avons incorporé l'étude des pronoms, c'est-à-dire les unités qui peuvent remplacer un GN (il, elle, celui-ci, le sien, etc.), que ponctuellement, pour les formes à emplois double.
La collection couvre six siècles (13ème-18ème) et a été constituée à partir d'un corpus d'un peu plus d'un million de mots, figurant dans des extraits issus d'une sélection d'ouvrages. Les textes sont organisés en tranches d'un demi siècle chacune, sans pour autant viser un maillage statistique de la période couverte. Nous avons travaillé sur 361 textes, en prose ou vers ou mixte, qui sont catégorisés en huit types (Argumentatif, Epistolaire, Explicatif, Juridique, Narratif, Poétique, Proverbes, Théâtral), à partir desquels nous avons constitué 435 extraits de trois mille mots chacun, en variant le point d'extraction pour les extraits qui ne sont pas des textes intégraux.
Tous les extraits ont été munis d'une description de base qui spécifie un certain nombre d'informations concernant l'auteur et l'ouvrage.
Les différentes formes qu'un déterminant peut avoir eues dans le temps, qui constituent donc ses « manifestations » en diachronie, ont été regroupées dans ce qui correspond à une forme de lemmatisation des déterminants (la forme du masculin singulier en français contemporain) qui peut être utilisée au moment de l'interrogation. Un sous-ensemble de déterminants a été ciblé pour une annotation extensive, principalement les formes de 'aucun', 'chacun', 'ledit', 'le moindre', 'maint', 'moult', 'plusieurs', 'quelque' et 'tout'.
Annoter un déterminant dans la base ELICO signifie expliciter la connaissance linguistique relative à l'item et à son contexte sous forme de traits qui portent, entre autres, sur la structure syntaxique et sur l'interprétation sémantique et qui peuvent être perçu comme ciblant la forme spécifique, le groupe nominal où elle figure et le contexte plus large où le groupe est inséré. En pratique, cela revient à associer à toutes ses occurrences présentes dans un texte du corpus, sous leurs différentes formes, des informations organisées sous forme de traits (c'est-à-dire des paires attribut-valeur). Parmi les informations prises en compte on peut mentionner les informations grammaticales telles que le nombre et le genre du nom attaché au déterminant, mais aussi les propriétés à fort impact sémantique, telles que le caractère abstrait (événement, action, sentiment, qualité) ou concret de ce nom, le caractère massif ou comptable, la présence de modifieur(s), et enfin des traits relatifs au contexte tels que le statut grammatical du GN qui contient le déterminant dans la phrase ou les traits relatifs à la forme verbale de cette phrase.
La pleine exploitation de la base consiste en l'utilisation des traits des deux collections de descriptions de base et d'annotations linguistiques en tant que critères de recherche. L'utilisation d'une seule interface d'interrogation permet à tout moment de varier les critères de recherche ainsi que la dépendance d'un ensemble de l'autre. Par exemple, il est possible de formuler une requête relativement à une forme spécifique, disons le féminin pluriel du quantificateur universel, à savoir toutes, ou de toutes les occurrences de toutes dans un type de texte ou dans un certain demi-siècle, ou de ramasser toutes les formes d'un déterminant à travers le temps en utilisant le lemme 'tout'. Il est aussi possible de formuler des requêtes plus complexes en exploitant des critères spécifiques. Le champ de commentaires associé à chaque description linguistique, où les annotateurs ont ajouté de l'information non codée par les traits, peut aussi être utilisé lors d'une recherche. C'est ici que, par exemple, l'on trouve l'information sur les occurrences de tout flottant, mais pas de manière exhaustive.
L'annotation a été faite manuellement, les instructions aux annotateurs ont été transformées en notices informatives corrélées d'exemples, disponibles au utilisateurs de la base. La documentation en ligne à propos de tous les traits de la description linguistique et des types de texte est directement accessible depuis le formulaire d'interrogation.