UMR 8135 CNRS - INaLCO

Projet transversal : corpus et bases de données

Coordination : Christian Chanard et Amina Mettouchi
Echéance : 2018 et au-delà
Participants : tous les membres du laboratoire

Programme

A) Mise en place et diffusion de bonnes pratiques
A partir des réflexions déjà existantes (cf. CLARIN, IRCOM etc.), mise en place de bonnes pratiques pour la linguistique de terrain concernant :

  1. l’enregistrement des données audio/vidéo sur le terrain : critères de choix du matériel, formats standards audio et vidéo, formation à la prise de son/d’image
  2. le type d’information à recueillir/fournir pour chaque enregistrement, pour permettre l'échange des données : exploitation dans divers cadres (linguistique, anthropologie, littérature, etc.) des corpus
  3. questions éthiques et juridiques

B) Gestion des corpus et bases de données
Création des conditions d’un archivage pérenne (géré par l’intermédiaire de TGE-Adonis/Cines)

C) Aspects scientifiques

  1. Finalités scientifiques et choix d’annotation : un corpus, pour quoi faire ? Que coder, pour obtenir quoi ? Peut-on définir un « corpus minimal » pour la linguistique de terrain / l’anthropologie / la sociolinguistique / la littérature / la typologie ?
  2. Problèmes de comparabilité entre corpus de différentes langues : comment trouver une solution à l’irréductibilité des langues entre elles (quel est le statut des catégories dites ‘comparatives’ ou ‘universelles’), etc.
  3. Articulation/couplage entre corpus et bases de données : réflexion sur les bases scientifiques de cette articulation (préalable aux questions techniques d’interopérabilité).
    Corpus=archives de ressources : audio, vidéo, textes, métadonnées
    Base de données=organisation des données en tables pour rendre leur exploitation efficace (par exemple indexation des annotations pour faciliter des requêtes complexes)

D) Valorisation des corpus
En lien avec l’UPS 2259 : création de documentaires, présentation des langues avec cartes, échantillons etc. Retour vers les communautés : création de sites pour les communautés (avec leur participation), avec une réflexion sur les outils, le site d’hébergement, etc.

Livrables spécifiques au projet transversal

  • Création et développement d’un outil de gestion de corpus qui permettra l'ajout de ressources (audio, vidéo, textes annotés) avec leurs métadonnées, la mise à jour des textes et métadonnées existants, et d'établir les liens entre métadonnées et ressources.
  • Création et développement d'un navigateur (type IMDI-browser du MPI) qui rendra accessibles et consultables sous différents modes les données existantes (métadonnées, audio, vidéo, textes).
  • Elaboration d’une charte de consultation et d'exploitation développée en transversal avec les trois Programmes.