UMR 8135 CNRS - INaLCO

Contrats ANR

NaijaSynCor – A Corpus-Based Macro-Syntactic Study of Naija (Nigerian Pidgin)
(01.02.2017-31.07.2020) :

NaijaSynCor propose une étude exhaustive et approfondie de la structure du naija (Nigerian Pidgin) parlé aujourd'hui au Nigéria. Il a été prouvé par Deuber (2005) que cette langue adoptée par les Nigérians éduqués, s’est développée à Lagos comme une langue autonome, distincte de la variété d’anglais parlée au Nigéria. Ce projet se propose de déterminer par une étude diachronique, diatopique, diaphasique et diastratique si cela est vrai pour le reste du Nigeria où le naija est parlé par plus 75 millions de locuteurs. NaijaSynCor est le résultat de la collaboration entre deux éminents experts nigérians du naija (F. Egbokhare & C. Ofulue) et deux unités de recherche qui ont prouvé leur savoir-faire dans l’annotation de corpus dans de précédents programmes : le LLACAN, dans l’étude de corpus de langues peu décrites ; le MoDyCo, dans l’étude de l’interaction de la prosodie et de la syntaxe en Français, et dans le développement de grands treebanks.
En savoir plus...

BULB (BULB - Breaking the Unwritten Language Barrier) (01.03.2015 - 28.02.2018) :

In a context where a growing number of languages are in danger of extinction and linguists in dire need for efficient language documentation tools, Breaking the Unwritten Language Barrier (BULB) aims at supporting the documentation of unwritten languages with the help of modern natural language processing technologies, in particular automatic speech recognition (ASR) and machine translation (MT).

This ANR/DFG project relies on a strong German-French cooperation between linguists and computer scientists from ZAS (F. Hamlaoui), the KIT (S. Stücker) and the University of Stuttgart (S. Zerbian) on the German side, as well as the LPP (M. Adda-Decker, A. Rialland), the LLACAN (M. van de Velde, D. Idiatov), the LIMSI (L. Lamel and F. Yvon), the LIG (L. Besacier) and the IMMI-CNRS (G. Adda) on the French side. These researchers and their local teams are bringing together their expertise to address the documentation of three mostly unwritten and generally under-resourced African languages of the Bantu family: Basaa (Cameroon), Myene (Gabon) and Embosi (Republic of Congo).
En savoir plus...

EcoSen :

Description à venir !

Les parlers du Croissant : une aire de contact entre oc et oïl :

Description à venir !

ELLAF (Encyclopédie des Littératures en Langues africaines) (01/2014-01/2017) :

Les littératures en langues africaines, sont peu connues mais pourtant riches, réunissant aussi bien des littératures orales que des littératures écrites en plusieurs graphies. En raison de leur grande diversité tant linguistique que formelle, elles soulèvent des questions importantes pour l’analyse et la théorie littéraires : quel est le lien entre le statut de la langue et sa capacité à produire des textes littéraires ? Quelles sont les relations entre les littératures orales et l’écriture littéraire?

Pour pallier le manque de documentation, il est indispensable de développer un outil de documentation préalable nécessaire à la réalisation de recherches transversales dépassant le cadre d’une seule littérature.

ELLAF a pour double ambition d’être à la fois une base de données sur les littératures en langues africaines quel que soit leur statut sociolinguistique et un espace de recherches. Des textes littéraires sous forme d’extraits ou en version intégrale accompagnés d’une traduction en français et/ou en anglais sont présentés sur le site selon un protocole commun, visant à préciser la contextualisation de chaque texte ainsi que les circonstances de création et/ou de performance, tout en définissant le genre littéraire dont il relève.
En savoir plus...

CorTypo (03/2013-03/2017) :

The aim of the CorTypo project is the elaboration of an innovative system of linguistic annotation of natural language corpora in lesser-described spoken languages, in view of testing linguistic hypotheses on spontaneous discourse data, in a typological perspective.

In order to achieve this goal a number of fundamental theoretical questions need to be resolved with respect to language form and language functions. Crucially, the project addresses the question of what kind of theoretical apparatus is required for the comparison of languages displaying different formal means and different functions.

By implementing theoretical solutions into corpus-design and database-design, the project provides the basis for the empirical testing and falsification of hypotheses, and allows the elaboration of new hypotheses on language structure and cross-linguistic comparison. By proposing solutions to the problem of linguistic interoperability, it paves the way for large-scale typological work based on first-hand natural language data.
En savoir plus...

RefLex (12/2010 – 05/2015) :

Le projet RefLex a pour objectif de mettre à la disposition de la communauté scientifique un corpus lexical de référence pour les langues d'Afrique, ainsi que des outils de traitement et d'analyse adaptés à ce corpus. Une description plus détaillée est disponible au format PDF.
En savoir plus...

Sénélangues (10/2009 – 01/2014) :

Le but de ce projet est de contribuer à la documentation et à la description de langues du Sénégal et au classement des langues du groupe atlantique. Il permettra de définir des priorités en repérant les langues les moins documentées et/ou les plus menacées de disparition. Les descriptions effectuées sur ces langues contribueront de façon considérable à la connaissance des langues du Sénégal, et à la sauvegarde des langues en danger de ce pays. Elles apporteront une contribution africaniste à la typologie générale et au classement génétique des langues et seront un outil précieux pour une révision argumentée de la classification encore controversée des langues de la famille atlantique.
En savoir plus...

CORPAFROAS (2007-2012) :

CORPAFROAS (resp. Amina Mettouchi) a été un projet financé par l’Agence Nationale de la Recherche (France), pour 2007-2012. C’est une entreprise unique, en ce qu’elle a permis de mettre à disposition le premier corpus de langues afro-asiatiques (chamito-sémitiques) comportant une indexation texte-son, et une annotation complexe. Le corpus a été librement accessible, et a été accompagné par un logiciel, des outils et des publications visant à faciliter la contribution d’autres linguistes de terrain à CORPAFROAS, ainsi que la mise en place d’initiatives inspirées de ce modèle.
En savoir plus...