Le projet LexVAN est une action de recherche mobilisant des informaticiens intéressés par l'analyse automatique des langues naturelles, et des linguistes intéressés par les applications pratiques que les descriptions théoriques peuvent trouver. Dans ce projet, nous nous intéressons aux mots dits « prédicatifs » en français, c'est à dire des mots qui attendent des compléments. Dès que la notion de complément est avancée, la classe des verbes vient spontanément à l'esprit. Toutefois, les verbes ne sont pas les seuls mots pouvant avoir des compléments, et cette propriété est capitale pour une compréhension automatique du langage naturel.
Ainsi, comment distinguons-nous, dans les énoncés tels que « l'investissement privé est en baisse en Europe » et « l'investissement privé s'élève à deux millions d'euros dans ce projet » les interprétations « action d'investir » d'un côté, et « somme d'argent résultant d'un investissement » de l'autre ?
De même, comment identifions-nous dans « la fierté pour son fils fait plaisir à voir » qu'il manque un complément essentiel correspondant à l'agent ?
Nous faisons l'hypothèse qu'une partie des traitements inconscients qui permettent ces distinctions repose sur des propriétés des mots du lexique, que nous proposons de décrire dans un cadre formel de telle sorte qu'un ordinateur puisse calculer les représentations du sens des différents énoncés évoqués précédemment.
Le projet LEX-VAN vise ainsi à décrire de manière formalisée les propriétés syntaxiques, sémantiques et aspectuelles (façon dont se déroule l'action, par ex.) des principaux éléments prédicatifs du lexique français, autrement dit les mots qui attendent des compléments essentiels : verbes, bien entendu, mais également adjectifs et noms.
Dans ce projet, nous visons :
- la définition d'un cadre formel unifié de description des propriétés syntaxiques, sémantiques et aspectuelles des éléments prédicatifs principaux en français ;
- la mise en évidence de propriétés syntaxiques, sémantiques ou aspectuelles partagées entre les 3 catégories visées : verbes, adjectifs et noms, ainsi que les propriétés propres à chaque catégorie ;
- la mise à disposition d'une ressource linguistique électronique ouverte, structurée en suivant un standard reconnu et interopérable (Lexical Markup Framework), exploitable en Traitement Automatique des Langues (TAL).
La ressource ainsi constituée, limitée dans un premier temps à 3000 entrées (les 1000 verbes, noms et adjectifs les plus fréquents), permettrait non seulement de préciser les propriétés des éléments prédicatifs, mais également de relier les entrées verbales, nominales et adjectivales entre elles, de manière à constituer un réseau sémantique-noyau. Ce réseau est destiné à être étendu par la suite (ajout d'entrées, intégration des unités polylexicales, multilinguisme, intégration d'occurrences tirées de corpus, densification des relations sémantiques), au cours de projets de recherche financés par l'Agence Nationale de la Recherche, entre autres. Un tel réseau sémantique fait aujourd'hui défaut pour le français, contrairement à d'autres langues (anglais, notamment), ce qui a un impact négatif tant dans le domaine des applications informatiques (traduction automatique, résumé automatique, génération de phrases) que pour le développement d'une sémantique automatique.
URI/Permalien: