Mehdi Yousfi-Monod
Contact : mehdi.yousfi *à* gmail *point* com

Doctorat

Téléchargement (2,8Mo)

Titre

Compression automatique ou semi-automatique de textes par élagage des constituants effaçables : une approche interactive et indépendante des corpus

Résumé

Le travail s'inscrit dans le domaine du traitement automatique du langage naturel et traite plus spécifiquement d'une application de ce dernier au résumé automatique de textes. L'originalité de la thèse consiste à s'attaquer à une variété fort peu explorée, la compression de textes, par une technique non supervisée. Ce travail propose un système incrémental et interactif d'élagage de l'arbre syntagmatique des phrases, tout en préservant la cohérence syntaxique et la conservation du contenu informationnel important. Sur le plan théorique, le travail s'appuie sur la théorie du gouvernement de Noam Chomsky et plus particulièrement sur la représentation formelle de la théorie X-barre pour aboutir à un fondement théorique important pour un modèle computationnel compatible avec la compression syntaxique de phrases. Le travail a donné lieu a un logiciel opérationnel, nommé CoLin, qui propose deux modalités : une compression automatique, et une aide au résumé sous forme semi-automatique, dirigée par l'interaction avec l'utilisateur. Le logiciel a été évalué grâce à un protocole complexe par 25 utilisateurs bénévoles. Les résultats de l'expérience montrent que 1) la notion de résumé de référence qui sert aux évaluations classiques est discutable 2) les compressions semi-automatiques ont été fortement appréciées 3) les compressions totalement automatiques ont également obtenu de bons scores de satisfaction. À un taux de compression supérieur à 40% tous genres confondus, CoLin fournit un support appréciable en tant qu'aide à la compression de textes, ne dépend d'aucun corpus d'apprentissage, et présente une interface convivial.

Mots clés

TALN; résumé automatique; résumé semi-automatique; compression de phrases; théorie du gouvernement et du liage; arbre syntaxique; grammaire de constituants; outil interactif

Jury

Jacques CHAUCHÉProfesseur, Université Montpellier 2Président
Jacques VERGNEProfesseur, Université de CaenRapporteur
Jean-Luc MINELIngénieur de recherche, Université Paris 10Rapporteur
Juan Manuel TORRES-MORENOMaître de conférences, Université d'AvignonExaminateur
Augusta MELAMaître de conférences, Université Montpellier 3Examinateur
Violaine PRINCEProfesseur, Université Montpellier 2Directrice de thèse