Contribution au résumé automatique multi-documents - Université Sorbonne Paris Nord Accéder directement au contenu
Thèse Année : 2010

Contribution au résumé automatique multi-documents

Contribution to automatic multi-document summarization

Aurélien Bossard
  • Fonction : Auteur
  • PersonId : 1130793
  • IdRef : 146813464

Résumé

Professionals who have to peruse documents in a limited amount of time or private individuals who want to be informed about a specific topic without having the time to read all the texts about it both need summaries. The increase in electronic documents available have made the research in automatic summarization an important area in the field of natural language processing. We propose a method based on a sentence classification in semantic clusters, using similarity calculation between sentences. This step allows us to identify the sentences which convey the same information and to remove redundancy from the automatically generated summaries. This method has been evaluated on the "opinion summarization" task of TAC 2008 and TAC 2009 campaigns. Our system ranks itself among the first quarter of the participating systems. We also propose to integrate newswire articles structure to our summarization system in order to improve the quality of the summaries it generates. Our summarization method has also been integrated to a larger application which aims at helping the user to visualize the main topics of a corpus and to automatically extract the essential information.
Que ce soit pour des professionnels qui doivent prendre connaissance du contenu de documents en un temps limité ou pour un particulier désireux de se renseigner sur un sujet donné sans disposer du temps nécessaire pour lire l'intégralité des textes qui en traitent, le résumé est une aide contextuelle importante. Avec l'augmentation de la masse documentaire disponible électroniquement, résumer des textes automatiquement est devenu un axe de recherche important dans le domaine du traitement automatique de la langue. La présente thèse propose une méthode de résumé automatique multi-documents fondée sur une classification des phrases à résumer en classes sémantiques. Cette classification nous permet d'identifier les phrases qui présentent des éléments d'informations similaires, et ainsi de supprimer efficacement toute redondance du résumé généré. Cette méthode a été évaluée sur la tâche "résumé d'opinions issues de blogs" de la campagne d'évaluation TAC 2008 et la tâche "résumé incrémental de dépêches" des campagnes TAC 2008 et TAC 2009. Les résultats obtenus sont satisfaisants, classant notre méthode dans le premier quart des participants. Nous avons également proposé d'intégrer la structure des dépêches à notre système de résumé automatique afin d'améliorer la qualité des résumés qu'il génère. Pour finir, notre méthode de résumé a fait l'objet d'une intégration à un système applicatif visant à aider un possesseur de corpus à visualiser les axes essentiels et à en retirer automatiquement les informations importantes.
Fichier principal
Vignette du fichier
contrib_resume_automatique_20082010.pdf (2.34 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00573567 , version 1 (04-03-2011)

Identifiants

  • HAL Id : tel-00573567 , version 1

Citer

Aurélien Bossard. Contribution au résumé automatique multi-documents. Autre [cs.OH]. Université Paris-Nord - Paris XIII, 2010. Français. ⟨NNT : ⟩. ⟨tel-00573567⟩
450 Consultations
1992 Téléchargements

Partager

Gmail Facebook X LinkedIn More