Stratégies discriminantes pour intégrer la reconnaissance des mots composés dans un analyseur syntaxique en constituants

Résumé : Nous proposons deux stratégies discriminantes d'intégration des mots composés dans un processus d'analyse syntaxique en constituants: (i) pré-segmentation lexicale avant analyse, (ii) post-segmentation lexicale après analyse au moyen d'un réordonnanceur. Le segmenteur de l'approche (i) se fonde sur les champs aléatoires markoviens. Le réordonnanceur de l'approche (ii) repose sur un modèle maximum d'entropie. Tous ces modèles intègrent des traits dédiés aux mots composés, dont certains sont calculés à partir de ressources lexicales externes. Nous montrons que l'approche par pré-segmentation atteint des performances dépassant l'état-de-l'art, alors que celle par post-segmentation sont un peu en-dessous de nos espérances. Les différentes expériences menées ouvrent de nombreuses pistes de recherche.
Document type :
Journal articles
Complete list of metadatas

https://hal-upec-upem.archives-ouvertes.fr/hal-00846888
Contributor : Matthieu Constant <>
Submitted on : Monday, July 22, 2013 - 10:30:41 AM
Last modification on : Thursday, July 5, 2018 - 2:46:18 PM

Identifiers

  • HAL Id : hal-00846888, version 1

Citation

Mathieu Constant, Anthony Sigogne, Patrick Watrin. Stratégies discriminantes pour intégrer la reconnaissance des mots composés dans un analyseur syntaxique en constituants. Traitement Automatique des Langues, ATALA, 2013, 54 (1), pp.47-70. ⟨hal-00846888⟩

Share

Metrics

Record views

196