Extraction automatique de traductions anglaises de mots composés français

Résumé : La traduction des expressions multi-mots pose de sérieux problèmes du fait de leurs contraintes syntaxiques et sémantiques. Par ailleurs, bien qu’elles soient très présentes dans les textes, la fréquence des expressions multi-mots prises individuellement est relativement faible ce qui cause des difficultés statistiques pour extraire les traductions. Dans notre article, nous traitons uniquement les mots composés, séquences de mots contigus non-compositionnelles, qui sont présentes dans le dictionnaire DELACF. Nous confrontons les méthodes utilisées pour les collocations aux mots composés. Etant donné un mot composé identifié dans une phrase en français d’un corpus parallèle, le but est d’extraire automatiquement la traduction du mot composé dans la phrase correspondante en anglais, si elle existe, en tenant compte du fait qu’elle n’est pas forcément un mot composé anglais. Ce balisage permet d'extraire du corpus un ensemble de traductions et ainsi initier la création d'une ressource bilingue. Les mots composés que nous traitons appartiennent à quatre catégories : les noms, les adverbes, les conjonctions et les prépositions. Nous nous basons sur les études réalisées sur l’extraction statistique des traductions de collocations. Celles-ci se fondent sur les modèles probabilistes IBM d’alignement ou sur des mesures d’ association.
Document type :
Conference papers
Complete list of metadatas

Cited literature [8 references]  Display  Hide  Download

https://hal-upec-upem.archives-ouvertes.fr/hal-01255288
Contributor : Matthieu Constant <>
Submitted on : Wednesday, January 13, 2016 - 1:57:33 PM
Last modification on : Friday, January 4, 2019 - 5:33:24 PM
Long-term archiving on : Saturday, April 16, 2016 - 8:11:05 AM

File

cmlf2010_000255.pdf
Files produced by the author(s)

Identifiers

Citation

Mathieu Constant, Takuya Nakamura, Stavroula Voyatzi, André Bittar. Extraction automatique de traductions anglaises de mots composés français. Congrés Mondial de la Linguistique Française, Jul 2010, Nouvelle-Orléans, États-Unis. ⟨10.1051/cmlf/2010255⟩. ⟨hal-01255288⟩

Share

Metrics

Record views

240

Files downloads

116