Skip to Main content Skip to Navigation
Journal articles

Extension du dictionnaire électronique grec de termes boursiers à partir d'un corpus spécialisé

Résumé : Un des problèmes essentiels en traitement automatique des langues (TAL) est celui des mots non reconnus par les systèmes d'analyse automatique, quelque soit l'approche adoptée, linguistique, statistique ou hybride. Dans ce travail, nous définissons comme mots inconnus les mots non reconnus dans un corpus donné, précisément dans le corpus boursier grec car ils ne sont pas répertoriés dans les dictionnaires électroniques généraux et terminologiques du grec auxquels ont recours les systèmes de TAL. Dans un domaine de spécialité, ce problème s'avère l'un des plus délicats, suite à l'évolution rapide des langues techniques ou scientifiques. Pour l'enrichissement de ces ressources et afin d'exploiter de nouveaux domaines, il est nécessaire d'acquérir rapidement la nouvelle terminologie et de mettre à jour les ressources existantes. Parmi les mots inconnus, figurent des néologismes, mais aussi des mots étrangers, transcrits en grec ou en alphabet latin, des mots en écriture hybride (caractères grecs et latins), des noms propres, des sigles, des mots mal orthographiés et en principe des mots non accentués. Ces mots non reconnus freinent l'analyse automatique des textes boursiers. L'objet du présent travail est l'étude de mots inconnus du corpus boursier (CoBourse), ce qui nous permettra l'ajout de termes néologiques dans le dictionnaire électronique des termes du domaine boursier. Nous nous limitons aux mots simples, les unités polylexicales demandant une approche de traitement différente. À partir de données extraites, nous proposons des heuristiques pour l'annotation semi-automatique des mots inconnus détectés à l'aide du système Unitex (PAUMIER, 2003), afin de les intégrer dans le dictionnaire de termes boursiers.
Document type :
Journal articles
Complete list of metadatas

Cited literature [16 references]  Display  Hide  Download

https://hal-upec-upem.archives-ouvertes.fr/hal-00790251
Contributor : Tita Kyriacopoulou <>
Submitted on : Tuesday, February 19, 2013 - 5:08:48 PM
Last modification on : Friday, March 20, 2020 - 10:10:13 AM
Long-term archiving on: : Monday, May 20, 2013 - 4:04:58 AM

File

Echo_2012_Fista_Kyriacopoulou_...
Files produced by the author(s)

Identifiers

  • HAL Id : hal-00790251, version 1

Citation

Evangelia Fista, Tita Kyriacopoulou, Eleni Tziafa. Extension du dictionnaire électronique grec de termes boursiers à partir d'un corpus spécialisé. Echo des études romanes, Institut de langues et littératures romanes de la Faculté des Lettres de l'Université de Bohème du Sud, 2013, IX (2), pp.35-45. ⟨hal-00790251⟩

Share

Metrics

Record views

340

Files downloads

468