Langue naturelle et compression - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2004

Langue naturelle et compression

Résumé

Du point de vue informatique, un texte est formé par une suite de caractères alphanumériques ou séparateurs appartenant à un ensemble qui constitue l'alphabet du texte dont chaque élément est l'une des plus petites unités de base du texte. Les algorithmes de compression de textes les plus usuels sont fondés sur cette représentation du texte et son traitement caractère par caractère de type statistique. Une autre approche consiste à considérer le texte comme une suite alternée de mots appartenant à une langue naturelle donnée appelés mots linguistiques et de mots séparateurs constitués de la plus longue suite de caractères de ponctuation ou séparateurs situés entre deux mots linguistiques. Dans cette approche, on est amené à considérer deux alphabets (appelés lexiques ou dictionnaires) celui des mots linguistiques et celui des mots séparateurs. Le texte est alors vu comme suite alternée d'indices faisant référence à l'un ou l'autre de ces lexiques. Le texte comprimé est alors formé de trois formes comprimées, celles de chacun des lexiques et celle constituée par la suite d'indices des mots du texte représentés par le codage de Huffman.
Fichier non déposé

Dates et versions

hal-01572643 , version 1 (08-08-2017)

Identifiants

  • HAL Id : hal-01572643 , version 1

Citer

Claude Martineau. Langue naturelle et compression. 23ème colloque international grammaires et lexiques comparés, Nov 2004, Deauville, France. ⟨hal-01572643⟩
64 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More