Langue naturelle et compression

Résumé : Du point de vue informatique, un texte est formé par une suite de caractères alphanumériques ou séparateurs appartenant à un ensemble qui constitue l'alphabet du texte dont chaque élément est l'une des plus petites unités de base du texte. Les algorithmes de compression de textes les plus usuels sont fondés sur cette représentation du texte et son traitement caractère par caractère de type statistique. Une autre approche consiste à considérer le texte comme une suite alternée de mots appartenant à une langue naturelle donnée appelés mots linguistiques et de mots séparateurs constitués de la plus longue suite de caractères de ponctuation ou séparateurs situés entre deux mots linguistiques. Dans cette approche, on est amené à considérer deux alphabets (appelés lexiques ou dictionnaires) celui des mots linguistiques et celui des mots séparateurs. Le texte est alors vu comme suite alternée d'indices faisant référence à l'un ou l'autre de ces lexiques. Le texte comprimé est alors formé de trois formes comprimées, celles de chacun des lexiques et celle constituée par la suite d'indices des mots du texte représentés par le codage de Huffman.
Type de document :
Communication dans un congrès
23ème colloque international grammaires et lexiques comparés, Nov 2004, Deauville, France
Liste complète des métadonnées

https://hal-upec-upem.archives-ouvertes.fr/hal-01572643
Contributeur : Claude Martineau <>
Soumis le : mardi 8 août 2017 - 08:52:17
Dernière modification le : jeudi 11 janvier 2018 - 06:20:23

Identifiants

  • HAL Id : hal-01572643, version 1

Collections

Citation

Claude Martineau. Langue naturelle et compression. 23ème colloque international grammaires et lexiques comparés, Nov 2004, Deauville, France. 〈hal-01572643〉

Partager

Métriques

Consultations de la notice

41