Compression de texte à base de mots à l'aide de l'algorithme de Ziv, Lempel et Welch

Résumé : Nous étudions dans cet article plusieurs possibilités d'adapter l'algorithme de compression de données LZW à la compression de texte en langue naturelle. Ce type de compression considère le texte comme une suite alternée de mots d'une langue donnée et de mots de ponctuations: l'unité de base de traitement est alors le mot. Nous considérons des adaptations de l'algorithme de LZW nécessitant pour certaines une lecture du texte, pour d'autres deux lectures du texte tout en privilégiant l'étude de celles à une lecture dans le souci de garder à cet algorithme sa rapidité d'origine. Les résultats montrent que ces algorithmes ont des taux de compression nettement supérieurs à ceux que l'on obtient avec les algorithmes le plus couramment utilisés que sont compress et gzip. Ils permettent en effet d'obtenir des taux de compression de 30% à 35% tout en gardant une grande rapidité.
Type de document :
Rapport
[Rapport de recherche] 96-34, LIGM - Laboratoire d'Informatique Gaspard-Monge. 1996
Liste complète des métadonnées

https://hal-upec-upem.archives-ouvertes.fr/hal-01572640
Contributeur : Claude Martineau <>
Soumis le : mardi 8 août 2017 - 07:50:40
Dernière modification le : mercredi 11 avril 2018 - 12:12:03

Identifiants

  • HAL Id : hal-01572640, version 1

Collections

Citation

Claude Martineau. Compression de texte à base de mots à l'aide de l'algorithme de Ziv, Lempel et Welch. [Rapport de recherche] 96-34, LIGM - Laboratoire d'Informatique Gaspard-Monge. 1996. 〈hal-01572640〉

Partager

Métriques

Consultations de la notice

64