Compression de texte à base de mots à l'aide de l'algorithme de Ziv, Lempel et Welch

Résumé : Nous étudions dans cet article plusieurs possibilités d'adapter l'algorithme de compression de données LZW à la compression de texte en langue naturelle. Ce type de compression considère le texte comme une suite alternée de mots d'une langue donnée et de mots de ponctuations: l'unité de base de traitement est alors le mot. Nous considérons des adaptations de l'algorithme de LZW nécessitant pour certaines une lecture du texte, pour d'autres deux lectures du texte tout en privilégiant l'étude de celles à une lecture dans le souci de garder à cet algorithme sa rapidité d'origine. Les résultats montrent que ces algorithmes ont des taux de compression nettement supérieurs à ceux que l'on obtient avec les algorithmes le plus couramment utilisés que sont compress et gzip. Ils permettent en effet d'obtenir des taux de compression de 30% à 35% tout en gardant une grande rapidité.
Document type :
Reports
Complete list of metadatas

https://hal-upec-upem.archives-ouvertes.fr/hal-01572640
Contributor : Claude Martineau <>
Submitted on : Tuesday, August 8, 2017 - 7:50:40 AM
Last modification on : Wednesday, April 11, 2018 - 12:12:03 PM

Identifiers

  • HAL Id : hal-01572640, version 1

Collections

Citation

Claude Martineau. Compression de texte à base de mots à l'aide de l'algorithme de Ziv, Lempel et Welch. [Rapport de recherche] 96-34, LIGM - Laboratoire d'Informatique Gaspard-Monge. 1996. ⟨hal-01572640⟩

Share

Metrics

Record views

88