Algorithmes de compression de texte avec dictionnaire

Résumé : Nous présentons deux algorithmes de compression de texte qui considèrent celui-ci comme une suite alternée d’indices de mots dans deux dictionnaires comprenant l’un les mots, au sens linguistique du terme, l’autre les mots de ponctuation. Compresser le texte c’est alors compresser d’une part les dictionnaires, d’autre part les indices formant le texte proprement dit. Ceci permet d’adopter pour les dictionnaires et le texte, des algorithmes différents et mieux adaptés à chacun. Pour les deux algorithmes présentés, les dictionnaires sont comprimés par PPM, un algorithme utilisant le codage arithmétique, et le texte par une adaptation du codage d’Huffman pour le premier algorithme, et une combinaison d’Huffman et de LZW pour le second algorithme. L’utilisation du codage d’Huffman permet l’accès direct au texte. Les résultats expérimentaux montrent que ces algorithmes permettent de diviser, le plus souvent, la taille originale du texte au moins par trois. Ils sont nettement plus rapides que les algorithmes à base de lettres ayant des taux de compression comparables .
Type de document :
Rapport
[Rapport de recherche] 96-6, LIGM - Laboratoire d'Informatique Gaspard-Monge. 1996
Liste complète des métadonnées

https://hal-upec-upem.archives-ouvertes.fr/hal-01572638
Contributeur : Claude Martineau <>
Soumis le : mardi 8 août 2017 - 07:24:38
Dernière modification le : jeudi 11 janvier 2018 - 06:20:23

Identifiants

  • HAL Id : hal-01572638, version 1

Collections

Citation

Claude Martineau. Algorithmes de compression de texte avec dictionnaire. [Rapport de recherche] 96-6, LIGM - Laboratoire d'Informatique Gaspard-Monge. 1996. 〈hal-01572638〉

Partager

Métriques

Consultations de la notice

65