Langue naturelle et compression

Claude Martineau

Communication Dans Un Congrès Année : 2004

Langue naturelle et compression

(1)

Claude Martineau

Fonction : Auteur
PersonId : 1497
IdHAL : claude-martineau

Laboratoire d'Informatique Gaspard-Monge

Résumé

Du point de vue informatique, un texte est formé par une suite de caractères alphanumériques ou séparateurs appartenant à un ensemble qui constitue l'alphabet du texte dont chaque élément est l'une des plus petites unités de base du texte. Les algorithmes de compression de textes les plus usuels sont fondés sur cette représentation du texte et son traitement caractère par caractère de type statistique. Une autre approche consiste à considérer le texte comme une suite alternée de mots appartenant à une langue naturelle donnée appelés mots linguistiques et de mots séparateurs constitués de la plus longue suite de caractères de ponctuation ou séparateurs situés entre deux mots linguistiques. Dans cette approche, on est amené à considérer deux alphabets (appelés lexiques ou dictionnaires) celui des mots linguistiques et celui des mots séparateurs. Le texte est alors vu comme suite alternée d'indices faisant référence à l'un ou l'autre de ces lexiques. Le texte comprimé est alors formé de trois formes comprimées, celles de chacun des lexiques et celle constituée par la suite d'indices des mots du texte représentés par le codage de Huffman.

Mots clés

compression de texte dictionnaire Huffman à base de mots

Domaines

Informatique [cs] Linguistique

Claude Martineau : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01572643

Soumis le : mardi 8 août 2017-08:52:17

Dernière modification le : jeudi 28 mars 2024-03:26:23

Dates et versions

hal-01572643 , version 1 (08-08-2017)

Identifiants

HAL Id : hal-01572643 , version 1

Citer

Claude Martineau. Langue naturelle et compression. 23ème colloque international grammaires et lexiques comparés, Nov 2004, Deauville, France. ⟨hal-01572643⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENPC CNRS LIGM_LINGU PARISTECH LIGM UNIV-EIFFEL JSE2024

64 Consultations

0 Téléchargements

Langue naturelle et compression

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager