Longueur de branches et arbres de mots

Résumé : Les arbres de mots constituent un des outils de la statistique textuelle pour visualiser les relations sémantiques entre mots d'un texte. Les méthodes de construction de ces arbres à partir d'une distance de co-occurrence dans le texte produisent des arbres dont les longueurs d'arêtes se prêtent mal à l'analyse. Pour faciliter l'interprétation visuelle de l'arbre, l'idéal serait que des longues arêtes séparent des classes sémantiques de mots. Ainsi, découper les arêtes les plus longues de l'arbre devrait conduire à une partition de l'ensemble des mots qui fournit des classes pertinentes. À l'aide de deux corpus dont un sous-ensemble de mots a été partitionné en un ensemble de classes sémantiques, nous évaluons plusieurs formules permettant de recalculer les longueurs d'arêtes de l'arbre construit à partir des distances de co-occurrence, afin de rendre l'interprétation de l'arbre plus facile et plus fiable.
Type de document :
Article dans une revue
Corpus, 2012, 11 (-), pp.129-146
Liste complète des métadonnées

Littérature citée [13 références]  Voir  Masquer  Télécharger

https://hal-upec-upem.archives-ouvertes.fr/hal-00822993
Contributeur : Philippe Gambette <>
Soumis le : mercredi 15 mai 2013 - 21:39:57
Dernière modification le : mercredi 15 février 2017 - 01:06:59
Document(s) archivé(s) le : vendredi 16 août 2013 - 05:30:10

Fichier

2012GambetteGalaNasr.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00822993, version 1

Citation

Philippe Gambette, Nuria Gala, Alexis Nasr. Longueur de branches et arbres de mots. Corpus, 2012, 11 (-), pp.129-146. 〈hal-00822993〉

Partager

Métriques

Consultations de la notice

516

Téléchargements de fichiers

212