Longueur de branches et arbres de mots

Philippe Gambette; Núria Gala; Alexis Nasr

Article Dans Une Revue Corpus Année : 2012

Longueur de branches et arbres de mots

(1) , (2) , (3)

1
2
3

Philippe Gambette

Fonction : Auteur
PersonId : 148
IdHAL : philippe-gambette
ORCID : 0000-0001-7062-0262
IdRef : 151101248

Laboratoire d'Informatique Gaspard-Monge

Núria Gala

Fonction : Auteur
PersonId : 18582
IdHAL : nuria-gala-pavia
ORCID : 0000-0003-2987-0723
IdRef : 075172763

Laboratoire d'informatique Fondamentale de Marseille - UMR 6166

Alexis Nasr

Fonction : Auteur
PersonId : 4991
IdHAL : alexis-nasr
IdRef : 120694220

Laboratoire d'informatique Fondamentale de Marseille

Résumé

Les arbres de mots constituent un des outils de la statistique textuelle pour visualiser les relations sémantiques entre mots d'un texte. Les méthodes de construction de ces arbres à partir d'une distance de co-occurrence dans le texte produisent des arbres dont les longueurs d'arêtes se prêtent mal à l'analyse. Pour faciliter l'interprétation visuelle de l'arbre, l'idéal serait que des longues arêtes séparent des classes sémantiques de mots. Ainsi, découper les arêtes les plus longues de l'arbre devrait conduire à une partition de l'ensemble des mots qui fournit des classes pertinentes. À l'aide de deux corpus dont un sous-ensemble de mots a été partitionné en un ensemble de classes sémantiques, nous évaluons plusieurs formules permettant de recalculer les longueurs d'arêtes de l'arbre construit à partir des distances de co-occurrence, afin de rendre l'interprétation de l'arbre plus facile et plus fiable.

Mots clés

visualisation classification hiérarchique partition arbre co-occurrence nuage arboré

Domaines

Traitement du texte et du document

Fichier principal

2012GambetteGalaNasr.pdf (338.51 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Philippe Gambette : Connectez-vous pour contacter le contributeur

https://hal.science/hal-00822993

Soumis le : mercredi 15 mai 2013-21:39:57

Dernière modification le : jeudi 28 mars 2024-03:28:01

Archivage à long terme le : vendredi 16 août 2013-05:30:10

Dates et versions

hal-00822993 , version 1 (15-05-2013)

Identifiants

HAL Id : hal-00822993 , version 1

Citer

Philippe Gambette, Núria Gala, Alexis Nasr. Longueur de branches et arbres de mots. Corpus, 2012, 11 (-), pp.129-146. ⟨hal-00822993⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENPC LIF CNRS UNIV-AMU UNIV-MLV LIGM_ALGO EC-MARSEILLE PARISTECH LIGM LIGM_MOA LIS-LAB AMIDEX ANR UNIV-EIFFEL LIGM_ADA JSE2024

504 Consultations

307 Téléchargements

Longueur de branches et arbres de mots

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager