Metric learning for video to music recommendation - Département Image, Données, Signal Accéder directement au contenu
Thèse Année : 2022

Metric learning for video to music recommendation

Apprentissage métrique pour la recommandation vidéo-musique

Résumé

Music enhances moving images and allows to efficiently communicate emotion or narrative tension, thanks to cultural codes common to the filmmakers and viewers. A successful communication requires not only a choice of track matching the video's mood and content, but also a temporal synchronization of the audio and visual main events. This is the goal of the music supervision industry, which traditionally carries out the task manually. In this dissertation, we study the automation of tasks related to music supervision. The music supervision problem generally doesn't have a unique solution, as it includes external constraints such as the client's identity or budget. It is thus relevant to proceed by recommendation. As the number of available musical videos is in constant augmentation, it makes sense to use data-driven tools. More precisely, we use the metric learning paradigm to learn the relevant projections of multimodal (video and music) data. First, we address the music similarity problem, which is used to broaden the results of a music search. We implement an efficient content-based imitation of a tag-based similarity metric. To do so, we present a method to train a convolutional neural network from ranked lists. Then, we focus on direct, content-based music recommendation for video. We adapt a simple self-supervised system and we demonstrate a way to improve its performance, by using pretrained audio features and learning their aggregation. We then carry a qualitative and quantitative analysis of official music videos to better understand the temporal organization of musical videos. Results show that official music videos are carefully edited in order to align audio and video events, and that the level of synchronization depends on the music and video genres. With this insight, we propose the first recommendation system designed specifically for music supervision: the Seg-VM-Net, which uses both content and structure to perform the matching of music and video.
À l'écran, la musique permet de communiquer, à travers des codes culturels établis, des émotions ou des éléments narratifs clés. Cette communication repose non seulement sur un choix judicieux de morceaux pour la bande son, mais aussi sur leur synchonisation avec les événements saillants de la vidéo. La tâche qui consiste à conseiller et réaliser cette association est au centre de l'industrie de la supervision musicale, et s'effectue traditionnellement à la main. Dans cette thèse, l'on étudie l'automatisation des tâches liées à la supervision musicale. La quête de la musique idéale n'a généralement pas de solution unique, puisqu'en plus de l'analyse des contenus audiovisuels, il faut tenir compte de contraintes légales et budgétaires. Nous procédons donc par recommandation. Alors qu'une quantité toujours croissante de musique est produite chaque jour, il est raisonnable d'envisager une approche par apprentissage. Plus précisément, nous utilisons l'apprentissage métrique pour produire des représentations communes aux données musicales et visuelles. Dans un premier temps, nous abordons un problème de similarité musicale, dont le but est d'élargir le champ de recherche dans les catalogues musicaux. Nous implémentons une imitation efficace d'une métrique de similarité par critères, applicable directement aux fichiers audio non annotés. Cette méthode repose sur des réseaux de neurones convolutionnels entraînés à reproduire des listes de recommandation. Puis, nous nous concentrons sur la recommandation directe de musique à partir d'une vidéo. Nous adaptons un système autodidacte simple et montrons comment en améliorer les performances, grâce à de meilleures représentations audio en entrée et un apprentissage de leur agrégation temporelle. Nous menons ensuite une étude quantitative et qualitative sur les clips musicaux, afin de mieux comprendre comment y sont articulés les événements audio et vidéo. Nos résultats démontrent avec quel soin la musique et l'image peuvent être synchronisés, mais aussi que le niveau de co-occurrence des différents événements dépend de plusieurs critères, tels que le genre musical ou vidéo. À partir de ce constat, nous présentons le premier système de recommandation dédié à la supervision musicale : le Seg-VM-Net, qui tient compte à la fois du contenu et de la structure pour apparier musiques et vidéos.
Fichier principal
Vignette du fichier
108106_PRETET_2022_archivage.pdf (27.75 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03638477 , version 1 (12-04-2022)

Identifiants

  • HAL Id : tel-03638477 , version 1

Citer

Laure Prétet. Metric learning for video to music recommendation. Multimedia [cs.MM]. Institut Polytechnique de Paris, 2022. English. ⟨NNT : 2022IPPAT005⟩. ⟨tel-03638477⟩
306 Consultations
79 Téléchargements

Partager

Gmail Facebook X LinkedIn More