Leakage of Sensitive Data from Deep Neural Networks - Laboratoire d'informatique de l'X (LIX) Accéder directement au contenu
Thèse Année : 2023

Leakage of Sensitive Data from Deep Neural Networks

Fuite de données par les réseaux de neurones

Résumé

It has been shown that Machine Learning (ML) models can leak information about their training sets. This is a critical issue in the case where the training data is of a sensitive nature, e.g., medical applications where the data belongs to patients.A popular approach for measuring the leakage of information from ML models is to perform inference attacks against the models. The goal of this approach is to measure the privacy of the system as the robustness to inference attacks. These attacks are mainly categorized into Membership Inference Attacks (MIAs) and Attribute Inference Attacks (AIAs). The goal of a MIA is to determine if a sample or group of samples are part of the training set of the model, while an AIA tries to infer or reconstruct a sample from the trained model.Although there exist other methods for measuring privacy in ML, such as differential privacy, the main focus of this thesis is on inference attacks.First, we derive theoretical bounds on the success rate of an attacker. This result provides an upper bound on the success probability of an inference attack in the specific case where the attacker has access to the model parameters of the trained model, and therefore in any other scenario where the attacker possesses less information. Second, we derive bounds that link the generalization gap of a ML model to the success rate of an attacker against this model. Third, we derive a list of results that relate the mutual information between the trained model and its training set to the generalization gap and the success rate of an attacker.These theoretical results are illustrated in a toy scenario. The lower bound relating the generalization gap to the success rate is tested and compared to state of the art MIAs in a more realistic scenario.Fourth, we use our framework to describe a set of AIAs and test their effectiveness against a model trained to classify handwritten digits. The data set contains the identity of the writers, and we use this as the sensitive information to be determined by the AIAs.Fifth, we benchmark the performance of different MIAs strategies against state of the art image classification models. We describe and categorize the existing state of the art strategies. We explore the use of out of distribution detection techniques and diversity measures for MIAs and compare their effectiveness to the state of the art. We also propose a technique based on the norm of the minimum perturbation necessary to make a model change its prediction using an adversarial attack. We empirically show that having access to additional samples that can be used as training data for the attacker does not provide an advantage over strategies that do not require additional data. We rank different strategies based on their performance against the state of the art image classification models.
Il a été démontré que les modèles d'apprentissage automatique peuvent divulguer des informations sur leurs ensembles d'apprentissage. Il s'agit d'un problème critique lorsque les données d'apprentissage sont de nature sensible, par exemple dans les applications médicales où les données appartiennent à des patients.Une approche populaire pour mesurer la fuite d'informations des modèles de Machine Learning (ML) consiste à effectuer des attaques d'inférence contre les modèles. L'objectif de cette approche est de mesurer la confidentialité du système en fonction de sa robustesse aux attaques par inférence. Ces attaques sont principalement classées en attaques d'inférence de membres (MIA) et en attaques d'inférence d'attributs (AIA). L'objectif d'une MIA est de déterminer si un échantillon ou un groupe d'échantillons fait partie de l'ensemble d'apprentissage du modèle, tandis qu'une AIA tente de déduire ou de reconstruire un échantillon à partir du modèle d'apprentissage.Bien qu'il existe d'autres méthodes pour mesurer la confidentialité en ML, comme la confidentialité différentielle, cette thèse se concentre principalement sur les attaques par inférence.Tout d'abord, nous dérivons des limites théoriques sur le taux de réussite d'un attaquant. Ce résultat fournit une limite supérieure à la probabilité de succès d'une attaque par inférence dans le cas spécifique où l'attaquant a accès aux paramètres du modèle entraîné, et donc dans tout autre scénario où l'attaquant possède moins d'informations. Deuxièmement, nous dérivons des limites qui relient l'écart de généralisation d'un modèle ML au taux de réussite d'un attaquant contre ce modèle. Troisièmement, nous établissons une liste de résultats qui relient l'information mutuelle entre le modèle entraîné et son ensemble d'entraînement à l'écart de généralisation et au taux de réussite d'un attaquant.Ces résultats théoriques sont illustrés à l'aide d'un scénario fictif. La limite inférieure reliant l'écart de généralisation au taux de réussite est testée et comparée à l'état de l'art des MIA dans un scénario plus réaliste.Quatrièmement, nous utilisons notre cadre pour décrire un ensemble d'AIA et tester leur efficacité par rapport à un modèle formé pour classer des chiffres manuscrits. L'ensemble de données contient l'identité des auteurs et nous l'utilisons comme information sensible à déterminer par les AIA.Cinquièmement, nous comparons les performances des différentes stratégies de MIA à celles des modèles de classification d'images les plus récents. Nous décrivons et classons les stratégies existantes dans l'état de l'art. Nous explorons l'utilisation de techniques de détection de distribution et de mesures de diversité pour les MIA et comparons leur efficacité à l'état de l'art. Nous proposons également une technique basée sur la norme de la perturbation minimale nécessaire pour qu'un modèle modifie sa prédiction à l'aide d'une attaque contradictoire. Nous montrons empiriquement que le fait d'avoir accès à des échantillons supplémentaires pouvant être utilisés comme données d'entraînement pour l'attaquant n'offre pas d'avantage par rapport aux stratégies qui ne nécessitent pas de données supplémentaires. Nous classons les différentes stratégies en fonction de leurs performances par rapport aux modèles de classification d'images les plus récents.
Fichier principal
Vignette du fichier
117441_DELGROSSOGUZMAN_2023_archivage.pdf (2.21 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04555564 , version 1 (23-04-2024)

Identifiants

  • HAL Id : tel-04555564 , version 1

Citer

Ganesh del Grosso Guzman. Leakage of Sensitive Data from Deep Neural Networks. Statistics [math.ST]. Institut Polytechnique de Paris, 2023. English. ⟨NNT : 2023IPPAX159⟩. ⟨tel-04555564⟩
0 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More