Anonymisation des données par apprentissage non supervisé

Sarah Zouinina

Résumé

Preserving the utility of anonymized data is one of the biggest limitationto the research field of Privacy Preserving Machine Learning. On theone hand, people claim a maximum level of privacy to protect their personalinformation from malicious intruders. And on the other hand, researchers,industries and governments demand a higher level of utility in order to developproducts that are interesting and suitable to the specific needs of theircustomers. The research presented in this thesis tackles the privacy-utilitytrade-off by using unsupervised learning approaches. Firstly, the Multi-viewCollaborative Self Organizing Maps as a way to cluster the data locally oneach view of the data set, but collaborate by exchanging information abouttheir findings. Secondly, the 1D Kernel Density Estimation, as a way to improvethe utility of the anonymized data while respecting the distributionof each feature in the dataset. Lasty, a supervised learning layer using theWeighted Learning Vector Quantization is added in order to enhance thelearning of the previously proposed approaches, and give more representativeprototypes to pseudo-anonymize the data. The tests were done on morethan six different datasets, and the results show an improvement in the accuracyof the models compared to the state of the art MDAV algorithm. Theresearch presented give some interesting ways of using machine learning toachieve privacy preservation through multiview microaggregation

Depuis la mise en vigueur du Règlement Général sur la Protection des Données (RGPD), l’intérêt pour la protection et la sécurité des données a évolué. D’une part, les nombreux accidents de fuite de données. D’une autre part, l’évolution exponentielle des utilisateurs des appareils connectés dans le monde entier, ont fait de l’anonymisation des données une nécessité pour la sécurité des individus y figurant. Depuis les années 2000,plusieurs techniques d’anonymisation des données ont été proposées, certaines relèvent de la cryptographie, d’autres des statistiques et certaines se basaient sur la fouille des données. Les travaux présentés dans cette thèse, résument, comparent et développent des méthodes d’anonymisation des données en se basant sur l’Apprentissage Automatique. Les deux premières approches proposent d’utiliser l’apprentissage collaboratif comme un outil d’anonymisation des données. La troisième méthode utilise le clustering par densité des noyaux à une dimension pour protéger les données. La dernière solution proposée, améliore les performances des trois méthodes introduites précédemment en rajoutant une couche d’anonymisation supervisée. Les méthodes sont validées par des mesures d’utilité et de confidentialité. Ce mémoire est structuré en quatre chapitres de poids relativement équivalents. Après une introduction rapide, le premier chapitre expose le contexte scientifique général de la thèse. Le chapitre deux, trois et quatre présentent les contributions effectives et discutent leur validation expérimentale sur plusieurs jeux de données.

Data Anonymisation through Unsupervised Learning

Anonymisation des données par apprentissage non supervisé

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager