Publication de données personnelles respectueuse de la vie privée : une démarche fondée sur le co-clustering

Il y a une forte demande économique et citoyenne pour l ouverture des données individuelles. Cependant, la publication de telles données représente un risque pour les individus qui y sont représentés. Cette thèse s intéresse à la problématique de l anonymisation de tables de données multidimensionne...

Description complète

Détails bibliographiques
Auteurs principaux : Benkhelif Tarek (Auteur), Gelgon Marc (Directeur de thèse), Raschia Guillaume (Directeur de thèse), Laurent Maryline (Président du jury de soutenance), Rosenberger Christophe (Rapporteur de la thèse), Nguyen Benjamin (Rapporteur de la thèse), Gançarski Pierre (Membre du jury)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), École doctorale Mathématiques et sciences et technologies de l'information et de la communication Rennes (Ecole doctorale associée à la thèse), Université Bretagne Loire 2016-2019 (Autre partenaire associé à la thèse), Laboratoire des Sciences du Numérique de Nantes (Laboratoire associé à la thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Publication de données personnelles respectueuse de la vie privée : une démarche fondée sur le co-clustering / Tarek Benkhelif; sous la direction de Marc Gelgon et de Guillaume Raschia
Publié : 2018
Accès en ligne : Accès Nantes Université
Note sur l'URL : Accès au texte intégral
Note de thèse : Thèse de doctorat : Informatique : Nantes : 2018
Sujets :
LEADER 06031clm a2200649 4500
001 PPN238105652
003 http://www.sudoc.fr/238105652
005 20240917060000.0
029 |a FR  |b 2018NANT4070 
033 |a http://www.theses.fr/2018NANT4070 
035 |a (OCoLC)1371478931 
035 |a STAR114969 
100 |a 20190923d2018 k y0frey0103 ba 
101 0 |a fre  |d fre  |d eng  |2 639-2 
102 |a FR 
105 |a ||||ma 00|yy 
135 |a dr||||||||||| 
181 1 |6 z01  |c txt  |2 rdacontent 
181 1 |6 z01  |a i#  |b xxxe## 
182 1 |6 z01  |c c  |2 rdamedia 
182 1 |6 z01  |a b 
183 |6 z01  |a ceb  |2 RDAfrCarrier 
200 1 |a Publication de données personnelles respectueuse de la vie privée  |e une démarche fondée sur le co-clustering  |f Tarek Benkhelif  |g sous la direction de Marc Gelgon et de Guillaume Raschia 
214 1 |d 2018 
230 |a Données textuelles 
304 |a Titre provenant de l'écran-titre 
314 |a Ecole(s) Doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes) 
314 |a Partenaire(s) de recherche : Université Bretagne Loire (COMUE), Laboratoire des Sciences du Numérique de Nantes (Laboratoire) 
314 |a Autre(s) contribution(s) : Maryline Laurent (Président du jury) ; Pierre Gançarski (Membre(s) du jury) ; Christophe Rosenberger, Benjamin Nguyen (Rapporteur(s)) 
328 0 |b Thèse de doctorat  |c Informatique  |e Nantes  |d 2018 
330 |a Il y a une forte demande économique et citoyenne pour l ouverture des données individuelles. Cependant, la publication de telles données représente un risque pour les individus qui y sont représentés. Cette thèse s intéresse à la problématique de l anonymisation de tables de données multidimensionnelles contenant des données individuelles dans un objectif de publication. On se concentrera plus particulièrement sur deux familles d approches pour l anonymisation: la première vise à fondre chaque individu dans un groupe d individus, la deuxième est basée sur l ajout d un bruit perturbateur aux données originales. Deux nouvelles approches sont développées dans le cadre de l anonymisation par groupe, elles consistent à agréger les données à l aide d une technique de coclustering puis à utiliser le modèle produit, pour générer des enregistrements synthétiques, dans le cas de la première solution. La deuxième proposition quant à elle, cherche à atteindre le formalisme du k-anonymat. Enfin, nous présentons DPCocGen un nouvel algorithme d anonymisation respectueux de la confidentialité différentielle. Tout d'abord, un partitionnement sur les domaines est utilisé pour générer un histogramme multidimensionnel bruité, un co-clustering multidimensionnel est ensuite effectué sur l'histogramme bruité résultant en un schéma de partitionnement. Enfin, le schéma obtenu est utilisé pour partitionner les données originales de manière différentiellement privée. Des individus synthétiques peuvent alors être tirés des partitions. 
330 |a There is a strong economic and civic demand for the opening of individual data. However, the publication of such data poses a risk to the individuals represented in it. This thesis focuses on the problem of anonymizing multidimensional data tables containing individual data for publishing purposes. In particular, two data anonymization approaches families will be focused on: the first aims to merge each individual into a group of individuals, the second is based on the addition of disruptive noise to the original data. Two new approaches are developed in the context of group anonymization. They aggregate the data using a co-clustering technique and then use the produced model, to generate synthetic records, in the case of the first solution. While the second proposal seeks to achieve the formalism of k-anonymity. Finally, we present a new anonymization algorithm DPCocGen that ensures differential privacy. First, a data-independent partitioning on the domains is used to generate a perturbed multidimensional histogram, a multidimensional co-clustering is then performed on the noisy histogram resulting in a partitioning scheme. Finally, the resulting schema is used to partition the original data in a differentially private way. Synthetic individuals can then be drawn from the partitions. 
337 |a Configuration requise : un logiciel capable de lire un fichier au format : PDF 
541 | |a Privacy preserving microdata publishing  |z eng 
606 |3 PPN027701166  |a Vie privée  |2 rameau 
606 |3 PPN02801877X  |a Protection de l'information (informatique)  |2 rameau 
608 |3 PPN027253139  |a Thèses et écrits académiques  |2 rameau 
610 0 |a K-anonymat 
686 |a 004  |2 TEF 
700 1 |3 PPN238097676  |a Benkhelif  |b Tarek  |f 1991-....  |4 070 
701 1 |3 PPN133954633  |a Gelgon  |b Marc  |4 727 
701 1 |3 PPN070662886  |a Raschia  |b Guillaume  |4 727 
701 1 |3 PPN079483658  |a Laurent  |b Maryline  |f 19..-....  |4 956 
701 1 |3 PPN122682505  |a Rosenberger  |b Christophe  |f 1973-....  |4 958 
701 1 |3 PPN07790821X  |a Nguyen  |b Benjamin  |f 1976-....  |4 958 
701 1 |3 PPN033775958  |a Gançarski  |b Pierre  |f 1959-....  |4 555 
711 0 2 |3 PPN026403447  |a Université de Nantes  |c 1962-2021  |4 295 
711 0 2 |3 PPN204770424  |a École doctorale Mathématiques et sciences et technologies de l'information et de la communication  |c Rennes  |4 996 
711 0 2 |3 PPN191639044  |a Université Bretagne Loire  |c 2016-2019  |4 985 
711 0 2 |3 PPN203637585  |a Laboratoire des Sciences du Numérique de Nantes  |4 981 
801 3 |a FR  |b Abes  |c 20230302  |g AFNOR 
856 4 |q PDF  |s 4024494  |u http://www.theses.fr/2018NANT4070/document  |z Accès au texte intégral 
856 4 |u https://archive.bu.univ-nantes.fr/pollux/show.action?id=1965a4b2-5b97-4d99-aeb1-2e624b89005d 
856 4 |u http://www.theses.fr/2018NANT4070/abes 
930 |5 441099901:778928519  |b 441099901  |j g 
991 |5 441099901:778928519  |a exemplaire créé automatiquement par STAR 
998 |a 855247