Arrel     Publicacions     Enllaços     Congressos     Història            20 20 20

Privadesa de dades

Mineria de dades preservant-ne la privadesa

Control estadístic

http://www.ppdm.cat


PPDM / SDC / Control d'Inferencia: Una disciplina que té com a objectiu la disseminació de les dades d'aquells que les han subministrades de manera que es preservi la seva privacitat. Per tal d'aconseguir aquests objectius s'han definit eines que permeten transformar un conjunt de dades original en un de protegit de manera que:
1) les anàlisis de les bases de dades originals i de les protegides donin resultats semblants (utilitat de les dades);
2) la informació en la base de dades protegida no es pugui relacionar amb aquells que les han subministrades (protecció de dades).
Els métodes de protecció es classifiquen normalment en dues grans famílies: els mètodes criptogràfics i els perturbatius. Jo preferesc de classificar-los en orientats a les dades (o de proòsit general, orientats a la computació (o de propòsit específic) i els orientats als resultats.
  • Orientats a les dades o de propòsit general: en aquest cas no se sap quin ús se'n farà de les dades. Els mètodes perturbatius estan orientats a aquest tipus de situacions.
  • Orientats a la computació o de propòsit específic: en aquest cas se sap a priori quin és l',anàlisi que es vol aplicar (per exemple, regles d'associació). Aleshores es poden dissenyar mètodes de protecció que permeten obtenir els mateixos resultats de les dades protegides que de les dades originals. Tanmateix, la millor aproximació és que aquell que té les dades es posi d'acord amb el que vol fer l'anàlisi amb un protocol criptogràfic de manera que els càlculs es puguin fer sense pèrdua d'informació. També cau aquí el cas de dades distribuïdes.
  • Orientats als resultats: en aquest cas interessa que els resultat de l'aplicació d'un mètode d'anàlisis de dades no permeti la revelació de dades confidencials. Per exemple, que les regles d'associació extretes a partir d'un conjunt de dades no ens donin informació confidencial d'un individu particular.
Nosaltres treballem principalment en mètode de protecció orientats a les dades. Aquests mètodes es classifiquen en tres categories segons com es fa la manipulació de les dades:
  • Perturbatius: les dades es distorsionen de manera que el conjunt protegit conté errors. La manera més senzilla és afegir soroll (soroll additiu). Existeixen altres mètodes com ara la microagregació intercanvi de rangs (rank swapping), soroll additiu i soroll multiplicatiu, PRAM
  • No perturbatius: les dades es distorsionen peró en aquest cas no s'introdueixen errors. S'aconsegueix la protecció substituint valors per altres de menys específics (per exemple, subsituint un valor per un interval). De fet, el que fem és canviar el nivell de detall del conjunt de dades.
  • Generadors de dades sintètiques: No distorsionem les dades, en creem de noves per substituir les velles. Es diu que amb aquest procés s'evita el risc de revelació, per&o aixó no és així si les dades sintètiques tenen prou qualitat. Ho expliquem en el nostre paper al PSD 2006: (PSD 2006) (referència completa aquí)
Per més detall consulteu:
Torra, V. (2010) Privacy in Data Mining, in O. Maimon, L. Rokach (Eds.), Data Mining and Knowledge Discovery Handbook, 2nd Edition, Springer 687-716.
Temes claus: Els elements donats a continuació son clau en els assumptes de protecció de dades:
- Mètodes de protecció: mètodes per manipular les dades de manera que les protegim. Els mètodes es poden classificar entre pertorbatius, no pertorbatius i sintètics.
- Mesures de pèrdua d'informació: permeten avaluar fins a quin punt les dades protegides són útils per a investigadors i aquells que han de prendre decisions.
- Mesures de risc de revelació: permeten avaluar fins a quin punt es pot assegurar la privacitat.
- Transparència: les dades protegides s'han de publicar informant com s'han protegit. Això és que s'ha de donar informació del mètode de protecció aplicat i els paràmetres emprats.

Usuaris de la privadesa: Les companyies de comerç electrònic (per tal d'intercanviar informació dels seus clients) i els instituts d'estadística oficial (per tal de proveir informació estadística acurada a la societat) han d'aprofitar la informació que recullen i a la vegada preservar la privacitat dels individus
 

Citeu aquest web com:
V. Torra, Data privacy, Springer, 2017 (forthcomming). Web associada: http://www.ppdm.cat/dp/

Vicenç Torra, Last modified: 15 : 34 December 11 2014.