Tout sur l’anonymat 1/4 : Qu’est-ce que l’anonymat ?

La Javaness R&D
7 min readMar 12, 2024

Contexte

Cette série d’articles est inspirée du cours Privacy, Data Protection, Security, par Benjamin Nguyen, que j’ai suivi lors de l’école d’été Responsabilité des Algorithmes : enjeux sociétaux et environnementaux organisée par les Groupe de Travail Recherche Opérationnelle et Intelligence Artificielle du CNRS en 2023.

Ce premier article donne une vue d’ensemble du sujet : contexte historique, légal et éthique, modélisation des menaces à la vie privée, algorithmes d’anonymisation, et mesure de la perte d’information.

Dans les articles suivants, je reviendrai sur les deux paradigmes d’anonymisation les plus populaires (la confidentialité différentielle et le k-anonymat), ainsi que sur le compromis confidentialité-utilité.

Introduction : RGPD, données personnelles, et données sensibles

Le RGPD

En Europe, le Règlement Général sur la Protection des Données (RGPD), adopté en 2016 par le Parlement Européen encadre le traitement des données à caractère personnel, dans le but de garantir le respect du droit à la vie privée des citoyens. Ce règlement oblige les organisations à se conformer à certaines pratiques dans le traitement des données (recueil du consentement des utilisateurs, minimisation des données, protection des données, documentation des traitements…) et entérine les droits des utilisateurs dont les données sont utilisées (droit de consultation, de rectification, de retirer son consentement, droit à l’oubli…).

Le RGPD ne s’applique pas aux données anonymisées, c’est-à-dire dont il est impossible de retrouver le propriétaire en mettant en oeuvre des moyens jugés “raisonnables”.

Au-delà de la conformité aux réglementations, l’anonymisation des données utilisées dans les entraînements de nos modèles nous offre l’opportunité de garantir un traitement des données personnelles toujours plus responsable et respectueux des usagers.

Plusieurs types de données

Une donnée personnelle, au regard du RGPD, est toute donnée se rapportant à une personne identifiée ou identifiable. On en distingue deux types :

  • Les données directement ou indirectement identifiantes, qui permettent d’identifier directement la personne (par exemple, un nom ou une photo), qui se rapportent à elle de manière unique et permettent de l’identifier en les croisant par exemple avec un autre fichier (pseudonyme en ligne, numéro de sécurité sociale…)
  • Les combinaisons de données qui ne permettent pas isolément d’identifier directement la personne, mais qui le permettent lorsqu’elles sont prises ensemble (lieu de travail + adresse, appartenance à un club sportif + âge + genre….)

Des données génériques comme la taille et le poids ne sont donc pas considérées comme des données personnelles, car elles ne permettent pas d’identifier la personne.

En outre, on définit comme sensible une donnée qui révèle des informations comme l’origine sociale, la religion, la sexualité, le dossier médical, etc… d’une personne.

Dans ce cadre, l’anonymisation a pour but de se prémunir contre :

  • la divulgation totale ou partielle de l’identité d’une personne dans un jeu de données
  • la divulgation de données sensibles

Le lion, la sorcière et le procureur

Afin de mieux appréhender le risque que constitue une mauvaise anonymisation des données, on classe généralement les menaces, et les attaquants potentiels, en trois catégories.

Les menaces à la protection de la vie privée

On range les menaces selon leur degré de nuisance :

La divulgation d’appartenance a lieu lorsque l’on arrive à prouver qu’une personne fait partie d’un jeu de données. Apparemment bénigne, cette attaque peut révéler des données sensibles : par exemple, si un individu a participé à une étude scientifique sur le traitement d’une certaine maladie, on sait que cet individu est porteur de la maladie.
Exemple : Dans cet article, les auteurs parviennent à déterminer si un individu est présent dans un mélange d’ADN à partir de statistiques agrégées sur les génomes présents, et ce même si l’ADN de l’individu ne représente que 0.1% du mélange.

La divulgation d’attribut a lieu lorsque l’on prouve qu’un individu présent dans un jeu de données possède une certaine caractéristique, même si on n’arrive pas à identifier les données exactes qui correspondent à cet individu.
Exemple : Les données de navigation Facebook permettent de déterminer avec précision certaines caractéristiques d’un individu, comme son genre, sa religion, sa sexualité…

La divulgation d’identité (ou ré-identification) concerne le fait de retrouver l’observation exacte correspondant à une personne dans un jeu de données.
Exemple : En 2006, AOL publie une base de données contenant les requêtes de centaines de milliers d’utilisateurs. Deux journalistes du New York Times s’emparent de ces données et réussissent à ré-identifier une utilisatrice à partir de ses requêtes. Ils publient leur découverte dans cet article.

Les profils d’adversaires

En fonction de leur but, et des informations dont ils disposent, on classe les adversaires en trois personas :

Le procureur cherche à identifier un individu en particulier, dont il connaît la présence dans le jeu de données, et sur lequel il possède des informations conséquentes.
Exemple : La ré-identification des données médicales du Gouverneur du Massachussetts par Latanya Sweeney en 1997 à partir des listes électorales de l’État correspond à une attaque du procureur ; c’était une action politique, visant à alerter sur la divulgation de données confidentielles, et le gouverneur en particulier était visé.

Le journaliste veut identifier n’importe quel individu dans le jeu de données (par exemple, pour prouver que le processus d’anonymisation est imparfait), sans nécessairement connaître des informations précises sur cet individu. Il peut aussi cibler un individu en particulier, mais sans savoir s’il est présent dans le jeu de données.
Exemple : La ré-identification de plusieurs utilisateurs lors du Prix Netflix de 2007, qui a conduit à l’annulation de la compétition les années suivantes. Le prix Netflix récompensait l’équipe qui déterminerait le meilleur algorithme de recommandation à partir de données pseudonymisées.

Le vendeur cherche à identifier un maximum de personnes dans le jeu de données. Une attaque du vendeur n’est considérée comme victorieuse que si une large proportion des personnes présentes est ré-identifiée.

Si on se prémunit contre les attaques du procureur en protégeant toutes les données contre une ré-identification, alors on se prémunit automatiquement contre les attaques du journaliste et du vendeur.

Quantifier l’anonymat

Anonymat syntaxique et anonymat sémantique

Afin d’anonymiser nos données avec un tant soit peu de rigueur, il convient de définir ce que l’on entend par anonymat. Comme dans le cadre du RGPD, on classe les données en trois catégories : les identifiants (données directement ou indirectement identifiantes), les quasi-identifiants (combinaisons de données non-identifiantes qui, ensemble, permettent d’identifier une personne), et les données sensibles (données non-identifiantes mais que l’on veut garder secrètes).

Il existe grosso modo deux manières d’envisager l’anonymat, d’un point de vue technique :

L’anonymat syntaxique concerne la structure des données. Il est généralement formulé sous forme d’une série de contraintes, et l’exemple le plus répandu est celui du k-anonymat, qui spécifie que chaque combinaison de quasi-identifiants dans la base de données doit correspondre à au moins k individus. Ce type d’anonymat est souvent obtenu par une série d’agrégations des données : on va par exemple remplacer l’adresse des personnes par leur code postal, voire leur département ou leur région.
Le k-anonymat, proposé en 2002 par Latanya Sweeney (celle-là même qui avait réidentifié le dossier médical du gouverneur du Massachussetts) a fait l’objet de nombreuses publications.

L’anonymat sémantique porte, lui, sur le processus de collecte et de publication des données : par exemple, lors d’un sondage, on demande à la personne sondée de lancer une pièce en secret. Si elle tombe sur face, la personne doit dire la vérité. Si elle tombe sur pile, la personne doit donner une réponse aléatoire (en lançant par exemple une deuxième pièce). Ainsi, on ne peut pas savoir si la personne a dit la vérité ou non, et se baser sur sa réponse pour lui nuire. Mais comme on connaît exactement la perturbation statistique apportée par le lancer de pièce, on peut quand même calculer des statistiques sur le jeu de données.
C’est le type d’anonymat garanti par la confidentialité différentielle, proposée par Cynthia Dwork en 2006.

Je reviendrai sur ces notions d’anonymat dans deux articles à venir.

Mesurer la perte d’information

L’un des principaux désavantages de l’anonymisation des données est qu’elle entraîne une perte d’information, qu’elle soit le fruit d’une perturbation statistique (on perd en précision) ou d’une agrégation (on perd en granularité).

Il existe plusieurs manières de mesurer cette perte, et la fonction qu’on choisira dépendra essentiellement de notre finalité : si l’on souhaite modéliser une certaine variable, on pourra par exemple comparer un modèle entraîné sur le jeu anonymisé et sur le jeu “en clair”. Si l’on souhaite publier le jeu de données pour qu’il soit réutilisé, on choisira probablement une autre mesure : il existe des mesures d’utilité globales, qui se concentrent sur le processus d’anonymisation en lui-même, et des mesures plus locales, qui s’attachent à comparer le “taux d’information” contenu dans chaque colonne du jeu de données, avant et après anonymisation.

Ces mesures feront l’objet d’un dernier article.

Conclusion

L’anonymisation des données est, outre un excellent moyen de s’assurer de la conformité au RGPD, une manière de protéger la vie privée des utilisateurs dont nous collectons et utilisons les données. Cette anonymisation peut être mise en oeuvre de plusieurs manières, en se focalisant sur la structure des données, ou sur le processus de collecte et de publication.

Il faut garder à l’esprit que l’anonymisation crée une forme de perturbation dans les données, et sera toujours un compromis entre respect de la vie privée et utilité des observations. Il nous appartient de choisir où l’on placera le curseur : un jeu de données destiné à être publié doit bénéficier de très fortes garanties d’anonymat, que l’on pourra assouplir pour un jeu de données sécurisé et dont on contrôle l’accès au sein d’une entreprise ou d’un groupe de recherche.

Remerciement

Merci à nos collègues Alexandre DO et Lu WANG pour la revue de l’article.

A propos de l’auteur

Après un doctorat en mathématiques fondamentales, Béatrice CHETARD a rejoint La Javaness en tant que data scientist en mars 2021. Elle s’intéresse à tous les aspects de la data science (données structurées, NLP, computer vision) ainsi qu’aux question d’éthique et de responsabilité des algorithmes.

--

--

La Javaness R&D

We help organizations to succeed in the new paradigm of “AI@scale”, by using machine intelligence responsibly and efficiently : www.lajavaness.com