Sécurité et utilisation des données personnelles avec l’IA générative : vers une nouvelle vigilance numérique

Dr. Ibrahim Krayem

Depuis 2022, les usages des IA Générative, sous l’impulsion des outils tels que ChatGPT et Gemini. se généralisent tant dans le domaine personnel que professionnel (voir le sondage effectué par Talan avec l’IFOP https://lnkd.in/e5U_FcmJ) Ces outils sont capables de produire du contenu textuel ainsi que visuel (images et vidéos) dans des domaines variés à partir de simples prompts. Cependant, un débat de plus en plus intense s’est ouvert concernant la gestion des données personnelles. Des questions se posent : que deviennent les informations partagées avec ces systèmes (textuelles comme les informations personnelles, ou visuelles comme les images personnelles créées) ? Comment ces données sont-elles protégées ? Avec toutes ces évolutions dans les systèmes et l’augmentation notable du nombre d’utilisateurs, il devient essentiel d’examiner les implications en matière de confidentialité, de sécurité et d’éthique afin de garantir une utilisation responsable et durable. Cet article résumera comment l’IA apprend, les principaux risques, ce que dit le RGPD, et présentera des bonnes pratiques pour limiter les risques.

Les IA génératives apprennent à partir des vastes volumes de données (multimodal). Ces données peuvent être collectées à partir de diverses sources, comme les services en ligne (formulaires, réseaux sociaux, etc.). Cependant, avec l’utilisation de l’IA générative, les informations saisies par les utilisateurs, y compris les fichiers et les images, peuvent être stockées temporairement ou utilisées pour améliorer le modèle, sauf mention contraire explicite. En juin 2024, Meta (Facebook, Instagram et WhatsApp), avec plus de 2 milliards d’utilisateurs actifs mensuels, a annoncé vouloir utiliser les publications publiques de ses utilisateurs européens pour former ses modèles d’IA. Malgré les critiques émises par la Commission nationale de l’informatique et des libertés ainsi que diverses associations, la solution proposée par Meta a été de mettre en place un formulaire d’opposition. Cependant, par défaut, les données sont utilisées, ce qui soulève des questions quant au respect du consentement.

D’autres modèles restent également fermés et ne permettent pas de connaître systématiquement ce qui est enregistré, traité ou transmis, créant ainsi un risque juridique et éthique significatif pour les organisations qui les utilisent. Même si l’entreprise n’impose pas l’utilisation des données, d’autres risques peuvent également être présents. Des chercheurs ont démontré que certains modèles pouvaient régurgiter des fragments de conversations sensibles (noms, adresses, etc.) même avec l’application de filtres.

De plus, des attaquants peuvent exploiter les modèles afin d’extraire indirectement des données personnelles. En posant une série de questions ciblées, il est possible de reconstituer des profils d’utilisateurs ou de révéler des informations confidentielles issues du processus d’entraînement.

D’autre part, Le Règlement Général sur la Protection des Données (RGPD) impose que les données personnelles soient :

Collectées de manière transparente,
Utilisées à des fins précises,
Protégées,
Et supprimables sur demande (droit à l’oubli).

Dans le cas de l’IA générative, cela implique que :

L’utilisateur doit être informé de la manière dont ses données seront utilisées (finalité d’entraînement, stockage, etc.),
Il doit pouvoir refuser l’utilisation de ses données pour entraîner les modèles,
Il doit avoir un droit de retrait ou d’effacement sur ce qu’il a saisi.

Bien que cela garantisse la sécurité des données pour l’utilisateur, cela pose des questions sur les politiques des fournisseurs tels que Meta, incitant les organisations européennes à débattre de la clarté du consentement explicite.

Pour conclure, voici quelques pratiques simples et efficaces destinées aux particuliers ainsi qu’aux entreprises pour limiter les risques :

Ne pas introduire de données sensibles (noms de clients, secrets industriels, informations RH…) dans un outil d’IA en ligne non maîtrisé.

Privilégier des solutions déployées localement ou sur cloud privé, surtout dans les contextes professionnels (ex. : LLM open source comme LLaMA, Mistral, ou Falcon).

Configurer les options de confidentialité des outils utilisés (par exemple, désactiver l’historique des chats dans ChatGPT pour éviter leur réutilisation).

Sensibiliser les utilisateurs aux bonnes pratiques : éviter les prompts trop descriptifs ou qui révèlent des informations internes.

Consulter les politiques de confidentialité et utiliser les formulaires de retrait ou d’opposition, comme celui de Meta.

En somme, l’intelligence artificielle générative offre des perspectives intéressantes tout en imposant une réflexion sur la manière de protéger les données personnelles. Les utilisateurs doivent être mieux informés, les entreprises plus vigilantes, et les législateurs plus rapides à adapter les règles du jeu. La sécurité ne peut être une option, et l’éthique ne doit pas être un frein, mais une boussole pour une innovation responsable.

Sécurité et utilisation des données personnelles avec l’IA générative : vers une nouvelle vigilance numérique

Articles similaires