La transparence des algorythmes d'apprentissage automatique : une arme à deux tranchants

Le Règlement général sur la protection des données (RGPD), qui entrera en vigueur le 25 mai 2018, redéfini la façon dont les organisations doivent gérer la collecte et l’utilisation des données personnelles des citoyens de l’Union Européenne (UE).

Les débats entourant le RGPD se concentrent principalement sur la portée mondiale de cette législation, les amendes très élevées mises en place ou les lois plus contraignantes entourant le consentement informé comme condition au traitement des données personnelles. Cependant, l’un des défis que le RGPD entraine pour les entreprises passe souvent inaperçu : le droit des citoyens à obtenir des explications.

Au-delà des détails juridiques, le RGPD assure que les citoyens puissent obtenir des renseignements suffisants à propos des systèmes automatisés mis en place pour le traitement de leurs informations personnelles, afin de leur permettre de prendre une décision éclairée à ce sujet. Vous pouvez consulter une analyse juridique à la fois complète et accessible pour les non juristes ici.

Le droit à l'explication a longtemps été négligé. Outre la méconnaissance du droit lui-même, il n'est pas communément reconnu que cette nouvelle protection de la vie privée constitue un risque important pour les entreprises qui traitent les données des citoyens.

Certes, le respect des autres droits des citoyens introduits ou étendus par le RGPD, comme le droit de s'opposer au profilage, le droit d'obtenir une copie des données personnelles collectées ou le droit à l’oubli, peut s’avérer couteux. Mais de nombreuses entreprises sont aujourd’hui incapables d'expliquer leur traitement des données personnelles. Pire encore, elles ignorent souvent comment se conformer à cette obligation imposée par le RGPD.

La décision de la boîte noire

Les systèmes qui traitent les données personnelles des citoyens reposent souvent sur l'apprentissage automatique. De plus, contrairement aux algorithmes prémisse-conclusion (if-then) standard, les modèles d'apprentissage automatique fonctionne comme une sorte de boîte noire - personne ne sait exactement ce qui se passe à l'intérieur et le raisonnement exact menant au résultat.

C'est particulièrement vrai dans le cas des méthodes reposant sur des réseaux neuronaux. Les méthodes d'apprentissage automatique basées sur l'arbre décisionnel permettent, en théorie, de déterminer le parcours d'apprentissage. Cependant, des contraintes sévères rendent toute explication extrêmement difficile.

Prenons un exemple largement simplifié. Imaginons qu'une banque dispose d'un système d'apprentissage automatique pour déterminer la solvabilité des personnes demandant un prêt. En se basant sur les données relatives aux prêts précédents - y compris leurs résultats, caractérisés comme « bons » ou « mauvais » - le système apprend par lui-même à prédire si une nouvelle demande de prêt sera considéré comme une « bonne » ou une « mauvaise » demande de prêt.

La raison d'être de la prédiction - sur la base de laquelle une décision est prise quant à savoir si le demandeur sera ou non en mesure d'acquérir sa propre maison, par exemple - réside dans la façon dont un réseau complexe de milliers de neurones simulés traite les données. Le processus d'apprentissage comprend des milliards d'étapes et est difficile à suivre à l'envers. Non seulement techniquement, c'est-à-dire en raison de contraintes technologiques, mais aussi à cause des limites fondamentales des théories mathématiques sous-jacentes, personne ne peut vraiment dire exactement pourquoi un échantillon particulier de données a été étiqueté comme "mauvais".

Se retrouver entre l’arbre et l’écorce

L'apprentissage automatique est devenu une méthode de choix pour traiter de grands ensembles de données et trier des échantillons en groupes. C'est pourquoi le droit à l'explication constitue un défi fondamental - et un risque de non-respect - pour tous ceux qui traitent des piles de données à caractère personnel des citoyens européens.

À moins que les entreprises qui traitent les données personnelles des citoyens ne comprennent bien le raisonnement qui sous-tend les décisions prises sur la base de leurs modèles d'apprentissage automatique, elles se trouveront entre l’arbre et l’écorce. Elles doivent empêcher leurs clients d'opter pour le traitement automatisé de leurs données personnelles (afin d'économiser des coûts et de maintenir l'activité commerciale), tout en préservant l'illusion que l'entreprise respecte réellement le droit du client d'avoir une explication standardisée ainsi que le droit d'avoir un contrôle humain en cas de résultat contesté (afin que l'entreprise puisse éviter les lourdes amendes imposées par le RGPD en cas de non-conformité).

La recherche fondamentale est nécessaire

Pour être en mesure d'expliquer le raisonnement qui sous-tend leurs processus de prise de décision automatisés - et donc d'accorder le droit d'expliquer à leurs clients - les entreprises doivent attendre que des améliorations radicales dans la compréhension de la façon dont les machines apprennent des améliorations radicales soient réalisées dans notre compréhension. Tout simplement, les processus d'apprentissage automatique doivent devenir transparents - sinon vraiment transparents, du moins beaucoup moins en forme de boîte noire - pour que les entreprises qui tombent sous le RGPD puissent se conformer.

Cependant, la transparence de l'apprentissage automatique doit être approchée avec beaucoup de doigté. L’imprévisibilité, ou la non-transparence, si vous préférez, est profondément enracinée dans les théories mathématiques fondamentales sur lesquelles ce type d’apprentissage est fondé. C'est pourquoi la solution du problème du droit à l'explication passe par une amélioration des fondements théoriques de l'apprentissage machine.

Les spécialistes des techniques d'apprentissage automatique s'orientent déjà de cette façon, mais il faudra peut-être attendre des années avant de voir des résultats tangibles du RGPD.

La transparence : besoin ou menace?

Contrairement aux spécialistes du marketing et à d'autres qui traitent des données personnelles en masse et doivent se conformer aux règles de confidentialité, les entreprises de cybersécurité ne se réjouissent pas d'un tel changement dans la recherche sur l'apprentissage automatique.

Allouer plus de ressources à la compréhension des modèles (dans un souci de transparence) implique que moins de ressources sont disponibles pour rendre les modèles plus précis et plus efficaces.

Pour nous qui chassons les logiciels malveillants, disposer de modèles d'apprentissage automatisé précis et efficaces est primordial. À l’inverse, une plus grande transparence de nos modèles d'apprentissage automatisé est la dernière chose dont nous avons besoin. Après tout, nous ne voulons pas que les cybercriminels parviennent à ajuster leur code malveillant pour défier nos protections!

Cependant, nous devons nous préparer à affronter nos adversaires en se basant sur une meilleure compréhension du fonctionnement de nos modèles d'apprentissage machine.

Sans aucun doute, il est important d'améliorer nos modèles d'apprentissage automatique et de les rendre plus sophistiqués et donc plus difficiles à contourner. Cependant, la mesure la plus importante à cet égard est d'avoir plus de niveaux de protection.

L'avènement des outils de débouchage des modèles d'apprentissage automatique montre clairement la fragilité des protections qui peuvent dépendre uniquement de ces modèles. À mon avis, les organismes d'essai devraient élaborer des méthodes plus sophistiquées pour tester la résilience des solutions de sécurité par rapport aux méthodes visant à contourner les mécanismes de détection des produits de sécurité en se fondant sur la connaissance du fonctionnement de ces mécanismes. Ces tests avancés sont nécessaires pour distinguer les solutions fiables et difficiles à contourner de celles qui ne fonctionnent que dans des conditions idéales.

À propos de l’auteur : Juraj Jánošík, est responsable de l'équipe de détection automatisée des menaces et de l'intelligence artificielle d’ESET.