Deepfakes : les faux des nouvelles générations

Qu’il s’agisse de créer de fausses informations ou de déformer la réalité, les faux n’ont rien de nouveau sur Internet. Le Web regorge en effet d’images trafiquées, de fausses informations, et il devient de plus en plus difficile de distinguer la réalité de la fiction. Aujourd'hui, les contrefaçons ont atteint un niveau inédit : les deepfakes.

Les deepfakes sont apparus pour la première fois en décembre 2017 sur Reddit. Un utilisateur avait réussi à insérer des visages de célébrités dans des films pornographiques, avec une crédibilité époustouflante. Pendant une courte période, la création de pornographie mettant en scène des célébrités a connu un véritable boom. Ces fausses vidéos sont maintenant interdites sur Reddit et sur d'autres plateformes telles que Twitter ou Discord, mais ceci n’a pas pour autant limité la propagation des deepfakes. Mais qu'est-ce qui rend les deepfakes si particuliers ?

Que sont les deepfakes ?

En règle générale, les faux sont créés avec beaucoup de travail et d'expertise. Il n'est même pas nécessaire que la scène se situe dans l’ombre. Même dans les films hollywoodiens, il n'est pas rare d'échanger des visages lorsque l’on utilise des doublures par exemple. Pour ce faire, on fait généralement appel à des experts dans les domaines de la technologie de montage et de CGI. Les deepfakes, à l’inverse, sont créés directement par l'ordinateur, sans retouches nécessaires.

Les deepfakes s’appellent ainsi car ils sont basés sur le deep learning, une forme spécifique du machine learning. Il est nécessaire de recourir à des algorithmes deepfakes pour l'échange de visages ou d'objets ; pour que le deep learning fonctionne, les algorithmes sont alimentés avec une très grande quantité d'images ou de données vidéo, puisque plus l’on dispose de matériel d'une personne, meilleur sera le résultat.

Conseil

les vidéos constituent également un très bon moyen de s’exercer. Ceci vous permet d'accéder rapidement à des milliers d'images individuelles à partir de différentes directions de visualisation. Les vidéos montrent aussi les visages dans des positions plus naturelles que les photos normales, qui souvent ne montrent qu'un visage souriant de face.

Pour se former, 300 photos avec le visage de la personne choisie (idéalement avec le maximum de points de vue différents) devraient suffire comme données d'entraînement pour obtenir un résultat acceptable. Le code des deepfakes contient un réseau neuronal, un auto-encodeur : le réseau est formé pour compresser les données afin de les décompresser à nouveau. Pendant la décompression, l'auto-encodeur essaie d'obtenir un résultat aussi proche que possible de l'original. Pour ce faire, le réseau apprend à faire la distinction entre les données critiques et les données sans importance pendant le processus de compression.

Par exemple, en alimentant l'algorithme avec des images de chiens, le réseau neuronal artificiel apprend à se concentrer uniquement sur le chien et à ignorer les arrière-plans et le bruit. Enfin, l'auto-encodeur peut créer son propre chien à partir des données. C'est aussi ainsi que fonctionne l'échange de visages des deepfakes : le réseau neuronal apprend à quoi ressemble le visage de la personne et peut ensuite le créer de façon autonome, même si le visage bouge.

Pour échanger efficacement des visages, il en faut deux distincts qui soient reconnaissables : celui qui apparaît dans le matériau d'origine et celui par lequel on souhaite le remplacer. C'est pourquoi l’on utilise une entrée (le codeur) et deux sorties (les décodeurs). Le codeur analyse n'importe quel matériau tandis que les deux décodeurs génèrent chacun une sortie différente : visage A ou visage B.

L’algorithme n'insère pas le visage A dans la vidéo, mais le visage B, qui n’a aucun rapport avec le contenu originel. Ceci révèle également la différence avec les faux déjà connus, qui ne sont réduits qu'à des images : dans ce cas, il s’agit uniquement de découper une image, de la retoucher et de l’insérer dans une autre image. Les deepfakes, à l’inverse, ne copient pas le matériel d'image dans une autre image, mais créent du nouveau matériel. C'est en effet le seul moyen de faire correspondre les expressions faciales du visage original.

Ceci explique également les erreurs qui se produisent souvent avec les deepfakes. En effet, les réseaux neuronaux atteignent leurs limites lorsqu’il s’agit de mettre en scène des mouvements atypiques. S'il n'y a pas assez de matériel illustrant ce point de vue, l’ensemble sera flou, puisque l'algorithme essaie de générer une image à partir du peu de matériel source, ce qui l’empêche de créer suffisamment de détails et conduit à un échec.

L'histoire des deepfakes : de Reddit à une diffusion internationale

C’est à l’origine sur Reddit qu’étaient diffusés les deepfakes. Le site est connu pour offrir également une page d'accueil dans les sous-forums (les subreddits) pour les sujets particuliers. Un redditor, tel que l’on appelle les utilisateurs de Reddit, nommé Deepfakes, a créé en décembre 2017 un subreddit contenant des vidéos pornographiques avec des célébrités. Pour ce faire, cet utilisateur anonyme a mis au point l'algorithme que nous avons décrit, basé sur d'autres technologies telles que les bibliothèques open source Keras et TensorFlow de Google.

Très rapidement, ce subreddit a rassemblé 15 000 abonnés. Dans l'intervalle, Reddit a mis un terme au forum et, comme d'autres sociétés (y compris la plateforme vidéo pornographique Pornhub), a interdit la distribution de faux porno. Mais ceci n’a pas empêché les deepfakes de connaître un succès grandissant ; en effet, dans la mesure où le code que deepfakes a développé est open source, il est accessible à tous. Sur GitHub par exemple, on trouve plusieurs référentiels où les développeurs travaillent sur les algorithmes. C'est ainsi qu’a été créée une application Deepfakes, appelée FakeApp.

Avec le programme, toutes les personnes ayant un minimum de connaissances informatiques peuvent procéder à des échanges de visage. Pour créer des deepfakes via une application, il n’y a besoin que d'une carte graphique puissante de Nvidia. Le programme utilise le processeur graphique (GPU) pour les calculs. En dehors de FakeApp, on peut également créer des deepfakes avec le CPU d'un ordinateur, mais ceci prend généralement beaucoup plus de temps.

Entre-temps, les internautes ont trouvé d'autres utilisations que la pornographie pour les échanges de visage basés sur le machine learning. Comme souvent sur Internet, la technologie est utilisée pour créer du contenu drôle et absurde. Il est particulièrement populaire, par exemple, de mettre en scène des acteurs dans des films dans lesquels ils n'ont jamais joué. C’est ainsi que des internautes ont par exemple remplacé tous les acteurs d’un court extrait du Seigneur des Anneaux par Nicholas Cage, ou encore remplacé Sharon Stone par Steve Buscemi dans la fameuse scène de Basic Instinct.

Effets sur la société

Lorsqu’il s’agit de blagues, la plupart sont relativement inoffensives. Mais ces nouvelles possibilités de manipulation vidéo accessibles à tous posent plusieurs défis à la société. Il y a évidemment la question de la légalité. En effet, les actrices célèbres qui apparaissent dans des deepfakes à caractère pornographiques n'ont évidemment jamais donné leur consentement, puisque ces vidéos ont été créées à leur insu. Ces pratiques soulèvent donc des problèmes relatifs au droit à l’image. Outre la question juridique, ces vidéos nuisent grandement à la réputation des personnes concernées, et causent d’importants dommages émotionnels.

Remarque

les deepfakes sont créés principalement avec les visages de célébrités. Ceci s’explique par le fait que de très nombreuses images les représentant sont disponibles sur le Web. Les personnes privées diffusant de nombreuses photos d’elles-mêmes sur Internet risquent également de devenir des victimes de deepfakes.

Outre les dommages individuels, les deepfakes peuvent également provoquer des changements sociaux. Ces dernières années a émergé le phénomène des fake news, et il devient de plus en plus difficile de distinguer les faits réels des fausses déclarations. Jusqu'à présent, une preuve vidéo était considérée comme une indication fiable de l'exactitude d'une déclaration, mais ceci est aujourd’hui remis en question avec des deepfakes. Avec relativement peu d'efforts, on peut donc maintenant créer de faux documents réalistes, et pas seulement à des fins de divertissement.

Les faux ont toujours été des outils de propagande importants. Avec les deepfakes, il est possible d'influencer la politique de manière significative. Alors qu'une vidéo dans laquelle le visage d’Emmanuel Macron serait remplacé par celui de Donald Trump n'a pas nécessairement d’incidence, il est possible d’imaginer des vidéos mettant en scène des personnalités politiques dans des situations auxquelles elles n’ont jamais pris part. Dans la mesure où le machine learning peut même recréer la voix d'une personne de façon relativement crédible, les deepfakes deviendront de plus en plus réels à l'avenir. On peut supposer que ces contrefaçons influenceront inévitablement les campagnes électorales et les relations internationales.

Pour notre société, cela signifie qu’il est nécessaire de revoir notre approche aux médias et à l’information. Une étude inquiétante a récemment montré que près de huit français sur dix croient à au moins une théorie du complot.

Si cette incrédulité s’explique par la multiplication des fake news et la méfiance des citoyens à l’égard de l’information, elle exprime également une méconnaissance et un obscurantisme dangereux. Rejeter l’information en bloc n’est évidemment pas une solution vers davantage de transparence. Il semble que la clef réside aujourd’hui dans l’éducation, dès le plus jeune âge, afin d’éveiller le sens critique de chacun et de fournir aux futurs citoyens les outils adaptés pour décrypter l’information. The News Literacy Project, mené dans près de 90 pays, est un projet créé en 2006 et qui s’est donné pour mission d’apprendre aux enfants et adolescents, dès l’école primaire, à exercer leur regard critique en tant qu’étudiants, consommateurs et citoyens.

Rappelons également que les développements autour des deepfakes ne sont pas nécessairement destructeurs ou stupides, et que le deep learning contribue à révolutionner la création d'effets visuels. Pour l'instant, il est encore relativement difficile de monter les visages d'acteurs sur le corps d'autres personnes. Pour le film Star Wars Rogue One, par exemple, une jeune princesse Leia a été créée avec des effets visuels, alors que l'actrice Carrie Fisher avait déjà 60 ans lorsque le film est sorti. Un internaute a déclaré avoir obtenu un résultat similaire avec l'aide des deepfakes, en une demi-heure et avec un PC ordinaire. Enfin, les deepfakes permettent de rendre les effets visuels dans les médias de divertissement plus rapides et moins chers.

On imagine également que la technologie deepfakes pourrait à l’avenir révolutionner notre rapport à la consommation et même à la culture. Dans le domaine du cinéma, par exemple, il est envisageable de laisser aux spectateurs un choix du personnage principal, par exemple grâce à un clic avant le début du film. La même chose est concevable pour l'industrie de la publicité. Bientôt, les célébrités ne tourneront plus pour vendre de la nourriture ou des vêtements de créateur ou des spiritueux, mais vendront seulement une licence pour leurs visages.

En résumé

le machine learning offre de vastes possibilités pour l'avenir de notre société. Google travaille déjà avec les réseaux de neurones artificiels et le deep learning, pour catégoriser les images ou développer des voitures autonomes, par exemple. Les deepfakes illustrent l'un des dangers de la technologie, car ces développements peuvent également être utilisés de manière destructive. C'est à la société de trouver des solutions à ces problèmes et de tirer parti des possibilités réelles offertes par le machine learning et les deepfakes.