La neural aesthetic (2015-2018)

F. Migayrou et al., Neurones, les intelligences simulées, Mutation Création, op. cit., p. 198↩︎
Limites et potentiels de l’intelligence artificielle — Forum Vertigo 2020 (2/5), op. cit.38:00↩︎
Traduction : La convolution est centrale Id.38:00↩︎
S. Riley, CNN: Convolutional Neural Networks Explained - Computerphile, 2016, 14:16 (en ligne : https://www.youtube.com/watch?v=py5byOOHZM8 ; consulté le 5 juin 2021)9:40↩︎
D. Cardon, J.-P. Cointet et A. Mazières, « La revanche des neurones », op. cit., p. 27↩︎
Traduction : elles vont finir par être juste être d’un pixel de long [...] nous avons complètement enlevé une dimension spatiale [de l’image] S. Riley, CNN, op. cit.9:40↩︎

Mario Kligermann a été l’un des premiers créateurs à utiliser les réseaux de neurones convolutionnels et l’apprentissage machine pour établir le cadre d’un art génératif. […] Chacun de ces portraits, unique est généré par un programme selon une technique que l’artiste nomme Neural Glitch¹

Il définit trois typologies d’algorithme utilisant de l’intelligence artificielle lors du forum Vertigo au centre George Pompidou. Nous essaierons de classer différents projets suivant ses définitions.

Ainsi courant 2015, les images de filtre de deepdream et de transfert de style sont médiatisées, Kligermann explique « there is something new about this aesthetic² ».

Le transfert de style permet d’appliquer un style défini sur une image ou une vidéo. L’algorithme est nourri d’une seule image stylisée pour appliquer le style. La production de modèle de filtre n’a pu être introduite que grâce à la création des réseaux de convolutions par Yann LeCun. « Convolution is at the core³ » indique Kligermann.
Ainsi, toutes ces méthodes génératives proviennent des recherches de Yann LeCun sur les modèles de réseaux de neurones de convolutions, appelés Convolution Neural Network ou CNN.
Développés dès les années 90, ils reposent sur des opérations de convolution, elles sont utilisées par exemple pour flouter une image (par le flou gaussien ou par le flou médian), pour effectuer de la détection de contour (filtre de Sobel), ou pour augmenter la netteté d’une image (filtre sharpen). Ces différentes opérations conservent la relation entre les pixels et sont toutes le fruit d’une matrice, appelé kernel de convolution qui applique une opération sous forme d’une tuile se déplaçant dans l’image.

Le réseau de convolution détermine de lui-même quelles sont les opérations de convolution les plus pertinentes suivant le contexte par l’apprentissage. Plus précisément, par l’algorithme de back propagation, le modèle corrige les poids de chacun des neurones du réseau. Cela hiérarchise donc l’importance de chacune de ces opérations de convolution en fonction du corpus d’apprentissage⁴. Dominique Cardon synthétise ainsi le fonctionnement de ces modèles : « […] paver l’image en petites tuiles de pixels confiées à des segments de neurones séparés avant de les rassembler dans une autre couche du réseau⁵ ». Par les différentes couches de convolution du réseau, puis par d’autres fonctions comme le Pooling, les transformations de l’image sont de plus en plus petites. Ainsi « […] these will go down to being just one pixel long […] we completely removed the spatial dimension⁶ ». Ce passage progressif, d’image en deux dimensions à un ensemble de données linéaires, permet la classification.

L. Engstrom, Lengstrom/fast-style-transfer (2016), s. l., 2021↩︎
A. Masure, « Résister aux boîtes noires. Design et intelligences artificielles », op. cit., p. 44↩︎
C. Gestin-Vilion, « La protection par le droit d’auteur des créations générées par intelligence artificielle », op. cit., p. 23↩︎
F. Soulages, Esthétique de la Photographie, op. cit., p. 14 Terme de François Soulages pour définir les photographies prisent dans un cercle familial, amical↩︎
Sonder la « Terre Seconde », de Grégory Chatonsky [Version 6 minute], Palais de Tokyo, s. d., 6:00 (en ligne : https://www.youtube.com/watch?v=JRBkwQwy6n0&list=PL7VgX_eKMbTC-90H9j-ggWI5WFqq9eqB5&index=4&t=270s ; consulté le 16 novembre 2019)1:30↩︎

fig. 4 Extrait de « A Neural Algorithm of Artistic Style », Leon A Gatys et Al, 2015

Avec l’apparition de ces transferts de style (fig. 4), les ingénieurs sont allés puiser dans l’histoire de l’art « classique » pour nourrir leurs modèles. Le projet de fast style transfert, reprend par exemple le Cri (1893) d’Edvard Munch ou encore Udnie (1913) de Francis Picabia⁷. « […] produire un énième Rembrandt, Mondrian, paysage, visage, etc., comme si l’apparition de toute nouvelle technique devait relever de l’académisme, à savoir l’imitation de règles, de traditions ou d’anciennes techniques⁸ » : Masure affirme que l’on retrouve une forme d’académisme dans certains projets. Mais est-ce qu’il n’est pas aussi là une question de droit ? En s’inspirant d’œuvres passées les créateurs se dispensent du paiement de droits, les productions par IA étant considérées comme œuvre composite : « [il faut] l’autorisation de son auteur préalablement à son incorporation dans une œuvre seconde⁹ » indique Claudia Gestin-Villion.

Ces filtres permettent cependant une distance avec l’original en proposant une version animée de l’effet. Il s’applique aussi bien sur une image que sur une vidéo — qui, malgré les codecs, demeurent une séquence d’image numérique. Mais conserve une continuité entre les images dans l’animation. Le portrait d’Edmond de Belamy, n’utilise pas de systèmes de transfert de style, mais le modèle génératif se base sur une collection d’images picturales ayant un style avec une « touche » ce qui alors conserve, transfert ces mêmes règles stylistiques.
L’authentification artistique pour le portrait d’Edmond de Belamy, passe par l’usage de la touche : en effet, comment différencier leur proposition artistique des documents produits par les ingénieurs ? De la même manière qu’avec le Pictorialisme, les effets visuels appliqués à l’image avaient pour objectif de les différencier des documents scientifiques, et des « photographies domestiques¹⁰ ».

fig. 5 *La Nuit étoilée* de Van Gogh vue par Deep Dream – Google

Le filtre de deepdream (fig. 5), quant à lui propose une véritable distance avec l’académisme voulu par les transferts de styles copiant l’existant. L’algorithme se base sur un pré-entrainement de imagenet (2012) sur laquelle une fonction récursive amplifie les formes trouvées par convolution dans l’image. Gregory Chatonsky définit ce filtre comme les débuts d’une forme d’imagination artificielle :

On est passé de la machine capable de jouer et de battre l’être humain au jeu d’échec, au plaisir un peu coupable de voir une machine faire une erreur et d’halluciner et faire de la pareidolie. […] Le fait de passer d’une machine de la vérité à une machine de l’erreur, pour moi c’est le passage de l’intelligence à l’imagination artificielle¹¹.

C. Malabou, Métamorphose de l’intelligence, que faire de leur cerveau bleu, op. cit., p. 21↩︎
Qu’est-ce que l’imagination (artificielle)?, op. cit.1:17:00↩︎
C. Malabou, Métamorphose de l’intelligence, que faire de leur cerveau bleu, op. cit., p. 142↩︎
Traduction : « Quelque que ce soit, j’en veux plus ! » Cela produit une boucle de feedback : si un nuage ressemble un petit peu à un oiseaux, le réseau le transformera en oiseaux A. Mordvintsev, C. Olah et M. Tyka, « Inceptionism », op. cit.↩︎
Limites et potentiels de l’intelligence artificielle — Forum Vertigo 2020 (2/5), op. cit.39:00↩︎
1152801, « Slanted Magazine #37—AI », sur Issuu, s. d., p. 55 (en ligne : https://issuu.com/slanted/docs/slanted-publishers_ai_37_issuu ; consulté le 27 juin 2021)↩︎
F. Jely, « Mémoire : L’intelligence artificielle, l’apprentissage et le signe », op. cit. II a. Le modèle boîte noire qui rend le résultat computationnel discret↩︎

Il propose donc une opposition entre une machine de la vérité et une machine de l’erreur que l’on peut naïvement associer aux deux courants en intelligence artificielle : symboliste (Deep Blue au jeu d’échecs) et néo-connexionniste (deepdream). De plus, l’approche par l’erreur est aussi une étude de l’intelligence — « Chez Deleuze ou Derrida, c’est finalement la bêtise, non l’intelligence, qui finit par acquérir le statut “d’objet d’une question proprement transcendantale¹²” ». La machine hallucine par le filtre de deepdream plus encore Klingermann parle de Neural Aesthetic donc une esthétique propre au réseau de neurones. « La qualité plastique de ces images, qui n’a pas été désirée par les auteurs, est toujours une plasticité liquide¹³ », explique Chatonsky. Cette notion de plasticité dans les capacités de la machine est possible par le changement de paradigme symboliste à néo-connexionniste : l’image plastique est un héritage du réseau de neurones et de la boite noire ; Catherine Malabou ainsi écrit :« La plasticité n’est pas, comme je l’ai affirmé alors [dans son ouvrage, que faire de notre cerveau ?], antonyme de la machine¹⁴ ». « “Whatever you see there, I want more of it!” This creates a feedback loop: if a cloud looks a little bit like a bird, the network will make it look more like a bird¹⁵ », écrivent les ingénieurs à la base de l’algorithme. On force donc une vision amplificatrice par l’intermédiaire d’une boucle de feedback (par une fonction récursive). « [Deep dream] Transforms almost like a filter, it took an existing content and with a feedback loop, it’s transformed by the model¹⁶ », ajoute Klingermann. Ces recherches ont nourri d’autres recherches en algorithme plus spécifique : Xavier Snelgrove, artiste et chercheur en science informatique, dans Multiscale Neural Texture Synthesis (2017) produit un réseau de neurones capable de synthétiser une matière à partir de la synthèse d’une ou de plusieurs images. La génération produite (fig. 6) reprend ainsi un motif de tuile avec de la fumée — ils s’assemblent pour produire un motif abstrait et plastique. Le rendu est surréaliste, évoquant des compositions anémiques¹⁷.

fig. 6 *Multiscale Neural Texture Synthesis* de Alex Snelgrove (2017)

De la même manière qu’avec deep dream, on ne comprend pas forcément comment l’algorithme arrive à ce résultat. Cela met donc en exergue les effets de la boite noire (cf. boite noire ). Dans mon précédent mémoire, on avait conclu que la boite noire cachait la computation à l’homme, elle devenait problématique notamment lorsque Alpha Go produit son 37^e coup — primordial dans sa stratégie — mais dont ni les commentateurs ni son adversaire Lee Sedol n’avaient compris le sens¹⁸. Dans la production d’image, c’est justement ce qui en fait sa force : on ne peut anticiper que peu de choses dans la production — l’accident devient le paramètre le plus important. L’esthétique « Neural » héritée des filtres deep dream peut se retrouver au sein d’autres systèmes et d’algorithmes.

N. Nova et J. Vacheron, « DADA DATA, Une introduction aux culture algorithmiques », K. Aaron (trad.), BACK OFFICE, Penser, classer, représenter, n^o 2, s. d., p. 95↩︎
Ibid., p. 100↩︎

Si l’on erre sur le réseau social Tiktok, on peut tomber sur cette vidéo d’un deepfake de Vladimir #Putin réalisé par @stivensonj (fig. 7). Il reprend la vidéo virale de Bella Poarch qui réalise une vidéo sur la musique de l’artiste britannique Millie B — M to the B. On est face à un étrange phénomène avec un extrait musical qui devient viral puis qui est repris par une tiktokeuse qui à son tour produit une vidéo virale reprise à son tour pour en produire encore un autre document.

Il y a ici une forme exacerbée de l’écosystème numérique, faite de détournement et de déclinaison des mêmes documents. Nicolas Nova et Joël Vacheron parlent de « l’avènement d’une “culture algorithmique¹⁹” » : ces objets culturels sont : « Intrigants, cryptiques ou potaches, ces projets ne sont pas toujours cohérents, mais restent emblématiques d’une culture numérique construite à partir de bribes d’éléments culturels préexistants²⁰ ».

fig. 7 M to the B @stivensonj (2020), disponible sur tiktok

Ibid., p. 97↩︎
Ibid., p. 96↩︎
V. Flusser, Petite philosophie du design, Circé, Arles, 2002, p. 19↩︎
@stivensonj, Оригинал у @bellapoarch кстати #putin #путин #ввп #рек #кек #fyp, s. d. (en ligne : https://www.tiktok.com/@stivensonj/video/6862736485314071813 ; consulté le 12 avril 2021) Traduction : Je pense que c’est illégal et que celui qui a fait ça devrait s’enfuir↩︎
Le docteur Michael Pound est chercheur en science informatique à l’université de Nottingham. Traduction : Je ne pense pas que le deepfake soient assez convaincant, mais je pense qu’ils le seront d’ici cinq à dix ans. Alors nous aurons de sérieux problèmes Computerphile, Is DeepFake Really All That? - Computerphile, 2021, 12:29 (en ligne : https://www.youtube.com/watch?v=IT6-5ZbabVg&t=639s ; consulté le 6 juin 2021):20↩︎

En effet, sous leurs diverses formes, Lev Manovich les considère comme « objet néomédiatique²¹ » ces objets sont constitués d’unités sous-ordonnées. On retrouve cette décomposition en sous-unité : la musique — M to the B, la forme : #Putin sous forme de même et le mouvement de Bella Poarch. Ces automatisations dans la création d’objets culturels sont symptomatiques de notre société post-industrielle : « L’automatisation croissante des processus de création constitue un point d’entrée pertinent pour saisir l’automatisation des processus algorithmiques dans notre société²² ».

On retrouve aussi cette notion d’hybridation dans la génération de motif de Xavier Snelgrove.
Mais est-ce que ces modèles hybrides dans la culture sont uniquement liés à l’automatisation de la création, à la culture web rendant les opérations de détournement et de transmission possible ou encore l’unicité des données transférées reposant toutes sur des technologies numériques interopérables (codec interprétable par tout ordinateur) ?

Pour Flusser, l’hybridation dans la culture est clairement antérieure à la société industrielle, et d’internet :

Il est probable que les motifs culturels d’Extrême-Orient avaient déjà pénétré dans l’Empire romain, et inversement pour les motifs hellénistiques en Chine ; pour ne rien dire des dragons mongols que l’on retrouve sur les cathédrales gothiques et des casques alexandrins que portent les dieux d’Angkor Vat²³.

L’humour évident se situe dans le décalage des mimiques de Bella Poarch transférées au visage de Vladimir #Putin. Puis le personnage de #Putin demeure ambigu : le critiquer ou le moquer reste peu conseillé. « I feel like this is illegal and whoever made this should run²⁴ », indique Emily Rickman. En dehors de l’aspect « interdit » : Vladimir Poutine est un « personnage d’internet », cette personnalité est très souvent détournée. Il suffit de voir la vidéo Wide Putin Walking de FlobySop64, ou les différents photomontages le mettant en scène sur la toile. Il y a ici un détournement de ces technologies fortement médiatisées : on peut citer le Fake Obama produit à l’université de Washington en 2017 qui avait été fortement relayé. On retrouve un récit médiatique pour provoquer de la peur : peur que les images puissent être détournées. Pour le docteur Michael Pound, cette technique n’est pas encore suffisament au point pour nous tromper : « I don’t think that deepfake are that convincing yet, but I think they would be convincing in five or ten years. Then we will have some serious problems²⁵ »

F. Soulages, Esthétique de la Photographie, op. cit., p. 18↩︎
Pete Turner dans Les grands photographes, 1983 Ibid., p. 67↩︎
Durendal est un vidéaste traitant du cinéma sur sa chaîne Youtube éponyme Durendal, Le Prestige de S1M0NE : Le Cinéma Face au Numérique, 2021, 18:37 (en ligne : https://www.youtube.com/watch?v=bhY_W8rJLS8 ; consulté le 2 mars 2021)12:30↩︎
Traduction de Durendal : Notre capacité à créer du faux a dépassé notre capacité à le déceler Id.11:30↩︎
I. Perov et al., « DeepFaceLab: A simple, flexible and extensible face swapping framework », arXiv:2005.05535 [cs, eess], 20 mai 2020, p. 4 (en ligne : http://arxiv.org/abs/2005.05535 ; consulté le 26 janvier 2021)↩︎
Ibid., p. 5↩︎

Or, s’agit-il d’un nouveau phénomène ? À priori non : les images ont une portée subjective. Il serait une erreur de les penser comme reproduction du réel. François Soulage indique donc : « À trop avoir besoin de croire, nous sommes tombés dans l’illusion : l’illusion qu’il y avait une preuve grâce à la photographie²⁶ ». C’est même une spécificité de la photographie indique Pete Turner : « Je suis constamment surpris de voir le nombre de photographes qui refusent de manipuler la réalité, comme si c’était mal. Changez la réalité ! Si vous ne la trouvez pas, inventez-la²⁷ ! ». Plus encore, le vidéaste Durendal ajoute : « Les effets numériques ne sont qu’un mensonge […] qu’un artifice du cinéma²⁸ ». Cependant il cite Victor Taransky interprété par Al Pacino dans Simone (2002) : « Our ability to manufacture fraud now exceeds our ability to detect it²⁹ » — formule dans le film faisant référence aux créations numériques en image de synthèse, mais qui trouve d’autant plus un écho dans les techniques contemporaines de deepfake dont on peine à déceler l’erreur dans les détails.

Il n’existe pas une unique méthode pour produire un deepfake, cette terminologie désigne différentes techniques, mais ne désigne aucun algorithme en particulier. Les programmes de deepfake sont constitués d’algorithmes qui décomposent et recomposent l’image ou le son. DeepFaceLab, produisant des deepfake d’images, définit son Pipeline en trois concepts clefs : extraction, entrainement, conversion³⁰. Le deepfake veut paraitre réel et veille à ne laisser aucune « trace » de convolution : donc elle rentre dans la catégorie d’algorithme Hyperréaliste (Post-uncanny). Mais ici, @stivensonj ne veut pas que son image soit parfaite. Le traitement est évidemment grossier. Il n’y a aucun doute sur le caractère factice de ce que les internautes observent. Il y a une volonté que l’algorithme laisse une « trace » ; une forme de détournement par rapport à l’usage originel des deepfakes — faits pour « tromper ». Esthétiquement, on retrouve donc une volonté de rendre visible la trace de l’algorithme.
La méthode introduite par DeepFaceLab propose plusieurs étapes : un algorithme détecte le visage, le décompose et en extrait les caractéristiques par segmentation³¹. Il en résulte une image dite de machine vision : elle comprend les données structurelles sous des formes graphiques — contour du visage, sourcils et lèvres en pointillés blancs sur fond noir. L’algorithme décompose l’image puis un algorithme de image2image translation effectue le passage de cette décomposition à l’image source ; une fois entrainé elle peut donc passer de cette forme de machine vision à une image « photographique ». Il suffit alors de lui donner une autre source de forme décomposée.

Ibid., p. 7↩︎
Traduction : [les images] sont lissées et manque de petits détails Id.↩︎
Qu’est-ce que l’imagination (artificielle)?, op. cit.1:17:00↩︎
F. Migayrou et al., Neurones, les intelligences simulées, Mutation Création, op. cit., p. 222↩︎
Id.↩︎

Le papier de DeepFaceLab montre une méthode d’incrustation du visage par différente méthode : de blend avec la sortie, de conversion de couleur et enfin de sharpen³². Or ces méthodes ne sont pas si différentes d’un photomontage traditionnel : le blend est nommé contour progressif (produit sur Photoshop par l’usage de masques), le traitement des couleurs s’effectue par courbe RVB ou teinte/saturation. Le montage photographique s’affranchit cependant ici d’une expertise humaine. L’effet de sharpen demeure unique à l’exercice du deepfake, car le visage généré par image2image translation présente une « tendance floue » : « […] [the images] are smoothed and lack of minor details³³ ». On retrouve évidemment une caractéristique de la Neural Aesthetic à savoir sa « plasticité liquide³⁴ » induite par les réseaux neuronaux de convolution. La méthode de deepfake utilise une méthode de image2image translation, reposant sur des réseaux génératifs antagonistes.

fig. 8 *HoaxUrbanism* de Casey Rehm (2017)

La notion de deepfake résonne dans certains projets artistiques qui prennent la forme de mise en garde. Par exemple HoaxUrbanism de Casey Rehm (fig.8), une vidéo présentant des paysages générés par des vues satellites : « Dans cette vidéo le paysage est arraché à toute localisation géographique réelle tout en évoquant des images dystopiques de bidonvilles ou de centres urbains densifiés³⁵ ». Rehm fait travailler notre imaginaire sur des structures générées, tout en nous mettant en garde : « Le titre de l’œuvre rappelle l’artificialité des images générées et la prudence avec laquelle elles doivent être considérées³⁶ ».
Ces images, composant la vidéo, ont été ainsi produites par des algorithmes de réseaux de neurones antagonistes. Klingermann dans sa typologie associe une entrée à ces algorithmes : l’espace latent.