1. Traduction : Jusque là, l’esthétique de l’IA était reconnaissable, mais maintenant les modèles sont devenus meilleurs et en haute qualité Id.46:10↩︎

  2. D. Cardon, J.-P. Cointet et A. Mazières, « La revanche des neurones », op. cit., p. 24↩︎

  3. R. Barthes, La chambre claire, op. cit., p. 138-139↩︎

  4. A. Rouillé, La photographie, op. cit., p. 85↩︎

fig. 13 Extrait de « Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks » (2016) — Radford Alec, Metz Luke, Chintala, Soumith

Mario Klingermann indique qu’aujourd’hui avec le perfectionnement des modèles préexistant, certaines productions surmontent la uncanny valley. « So far this AI aesthetic was recognizable, but now models are getting better and in higher quality1 », affirme-t-il. Comment les modèles deviennent-il meilleurs ? Tout d’abord grâce à des bases de données de plus en plus importantes (cf. Latent ) , puis aussi la production de modèles plus complexes. Ainsi Dominique Cardon explique, suivant la formule de Ian Goodfellow : « Le nombre de neurones dans un réseau double tous les 2,4 ans2 ».
Ainsi nous pouvons aisément comparer l’avancée technique de ces modèles génératifs avec la différence de qualité des résultats entre les premiers essais de génération de visage par DCGAN (2016) (fig. 13) avec la production de la recherche « Analyzing and Improving the Image Quality of StyleGAN » (2019) (fig. 14). En l’espace de trois ans, on observe une amélioration drastique de la résolution d’images générées et de leur qualité « photographique ».

fig. 14 Extrait de « Analyzing and Improving the Image Quality of StyleGAN » (2019), Karras Tero et Al.
fig. 15 Le Train arrivant à la Ciotat des Frères Lumières (1896), repris par Denis Shiryaev (2020), plus accessible depuis youtube [Le Huffinton Post avait produit une vidéo]

Les augmentations d’images produites par algorithmes restent des objets d’analyse intéressants : on peut citer les vidéos augmentées du Train arrivant à La Ciotat (1896) des frères Lumière (fig. 15). Denis Shiryaev a utilisé ce matériau comme input dans des modèles upscaling et d’ajout d’image par seconde. L’output présente une résolution en 4k (3 840 × 2 160 pixels) et une cadence à soixante images par seconde.
Denis Shiryaev indique avoir utilisé une source disponible en ligne sur Youtube pour produire sa version. Ainsi, l’input de l’algorithme est déjà différent du document initial : la numérisation a transformé l’image et suite à la mise en ligne qui passe par des codecs vidéo compressifs — H.264 ou HVEC — l’image perd en détail.
Quelles différences avec un agrandissement numérique standard ?
Les agrandissements numériques existaient avant et passent par l’usage d’algorithmes « traditionnels », mais ils peinaient à ne pas laisser de traces : soit l’image apparaissait floue, soit l’agrandissement rendait les pixels visibles. L’augmentation par IA rend donc l’agrandissement computationnel « discret », mais laisse cependant quelques traces.
En effet, on peut observer des aspérités dans les coins, liés au support pellicule, qui — interprété comme faisant partie de l’image par l’algorithme — sont en mouvement, mouvement fluide voir liquide, car interpolé par l’algorithme. Dans la numérisation du document, ces aspérités « sautent » d’une image à l’autre. Le document présente une très forte saccade (vers 0 :41) déjà présente dans le document d’origine, mais d’autant plus marquée ici par la fluidité des mouvements précédents. Par ces images numériques, on veut transférer les qualités esthétiques de la vidéo numérique sur un document analogique. En effet, l’image produite est standardisée par la résolution et par la fréquence — les soixante images par seconde ne provenant pas directement du cinéma, mais des taux de rafraichissement des écrans. Nous retrouvons le noème du « Ça a été » de Barthes : on regarde des images du passé et leurs détails plus fins permettent de mieux apprécier le moment passé. Pour Roland Barthes, la date du cliché reste à l’origine l’objet le plus important d’une photographie : « […] la photo possède une force constative, et que le constatif de la Photographie porte non sur l’objet, mais sur le temps. D’un point de vue phénoménologique, dans la photographie, le pouvoir d’authentification prime sur le pouvoir de représentation3. ». Mais cette valeur du « ça a été » reste réductrice pour André Rouillé :

Le noème du « ça a été » ou « la chose a été là » place en fait la photographie sous une triple autorité : celle d’un passé considéré comme ancien présent, celle de la représentation, et celle des substances. Le « ça » barthésien n’est en effet rien d’autre que la chose matérielle représentée, celle qui est supposée avoir préexisté à l’image […] [Le ça a été] enferme la photographie dans un carcan d’une problématique métaphysique de l’être et de l’existence, et réduit la réalité aux substances4.

  1. E. Morin, Le cinéma ou l’homme imaginaire, op. cit., p. 22↩︎

  2. Id.↩︎

  3. W. Benjamin, L’œuvre d’art à l’époque de sa reproduction mécanisée, op. cit., chap. VII↩︎

  4. E. Morin, Le cinéma ou l’homme imaginaire, op. cit., p. 37↩︎

  5. Id.↩︎

Donc Denis Shiryaev choisit un document se voulant « réel » et « réaliste » : il aurait pu prendre tout autre document, mais il a préféré avoir cette forme « authenticité ». Edgar Morin précise que : « L’engouement inouï suscité par les tournées Lumière n’est pas seulement né de la découverte inconnue […], mais de la vision du monde connu, pas seulement du pittoresque, mais du quotidien5 ». Ainsi il explique que « Lumière […] eut l’intuition géniale de filmer et de projeter en spectacle ce qui n’est pas spectacle : la vie prosaïque, les passants vaquant à leur affaire6 ». L’authenticité conférée à ces documents, s’inscrit dans ce que Benjamin appelait « […] pièces à conviction de l’Histoire7 » lorsqu’il évoquait Atget. De la même manière que comme les photographies et les modèles génératifs, le cinéma tend à s’autonomiser au monde réel (cf. Latent ) . Edgar Morin indique : « Le monde irréel des doubles est une gigantesque image de la vie terre à terre8 ». Puis il existe des passages entre ces deux mondes : « Le monde des images dédouble sans cesse la vie. L’image et le double sont réciproquement modèle l’un de l’autre9 ». On retrouve une volonté de numérisation des archives que Gregory Chatonsky qualifie d’« hypermnésie du bigdata10 » — c’est-à-dire une entreprise folle de l’espèce humaine à stocker tous nos documents pour en produire un monument. Ici, la numérisation transforme le matériau pour qu’il soit conforme au standard de l’enregistrement vidéo numérique (4k, 60fps).

  1. Sonder la « Terre Seconde », de Grégory Chatonsky [Version 6 minute], op. cit.4:00↩︎

  2. W. Benjamin, L’œuvre d’art à l’époque de sa reproduction mécanisée, op. cit., chap. IX↩︎

  3. Durendal, Le Prestige de S1M0NE, op. cit.3:30↩︎

  4. W. Benjamin, L’œuvre d’art à l’époque de sa reproduction mécanisée, op. cit., chap. XVI↩︎

  5. V. Flusser, Pour une philosophie de la photographie, op. cit., p. 9↩︎

  6. Limites et potentiels de l’intelligence artificielle — Forum Vertigo 2020 (2/5), op. cit.1:35:00↩︎

L’image finale est bien résultante de la computation d’une image « réelle », mais elle effectue une forme d’hybridation par une « augmentation », le réseau de convolution repère des motifs dans l’image et les étirent. Le noème du « ça a été » est rompu puisque l’image observée n’est plus vraiment une empreinte du passé.
Le film est lui-même un objet d’étude complexe ; Walter Benjamin indique : « Il est significatif de constater combien leur désir de classer le cinéma parmi les arts pousse ces théoriciens à faire entrer brutalement dans le film des éléments rituels11 » — Le vidéaste Durendal lui-même indique : « Le cinéma c’est de la magie : […] on simule des extérieurs, on crée des vaisseaux spatiaux […] on augmente les décors avec de fausses perspectives12 ». Là où la photographie apparaissait comme peinture — le cinéma se rapproche d’autant plus de la nature —, Benjamin explique : « Il devient ainsi tangible que la nature qui parle à la caméra, est autre que celle qui parle aux yeux13 ». Suivant la théorie flusserienne le rapprochement avec la nature et la dissimulation plus forte de l’origine théorique s’effectue par l’ajout d’une dimension de temps dans la surface signifiante de l’image. Le regardeur doit « […] reconstruire les dimensions qui ont été soumises à l’abstraction14 » — à savoir la profondeur.
L’usage de GAN et de déplacement dans l’espace latent produisent aussi de l’image en mouvement : mais par des effets caractéristiques distincts du réel. Ainsi Ronan Barrot explique : « Ma rencontre avec Robbie [pour infinite skull] m’a poussé dans mes retranchements et ça m’a fait penser autrement la question de la peinture […] est-ce qu’un dessin doit bouger pour être animé15 ? ».

  1. Traduction : Au début des années 2000, J’étais encore beaucoup attiré par les images en mouvements — les films — Et je fus lassé par leur linéarité [...] je me personnellement ennuyé [...] Je voulais en échapper [...] Si l’image animée pouvait [...], s’adapter, réagir, changer, s’auto générer, c’est ce que je cherchais depuis un moment S. Galleries, Pierre Huyghe in conversation with Hans Ulrich Obrist, op. cit.27:00↩︎

  2. Traduction : vous pouvez vous deplacer dedans [...] cet espace est structuré par des règles uniques pour chaque modèle Limites et potentiels de l’intelligence artificielle — Forum Vertigo 2020 (2/5), op. cit.43:00↩︎

  3. C. Malabou, Métamorphose de l’intelligence, que faire de leur cerveau bleu, op. cit., p. 17↩︎

  4. D. Moulon, « Shinseungback Kimyonghun – In the Digital Age », s. d. (en ligne : https://artinthedigitalage.net/blog/2021/03/16/shinseungback-kimyonghun/ ; consulté le 3 juin 2021)↩︎

  5. Traduction : Que ce passe-t-il si quelqu’un est qualifié à tort de membre de gang K. Crawford, Atlas of AI, op. cit., p. 117↩︎

  6. É. Sadin, L’humanité Augmentée, l’administration numérique du monde, op. cit., p. 141↩︎

Pierre Huyghe s’intéresse aux réseaux antagonistes génératifs pour UUmwelt (2018) pour leur gestion d’un mouvement non linéaire : « In the early 2000, I was still very attracted by moving images — films — and I was tired of the linearity of it […] I personally got bored […] I wanted to escape that […] if the moving image could actually […] adapt, react, change, selfgenerate, that was what I was looking for a while16 » — c’est donc pour lui aussi en rupture avec la conception traditionnelle du mouvement et de l’image animée — le mouvement suit un sens plus temporel, mais sémantique. Il détourne des objets scientifiques à des fins de recherches esthétiques ; de la même manière que les frères Bragaglias réutilisant la chronophotographie de Jules Marey. Le déplacement dans l’espace latent modifie la structure de l’image. Plus encore, il existe des chemins dans l’espace permettant de conserver des détails dans l’image — Mario Klingermann explique : « you can travel inside of it […] this space is structured by rule that is unique to each model17 ». La question du visage et de la représentation humaine est aussi passée dans la question du post-Uncanny : ainsi, des algorithmes reposant sur des GAN peuvent augmenter la résolution d’un visage. Pensé à la base pour augmenter des visages photographiques de petites résolutions des internautes ont détourné le modèle pour augmenter des visages en Pixel art, jusqu’à obtenir un rendu photo réaliste (fig. 16). Ainsi des internautes ont obtenu le visage du Doom Guy du jeu vidéo Doom (1993) développé par id. Software.

fig. 16 Doom Guy (1993), transformé par Bomze (2020), disponible sur twitter
Plus qu’une augmentation des détails, il y a une transformation du style : le pixel art étant un style en accord avec la contrainte des moniteurs de l’époque, avec une petite résolution et une palette de couleur affichable limitée. Elle prend en compte des effets optiques pour s’émanciper de ces contraintes : par exemple le dithering pour obtenir artificiellement plus de couleurs en mélangeant deux couleurs par des effets de trames ; à contrario de l’image « moderne » qui comprend un gamut beaucoup plus large. Ainsi les petites images — les inputs voulus — et les pixels art — les inputs des internautes — sont clairement différents : on pourrait alors s’attendre à ce que l’algorithme PULSE (Photo Upsampling via Latent Space Exploration), utilisé ici ne fonctionne pas correctement ; pourtant, la qualité d’abstraction du modèle permet d’utiliser une multiplicité d’entrée. La capacité d’adaptation est ce qui caractérise l’intelligence pour Bergson selon Catherine Malabou : « L’intelligence n’est pas à l’origine une faculté individuelle, mais plus largement une capacité d’adaptation. D’où la détermination à première vue surprenante de l’intelligence comme d’une tendance à l’abstraction18 ».

Ainsi, l’on peut citer le projet Flower (2016-2017) de Shinseungback Kimyonghun, où Shin Seung Back et Kim Yong Hun questionnent la capacité d’abstraction des modèles de reconnaissances d’image (fig. 17) : à partir d’images photographiques de fleurs, reconnues par un algorithme de Google nommée Cloud Vision, ils ont déstructuré l’image « […] de façon à ce que des humains n’y voient plus que des abstractions évoquant possiblement le printemps19 » — alors que la machine, quant à elle, persiste à définir ces images en tant que fleur.

fig. 17 Flower de Shinseungback Kimyonghun 2017, au Gwangju Museum of Art, projection sur écrans (3 à 400 x 225 cm et 3 à 480 x 270 cm)
Mais PULSE montre aussi ses propres limites, avec l’input d’une image d’Obama, l’algorithme en produit un visage blanchit (fig. 18). L’algorithme opère-t-il donc une forme de white washing ?
fig. 18 Pulse Obama de @Chiken3gg (2020), disponible sur twitter
PULSE est entrainé par le biais de la base de données, FFHQ (Flickr face high quality), composée de visages en haute qualité provenant de photos d’internautes extraites du réseaux social Flickr, est-ce que cette sélection de visages est diverse ? Par cette prédiction plus que douteuse on comprend donc la causalité directe entre les données et le modèle. Kate Crawford fait aussi état d’algorithmes basés sur des bases de données comme CalGang, référençant des données liées à la délinquance en Californie. Ces données s’avèrent compromises par beaucoup d’erreurs et d’approximations. Les algorithmes de prédictions se basant sur ces données ont pourtant vu le jour, Kate Crawford explique que l’ingénieur Hau Chan qui travaillait sur un de ces algorithmes a répondu à la question : « What happens when someone is mislabeled as a gang member20 » qu’il n’était qu’un chercheur. Cet exemple démontre ainsi l’absence totale de réflexion éthique autour de ces questions. Plus encore, Éric Sadin traite d’une inversion de l’enjeu rabelaisien, les scientifiques font plus confiance à la technique censée être plus objective et impartiale :

Pour la première fois dans l’Histoire, l’enjeu rabelaisiens visant à soumettre des procédés scientifiques ou techniques à des critère moraux — « science sans conscience n’est que ruine de l’âme » s’inverse de façon inattendue, affectant les artefacts une primauté évaluative au vu de la supposée déficience humaine. Phénomène qui témoigne à la foi désormais accordée à la technique et à pouvoir garantir au mieux le cours de nos existences21

  1. K. Crawford, Atlas of AI, op. cit., p. 69↩︎

  2. F. Soulages, Esthétique de la Photographie, op. cit., p. 14↩︎

  3. Ibid., p. 75↩︎

Kate Crawford parle d’intelligence artificielle « non-artificielle22 », c’est justement par les bases de données qu’il existe une influence humaine ; avec des classifications subjectives et des biais. Penser qu’un algorithme de machine learning puisse être objectif, c’est penser que la base de données l’est tout autant.
En dehors de PULSE, il existe d’autres projets usant de ces technologies pour reconstruire des visages ; par exemple des reconstructions de visage à partir de sculptures antiques.

fig. 19 Tweet de @suckmydick_jack répondant à Alessandro Tomasi (2021), disponible sur twitter
Ainsi Alesandro Tomasi propose une réinterprétation de l’empereur romain Vitellius. L’internaute @suckmydick_jack répond satiriquement : « this is just a guy form New Jersey » (fig. 19); cela fait évidemment référence aux communautés italo-américaines, présente dans l’état du New Jersey et surtout au personnage de Tony Soprano interprété par James Gandolfini dans la série Les Sopranos (1999-2007). Mais est-ce qu’il est pertinent d’utiliser toutes ces technologies pour reproduire un visage ? La réponse satirique faisant référence aux Sopranos n’est pas anodine, le visage est commun voir familier. Il y a un effet anti-spectaculaire dans l’interprétation, après tous ces calculs par des algorithmes complexes, Vitellius n’est qu’un homme. Avant la capacité de computation du visage par des algorithmes, on retrouve des artistes ayant déjà préalablement peint une représentation de Vitellius : par exemple dans le tableau de George Rochegrosse : Vitellius traîné dans les rues de Rome par la populace (1883) ; la capacité d’interprétation et d’imagination surpasse la fonction algorithmique.
Ces projets d’augmentation de visage peuvent être mis en parallèle avec thispersondoesnotexist.com : un générateur de visage par GAN — utilisant le modèle StyleGan2. Le site propose donc de voir des générations en temps réels de visages de personnes générés par IA. Par le portrait, on reprend l’idée d’une photographie domestique : « [la photographie domestique] garantit un véritable double cogito photographique : […] j’ai été photographié ainsi donc j’ai existé ainsi ; […] j’ai été photographié donc j’ai existé23 » explique Soulage. Or ici, on est dans une forme de non-existence, de la même manière que René Magritte écrit « ceci n’est pas une pipe » — mettant en avant le caractère factice d’une reproduction. Mais il y a une différence inhérente dans la perception d’une représentation photographique et le réel.

Le spectateur ne regarde pas une photo comme il regarde le monde. C’est d’ailleurs ce qui fait l’intérêt d’une photo ; elle permet d’apprendre non pas à voir, mais à recevoir autrement une image visuelle. Face à une photo, le spectateur obéit à une autre structure d’attente, quant à la représentation, à la reconnaissance, à la remémoration, à l’émotion, à l’imaginaire, au désir, à la mort24 etc…

  1. Traduction : Chacun à sa propre expérience de vie [...] Quand vous essayez de vous souvenir d’un visage ou même de votre mère, ce n’est pas une image mais une suite de choses dans votre esprit mais jamais fixe ... Puis c’est fixé car vous vous souvenez d’une photo de votre mère plutôt que ... de votre mère S. Galleries, Pierre Huyghe in conversation with Hans Ulrich Obrist, op. cit.46:00↩︎

  2. 1152801, « Slanted Magazine #37—AI », op. cit., p. 46↩︎

  3. R. Barthes, La chambre claire, op. cit., p. 138↩︎

  4. W. Benjamin, L’œuvre d’art à l’époque de sa reproduction mécanisée, op. cit., chap. IV↩︎

  5. Ibid., chap. VII↩︎

  6. A. Rouillé, La photographie, op. cit., p. 74↩︎

Plus encore, l’image photographique fige l’idée de la représentation, Pierre Huyghe, s’intéressant aux neurosciences pour UUmwelt, indique que la représentation s’effectue dans le cerveau de manière sémantique. L’image fige l’idée d’un sujet : « Each one has his own experience in life […] When you tried to remember the face of even your mother, it’s not only an image it’s a set of things in your mind but it’s never fixed …. Eventually it’s fixed because you remember a photo of your mother rather than … your mother25 ».
Avec les GAN et leur espace latent, on se rapproche donc plus de la structure du souvenir avec une sémantique vectorielle que d’une image figée.

fig. 20 Neural Zoo de Sofia Crespo (2020)
Ainsi, Neural Zoo (2020) de Sofia Crespo recompose une nature réarrangée (fig. 20). Ainsi, notre cortex cérébral reconnait les textures, mais le cerveau comprend que les éléments ne sont pas arrangés comme dans la réalité — dans des formes qu’il a l’habitude de voir26.

« […] Les Réalistes, dont je suis, […] ne prennent pas du tout la photo pour « copie » du réel — mais pour une émanation du réel passé : une magie, non un art27 » ainsi Barthes attribue des caractéristiques magiques à la photographie : voir le réel passé. Or pour Benjamin, la photographie est une pratique technique opposée à la valeur rituelle « magique » originelle à l’art : « […] pour la première fois dans l’histoire universelle, l’œuvre d’art s’émancipe de l’existence parasitaire qui lui était impartie dans le cadre du rituel. De plus en plus, l’œuvre d’art reproduite devient reproduction d’une œuvre d’art conçue pour être reproductible28 ». Cependant, la valeur rituelle de l’art dans la photographie se conserve, pour lui, dans un dernier retranchement : la face humaine : « Le culte du souvenir des êtres aimés, absents ou défunts, offre au sens rituel de l’œuvre d’art un dernier refuge29 ».  André Rouillé explique que « [la magie] ne réside pas dans le magicien, ni dans les instruments et les opérations magiques, mais dans une croyance collective du groupe magique lui-même30 ».

  1. W. Benjamin, L’œuvre d’art à l’époque de sa reproduction mécanisée, op. cit., chap. XVI↩︎

  2. A. Rouillé, La photographie, op. cit., p. 77↩︎

  3. E. Morin, Le cinéma ou l’homme imaginaire, op. cit., p. 37↩︎

  4. Ibid., p. 26↩︎

fig. 21 Extrait de la page d’accueil de MydeepHeritageNostalgia (2021)

L’application MyHeritage deep nostalgia (2021) permet à l’utilisateur de « rendre vivante » une photographie qu’il détient. L’usage est évidement de rendre vivant les êtres aimés — l’image de l’être aimé est déjà dans un usage rituel — mais la seconde couche d’animation « injectée » dans l’image la rend donc aussi « […] tangible que la nature31 ».

Comme l’explique André Rouillé, la croyance magique reste proportionnelle au contexte : « La croyance décroit à mesure que l’on va de la famille à la grande presse illustrée, et à l’art contemporain32 ». « L’image détient la qualité magique du double, mais intériorisée, naissante, subjectivisé33 », indique Morin. Si l’on regarde l’exemple affiché (fig.21) sur la homepage de leur site, on remarque une esthétique proche des deepfakes. On reste dans un entre-deux où certains mouvements rendent le visage parfois monstrueux — la représentation se situe donc soit sur le col, soit au-dessus de la Uncanny Valley (cf. Latent ) .
D’un point de vue de ce que l’on voit : c’est une forme hybride entre la photographie source et la production algorithmique, de la même manière que l’augmentation du Train arrivant à La Ciotat (fig. XX). Cette valeur dans la représentation de l’être aimé était autrefois contenue dans d’autres types d’objets. En effet, comme l’indique Edgar Morin, la photographie s’est substituée à ces objets :

La diffusion de la photographie n’a-t-elle pas en partie ranimé les formes archaïques de la dévotion familiale ? Ou plutôt les besoins du culte familial n’ont-ils pas trouvé, dans la photographie, la représentation, la représentation exacte de ce qu’amulettes et objets réalisaient d’une façon imparfaitement symbolique : la présence de l’absence34.

  1. Ibid., p. 40↩︎

  2. Ibid., p. 34-35↩︎

  3. W. Westendorf, L’Egypte ancienne, S. de la Brélie (trad.), Editions Rencontre Lausanne, Laussanne, 1970, p. 234↩︎

  4. Id.↩︎

  5. Id.↩︎

  6. Id.↩︎

  7. S. Riley, Generative Adversarial Networks (GANs) - Computerphile, op. cit.17:30↩︎

fig. 22 Portrait du Fayoum vers 54–68 après JC, 38 x 22.3cm, Metropolitan Museum of Art

Plus encore, « La photographie couvre tout le champ anthropologique qui part du souvenir pour aboutir au fantôme parce qu’elle réalise la conjonction des qualités à la fois parentes et différentes de l’image mentale, du reflet, de l’ombre35 ». Nous pouvons voir ce pouvoir magique dû à l’émanation du réel passé, dans les mystérieux portraits du Fayoum (fig. 22) datant de l’antiquité tardive. Le monde des doubles, dont l’autonomisation des images tend à produire, trouve une origine archaïque dans la religion et la culture comme le souligne Edgar Morin : « Au stade le plus archaïque, le royaume de la mort est un univers des doubles qui calque en tout point l’univers des vivants36 ». Ces portraits sont des portraits hellénistiques romains, datant de l’Empire romain, ce sont des « masques funéraires, en toile, carton ou stuc de l’ancienne Égypte37 ». Ses portraits se retrouvaient donc directement dans les tombeaux des défunts, ils étaient effectués de leur vivant et trahissaient un style hellénistique hérité des populations grecques, puis romaines, ainsi : « Cette image montre ainsi l’ancienne conception égyptienne dans un style gréco-romain38 ». Plus encore, il s’agit d’une hybridation des cultures (cf. Neural aesthetic ) , « [le portrait] témoigne de la tentative entreprise ailleurs aussi, d’associer la civilisation autochtone aux influences récentes pour les fondre en une forme nouvelle39 », hybridation « forcé » par un rapport de force entre Égyptiens et colonisateurs.
« Le visage est dominé par un long nez droit ; les yeux expressifs sont de forme irrégulière, ce qui augmente leur vivacité. Même sans les bijoux précieux portés discrètement, ce portrait exprime la distinction naturelle de la défunte40 ». Les portraits présentent ainsi certaines caractéristiques identiques et les mêmes expressions : un contenu « stéréotypé », régi par des règles définies — se rapprochent des productions « stéréotypé » par GAN où certaines caractéristiques de l’image sont conservées lorsque la génération se déplace selon des chemins précis41.

  1. F. Migayrou et al., Neurones, les intelligences simulées, Mutation Création, op. cit., p. 224↩︎

  2. Traduction : Ridler a collecté dix mille tulipes qu’elle a photographié puis classé à la main pour la base de données. « Mosaic Virus, 2019 », sur ANNA RIDLER, s. d. (en ligne : http://annaridler.com/mosaic-virus ; consulté le 27 février 2021)↩︎

  3. F. Migayrou et al., Neurones, les intelligences simulées, Mutation Création, op. cit., p. 224↩︎

  4. K. Wybe, « La Fleur, Objet de spéculation au XVIIe siècle: La Tulipomanie », s. l., 1996, p. 104↩︎

  5. Ibid., p. 110↩︎

  6. John Green est un écrivain américain, dès 2012 il propose de courtes vidéos éducatives sur la chaîne Youtube Crash Course J. Green, Capitalism and the Dutch East India Company: Crash Course World History 229, 19 mars 2015, 15:39 (en ligne : https://www.youtube.com/watch?v=zPIhMJGWiM8 ; consulté le 27 février 2021)4:30↩︎

  7. Id.4:40↩︎

  8. Id.8:00↩︎

Anna Ridler est une artiste britannique née en 1985 et formée à L’University of the Art de Londres, l’université d’Oxford et le Royal College of Art. Elle s’intéresse aux algorithmes d’intelligence artificielle avec lesquelles elle produit Mosaic Virus (fig. 23) en 2019.
« L’œuvre de Mosaic Virus présente trois tulipes évolutives générées par une intelligence artificielle qu’Anna Ridler a programmée à partir de dix mille photographies de véritables tulipes. L’apparence des fleurs artificielles change selon les variations du bitcoin42 ».
L’algorithme utilisé est un réseau antagoniste génératif : il produit des images suivant un jeu de données préalablement défini par l’artiste.

fig. 23 Mosaïc Virus de Anna Ridler (2019), écran LED
Plus que l’algorithme en lui-même, Anna Ridler s’interroge sur la sélection des corpus d’apprentissage. En effet, la nature des modèles d’algorithmes qu’elle utilise élabore une image à partir d’un corpus d’autres images. La notion d’un système de production absolument et exclusivement artificielle reste erronée. Anna Ridler a elle-même produit un corpus de photographies de tulipes pour nourrir le réseau de neurones : « Ridler collected ten thousand tulips which she then photographed and hand classified for the dataset43 ». Des images qu’elle a elle-même labélisées pour faciliter le travail de la machine.
Elle questionne donc les sources de l’algorithme et décide d’en avoir le contrôle total.
Grâce à cette labélisation, elle peut jauger certains paramètres de l’image — certaines caractéristiques de l’objet généré — selon ses propres critères : « Plus le cours est fort, plus la tulipe portera des stries colorées. Développées par les fleurs à cause du “mosaic virus”, les stries étaient une caractéristique pouvant faire décoller le prix d’une tulipe au XVIIe siècle en Hollande44 ». Le cours du Bitcoin devient donc un input du réseau, il « déplace » (le terme est pertinent s’agissant d’un espace) la génération dans l’espace latent.
Elle dresse donc un parallèle entre le capitalisme et ces productions florales, elle effectue une référence à la tulipomanie à savoir une bulle spéculative autour de la tulipe ayant eu lieu au début du XVIIIe siècle. « Vers la fin du seizième siècle, la tulipe apparait de plus en plus comme une plante singulière et mystérieuse45 ».
Par exemple le prix de la tulipe Switsers est passé de 120 florins le 15 janvier 1637 à 1500 florins le 2 février de la même année46.
Ces prémisses du capitalisme présent aux Pays-Bas à cette époque trouvent un écho dans la fondation de la Compagnie néerlandaise des Indes orientales — ou Vereenigde Ooostindische Compagnie (VOC).
La VOC a donc vu le jour en 1601, après que les États Généraux des Provinces Unies aient convaincu toutes les provinces d’accepter qu’une entreprise ait un monopole sur les échanges en Indes orientales47. La Compagnie est gérée par le HEEREN XVII, une direction composée de 17 membres. La VOC pouvait embaucher n’importe qui et déclarer une guerre.48 Jan Pieterszoon Coen, éminent officier de la VOC, indique qu’il n’y a pas de commerce sans guerre et de guerre sans commerce49.
Cela indique l’état de guerre permanent entre les différentes puissances européennes engagées dans le commerce et entre les populations locales aux conflits, et l’intrication entre commerce et guerre de ce protocapitalisme.

  1. Citation rapportée par John Green, Traduction : Après 1600, les citoyens Néerlandais considéraient comme naturel de détenir une portion de part dans un vaisseau de commerce dans les Baltiques ou dans les iles Malukus Id.7:00↩︎

  2. F. Migayrou et al., Neurones, les intelligences simulées, Mutation Création, op. cit., p. 224↩︎

  3. J.-P. Changeux, Raison et Plaisir, op. cit., p. 45↩︎

  4. D. Cardon, J.-P. Cointet et A. Mazières, « La revanche des neurones », op. cit., p. 25↩︎

  5. F. Jely, « Mémoire : L’intelligence artificielle, l’apprentissage et le signe », op. cit. II b. La quantification des jeux de données pour élaborer des systèmes de signes — le cas du word2vec↩︎

D’après l’historien Willam Bernstein, la tradition d’investir dans les bonds est naturelle pour les citoyens néerlandais : « […] after 1600, Dutch citizens would consider it just as natural to own a fractional share in trading vessels to the Baltic or the Spice Islands50 »

Le bitcoin n’est pas une monnaie de la contreculture, mais inscrite dans le contexte néolibéral, elle constitue une dérégulation de l’appareil d’État en proposant une monnaie virtuelle décentralisée. Elle trouve un écho au sein des mouvances de la Silicon Valley promptes à une totale libéralisation de l’économie au détriment des puissances étatiques. Créé en 2009 par Satoshi Nakamoto — alias d’un individu ou d’un groupe de programmeurs et de hackers —, le bitcoin propose un système de pair-à-pair entre les membres d’un réseau et d’un système de validation appelé la blockchain. Le cours du bitcoin reste très volatil à cause de sa valeur spéculative. Ridler dresse donc un parallèle entre sa valeur fluctuante et celle des tulipes au XVIIe siècle.
Son projet prend la forme des natures mortes du siècle d’or hollandais « […] dont la caractéristique est, comme ici, de montrer un assemblage de fleurs fantasmées ou comme les appelle l’artiste d’“impossibilité botanique51” ». Il est intéressant de noter que l’impossibilité botanique est le fruit de l’algorithme. En effet, le corpus de travail de l’algorithme est composé de photographies — donc d’une empreinte d’objet réel. Or s’il produit des « impossibilités botaniques », c’est lors du traitement computationnel que l’image devient « fantasmée ». Mosaic Virus est dans une logique formelle Post-Uncanny, les artefacts de convolutions restent minimes. Mais aussi, pas tout à fait, car il n’y pas de représentation du corps, ou de visage — définissant la uncanny valley.
Contrairement aux projets de Klingermann (waste land of biggan) et Barrat (infinite skull), elle ne cherche pas une image dans un dédale de possible, mais l’élaboration d’un jeu de données et sa labélisation produit un modèle avec un espace latent structuré. La structure de l’espace répond à la structure sémantique de l’image. Le système est complètement indépendant, elle n’a pas le rôle de curatrice à l’instar d’UUmwelt.

Plus encore cette labélisation produit une structuration de l’idée de la représentation proche de celle produite dans le cortex cérébral : « Le cortex frontal effectue des opérations à la “seconde puissance”, suivant le terme de Piaget, ou encore, si l’on suit Kant, réalise la synthèse des concepts produits par l’entendement52 », explique Jean-Pierre Changeux. Pierre Huyghe aussi exprime la même idée — une décomposition sémantique de chose, plutôt qu’une image mentale dans la confection de souvenir ce qui opère dans UUmwelt comme système déstructuré.
Cette volonté sémantique produit par la structuration de l’espace latent, est une volonté dans les paradigmes de machine learning. « Si l’analyse automatique de la langue a été pionnière pour “plonger” des mots dans un espace vectoriel, on assiste aujourd’hui à une généralisation de la procédure de plongement (embedding) qui s’étend progressivement à tous les domaines applicatifs53 », indique Dominique Cardon.

On retrouve une forme déjà explorée dans mon mémoire précédent avec l’algorithme de word2vec ; l’embedding vectoriel des mots et images propose une forme de signe saussurien dans l’assemblage des images acoustiques (images ou mots) à des concepts — sous forme de données (vecteurs). Nous avions vu alors — dans le cas du word2vec — que cette méthode s’avérait limitée, car elle partait des mots pour arriver au concept ; elle partait des contextes pour arriver au concept dans une forme de raisonnement inductif/déductif54.

  1. D. Louapre, Le deep learning — Science étonnante #27, op. cit.14:00↩︎

  2. « DALL·E: Creating Images from Text », sur OpenAI, 5 janvier 2021 (en ligne : https://openai.com/blog/dall-e/ ; consulté le 29 avril 2021)↩︎

  3. F. Migayrou et al., Neurones, les intelligences simulées, Mutation Création, op. cit., p. 208↩︎

  4. 1152801, « Slanted Magazine #37—AI », op. cit., p. 54↩︎

  5. « Vadim Epstein », sur AI Art Gallery, 11 décembre 2020 (en ligne : http://www.aiartonline.com/highlights-2020/vadim-epstein/ ; consulté le 30 juin 2021)↩︎

  6. F. Migayrou et al., Neurones, les intelligences simulées, Mutation Création, op. cit., p. 224↩︎

  7. Traduction : La collecte de données est entrainée par le cycle perpétuel de l’accumulation du capital K. Crawford, Atlas of AI, op. cit., p. 114↩︎

La méthode ganiste procède avec une méthode différente : par la labélisation des images, le « sens » lui est inféré par le dataset et donc par l’homme. L’algorithme décompose l’image en parcelles de signes (convolution) qu’il associe au label. Il associe donc la labélisation à des structures caractéristiques de l’image. Ainsi David Louapre explique, dans le cadre des réseaux de convolution que « Si on a réussi à entrainer le réseau correctement, on se rend compte que les couches supérieures contiennent les caractéristiques essentielles de l’image […] l’algorithme les a fabriqués lui-même, il les a découvertes55 ». Plus encore la mise en vecteur du monde permet encore plus de relation entre textes images et sons ; avec DALLE•E (2021) (issu de GPT-3), les ingénieurs sont capables de demander des images à l’algorithme suivant une chaine de caractères. Il en décompose le sens par embedding et recompose une image par les vecteurs associés. Ainsi, on retrouve une forme de synesthésie. Les formes produites (fig. 24) évoquent directement le surréalisme, par association d’idées « l’escargot harpe », ils lui ont initialement écrit : « a snail made of harp, a snail with the texture of a harp56 » — dans la même optique qu’Infinite Skulls ou Wasteland of Biggan,les multiples productions doivent être triées par un humain.

fig. 24 Usage de GPT-3 (DALL_E), publié sur le blog d’Open AI
Puis on voit dans ces formes psychédéliques, hallucinatoires, une reprise de deepdream, ce n’est cependant plus une forme de filtre — ajouté à l’image ; mais une image « nouvelle » produite de toute pièce par l’algorithme. Par la mise en vecteur des images, des mots, des sons, nous comprenons qu’un algorithme peut passer de l’un à l’autre, faire des transferts grâce à cette « horizontalité » des médias.

Cette capacité algorithmique peut s’approcher d’une forme de synesthésie. Dont Daito Manabe questionne la forme dans dissonnant imaginary (2018). Il s’est associé avec le laboratoire Kamitani de Kyoto — pour travailler avec les images cérébrales, prenant la même ressource expérimentale que Pierre Huyghe pour UUmwelt.

Daito Manade s’est associé au laboratoire Kamitani […] pour créer dissonant imaginary [2018], une vidéo de seize minutes montrant comment le cerveau construit des images mentales lorsqu’il est stimulé par des sons. Ciblée sur une activité précise du cerveau, l’œuvre entend affiner l’imagerie proposée par l’électroencéphalogramme dont la spécificité est de capter l’activité cérébrale à l’aide d’une imagerie par résonance magnétique fonctionnelle57

Formellement assez similaire à UUmwelt par cette base scientifique dont tous deux héritent pour leurs projets, Manabe provoque une synesthésie entre son, image et ondes cérébrales.
Le modèle pré entrainé par l’université effectue une correspondance entre une image et sa réponse neuronale. Puis Manabe envoie des sons au sujet, puis par leurs images cérébrales qui représentent ce qu’il pense du son, l’algorithme produit une image (par le modèle pré entrainé de l’université). On retrouve donc cette synesthésie dans le passage sur signal à travers différents supports, en sons, en ondes puis en images et sur différents dispositifs, humain, machine et algorithmique.

Vadim Epstein avec Terminal Blink (2020) propose une production vidéo utilisant plusieurs algorithmes produisant un pipeline créatif. Ainsi il commence par une génération de visage qu’il considère comme le sujet par excellence en Computer Vision. Il utilise le même modèle entrainé que celui de thispersonndoesnotexist. Puis il applique un style architectural Bauhaus aux images par l’usage d’un algorithme de StarGAN2, réduisant ainsi leur identité — et met donc en exergue une géométrie du visage. Le résultat présenté dans sa vidéo (fig. XX) montre une transformation radicale de l’image à travers ces algorithmes. Vadim Epstein propose un traitement de la Computer Vision par la notion de l’aperçu que par la vue58. L’usage du StarGan2 pour associer l’image à un style particulier n’est pas un transfert de style — la représentation est largement revisitée par l’algorithme59.

fig. 25 Terminal Blink de Vadim Epstein (2020)
« [Mosaïc Virus] résonne aussi comme des vanitas qui remémore le caractère éphémère de toute chose — d’une fleur comme d’une bulle spéculative60 ». Ainsi, Ridler lie intrinsèquement le capitalisme boursier et l’intelligence artificielle — l’englobant dans la société capitaliste. La donnée elle-même est une forme de capital, comme l’indique Kate Crawford, s’appuyant sur le sociologue Jathan Sadowski : « Data collection is thus driven by the perpetual cycle of capital accumulation61 ».

  1. Traduction : Extraction de masse de données est la « nouvelle limite d’accumulation dans la nouvelle étape du capitalisme » suggère Sadowski Id.↩︎

  2. Limites et potentiels de l’intelligence artificielle — Forum Vertigo 2020 (2/5), op. cit.1:39:00↩︎

  3. « Edmond De Belamy – Obvious », s. d. (en ligne : https://obvious-art.com/portfolio/edmond-de-belamy/ ; consulté le 17 mars 2021)↩︎

  4. P.-D. Huyghe, « Le devenir authentiques des techniques », op. cit.17:00↩︎

  5. M. Frizot et R. Delpire, Histoire de voir: De l’invention à l’art photographique (1839-1880), op. cit., p. 74↩︎

  6. A. Masure, « Résister aux boîtes noires. Design et intelligences artificielles », op. cit., p. 35↩︎

  7. Ibid., p. 41↩︎

  8. Id.↩︎

  9. H. Poulain, « Algocratie : L’inégalité programmée - #DATAGUEULE 84 », dans l’émission Data gueule, no 84, 2018, 11:07 (en ligne : https://www.youtube.com/watch?v=oJHfUv9RIY0 ; consulté le 16 décembre 2019)6:00↩︎

Les algorithmes de machine learning ont en effet besoin de ce carburant des données pour fonctionner. Les données sont donc primordiales dans des systèmes reposant de plus en plus sur des algorithmes. Crawford ajoute : « Mass data extraction is the “new frontier of accumulation in next step of capitalism”, Sadowski suggests62 ».
Pour Jonas Lund : L’IA est intégrée dans le système : « if you think of the use of artificial intelligence as counterculture/counterart […] It is already embedded in this whole system63 ». Le collectif Obvious est complètement dans le système, il s’intègre parfaitement au marché de l’art ; la pièce a été vendue pour 432 500 dollars64. On n’est pas dans une rupture comme le fut l’essor photographique où « L’avantage économique allait indéniablement du côté de la nouveauté65 » — il ne s’agit plus d’une copie moins onéreuse que l’existant comme le fut la photographie à ses débuts comme « Correspondant à un gout naturel du public pour “sa triviale image” (Baudelaire), le portrait carte connait un engouement qui atteint les couches sociales modestes66 ».

L’intelligence artificielle produit un effet similaire non pas en art, mais en design comme le souligne Anthony Masure : « Bien que ces “ersatz” ne soient pas très intéressants esthétiquement (car rapidement stéréotypés) et socialement (car déconnectés d’une expertise des usages), ceux-ci se révèlent économiquement puissants, car ils court-circuitent le contre-pouvoir du design67 ». Des algorithmes comme U2net (2020) permettant d’automatiser les détourages d’objet dans une image commencent ainsi à apparaitre dans diverses applications. On comprend directement l’intérêt que cela suscite : déléguer une tache répétitive et technique à la machine. Pour un graphiste, cela représente moins d’heures de travail sur cette opération. Pour une agence, cela permettra de réduire le nombre d’effectifs.

On peut citer le projet de Cyril Diagne permettant, à l’aide d’un téléphone de détourer automatiquement les objets pris en photo pour les intégrer dans une maquette. Il est aussi très intéressant de noter que le calcul du masque est effectué directement sur le téléphone : le modèle est pertinent et performant.
Masure définit donc trois contre-pouvoirs du design face à cette montée de production de IA : responsabiliser l’injonction à l’efficacité, désautomatiser le design et déjouer l’esthétique inauthentique. Le caractère opaque des boites noires interroge « la notion de responsabilité, et donc de neutralité68 » plus encore, Masure questionne : « Le fait que les intelligences artificielles soient majoritairement issues de grandes firmes néolibérales jette un sérieux doute sur leur capacité à œuvrer pour le bien commun69 ».
Ainsi pour Soline Ledesert — journaliste et webdesigneuse indépendante, c’est le capitalisme qui finance les algorithmes par l’intermédiaire : des GAFAM, d’IBM et des BATX, soit Google Amazon Facebook Apple Microsoft IBM Baidu Alibaba Tencent Xiaomi70.