L'espace latent (2018-2020)

Traduction : Si je sais à quoi ressemble un chat, mais je ne suis pas le meilleur artiste du monde : je ne suis pas sûr de pouvoir dessiner un chat assez bien S. Riley, Generative Adversarial Networks (GANs) - Computerphile, s. d., 21:20 (en ligne : https://www.youtube.com/watch?v=Sw9r8CL98N0 ; consulté le 10 décembre 2019)1:50↩︎
Plus le système devient performant, plus il se force à devenir meilleur Id.8:00↩︎
Le générateur reçoit de l’aide, lorsque il est bien façonné, vous pouvez utiliser la descente de gradient du discriminateur pour entrainer le générateur Id.12:00↩︎
G. Saint-Cirgue, « Descente de Gradient - Gradient Descent », sur Machine Learnia, 17 juillet 2019 (en ligne : https://machinelearnia.com/descente-de-gradient/ ; consulté le 3 juin 2021)↩︎
S. Proulx, « Heinz von Foerster (1911–2002) », Hermes, La Revue, n° 37, n^o 3, C.N.R.S. Editions, 2003, p. 253-260↩︎

Kligermann définit l’espace latent comme une typologie et un moment à part entière ; il repose sur l’entrainement d’un réseau de neurones antagonistes, ou Generative Adversial Network (GAN). C’est un algorithme particulier, initialement développé par l’ingénieur Ian Goodfellow en 2014 — Klingermann indique que cette méthode est utilisée par les artistes entre 2018 et 2020. Ainsi les réseaux de convolution, capables de classifier des corpus d’images ne permettent pas de produire d’image. Ainsi, comme le souligne Sean Riley : « […] if I know what a cat looks like. But I’m not the greatest artist of the world: I’m not sure that I could draw a decent cat¹ »— par analogie, on comprend donc qu’il existe une très grande différence entre la capacité d’observer un signe et celle d’en produire un, chez l’homme, chez la machine.
Les GAN fonctionnent à l’aide de deux algorithmes distincts, l’un qui discrimine depuis un jeu d’images données et un autre — le générateur, partant de bruit, tente de produire une image pouvant provenir du corpus. Lorsque le générateur produit une image, il l’envoie au discriminateur. Celui-ci la compare au corpus initial et lui renvoie son erreur. Le générateur tente alors de la corriger de proche en proche. Le système discriminant se focalise sur les faiblesses du générateur — « As the system get better it forces itself to get better² ».
« The generator does get help if you set up right, you can use the gradient of the discriminator to train the generator³ », explique Rob Miles. Ainsi, la descente de gradient est donc utilisée dans le modèle pour produire un retour au générateur et qu’il s’autorectifie.
La descente de gradient est un algorithme d’optimisation cherchant des minimaux locaux. Elle sert, en machine learning, à trouver le minimum de la fonction de coût de l’algorithme. C’est grâce à cet algorithme que la machine apprend et trouve les meilleurs paramètres pour le modèle⁴.

Le générateur injecte de l’aléatoire dans le processus, de la même manière que l’outil non maitrisé permet d’appliquer de l’aléatoire sur une toile (cf. boite noire ).
Le bruit d’entrée dans l’algorithme peut être considéré comme une position, ou un vecteur dans un espace multidimensionnel appelé espace latent. Plus encore, une fois entrainé, le modèle produit des images proches suivant des coordonnées proches dans cet espace. L’espace se structure donc partant de bruit, cela suit le principe « d’ordre par le bruit⁵ » — et donc d’auto-organisation, de Heinz von Foerster.

C. Malabou, Métamorphose de l’intelligence, que faire de leur cerveau bleu, op. cit., p. 151↩︎
F. Jely, « Mémoire : L’intelligence artificielle, l’apprentissage et le signe », op. cit. II c. Production par mimétisme depuis un jeu de données — le cas des réseaux antagonistes génératifs↩︎
Muda, Vera Molnar talks about randomness, Zurich, s. d., 2:03 (en ligne : https://www.youtube.com/watch?v=BCZNNZGz5YI ; consulté le 28 juin 2021)↩︎
F. Meyssonnier, « Pierre Huyghe | Zérodeux / 02 », sur Zérodeux, s. d. (en ligne : https://www.zerodeux.fr/reviews/pierre-huyghe-2/ ; consulté le 11 novembre 2019)↩︎
Id.↩︎
S. Galleries, Pierre Huyghe in conversation with Hans Ulrich Obrist, op. cit.45:00↩︎
Qu’est-ce que l’imagination (artificielle)?, op. cit.1:17:00↩︎
Limites et potentiels de l’intelligence artificielle — Forum Vertigo 2020 (2/5), op. cit.39:00↩︎

L’algorithme peut reproduire « […] une œuvre qui n’est ni vraiment programmée ni vraiment aléatoire — comme la machine plastique elle-même⁶ ». On retrouve donc dans le modèle du GAN une intention par le biais de la fonction du discriminateur et celle du hasard, par le biais du générateur — partant de bruit, comme je l’avais indiqué dans mon précédent mémoire⁷.
Vera Molnár explique justement que contrairement à une approche traditionnelle, l’aléatoire se substitue à l’intuition : « […] quand on travaille à l’ordinateur et que l’on est moderne, on dit que l’intuition c’est romantique et que ça ne m’intéresse pas. Mais il y a une chose qui peut remplacer l’intuition, c’est le random⁸ ».

fig. 9 *UUmwelt* de Pierre Huyghe (2018), Serpentine Gallerie

Les traces, involontaires dans beaucoup de ces projets artistiques, deviennent des figures dans Uumwelt (2018) (fig. 9) de Pierre Huyghe exposé à la Serpentine Galleries de Londres. Cette installation reprend donc la Neural Aesthetic dans un système de GAN. L’installation prend la forme dans l’espace d’exposition d’écran LED géant diffusant en continu une image se modifiant constamment. Le système proposé par Huyghe repose sur une expérience scientifique de l’université de Kyoto (du laboratoire Kamitani), où les participants avaient leurs ondes cérébrales sondées lorsqu’ils regardaient une suite d’images. Huyghe a transféré des images au laboratoire suivant trois types d’intelligence dans son travail : l’homme, l’animal, la machine⁹. L’algorithme produit donc une correspondance entre les images et les ondes cérébrales. Ce modèle produit est donc repris dans l’espace de l’installation.
Puis des interférences in situ sont injectées dans l’algorithme et modifient la génération de l’image. Les variations de luminosité, de température, le bruit des mouches volant dans l’espace de l’installation, produisent donc ces interférences. Le titre UUmwelt à savoir UnUmwelt — un non Umwelt fait référence aux Mondes animaux et monde humain de Jakob von Uexkull qui distingue les perceptions des environnements par l’objet du vivant. Ici, les cloisons entre les perceptions sautent : tous les êtres présents dans l’espace d’exposition, humains, animaux (mouches) et artificiels sont sur le même plan — dans la même « bulle de savon¹⁰ ».
Pierre Huyghe définit ces images comme des chimères¹¹.
De la même manière que la Neural Aesthetic, l’image contient une plasticité liquide, plus encore « […] c’est comme si l’image fondait¹² » explique Chatonsky : le mouvement provoque un effet liquide, l’image se liquéfie pour se transformer. Le mouvement exacerbe la liquéfaction de l’image. Pour Mario Klingermann, les GAN produisent de « Strange artefact and uncanny surrealism¹³ ». Le concept de la Uncanny Valley, ou vallée de l’étrange est primordial dans l’usage de ces systèmes génératifs. Il est initialement introduit par le roboticien Mori Masahiro dans les années 1970.

M. Masahiro, « La Vallée de l’Étrange de Mori Masahiro. Importance et impact sur l’esthétique et la conception des robots », K. F. MacDorman, D. Pham et N. Kageki (trad.), e-Phaïstos. Revue d’histoire des techniques / Journal of the history of technology, VII-2, Institut d’histoire moderne et contemporaine (UMR 8066), 3 octobre 2019 (DOI : 10.4000/ephaistos.5333 consulté le 1^er juin 2021)↩︎
Id.↩︎
A. Rouillé, La photographie, op. cit., p. 397↩︎

fig. 10 Schéma de la *Uncanny Valley* de Mori Masahiro

Ce concept met en relation un quotient d’affinité à un être vivant ou à un objet en fonction de sa ressemblance anthropomorphique (fig. 10). Ainsi des mains prothétiques, par leur forte ressemblance aux mains, mais présentant quelques défauts, notre affinité avec les mains prothétiques disparait. Mori Masahiro écrit : « […] une fois que nous nous apercevons que la main qui paraissait si réelle au premier abord est en réalité artificielle, nous sommes saisis d’inquiétude¹⁴ ». Ainsi, plus l’élément est proche de l’anthropomorphique, mais présente des différences, plus ces différences nous provoquent une forme de rejet de l’élément : nous tombons dans le creux de la vallée. Mori Masahiro nous explique ainsi que sa recherche était aussi dans une optique de cartographier ce phénomène :

Via la recherche en robotique, nous devons commencer à établir une carte précise de la vallée de l’étrange qui nous permette de comprendre ce qui fait de nous des êtres humains. Cette carte est aussi nécessaire pour créer – sans forcément poursuivre un design anthropomorphique – des appareils auprès desquels les gens peuvent ressentir de l’affinité¹⁵

Initialement pensée pour un comparatif avec les androïdes, il s’applique aux images de synthèse — aussi bien faite par usage d’IA que par modélisation 3D.
Dans UUmwelt, l’image produite est Uncanny, on ne retrouve pas de réfèrent photographique, l’image produite est tantôt abstraite tantôt quelques formes figuratives semblent émerger.
Rouillé explique ainsi que « Duchamp insiste sur le fait que “l’artiste n’est pas seul à accomplir l’acte de création, car le spectateur […] ajoute sa propre contribution au processus créatif¹⁶ » — Dans UUmwelt on comprend donc que le spectateur fait sa propre interprétation de la projection de l’algorithme, il fait de la paréidolie et entrevoit dans le bruit des pixels des formes qu’il semble identifier.

Traduction : Vous trouvez des choses interéssantes dedans [dans le Big GAN], des créatures bizares, des compositions étranges, c’est à la limite où l’on peut interpréter quelque chose dedans Limites et potentiels de l’intelligence artificielle — Forum Vertigo 2020 (2/5), op. cit.44:00↩︎
Traduction : à la fin, J’ai trouvé quelque chose qui ressemblait à cette fameuse peinture Id.45:00↩︎
R. Barthes, La chambre claire, op. cit., p. 50-51↩︎
J.-P. Changeux, Raison et Plaisir, op. cit., p. 58↩︎

Dans son projet wasteland of biggan (2018), Mario Klingermann utilise un modèle pré entrainé par Google : Biggan. Il a été entrainé sur tout un corpus d’images et donc produit différentes images en fonction de la position dans l’espace latent demandé par Klingermann ; il s’y déplace et commence à écrire une fiction à propos de ce que lui évoquaient les images qu’il rencontrait : « You find interesting stuff there [dans le biggan], weird creatures, strange compositions, it’s on an edge where we interpret something into it¹⁷ ». Puis il finit son périple dans l’espace latent avec cette figure (fig. 11) : « On the end, I ended up in something that looks like this famous painting¹⁸ ».

fig. 11 *Waste Land of Biggan* de Mario Klingermann (2018), disponible sur twitter

Il retrouve donc une peinture « connue », il s’agit de — Le Voyageur contemplant une mer de nuages (1818) de Caspar David Friedrich — c’est une forme de même culturel qui lui permet de s’arrêter et de sélectionner cette image — la composition de celle-ci renvoie à une forme qu’il a déjà vu, le « this famous painting » indique que la forme est connue, qu’on la connait tous sans avoir besoin de la nommer (car « la culture […] est un contrat passé entre les créateurs et les consommateurs¹⁹ »). Il s’agit de même culturel (de mimésis) introduit par Dawkins, que Jean Pierre Changeux définit comme : « […] entités culturelles susceptibles d’être transmises et propagées de manière épigénétique de cerveau à cerveau dans les populations humaines […] leur longévité s’explique par leur stockage dans la mémoire à long terme²⁰ ».

V. Flusser, Pour une philosophie de la photographie, op. cit., p. 53↩︎
F. Jely, « Mémoire : L’intelligence artificielle, l’apprentissage et le signe », op. cit. II b. La quantification des jeux de données pour élaborer des systèmes de signes — le cas du word2vec↩︎
D. Cardon, J.-P. Cointet et A. Mazières, « La revanche des neurones », op. cit., p. 20↩︎
F. Migayrou et al., Neurones, les intelligences simulées, Mutation Création, op. cit., p. 206↩︎
R. Barthes, La chambre claire, op. cit., p. 49↩︎
Ibid., p. 52↩︎
A. Rouillé, La photographie, op. cit., p. 86↩︎

Plus encore, Flusser indique : « Ces images signifient des concepts se trouvant à l’intérieur de programmes, et elles programment la société à un comportement magique et secondaire²¹ » : la photographie est donc une « structure structurante », suivant Pierre Bourdieu — de la même manière que le langage²². D’une façon plus frontale, Jonas Lund avec sa série New Now (2016) utilise ces algorithmes pour analyser ses œuvres antérieures et proposer de nouveaux projets. Donc, la similitude avec l’existant n’est plus un curieux hasard — Klingermann retrouve une forme dans le biggan entrainé avec la base de données imagenet comprenant des millions d’images : (« De 9 298 à 14 millions de données, un tel bouleversement du volume des datasets²³ »), Lund donne des formes caractéristiques à l’algorithme pour obtenir d’autres formes similaires. Ainsi : « La machine-exécutante devient ici machine-décideuse²⁴ », il ne choisit pas la résultante, elle est optimisée à la manière d’un bien de consommation. À l’inverse, Mario Klingermann est dans un rôle de curateur — il ne produit ni les images, c’est un algorithme qui l’effectue, il ne choisit pas non plus la base de données à envoyer à celui-ci, le modèle est pré-entrainé suivant la base de données imagenet. Il infère une sélection en se faisant poindre par le punctum de l’image — comme le définit Roland Barthes : « Le punctum d’une photo c’est ce hasard qui, en elle, me point (mais aussi me meurtrit, me poigne²⁵) ». Mais ici l’objet n’est pas un détail de la photographie — la génération n’étant pas contingente, c’est une projection de ce que voit/ressent Klingermann contrairement à la photographie où « […] c’est toujours quelque chose qui est représenté²⁶ ». De la même manière que les photographies tendent à devenir leur propre monde, « Emportées dans une spirale infernale des médias, les images tendent à l’autonomiser vis-à-vis du monde réel, et à devenir elles-mêmes monde²⁷ »

« Imaginer avec le possible des réseaux de neurones », sur Gregory Chatonsky, s. d. (en ligne : http://chatonsky.net/imager-neurones/ ; consulté le 5 avril 2021)↩︎
A. Masure, « Résister aux boîtes noires. Design et intelligences artificielles », op. cit., p. 43↩︎
P.-D. Huyghe, « Le devenir authentiques des techniques », op. cit.25:00↩︎
Muda, Vera Molnar talks about randomness, op. cit.↩︎
Traduction : Les artistes travaillant avec l’IA ont une grande opportunité de rejeté l’obession du monde de l’art pour le travail avec des images [...] avec l’IA, un artiste peut générer tant d’images distincts Limites et potentiels de l’intelligence artificielle — Forum Vertigo 2020 (2/5), op. cit.1:40:00↩︎

fig. 12 *Infinite skulls* Ronan Barrat, Ronan Barot (2019), huile sur toile, impression UV sur plexiglass. 27 x 44 cm

Chatonsky définit donc ces créations comme monde : « [l’imagination artificielle] est comme une force de propositions à laquelle je m’adapte, à la manière d’un monde qui existe déjà, qui est là. Ce monde est la mémoire de millions d’images qui se mêlent, dont les catégories se métamorphosent pour créer une surréalité d’un genre nouveau²⁸ ».
Les artistes plasticiens Ronan Barrot et Robbie Barrat s’étaient associés en 2019 pour produire infinite skull (2019) (fig. ) à la Avant Galerie Vossen. Elle présente une série de production de vanités produite par Barrot et une série produite par un réseau antagoniste de neurones ayant appris depuis la production de Barrot. Les deux productions dans l’espace de la galerie sont mises côte à côte, rendant indiscernable « l’originale » de la « copie ». L’IA est ici dans un mimétisme de l’existant, elle s’en différencie cependant par les techniques de reproduction : l’impression numérique ne peut pas produire de volume et de matière sur le support contrairement à l’usage du médium de la peinture par Ronan Barrot. « Le phénomène de copie n’est pas forcément inintéressant et traverse toute l’histoire de l’art²⁹ », explique Anthony Masure.
Robbie Barrat doit donc trouver et sélectionner les générations pour qu’il y ait le plus de variations entre elles et qu’elles restent le plus proches du corpus initial.

Pierre-Damen Huyghe écrit par rapport à la culture : « Culture vient du latin collere, […] Collere signifie jardiner, cultiver, c’est-à-dire discriminer, séparer les bonnes et les mauvaises herbes³⁰ » — Lorsque Barrat et Barrot effectuent des sélections dans les générations produites, leur rôle curateur est un « acte de culture » ? Plus encore la métaphore du jardin proposée par Anna Ridler (cf. boite noire ) induit donc que cet acte est inhérent au travail avec IA — il y a une sélection de la base de données et une sélection du modèle entrainé : sélection des itérations des sauvegardes d’entrainement — nommée epochs. Pour Vera Molnár l’usage d’algorithme permet justement d’explorer plus de possibilités :

[…] cela vous montre des milliards de possibilités auxquelles, vous avec votre pauvre imagination vous n’auriez pas pensé […] le hasard a beaucoup d’importance, mais pas à la manière dadaïste, ce n’est pas pour dire que « n’importe quoi peut être l’art », au contraire. C’est pour mieux trouver ce qui me plait³¹.

Ainsi, dans infinite Skull, l’algorithme permet de produire des images auxquelles Ronan Barrot n’aurait pas pensé. Robbie Barrat sélectionne l’image générée et l’imprime numériquement, or la force de l’algorithme est aussi de se distancer des formes traditionnelles : « Artists working with AI have a really great opportunity to reject the art world obsession to work with images […] with AI an artist can generate so many distinct images³² » — la contrainte de l’impression est justement dans une optique comparative avec l’existant. L’usage d’une forme mobile — à l’instar d’UUmwelt — est donc une possible spécificité du modèle génératif.
Ainsi, par un rendu indiscernable du corpus initial, les images produites par Barrat à partir de l’espace latent dépassent la Uncanny Valley.