Alpha fold 2

B. Beaude, Intervention de Boris BEAUDE au Colloque sur L’ intelligence artificielle et l’avenir du travail, Laboratoire d’études des sciences et des techniques (STSlab), Institut des sciences sociales, Université de Lausanne, 22 mars 2018, 31:37 (en ligne : https://www.youtube.com/watch?v=JCP0Pic5WYc ; consulté le 11 décembre 2019)13:30↩︎
M. Triclot, Philosophie des jeux vidéo, Zone, Paris, 2011, p. 46↩︎
Id.↩︎
Id.↩︎
D. Cardon, J.-P. Cointet et A. Mazières, « La revanche des neurones », op. cit., p. 6↩︎

Mario Klingermann ne définit que trois catégories dans sa classification, mais il est intéressant de rapprocher les productions faites par les GAFAM, car avec les laboratoires de recherches, ils sont auteurs des algorithmes et des bases de données.
Deepmind, start-up fondée par le neuroscientifique Demis Hassabism et rachetée par Google, est spécialisé dans la recherche en Machine Learning. Elle conserve dans chacun des objets de recherche une forme de concurrence et de compétition par le jeu.

En effet, après la défaite de Lee Sedol face à Alpha go en 2016, DeepMind entreprend avec alpha zéro de s’attaquer au jeu d’échecs — domaine largement surpassé par les IA depuis la défaite de Kasparov. Boris Beaude précise : « Ils ont généralisé ce modèle pour qu’il fonctionne sur n’importe quels jeux. La machine a atteint le plus haut niveau de jeu en neuf heures d’apprentissage¹ ». Puis avec Alpha Star en 2019, l’entreprise entraine un algorithme à devenir le meilleur joueur au monde de StarCraft II (2010) en le faisant affronter les meilleurs joueurs mondiaux. Dernièrement avec Alpha Fold (2018) puis Alpha Fold 2 (2020), nous ne sommes plus à proprement parler dans une forme de jeu, mais dans une forme plus en retrait qui reprend les mêmes composant. En effet, si l’on se réfère à Roger Caillois, l’entreprise de DeepMind dans ce domaine reprend les six critères qu’il définit
pour qu’une activité soit considérée comme un jeu². Ainsi : « Le jeu est une activité libre », la filiale de Google a choisi de participer au concours. « Une activité séparée, qui se déroule dans un temps et un lieu propre³ » — ici il s’agit d’un concourt, donc bien séparé dans un espace et un temps défini. Les résultats de l’algorithme ne sont pas préalablement définis ce qui confère le statut d’activité incertaine. Il s’agit aussi d’une activité improductive les données produites n’ont pas d’application directe, il s’agit de recherche. La compétition CASP propose une activité réglée, le concours suit une procédure et des règles strictes quant au déroulé de l’évènement. « Le jeu est activité fictive, instituant une réalité seconde par rapport à la vie ordinaire⁴ » — l’algorithme opère bien dans une autre réalité : Dominique Cardon précise que « Les machines prédictives installent un calculateur sur un monde en lui conférant un horizon⁵ ». Le terme de monde instaure bel et bien une distinction entre notre monde et celui de la machine. Alpha fold joue à prédire le réel. Ce système de compétition permet un discours médiatique de la part de Google : à chaque fois, le géant « écrase » la concurrence et montre son hégémonie dans le domaine du deep learning — dont il propose des services de cloud computing avec les Tensor Process Unit (TPU) — puces informatiques dédiées au calcul de machine learning.

Traduction : […] Les algorithmes de machine learning sont constamment en compétition les uns contre les autres, dans des compétitions partout dans le monde pour voir lesquelles ont les meilleures performances pour une base de données définie. Ces bases de données de références deviennent l’alphabet duquel se base une lingua franca. K. Crawford, Atlas of AI, op. cit., p. 97↩︎
D. Louapre, Le repliement des protéines : Résolu par l’intelligence artificielle AlphaFold ?, 2020, 22:39 (en ligne : https://www.youtube.com/watch?v=OGewxRMME8o ; consulté le 26 janvier 2021)3:50↩︎
Id.17:30↩︎
Id.18:00↩︎

Kate Crawford explique ainsi que les principaux acteurs du domaine peuvent ainsi comparer les performances de leurs algorithmes grâce à des sets de données identiques pour tous les groupes de recherche : « […] machine learning algorithms are constantly raced against one another in competitions all over the world to see which ones perform the best with a given dataset. These benchmark datasets become the alphabet on which a lingua franca is based⁶ »
Alpha Fold est un algorithme de résolution d’un problème en science biologique. Dans le vivant, il existe 200 millions de protéines différentes. Elles permettent d’articuler le vivant suivant leurs structures spécifiques. David Louapre indique : « Ce qui permet aux protéines d’agir et de se comporter comme des nanomachines moléculaires […] [c’est qu’elles] se replient sur elles-mêmes pour adopter une forme bien précise⁷ » : ainsi la forme d’une protéine définit sa fonction. Les protéines sont constituées d’une chaine d’acides aminés — une catégorie de molécules organiques — dont leur ordre produit la structure de la protéine.
Les biologistes connaissent la chaine des acides aminés des protéines, mais pas leur structure. Le biologiste John Moult propose le concours CASP (pour Critical Assessment of Structure Prediction) pour proposer des modèles algorithmiques de modélisation automatique de protéines suivant leurs chaines d’acides aminés.

Alpha Fold (2018) puis Alpha Fold 2 (2020) sont des algorithmes proposés par DeepMind lors de ce concours. Ils utilisent des méthodes de machine learning pour produire un modèle capable de prédire la structure d’une protéine. Il ne suffit pas de donner la chaine d’acide aminé encodé en input et la forme de la protéine de l’autre. Le modèle procède par différentes étapes : « AlphaFold découpe le problème en deux étapes : la première essaye de fabriquer ce que l’on appelle une matrice de distance et la seconde tente de reconstituer la forme à partir de cette matrice⁸ ». En effet l’algorithme, « [L’algorithme] essaye de produire une matrice de distance à partir de la séquence⁹ ».

Id.19:00↩︎
N. Smith, « A Better Default Colormap for Matplotlib | SciPy 2015 | Nathaniel Smith and Stéfan van der Walt », 2015 (en ligne : https://www.youtube.com/watch?v=xAoljeRJ3lU&t=308s ; consulté le 5 février 2021)0:44↩︎
J. Drucker, Visualisation. L’interprétation modélisante, Paris, B42, 2020, p. 59↩︎
Ibid., p. 55-56↩︎
M. A. Borkin et al., « Evaluation of artery visualizations for heart disease diagnosis », IEEE transactions on visualization and computer graphics, vol. 17, n^o 12, décembre 2011, p. 2479-2488↩︎

fig. 26 Matrice de distance d’Alpha fold 2 (2020), disponible sur le blog de deepmind

Alpha fold réussi sa prouesse, par la production d’image et d’objets intermédiaires, notamment une carte de distance (fig. 26). Il utilise les outils de data visualisation pour produire une matrice de pixel. Cette matrice est réinterprétée par un modèle de réseaux de neurones par convolution. Ainsi David Louapre indique : « […] et pour orchestrer le tout, DeepMind utilise ces algorithmes de deep learning qui fonctionnent si bien sur les images¹⁰ ». On peut ici questionner l’étrangeté de la démarche, car une data visualisation c’est d’abord une « interface entre les données et notre cerveau¹¹ », donc pourquoi traduire ces données en image pour les donner en input à la machine ?
« Ces images [les data visualisations] sont aux données ce que la “copie” est à “l’idée” dans l’ordre platonicien¹² », explique Johanna Drucker. Ainsi l’algorithme « voit » et cherche un raisonnement depuis une « projection » de l’idée initiale.
Le fait de traduire les données numériques en couleur s’appelle la cartographie couleur ou le colormapping (ou encore cmap). On observe des valeurs du bleu au jaune en passant par le vert. Il s’agit en réalité d’un colormapping de la bibliothèque Matplotlib (en python) ajouté à la version 2.0 dénommé Viridis. C’est le colormapping par défaut.
Ainsi Johanna Drucker précise que Jacques Bertin définit sept variables graphiques dans Sémiologie graphiques « — couleur, forme, tonalité, texture, orientation, position et taille¹³ » : la couleur fait partie intégrante des choix dans l’élaboration d’un système graphique.
Ainsi Nathaniel Smith indique que le colormap jet pose beaucoup de problème de compréhension. L’article Evaluation of Artery Visualization for Heart Disease Diagnosis¹⁴ indique que ce colormapping pour la détection de maladie cardiovasculaire par IRM par les médecins montre qu’avec le jet, ils mettent plus de temps à lire les données et sont plus enclins à se tromper.

N. Smith, « A Better Default Colormap for Matplotlib | SciPy 2015 | Nathaniel Smith and Stéfan van der Walt », op. cit.3:00↩︎
Traduction : +1 pour l’option D de https://bids.github.io/colormap/ car elle contient du vert Id.17:00↩︎
M. Pastoureau et D. Simonnet, Le petit livre des couleurs, Points, Paris, 2014, p. 71↩︎
J. Gage, Couleur & Culture, usages et signification de la couleur de l’Antiquité à l’abstraction, A. Béchard-Léauté et S. Schvalberg (trad.), Thames&Hudson, Londres, 2008, p. 166↩︎
Id.↩︎
M. Pastoureau et D. Simonnet, Le petit livre des couleurs, op. cit., p. 71↩︎

Ici, l’analyse de données n’est plus effectuée par des humains, mais par des algorithmes. Dans sa présentation, Nathaniel Smith explique sa démarche pour produire un système de cmap ainsi il pose les contraintes tel que :

Colorful

Pretty

Sequential

Accurately represent the data (“Perceptually uniform”)

… even if printed in black and white

Accessible to colorblind viewers¹⁵

Donc elle doit contenir une progression chromatique en même temps qu’une progression de valeur. Parmi la multitude de palettes sélectionnées, les internautes ont largement préféré la Viridis, car elle contenait du vert : « +1 for option D of https://bids.github.io/colormap/ because it has green in it¹⁶ », Nathaniel Smith tourne à la dérision le choix et le vote qui repose finalement sur de l’arbitraire. Le terme Viridis désigne un serpent ou un oiseau. Michel Pastoureau explique « […] viridis associe l’énergie, la virilité (vir) et la sève¹⁷ », ce terme proposait donc une relation entre le vert et la végétation. On retrouve cette notation dans d’autres gammes tonales. Ainsi Roger Bacon — savant du XIII^e siècle — la propose dans liber de Sensu et Sensato pour désigner le vert¹⁸.
« On voit également que Bacon était particulièrement hésitant quant à la valeur des jaunes et des bleus¹⁹ » indique John Gage — en effet il décrit plusieurs jaunes et bleu avec par exemple, « flavus », « glaucus », « ceruleus », « pallidus » et « citrinus » pour désigner différents jaunes. Or dans le Viridis de Matplotlib il s’agit bel et bien des deux bornes de la gamme colorée. Il y a donc une complexité historique à définir ces couleurs — Pastoureau explique : « Dans nombre de langues anciennes, on confond le vert, le bleu et le gris en un même terme, la couleur de la mer en somme²⁰ ».

D. Louapre, La fourmi de Langton — Science étonnante #21, s. d., 8:48 (en ligne : https://www.youtube.com/watch?v=qZRYGxF6D3w ; consulté le 4 février 2020)7:50↩︎
Computerphile, Is DeepFake Really All That?, op. cit.10:00↩︎

AlphaFold est un modèle complexe répondant à la volonté de comprendre un système complexe. Cet usage correspond à un domaine de recherche nommée l’Émergence. « Les scientifiques travaillant sur l’Émergence cherchent à créer de nouveaux outils mathématiques et conceptuels pour comprendre ces phénomènes²¹ ».

De la même manière, les deepfakes sont l’objet d’analyses de la part d’autres algorithmes, dont l’usage est de déceler le faux.
Pour le docteur Mike Pound, les systèmes de détection de deepfakes ne règlent que partiellement le problème, car les deepfakes vont se perfectionner techniquement pour surpasser la détection. Cela va pousser à une escalade technique, car pour compenser, les systèmes de détection de deepfakes devront aussi se perfectionner. Pour lui, la solution se trouve peut-être dans la signature numérique, dans la cryptographie²².