Un jour l’intelligence artificielle dominera le Monde. Mais pas aujourd’hui. Aujourd’hui, elle va nous aider à nous brosser les dents. C’est triste, mais c’est la réalité : Oral-B, grand fabricant de brosses à dents électriques devant l’éternel, a sorti un modèle « boosté à l’IA » pour nous accompagner, dans un brossage réellement efficace. Pour 250€ (recharges de brosses non-comprises), nous pouvons enfin choisir de prendre notre destin en main et de devenir le cyborg ultime du brossage de dents. Peut-être est-ce le bon moment de se poser des questions sur notre place sur cette planète en tant qu’espèce… Et de l’intérêt de l’arrivée de l’intelligence artificielle dans nos vies.
Depuis quelques temps déjà, les outils informatiques qu’on appelle les IA ont envahi nos vies. Elles sont présentes dans de nombreux champs de notre vie quotidienne, comme la sécurité des paiements bancaires sur Internet, Google Traduction, les GPS de vos voitures ou encore, pour les plus riches, les voitures semi-autonomes Tesla. Cependant, au fond, peu de gens savent vraiment comment ça marche et, surtout, ce qui ne marche pas. S’en suit une fausse idée de ce qu’une IA sait faire, de ce qu’elle est réellement. Et malheureusement pour nous, elles ne sont ni intelligentes, ni, au fond, vraiment artificielles.
THE GAME IS ON
Dans un programme informatique lambda, la machine suit à la lettre une série d’instructions écrites soigneusement par le programmeur, et ne peut en aucun cas s’éloigner du chemin tracé. Un peu comme dans une recette de cuisine. Dans une machine à café, si vous appuyez sur la touche 6, et que le 6 correspond au café, la machine doit faire couler du café et pas du chocolat. Quand vous supprimez une photo de votre téléphone, vous ne vous attendez pas à ce qu’il décide plutôt de l’envoyer par mail. Il y a des règles à suivre, il les suit.
Dans le cas de l’IA, c’est le contraire. Le problème ressemble à un jeu. En lui donnant le but du jeu, mais sans les règles, on espère qu’elle improvise, découvre les règles par elle-même et arrive à la solution sans qu’on la lui ait soufflée. Pour autant, elle ne part pas complètement les mains vides. Prenons l’exemple de la reconnaissance automatique d’images. Le but du jeu est simple : que la machine reconnaisse un chat quand elle en voit un. Pour ça, on va lui soumettre des images de chats pour qu’elle apprenne à les reconnaître par elle-même puis, une fois qu’on pense qu’elle a compris, on va lui soumettre une image qu’elle n’a jamais vue, et lui demander s’il y a un chat dans le décor. « Je vois des oreilles pointues, une fourrure, quatre pattes, une queue, une truffe. C’est un chat. L’endroit est sûr, vous pouvez rentrer ». Non, c’est un Doberman. Oups.
Pendant longtemps, la reconnaissance d’images ou de sons n’a jamais été le fort des machines. Elles sont balèzes pour traiter des séries de chiffres et faire des opérations complexes, mais n’ont aucune idée ce que veulent dire ces chiffres. Pour elle, une photo de chat, c’est aussi tout un tas de chiffres, sans aucune signification. Et puis au début des années 2010, tout a changé. Subitement, une machine était capables de reconnaître des images avec une précision jamais égalée.
PLUS QUE LA SOMME DES PARTIES
L’idée est basée, d’une part, sur un réseau de neurones artificiels, c’est-à-dire un modèle très schématique des neurones qui constitue le cerveau. Un neurone est une cellule nerveuse qui réagit « l’énergie » qu’elle reçoit dépasse un certain seuil. Et en réagissant, il transfère l’information aux autres neurones auxquels il est connecté, qui eux-mêmes transfèrent des flux à d’autres neurones, et ainsi de suite afin d’aboutir à un traitement de l’information.
L’autre partie du problème, c’est la nature du monde qui nous entoure, dite compositionnelle. Autrement dit, ce dernier est formé d’objets simples qui s’assemblent pour former une architecture plus complexe. À la manière d’un livre qui est composé de caractères qui forment des mots, qui forment à leur tour des phrases puis des paragraphes, une image est composée de pixels, qui forment à leur tour des motifs comme des cercles, ou des angles, qui eux-mêmes s’agencent pour donner une forme, et toutes ces formes donneront un objet.
Dans un monde imaginaire et très simpliste, prenons une série de neurones à qui on va demander de reconnaître un chat. Pour chaque neurone, on va attribuer une caractéristique animale qu’il doit détecter : des oreilles pointues, une fourrure, des griffes, des yeux, des plumes, un bec, le nombre de pattes, des ailes, la forme du museau, etc. Tous ces neurones forment la première couche, qu’on va relier à d’autres neurones, de la seconde couche. Chaque fois qu’un neurone de la première couche voit la caractéristique qu’on lui a attribuée, il s’allume, et transmet l’information aux neurones de la seconde couche.
Grossièrement, la seconde couche va être chargée de trier les informations de la première couche en leur accordant plus ou moins d’importance, seules ou en combinaison avec d’autres. La présence d’un bec ou d’une aile est rédhibitoire, mais quatre pattes et une fourrure ne sont pas des informations en soi suffisantes pour déclarer « ceci est un chat ». Certaines informations seront donc relativisées, comme par exemple la taille des griffes, ou la forme des pupilles. Enfin, toutes ces informations sont transmises au neurone de la dernière couche qui, en additionnant toutes les valeurs, devra déterminer s’il a bien un chat sur l’image.
Malheureusement, dans notre monde réel, c’est très difficile de dire à un neurone artificiel : voici une oreille, ou voici une truffe, repère-les dans cette photo. C’est pourquoi on applique des algorithmes aux neurones de la première couche, pour leur « indiquer » ce qu’ils doivent chercher. Un peu comme un enfant qui cherche Charlie. Plutôt que d’analyser chaque centimètre carré de l’image, il scanne l’image à la recherche des couleurs rouges et blanches, et d’une forme de bonhomme.
L’inconvénient de cette méthode est évident : donner pour chaque objet une liste des caractéristiques de ce qu’on cherche. D’où l’intérêt d’essayer à ce que la machine le fasse toute seule. C’est que les chercheurs ont appelé le Deep Learning, ou apprentissage profond. En empilant plein de couches de neurones suivant une architecture complexe, et en leur donnant des milliers d’images de chats, l’IA va établir elle-même les caractéristiques qui l’intéresse.
La machine sait-elle pour autant ce qu’elle voit ? Bien sûr que non. Elle répond « ceci est chat » parce que toutes les images que vous lui avez transmises portaient l’étiquette « chat ». Mais on aurait tout aussi bien pu mettre l’étiquette « poisson rouge ». Et cette question du sens est cruciale en ce qui concerne les IA.
LE SENS DE LA VIE, L’UNIVERS ET LE RESTE
Tout d’abord parce que l’IA n’a aucune idée de ce qu’est le monde réel, de l’importance du contexte, du concept de détail ou de sujet principal de l’image. Dans son excellent et hilarant livre « You look like a thing and I love you », la chercheuse Janelle Shane (conférence en anglais, mais avec les sous-titres en français) cite des dizaines d’exemples où la machine « pense » avoir atteint son objectif, alors qu’elle est à des années-lumière de ce qu’on lui demande.
Le domaine médical est un exemple criant. Les chercheurs et les médecins rêvent de pouvoir fournir des clichés à des IA pour qu’elles les aident à détecter à coup sûr les signes pathologiques, comme par exemple des cellules cancéreuses. Cela permettrait d’éliminer l’erreur humaine d’un radiologue fatigué qui en est à son cinquantième cliché et qui n’a pas dormi depuis plus de vingt-quatre heure. Sauf que quand on a soumis des images de tumeurs à un IA, celle-ci a effectivement trouvé un moyen infaillible de les détecter : les réglettes que les médecins disposent autour pour les mesurer. Résultat des courses, en situation réelle, l’IA ne voit rien du tout. Vous n’avez pas de règle autour de votre pancréas ? Vous n’avez pas de tumeur. Patient suivant !
Le blog de la chercheuse est également rempli d’histoires d’IA ridicules et parfois poétiques malgré elles. Comme ce réseau de neurones qui, une fois entraîné à établir des recettes de cuisine pour en créer de nouvelles, donne comme pour instruction de « plier l’eau et [de] la couper en cubes », et de rajouter « un poivre ».
Cette question du sens est centrale dans le domaine de l’IA. Au point que certains chercheurs pensent qu’elle ne sera jamais vraiment franchie par les machines. Autrement dit, elle n’accéderont jamais à la signification réelle des choses. Difficile en effet d’expliquer ce qu’est un verre à quelque chose qui n’expérimentera jamais la soif.
LES HEURES SOMBRES
Mais d’autres chercheurs vont encore plus loin en mettant en lumière un autre problème, lié également au sens : celui qu’on donne aux données qu’on utilise pour nourrir les machines. « Les images ne se décrivent pas elles-mêmes », écrivent-ils.
En effet, il n’y a pas d’IA sans apprentissage. Et si les IA sont devenues si populaires ces dernières années, c’est en partie grâce aux bases de données. Grâce à Internet et aux réseaux sociaux, les gens se sont mis à mettre des données en ligne en masse. Des images, des conversations… Du coup, les chercheurs ont pu fournir à leurs réseaux de neurones des milliers de photos de chats, de pommes, de paysages, d’arbres photographiés sous toutes les coutures. Mais pour qu’une IA parvienne correctement à détecter une image de chaise (pour changer des chats), il faut qu’on lui fournisse beaucoup d’images pour lesquelles on est sûr à 100 % qu’elles contiennent chacune une chaise. Or la plupart des images sur le net ne sont pas classées de cette manière. Donc il a fallu étiqueter tout ça. Patiemment, à la main, via des humains. Et ce classement a été fait par des milliers de gens, payés quelques centimes d’euros à la micro-tâche, pour chaque photo labellisée, dans une sorte de prolétariat néo-libéral. Et certaines étiquettes portent des appellations pour le moins… discutables.
En fouillant dans la base de données ImageNet, celle qui a permis l’essor du phénomène, ces chercheurs se sont rendus compte que la catégorie « corps adulte » ne contient que les classes « féminin » et « masculin », et que le terme « hermaphrodite » est classé dans une sous-catégorie à part, intitulée « bisexualité », elle-même classée dans « sensualiste ». Plus grave encore, on trouve des catégories portant un jugement moral comme « raté », « hypocrite », « mauvaise personne », « junkie », voire « servante » (terme classé lui-même dans la catégorie esclave). Catégorie qui comprend des femmes en bikini lavant des voitures.
Les chercheurs écrivent qu’à la décharge d’ImageNet, le but de cette base de données était simplement de nourrir les algorithmes et réseaux de neurones pour la détection d’objets. Pourtant, dans sa conférence TED, la fondatrice d’ImageNet, Fei-Fei Li, ne fait pas mystère de ses ambitions : pouvoir un jour lire et détecter les émotions humaines, et ainsi décrypter les intentions humaines sur la simple base d’une image. Et ce, même si la lecture des émotions sur un visage n’a jamais eu de base scientifique sérieuse. Au-delà des émotions primaires comme la joie ou la colère, l’être humain exprime des émotions très subtiles, qui sont des assemblages complexes, et qui ne s’impriment pas sur le visage de la même manière selon les individus et les cultures – quand elles s’impriment.
Dans le même document, les chercheurs mettent également en lumière une autre base de données de 20 000 visages, et où les images sont étiquetées par genre (seulement deux), par âge et par « race », au sens anglo-saxon, c’est-à-dire par ethnie. Outre le fait de se demander comment on détermine l’âge et le genre d’une personne sur une photo, comment ne pas frémir devant une base de données qui peut être utilisée pour les classifications ethniques basées sur des caractéristiques anthropométriques. On croirait le parfait manuel de l’apartheid. Même si un chercheur bien intentionné base un algorithme sur ces données, il reflètera les biais culturels, racistes et/ou sexistes des personnes qui ont composé la base de données. Et c’est le cas dans tous les domaines où l’IA est appliquée, puisqu’elle n’est rien d’autre que le produit de son apprentissage, et dont on mesure déjà les conséquences : dès qu’on leur présente des visages à la peau sombre, la fiabilité des programmes de reconnaissance faciale chute.
On nous survend les technologies de l’IA comme la résolution de nombre de nos problèmes. Mais par le passé, l’IA a aussi connu des périodes de hype, avant de retomber comme un soufflé parce que finalement, la technique n’était pas à la hauteur des attentes. Si l’automatisation peut prendre le relais sur des tâches répétitives et où les humains sont enclins à l’erreur, on aurait tort de s’en priver. Mais aujourd’hui, dans tout ce barnum médiatique, trop d’entreprises vendent de l’IA là où il n’y en a pas, et où il n’y en aura peut-être jamais. Et tout ça participe à mystifier la machine, à lui prêter des propriétés quasi-magiques, et donc à rendre les gens plus dépendants d’entités qui n’ont aucun compte à leur rendre : Facebook, Google, Amazon… Par nature, on croit que la machine est objective, impartiale, dénuée d’affect. Mais elle n’est jamais plus objective que son concepteur. Pour citer la professeure Melanie Mitchell : « les gens sont inquiets à propos des ordinateurs qui deviennent trop intelligents et qui conquerront un jour le Monde, mais le vrai problème est qu’ils sont trop stupides et qu’ils ont déjà conquis le Monde. »
Awesome post! Keep up the great work! 🙂