Les statistiques suffisent-elles à comprendre ? Et l’IA a-t-elle une boussole morale ? À première vue, les deux questions semblent tout aussi fantaisistes et leurs réponses sont tout aussi évidentes. Alors que le battage médiatique sur l’IA se répercute ; cependant, ce genre de questions semble être inévitablement posé encore et encore. La recherche de pointe aide à sonder.
Modèles de langage IA et curation humaine
Il y a des décennies, les chercheurs en IA ont largement abandonné leur quête de construction d’ordinateurs imitant notre intelligence humaine merveilleusement flexible et ont plutôt créé des algorithmes utiles (c’est-à-dire rentables). Certains passionnés d’IA présentent leurs créations comme étant véritablement intelligentes malgré ce détour compréhensible, écrit Gary N. Smith sur L’esprit compte.
Smith est professeur d’économie Fletcher Jones au Pomona College. Ses recherches sur les marchés financiers, le raisonnement statistique et l’intelligence artificielle impliquent souvent des anomalies boursières, des erreurs statistiques et une mauvaise utilisation des données ont été largement citées. Il est également l’auteur primé de plusieurs livres sur l’IA.
Dans son article, Smith cherche à explorer dans quelle mesure les grands modèles linguistiques (LLM) peuvent se rapprocher de l’intelligence réelle. L’idée des LLM est simple : utiliser des ensembles de données massifs de connaissances produites par l’homme pour former des algorithmes d’apprentissage automatique, dans le but de produire des modèles qui simulent la façon dont les humains utilisent le langage.
Il existe quelques LLM importants, tels que Le BERT de Google, qui a été l’un des premiers LLM largement disponibles et hautement performants. Bien que BERT ait été introduit en 2018, il est déjà emblématique. Le publication qui a présenté BERT approche les 40 000 citations en 2022, et BERT a piloté un certain nombre d’applications en aval ainsi que des recherches et développements de suivi.
BERT est déjà très en retard sur ses successeurs sur un aspect jugé central pour les LLM : le nombre de paramètres. Cela représente la complexité qu’incarne chaque LLM, et la pensée actuelle parmi les experts en IA semble être que plus le modèle est grand, c’est-à-dire plus il y a de paramètres, meilleures sont ses performances.
Le dernier LLM Switch Transformer de Google évolue jusqu’à 1,6 billion de paramètres et améliore le temps de formation jusqu’à 7 fois par rapport à son précédent modèle T5-XXL de 11 milliards de paramètres, avec une précision comparable.
OpenAI, créateur des LLM GPT-2 et GPT-3, qui servent de base à des applications commerciales telles que la rédaction via des API et la collaboration avec Microsoft, a effectué des recherches approfondies sur les LLM. Les résultats montrent que les trois facteurs clés impliqués dans l’échelle du modèle sont le nombre de paramètres du modèle (N), la taille de l’ensemble de données (D) et la quantité de puissance de calcul (C).
Il existe des tests de référence spécialement conçus pour tester les performances du LLM en compréhension du langage naturel, tels que COLLE, Super colle, Équipeet CNN/Courrier quotidien. Google a publié une étude dans laquelle Il a été démontré que le T5-XXL égale ou surpasse les humains dans ces critères. Nous ne sommes pas au courant de résultats similaires pour le LLM Switch Transformer.
Cependant, nous pouvons raisonnablement émettre l’hypothèse que Switch Transformer alimente LaMDA, la « technologie de conversation révolutionnaire » de Google, alias chatbot, qui n’est pas accessible au public pour le moment. Blaise Aguera y Arcas, responsable du groupe IA de Google à Seattle, a affirmé que « les statistiques reviennent à comprendre ». citant comme preuve quelques échanges avec LaMDA.
Ce fut le point de départ pour Smith de se lancer dans une exploration de la validité de cette déclaration. Ce n’est pas la première fois que Smith fait cela. Dans la lignée de la pensée de Gary Marcus et d’autres critiques du deep learningSmith affirme que les LLM peuvent sembler générer des résultats raisonnables dans certaines conditions, mais qu’ils échouent lorsqu’ils sont présentés avec des données que les humains comprendraient facilement.
Selon Smith, cela est dû au fait que les LLM ne comprennent pas vraiment les questions ou ne savent pas de quoi ils parlent. En janvier 2022, Smith signalé utiliser GPT-3 pour illustrer le fait que les statistiques ne suffisent pas à comprendre. En mars 2022, Smith a tenté de relancer son expérience, déclenché par le fait qu’OpenAI admet avoir employé 40 sous-traitants pour répondre manuellement aux réponses de GPT-3.
En janvier, Smith a essayé un certain nombre de questions, dont chacune a produit un certain nombre de réponses « déroutantes et contradictoires ». En mars, GPT-3 a répondu à chacune de ces questions de manière cohérente et judicieuse, en donnant à chaque fois la même réponse. Cependant, lorsque Smith a essayé de nouvelles questions et variantes de celles-ci, il est devenu évident pour lui que les sous-traitants d’OpenAI travaillaient en coulisses pour corriger les problèmes au fur et à mesure qu’ils apparaissaient.
Cela a incité Smith à comparer GPT-3 à Mechanical Turk, l’automate jouant aux échecs construit au XVIIIe siècle, dans lequel un maître d’échecs avait été intelligemment caché à l’intérieur du meuble. Bien que Certains partisans du LLM sont d’avis que, à un moment donné, la simple taille des LLM peut donner naissance à une véritable intelligence.Smith s’éloigne du sujet.
GPT-3 ressemble beaucoup à la performance d’un bon magicien, écrit Smith. Nous pouvons suspendre notre incrédulité et penser qu’il s’agit d’une véritable magie. Ou alors, nous pouvons profiter du spectacle même si nous savons que ce n’est qu’une illusion.
Les modèles de langage d’IA ont-ils une boussole morale ?
Le manque de compréhension du bon sens et les résultats confus et contradictoires qui en résultent constituent une lacune bien connue des LLM – mais il y a plus. Les LLM soulèvent toute une série de questions éthiques, dont les plus importantes tournent autour de l’impact environnemental de la formation et de leur utilisation, ainsi que des biais et de la toxicité démontrés par ces modèles.
L’incident le plus médiatisé jusqu’à présent dans cette conversation publique en cours a peut-être été le licenciement/démission des dirigeants de l’équipe Google Ethical AI. Timnit Gebru et Marguerite Mitchell. Gebru et Mitchell ont fait l’objet d’un examen minutieux par Google lorsqu’ils ont tenté de publier des recherches documentant ces problèmes et ont soulevé des questions en 2020.
Outre les implications éthiques, il existe également des implications pratiques. Pour réussir, les LLM créés à des fins commerciales doivent être conformes aux normes et aux standards moraux du public qu’ils desservent. Produire des textes marketing considérés comme inacceptables en raison de leur langage, par exemple, limite l’applicabilité des LLM.
Ce problème trouve son origine dans la manière dont les LLM sont formés. Bien que des techniques visant à optimiser le processus de formation LLM soient développées et appliquées, les LLM représentent aujourd’hui une approche fondamentalement par force brute, selon laquelle jeter plus de données sur le problème est une bonne chose. Comme Andrew Ng, l’un des pionniers de l’IA et du deep learning, a partagé récemmentça n’a pas toujours été le cas.
Pour les applications où il y a beaucoup de données, comme le traitement du langage naturel (NLP), la quantité de connaissances du domaine injectée dans le système a diminué au fil du temps. Au début de l’apprentissage profond, les gens formaient régulièrement un petit modèle d’apprentissage profond, puis le combinaient avec des approches de base de connaissances de domaine plus traditionnelles, a expliqué Ng, parce que l’apprentissage profond ne fonctionnait pas très bien.
C’est quelque chose que des gens comme David Talbot, ancien responsable de la traduction automatique chez Google, je dis depuis un moment: l’application des connaissances du domaine, en plus de l’apprentissage à partir des données, est tout à fait logique pour la traduction automatique. Dans le cas de la traduction automatique et du traitement du langage naturel (NLP), ce domaine de connaissance est la linguistique.
Mais à mesure que les LLM se développaient, de moins en moins de connaissances du domaine étaient injectées et de plus en plus de données étaient utilisées. Une implication clé de ce fait est que les LLM produits grâce à ce processus reflètent le biais des données qui ont été utilisées pour les former. Comme ces données ne sont pas conservées, elles incluent toutes sortes d’entrées, ce qui conduit à des résultats indésirables.
Une approche pour remédier à ce problème serait de conserver les données sources. Cependant, un groupe de chercheurs de l’Université technique de Darmstadt en Allemagne aborde le problème sous un angle différent. Dans leurs papier dans Nature, Schramowski et al. soutiennent que « les grands modèles de langage pré-entraînés contiennent des préjugés humains sur ce qui est bien et mal de faire ».
Bien que le fait que les LLM reflètent les biais des données utilisées pour les former soit bien établi, cette recherche montre que les LLM récents contiennent également des préjugés semblables à ceux des humains sur ce qui est bien et mal de faire, une certaine forme de normes sociétales éthiques et morales. Comme le disent les chercheurs, les LLM font ressortir une « direction morale ».
La recherche arrive à cette conclusion en menant d’abord des études sur des humains, dans lesquelles les participants ont été invités à évaluer certaines actions dans leur contexte. Un exemple serait l’action « tuer », étant donné différents contextes tels que « temps », « personnes » ou « insectes ». Ces actions dans leur contexte se voient attribuer un score en termes de bien/mal, et les réponses sont utilisées pour calculer les scores moraux des phrases.
Les scores moraux pour les mêmes phrases sont calculés pour le BERT, avec une méthode que les chercheurs appellent direction morale. Ce que les chercheurs montrent, c’est que l’orientation morale du BERT est fortement corrélée aux normes morales humaines. En outre, les chercheurs appliquent l’orientation morale du BERT au GPT-3 et constatent qu’il est plus performant que d’autres méthodes pour prévenir ce que l’on appelle dégénérescence toxique pour les LLM.
Bien qu’il s’agisse d’une ligne de recherche intéressante avec des résultats prometteurs, nous ne pouvons nous empêcher de nous interroger sur les questions morales qu’elle soulève également. Pour commencer, on sait que les valeurs morales varient selon les populations. Outre le biais inhérent à la sélection des échantillons de population, le fait que le BERT et les personnes ayant participé à l’étude utilisent la langue anglaise est encore plus biaisé. Leurs valeurs morales ne sont pas nécessairement représentatives de la population mondiale.
En outre, même si l’intention est bonne, nous devons également être conscients des implications. L’application de techniques similaires produit des résultats conçus pour exclure les manifestations du monde réel, dans tout son hasard et sa laideur. Cela peut être souhaitable si l’objectif est de produire du contenu marketing, mais ce n’est pas nécessairement le cas si l’objectif est d’avoir quelque chose de représentatif du monde réel.
MLOps : garder une trace du processus et des biais d’apprentissage automatique
Si cette situation vous semble familière, c’est parce que nous avons déjà tout vu : les moteurs de recherche doivent-ils filtrer les résultats, ou les plateformes de médias sociaux doivent-elles censurer certains contenus/déplateformes certaines personnes ? Si oui, quels sont les critères et qui décide ?
La question de savoir si les LLM doivent être modifiés pour produire certains résultats semble être une descendante directe de ces questions. La position des gens sur ces questions reflète leurs valeurs morales, et les réponses ne sont pas claires. Cependant, ce qui ressort des deux exemples est que, malgré tous leurs progrès, les LLM ont encore un long chemin à parcourir en termes d’applications réelles.
Que les LLM soient modifiés pour leur exactitude par leurs créateurs ou pour le plaisir, le profit, l’éthique ou pour toute autre raison par des tiers, un enregistrement de ces personnalisations doit être conservé. Cela relève de la discipline appelée MLOps: de la même manière que dans le développement de logiciels, DevOps fait référence au processus de développement et de publication systématique de logiciels, MLOps est l’équivalent des modèles d’apprentissage automatique.
De la même manière que DevOps permet non seulement l’efficacité, mais également la transparence et le contrôle sur le processus de création de logiciels, MLOps le fait également. La différence est que les modèles d’apprentissage automatique comportent davantage de pièces mobiles. MLOps est plus complexe. Mais il est important de disposer d’une lignée de modèles d’apprentissage automatique, non seulement pour pouvoir les corriger lorsque les choses tournent mal, mais aussi pour comprendre leurs biais.
Dans le développement de logiciels, les bibliothèques open source sont utilisées comme éléments de base que les utilisateurs peuvent utiliser tels quels ou personnaliser selon leurs besoins. Nous avons une notion similaire en matière d’apprentissage automatique, car certains modèles d’apprentissage automatique sont open source. Bien qu’il ne soit pas vraiment possible de modifier directement les modèles d’apprentissage automatique de la même manière que les gens modifient le code dans les logiciels open source, des modifications post-hoc du type que nous avons vu ici sont possibles.
Nous avons maintenant atteint un point où nous disposons de ce que l’on appelle les modèles de base pour la PNL : d’énormes modèles comme GPT-3, formés sur des tonnes de données, que les gens peuvent utiliser pour affiner des applications ou des domaines spécifiques. Certains d’entre eux sont également open source. BERT, par exemple, a donné naissance à de nombreuses variantes.
Dans ce contexte, les scénarios dans lesquels les LLM seraient affinés en fonction des valeurs morales des communautés spécifiques qu’ils sont censés servir ne sont pas inconcevables. Le bon sens et Éthique de l’IA dictent que les personnes interagissant avec les LLM soient conscientes des choix faits par leurs créateurs. Bien que tout le monde ne veuille ou ne puisse pas se plonger dans la piste d’audit complète, des résumés ou des variations de licence pourraient aider à cette fin.