Votre entreprise envisage-t-elle de lancer un chatbot IA, similaire au ChatGPT d’OpenAI ou au Bard de Google ? Cela signifie offrir au grand public une zone de texte de forme libre pour interagir avec votre modèle d’IA.
Cela n’a pas l’air si mal, n’est-ce pas ? Voici le problème : pour chacun de vos utilisateurs qui a lu un article « Voici comment ChatGPT et Midjourney peuvent faire la moitié de mon travail », il y en a peut-être au moins un qui a lu une offre « Voici comment amener les chatbots IA à faire quelque chose. infâme. » Ils publient des captures d’écran sous forme de trophées sur les réseaux sociaux ; vous devez vous démener pour combler la faille qu’ils ont exploitée.
Bienvenue dans le nouveau cauchemar de la gestion des risques liés à l’IA de votre entreprise.
Donc que fais-tu? Je vais partager quelques idées d’atténuation. Mais d’abord, approfondissons le problème.
Les vieux problèmes sont à nouveau nouveaux
La combinaison zone de texte et bouton d’envoi existe sur presque tous les sites Web. Il en est ainsi depuis la création du formulaire Web, il y a environ trente ans. Alors, qu’y a-t-il de si effrayant à mettre en place une zone de texte pour que les gens puissent interagir avec votre chatbot ?
Ces formulaires Web des années 1990 ne démontrent que trop bien le problème. Lorsqu’une personne cliquait sur « envoyer », le site Web transmettait les données du formulaire via un code backend pour les traiter, envoyant ainsi un e-mail, créant une commande ou stockant un enregistrement dans une base de données. Ce code était cependant trop fiable. Les acteurs malveillants ont déterminé qu’ils pouvaient créer des entrées intelligentes pour les inciter à faire quelque chose de inattendu, comme exposer des enregistrements de bases de données sensibles ou supprimer des informations. (Les attaques les plus populaires étaient les scripts intersites et Injection SQLce dernier étant mieux expliqué dans l’histoire des «Petites Tables Bobby».)
Avec un chatbot, le formulaire Web transmet la saisie de texte libre d’un utilisateur final (une « invite » ou une demande d’action) à un modèle d’IA génératif. Ce modèle crée les images ou le texte de réponse en interprétant l’invite, puis en rejouant (une variation probabiliste de) les modèles qu’il a découverts dans ses données d’entraînement.
Cela conduit à trois problèmes :
- Par défaut, ce modèle sous-jacent répondra à n’importe quelle invite. Ce qui signifie que votre chatbot est en fait une personne naïve qui a accès à toutes les informations de l’ensemble de données de formation. Une cible plutôt juteuse, en fait. De la même manière que les mauvais acteurs utilisent l’ingénierie sociale pour tromper les humains qui gardent des secrets, les invites intelligentes constituent une forme d’ingénierie sociale pour votre chatbot. Ce genre de injection rapide peut lui faire dire des choses désagréables. Ou révèle une recette de napalm. Ou divulguer des détails sensibles. C’est alors à vous de filtrer les entrées du bot.
- La gamme d’entrées potentiellement dangereuses du chatbot s’étend à « n’importe quel flux de langage humain ». Il se trouve que cela décrit également tous entrées possibles du chatbot. Avec une attaque par injection SQL, vous pouvez « échapper » certains caractères afin que la base de données ne leur accorde pas de traitement spécial. Il n’existe actuellement aucun moyen équivalent et simple de sécuriser les entrées d’un chatbot. (Demandez à tous ceux qui ont modéré du contenu sur des plateformes de médias sociaux : filtrer des termes spécifiques ne vous mènera pas loin et entraînera également de nombreux faux positifs.)
- Le modèle n’est pas déterministe. Chaque invocation d’un chatbot IA est un voyage probabiliste à travers ses données de formation. Une invite peut renvoyer des réponses différentes à chaque fois qu’elle est utilisée. La même idée, formulée différemment, peut amener le robot sur une voie complètement différente. La bonne invite peut amener le chatbot à révéler des informations dont vous ignoriez même la présence. Et lorsque cela se produit, on ne peut pas vraiment expliquer comment on est parvenu à cette conclusion.
Alors pourquoi n’avons-nous pas constaté ces problèmes avec d’autres types de modèles d’IA ? Parce que la plupart d’entre eux ont été déployés de telle manière qu’ils communiquent uniquement avec des systèmes internes fiables. Ou bien leurs entrées traversent des couches d’indirection qui structurent et limitent leur forme. Les modèles qui acceptent des entrées numériques, par exemple, peuvent se trouver derrière un filtre qui autorise uniquement la plage de valeurs observées dans les données d’entraînement.
Que pouvez-vous faire?
Avant d’abandonner votre rêve de lancer un chatbot IA, rappelez-vous : aucun risque, aucune récompense.
L’idée centrale de la gestion des risques est qu’on ne gagne pas en disant « non » à tout. Vous gagnez en comprenant les problèmes potentiels à venir, puis en trouvant comment les éviter. Cette approche réduit vos risques de perte à la baisse tout en vous laissant ouvert au gain potentiel à la hausse.
J’ai déjà décrit les risques liés au déploiement par votre entreprise d’un chatbot IA. Les récompenses incluent des améliorations de vos produits et services, ou un service client rationalisé, etc. Vous pourriez même bénéficier d’un coup de pouce publicitaire, car presque tous les autres articles de nos jours traitent de la manière dont les entreprises utilisent les chatbots.
Parlons donc de quelques façons de gérer ce risque et de vous positionner pour une récompense. (Ou, du moins, positionnez-vous pour limiter vos pertes.)
Faire connaitre: La première chose que vous voudrez faire est de faire savoir aux membres de l’entreprise ce que vous faites. Il est tentant de garder vos projets secrets (personne n’aime qu’on lui dise de ralentir ou de changer de cap sur son projet spécial), mais il y a plusieurs personnes dans votre entreprise qui peuvent vous aider à éviter les ennuis. Et ils peuvent faire bien plus pour vous s’ils connaissent le chatbot bien avant sa sortie.
Le Chief Information Security Officer (CISO) et le Chief Risk Officer de votre entreprise auront certainement des idées. Tout comme votre équipe juridique. Et peut-être même votre directeur financier, votre équipe de relations publiques et votre responsable des ressources humaines, s’ils ont traversé des mers agitées dans le passé.
Définir des conditions de service (TOS) claires et une politique d’utilisation acceptable (AUP) : Que faites-vous des invites que les gens saisissent dans cette zone de texte ? Les fournissez-vous parfois aux forces de l’ordre ou à d’autres parties pour analyse, ou les réinjectez-vous dans votre modèle pour des mises à jour ? Quelles garanties donnez-vous ou non sur la qualité des résultats et sur la manière dont les gens les utilisent ? Mettre les conditions d’utilisation de votre chatbot au premier plan permettra aux gens de savoir à quoi s’attendre avant ils saisissent des informations personnelles sensibles ou même informations confidentielles sur l’entreprise. De même, une AUP expliquera quels types d’invites sont autorisés.
(Attention, ces documents vous épargneront devant un tribunal en cas de problème. Ils pourraient ne pas tenir aussi bien devant le tribunal de l’opinion publique, car les gens vous accuseront d’avoir enfoui les détails importants dans les petits caractères. . Vous souhaiterez inclure des avertissements en langage clair dans votre inscription et autour de la zone de saisie de l’invite afin que les gens sachent à quoi s’attendre.)
Préparez-vous à investir dans la défense : Vous avez alloué un budget pour former et déployer le chatbot, bien sûr. Combien avez-vous mis de côté pour tenir les attaquants à distance ? Si la réponse est proche de « zéro », c’est-à-dire si vous supposez que personne ne tentera de vous faire du mal, vous vous préparez à une mauvaise surprise. Au strict minimum, vous aurez besoin de membres d’équipe supplémentaires pour établir des défenses entre la zone de texte dans laquelle les gens saisissent les invites et le modèle d’IA générative du chatbot. Cela nous amène à l’étape suivante.
Gardez un œil sur le modèle : Les lecteurs de longue date connaîtront mon slogan : « Ne laissez jamais les machines fonctionner sans surveillance ». Un modèle d’IA n’est pas conscient de lui-même, il ne sait donc pas quand il dépasse ses limites. C’est à vous de filtrer les mauvaises entrées avant qu’elles n’induisent un mauvais comportement du modèle.
Vous devrez également examiner des échantillons d’invites fournies par les utilisateurs finaux (il y a votre appel TOS) et les résultats renvoyés par le modèle d’IA de support. C’est une façon de combler les petites fissures avant que le barrage n’éclate. Un pic dans une certaine invite, par exemple, pourrait impliquer que quelqu’un a trouvé une faiblesse et l’a partagée avec d’autres.
Soyez votre propre adversaire : Puisque des acteurs extérieurs tenteront de briser le chatbot, pourquoi ne pas essayer quelques initiés ? Les exercices de l’équipe rouge peuvent révéler les faiblesses du système alors qu’il est encore en cours de développement.
Cela peut ressembler à une invitation pour vos coéquipiers à attaquer votre travail. C’est parce que c’est. Mieux vaut qu’un attaquant « amical » découvre les problèmes avant qu’un étranger ne le fasse, non ?
Affinez le champ d’audience : Un chatbot ouvert à un ensemble très spécifique d’utilisateurs, par exemple « des médecins agréés qui doivent prouver leur identité pour s’inscrire et qui utilisent 2FA pour se connecter au service », sera plus difficile d’accès pour les attaquants aléatoires. (Pas impossible, mais certainement plus dur.) Il devrait également y avoir moins de tentatives de piratage de la part des utilisateurs enregistrés, car ils ne recherchent pas une balade ; ils utilisent l’outil pour effectuer un travail spécifique.
Créez le modèle à partir de zéro (pour restreindre la portée des données d’entraînement) : Vous pourrez peut-être étendre un modèle d’IA à usage général existant avec vos propres données (grâce à une technique de ML appelée apprentissage par transfert). Cette approche réduira votre délai de mise sur le marché, mais vous laissera également vous demander ce qui se trouvait dans les données de formation d’origine. Construire votre propre modèle à partir de zéro vous donne un contrôle total sur les données d’entraînement et, par conséquent, une influence supplémentaire (mais pas un « contrôle ») sur les résultats du chatbot.
Cela met en évidence une valeur ajoutée dans la formation sur un ensemble de données spécifique à un domaine : il est peu probable que quiconque puisse, par exemple, tromper le chatbot sur le thème de la finance BloombergGPT à révéler la recette secrète du Coca-Cola ou les instructions pour acquérir des substances illicites. Le modèle ne peut pas révéler ce qu’il ne sait pas.
Former votre propre modèle à partir de zéro est, certes, une option extrême. À l’heure actuelle, cette approche nécessite une combinaison d’expertise technique et de ressources informatiques hors de portée de la plupart des entreprises. Mais si vous souhaitez déployer un chatbot personnalisé et êtes très sensible au risque de réputation, cette option vaut le détour.
Ralentir: Les entreprises cèdent à la pression des conseils d’administration, des actionnaires et parfois des parties prenantes internes pour lancer un chatbot IA. C’est le moment de leur rappeler qu’un chatbot en panne sorti ce matin peut être un cauchemar de relations publiques avant l’heure du déjeuner. Pourquoi ne pas prendre plus de temps pour tester les problèmes ?
En avant
Grâce à ses entrées et sorties de forme libre, un chatbot basé sur l’IA vous expose à des risques supplémentaires au-delà de l’utilisation d’autres types de modèles d’IA. Les personnes qui s’ennuient, qui sont espiègles ou qui recherchent la gloire essaieront de briser votre chatbot juste pour voir si elles le peuvent. (Les chatbots sont très tentants en ce moment parce qu’ils sont nouveaux, et « le chatbot d’entreprise dit des choses bizarres » constitue un trophée particulièrement humoristique à partager sur les réseaux sociaux.)
En évaluant les risques et en développant de manière proactive des stratégies d’atténuation, vous pouvez réduire les chances que les attaquants convainquent votre chatbot de leur accorder le droit de se vanter.
J’insiste ici sur le terme « réduire ». Comme votre RSSI vous le dira, il n’existe pas de système « 100 % sécurisé ». Ce que vous voulez faire, c’est fermer l’accès facile aux amateurs et au moins donner un défi aux professionnels aguerris.
Un grand merci à Chris Butler et Michael S.Manley pour avoir révisé (et amélioré considérablement) les premières versions de cet article. Toutes les aspérités qui restent sont les miennes.