Accueil La cyber-sécurité Critères de récompense de Google pour signaler des bugs dans les produits d’IA

Critères de récompense de Google pour signaler des bugs dans les produits d’IA

0
Critères de récompense de Google pour signaler des bugs dans les produits d’IA


Catégorie

Scénario d’attaque

Conseils

Attaques rapides : Créer des invites contradictoires qui permettent à un adversaire d’influencer le comportement du modèle, et donc le résultat, d’une manière qui n’était pas prévue par l’application.

Injections rapides, invisibles pour les victimes et modifiant l’état du compte de la victime ou de l’un de ses actifs.

Portée

Injections rapides dans tous les outils dans lesquels la réponse est utilisée pour prendre des décisions qui affectent directement les utilisateurs victimes.

Portée

Extraction d’invite ou de préambule dans laquelle un utilisateur peut extraire l’invite initiale utilisée pour amorcer le modèle uniquement lorsque des informations sensibles sont présentes dans le préambule extrait.

Portée

Utiliser un produit pour générer du contenu violant, trompeur ou factuellement incorrect dans votre propre session : par exemple, « jailbreaks ». Cela inclut les « hallucinations » et les réponses factuellement inexactes. Les produits d’IA générative de Google disposent déjà d’un canal de signalement dédié à ces types de problèmes de contenu.

Hors de portée

Extraction de données de formation : Attaques capables de reconstruire avec succès des exemples de formation textuelle contenant des informations sensibles. Également appelé inférence d’appartenance.

Extraction de données de formation qui reconstruit les éléments utilisés dans l’ensemble de données de formation qui divulguent des informations sensibles et non publiques.

Portée

Extraction qui reconstruit les informations non sensibles/publiques.

Hors de portée

Manipulation de modèles : Un attaquant capable de modifier secrètement le comportement d’un modèle de manière à déclencher des comportements adverses prédéfinis.

Résultat ou comportement contradictoire qu’un attaquant peut déclencher de manière fiable via une entrée spécifique dans un modèle détenu et exploité par Google (« portes dérobées »). Uniquement dans le champ d’application lorsque la sortie d’un modèle est utilisée pour modifier l’état du compte ou des données d’une victime.

Portée

Attaques dans lesquelles un attaquant manipule les données d’entraînement du modèle pour influencer la sortie du modèle dans la session d’une victime selon les préférences de l’attaquant. Uniquement dans le champ d’application lorsque la sortie d’un modèle est utilisée pour modifier l’état du compte ou des données d’une victime.

Portée

Perturbation contradictoire : Entrées fournies à un modèle qui aboutissent à une sortie déterministe, mais très inattendue du modèle.

Contextes dans lesquels un adversaire peut déclencher de manière fiable une erreur de classification dans un contrôle de sécurité qui peut être utilisée de manière abusive à des fins malveillantes ou pour obtenir un gain adverse.

Portée

Contextes dans lesquels la sortie ou la classification incorrecte d’un modèle ne constitue pas un scénario d’attaque convaincant ni une voie réalisable pouvant nuire à Google ou à l’utilisateur.

Hors de portée

Vol / Exfiltration de modèles : Les modèles d’IA incluent souvent des droits de propriété intellectuelle sensibles, c’est pourquoi nous accordons une grande priorité à la protection de ces actifs. Les attaques d’exfiltration permettent aux attaquants de voler des détails sur un modèle tels que son architecture ou ses poids.

Attaques dans lesquelles l’architecture exacte ou les poids d’un modèle confidentiel/propriétaire sont extraits.

Portée

Attaques dans lesquelles l’architecture et les poids ne sont pas extraits avec précision, ou lorsqu’ils sont extraits d’un modèle non confidentiel.

Hors de portée

Si vous trouvez une faille dans un outil basé sur l’IA autre que celle répertoriée ci-dessus, vous pouvez toujours la soumettre, à condition qu’elle réponde aux exigences. qualifications répertoriées sur notre page de programme.

Un bug ou un comportement qui répond clairement à nos qualifications pour un problème de sécurité ou d’abus valide.

Portée

Utiliser un produit d’IA pour faire quelque chose de potentiellement dangereux qui est déjà possible avec d’autres outils. Par exemple, trouver une vulnérabilité dans un logiciel open source (déjà possible en utilisant des logiciels accessibles au public) outils d’analyse statique) et produire la réponse à une question nuisible alors que la réponse est déjà disponible en ligne.

Hors de portée

Conformément à notre programme, les problèmes dont nous avons déjà connaissance ne sont pas éligibles à une récompense.

Hors de portée

Problèmes potentiels de droits d’auteur : résultats dans lesquels des produits renvoient du contenu semblant être protégé par le droit d’auteur. Les produits d’IA générative de Google disposent déjà d’un canal de signalement dédié à ces types de problèmes de contenu.

Hors de portée

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici