lundi, décembre 4, 2023

Repenser le rôle du PPO dans le RLHF – The Berkeley Artificial Intelligence Research Blog



Repenser le rôle du PPO dans le RLHF

TL;DR: Dans RLHF, il y a une tension entre la phase d’apprentissage des récompenses, qui utilise les préférences humaines sous forme de comparaisons, et la phase de réglage fin du RL, qui optimise une récompense unique et non comparative. Et si on effectuait le RL de manière comparative ?



Figure 1:
Ce diagramme illustre la différence entre l’apprentissage par renforcement de absolu commentaires et relatif retour. En incorporant un nouveau composant – le gradient politique par paires, nous pouvons unifier l’étape de modélisation des récompenses et l’étape RL, permettant des mises à jour directes basées sur des réponses par paires.

Les grands modèles linguistiques (LLM) ont alimenté des assistants virtuels de plus en plus performants, tels que GPT-4, Claude-2, Barde et Chat Bing. Ces systèmes peuvent répondre aux requêtes complexes des utilisateurs, écrire du code et même produire de la poésie. La technique qui sous-tend ces étonnants assistants virtuels est l’apprentissage par renforcement avec feedback humain (RLHF). RLHF vise à aligner le modèle sur les valeurs humaines et à éliminer les comportements involontaires, qui peuvent souvent survenir en raison de l’exposition du modèle à une grande quantité de données de faible qualité pendant sa phase de pré-formation.

Optimisation de la politique proximale (OPP), l’optimiseur RL dominant dans ce processus, aurait présenté instabilité et complications de mise en œuvre. Plus important encore, il existe une divergence persistante dans le processus RLHF : bien que le modèle de récompense soit formé à l’aide de comparaisons entre diverses réponses, l’étape de réglage fin du RL travaille sur des réponses individuelles sans effectuer de comparaisons. Cette incohérence peut exacerber les problèmes, en particulier dans le domaine difficile de la génération linguistique.

Dans ce contexte, une question intrigante se pose : est-il possible de concevoir un algorithme RL qui apprend de manière comparative ? Pour explorer cela, nous introduisons l’optimisation de la politique proximale par paire (P3O), une méthode qui harmonise les processus de formation à la fois dans la phase d’apprentissage des récompenses et dans la phase de réglage fin du RLHF, offrant une solution satisfaisante à ce problème.

Arrière-plan



Figure 2:
Une description des trois étapes du RLHF à partir d’un Article de blog OpenAI. Notez que la troisième étape relève de l’apprentissage par renforcement avec rétroaction absolue, comme indiqué sur le côté gauche de la figure 1.

Dans les paramètres RL traditionnels, la récompense est spécifiée manuellement par le concepteur ou fournie par une fonction de récompense bien définie, comme dans les jeux Atari. Cependant, pour orienter un modèle vers des réponses utiles et inoffensives, définir une bonne récompense n’est pas simple. RLHF résout ce problème en apprenant la fonction de récompense à partir des commentaires humains, notamment sous forme de comparaisons, puis en appliquant RL pour optimiser la fonction de récompense apprise.

Le pipeline RLHF est divisé en plusieurs étapes, détaillées comme suit :

Phase de mise au point supervisée: Le modèle pré-entraîné subit la perte maximale de vraisemblance sur un ensemble de données de haute qualité, où il apprend à répondre aux requêtes humaines par imitation.

Étape de modélisation des récompenses: Le modèle SFT est invité avec des invites \(x\) pour produire des paires de réponses \(y_1,y_2\sim \pi^{\text{SFT}}(y\vert x)\). Ces réponses générées forment un ensemble de données. Les paires de réponses sont présentées à des étiqueteurs humains qui expriment une préférence pour une réponse plutôt que sur une autre, notée \(y_w \succ y_l\). Une perte comparative est ensuite utilisée pour former un modèle de récompense \(r_\phi\) :

\[\mathcal{L}_R = \mathbb{E}_{(x,y_l,y_w)\sim\mathcal{D}}\log \sigma\left(r_\phi(y_w|x)-r_\phi(y_l|x)\right)\]

Étape de mise au point RL: Le modèle SFT sert d’initialisation de cette étape, et un algorithme RL optimise la politique vers la maximisation de la récompense tout en limitant l’écart par rapport à la politique initiale. Formellement, cela se fait à travers :

\[\max_{\pi_\theta}\mathbb{E}_{x\sim \mathcal{D}, y\sim \pi_\theta(\cdot\vert x)}\left[r_\phi(y\vert x)-\beta D_{\text{KL}}(\pi_\theta(\cdot\vert x)\Vert \pi^{\text{SFT}}(\cdot\vert x))\right]\]

Un défi inhérent à cette approche est le caractère non unique de la récompense. Par exemple, étant donné une fonction de récompense \(r(y\vert x)\), un simple déplacement de la récompense de l’invite vers \(r(y\vert x)+\delta(x)\) crée une autre récompense valide fonction. Ces deux fonctions de récompense entraînent la même perte pour toutes les paires de réponses, mais elles diffèrent considérablement lorsqu’elles sont optimisées avec RL. Dans un cas extrême, si le bruit ajouté donne à la fonction de récompense une large plage, un algorithme RL pourrait être induit en erreur pour augmenter la probabilité de réponses avec des récompenses plus élevées, même si ces récompenses peuvent ne pas être significatives. En d’autres termes, la politique pourrait être perturbée par les informations sur l’échelle de récompense dans l’invite \(x\), mais ne parviendrait pas à apprendre la partie utile – la préférence relative représentée par la différence de récompense. Pour résoudre ce problème, notre objectif est de développer un algorithme RL qui soit invariant pour récompenser la traduction.

Dérivation de P3O

Notre idée découle du gradient politique vanille (VPG). VPG est un optimiseur RL de premier ordre largement adopté, apprécié pour sa simplicité et sa facilité de mise en œuvre. Dans un bandit contextuel (CB), le VPG est formulé comme suit :

\[\nabla \mathcal{L}^{\text{VPG}} = \mathbb{E}_{y\sim\pi_{\theta}} r(y|x)\nabla\log\pi_{\theta}(y|x)\]

Grâce à quelques manipulations algébriques, nous pouvons réécrire le gradient politique sous une forme comparative qui implique deux réponses à la même invite. Nous le nommons Dégradé de politique par paires:

\[\mathbb{E}_{y_1,y_2\sim\pi_{\theta}}\left(r(y_1\vert x)-r(y_2\vert x)\right)\nabla\left(\log\frac{\pi_\theta(y_1\vert x)}{\pi_\theta(y_2\vert x)}\right)/2\]

Contrairement à VPG, qui s’appuie directement sur l’ampleur absolue de la récompense, PPG utilise la différence de récompense. Cela nous permet de contourner le problème susmentionné de la traduction des récompenses. Pour améliorer encore les performances, nous intégrons un tampon de relecture utilisant Importance de l’échantillonnage et évitez les mises à jour de dégradé importantes via Coupure.

Échantillonnage important: Nous échantillonnons un lot de réponses du tampon de relecture qui se compose de réponses générées à partir de \(\pi_{\text{old}}\), puis calculons le taux d’échantillonnage d’importance pour chaque paire de réponses. Le gradient est la somme pondérée des gradients calculés à partir de chaque paire de réponses.

Coupure: Nous coupons le taux d’échantillonnage d’importance ainsi que la mise à jour du gradient pour pénaliser les mises à jour trop volumineuses. Cette technique permet à l’algorithme de compenser la divergence KL et de récompenser plus efficacement.

Il existe deux manières différentes de mettre en œuvre la technique du détourage, se distinguant par le détourage séparé ou conjoint. L’algorithme résultant est appelé optimisation de politique proximale par paire (P3O), les variantes étant respectivement V1 ou V2. Vous pouvez trouver plus de détails dans notre original papier.

Évaluation



Figure 3:
Frontière KL-Reward pour TL;DR, KL et récompense par séquence sont calculés en moyenne sur 200 invites de test et calculés tous les 500 pas de gradient. Nous constatons qu’une fonction linéaire simple correspond bien à la courbe. P3O propose le meilleur compromis KL-Reward parmi les trois.

Nous explorons deux tâches différentes de génération de texte ouvertes, récapitulation et question-réponse. En résumé, nous utilisons le TL;DR ensemble de données où l’invite \(x\) est un message de forum de Reddit et \(y\) est un résumé correspondant. Pour répondre aux questions, nous utilisons Anthropic utile et inoffensif (HH), l’invite \(x\) est une requête humaine portant sur divers sujets, et la politique doit apprendre à produire une réponse engageante et utile \(y\).

Nous comparons notre algorithme P3O avec plusieurs approches efficaces et représentatives pour l’alignement LLM. Nous commençons par le SFT politique entraînée par le maximum de vraisemblance. Pour les algorithmes RL, nous considérons l’approche dominante OPP et le nouveau proposé DPD. DPO optimise directement la politique vers la solution de forme fermée du problème RL contraint par KL. Bien qu’elle soit proposée comme méthode d’alignement hors ligne, nous la réalisons en ligne à l’aide d’une fonction de récompense proxy.






Figure 4 :
Frontière KL-Reward pour HH, chaque point représente une moyenne des résultats sur 280 invites de test et calculé toutes les 500 mises à jour de gradient. Les deux figures de gauche comparent le P3O-V1 et le PPO avec différentes tailles de modèle de base ; Les deux chiffres de droite comparent P3O-V2 et DPO. Résultats montrant que le P3O peut non seulement obtenir une récompense plus élevée, mais également permettre un meilleur contrôle du KL.

S’écarter trop de la politique de référence conduirait la politique en ligne à rogner sur le modèle de récompense et à produire des continuations incohérentes, comme le soulignent des travaux antérieurs. Nous nous intéressons non seulement à la métrique bien établie dans la littérature RL – la récompense, mais également à la mesure dans laquelle la politique apprise s’écarte de la politique initiale, mesurée par la divergence KL. Par conséquent, nous étudions l’efficacité de chaque algorithme en fonction de sa frontière de récompense obtenue et de sa divergence KL par rapport à la politique de référence (Frontière de récompense KL). Dans les figures 4 et 5, nous découvrons que P3O a des frontières strictement dominantes par rapport à PPO et DPO dans différentes tailles de modèles.




Figure 5 :
La figure de gauche affiche le taux de victoire évalué par GPT-4. La figure de droite présente le taux de victoire basé sur une comparaison directe de la récompense par procuration. Malgré la forte corrélation entre deux chiffres, nous avons constaté que le taux de victoire des récompenses doit être ajusté en fonction du KL afin de s’aligner sur le taux de victoire du GPT-4.

Pour évaluer directement la qualité des réponses générées, nous effectuons également Comparaisons face à face entre chaque paire d’algorithmes de l’ensemble de données HH. Nous utilisons deux métriques pour l’évaluation : (1) Récompensela cible optimisée lors du RL en ligne, (2) GPT-4, en tant qu’indicateur fidèle de l’évaluation humaine de l’utilité de la réponse. Pour cette dernière métrique, nous soulignons que des études antérieures montrent que les jugements GPT-4 sont fortement corrélés à ceux des humains, l’accord humain avec GPT-4 étant généralement similaire ou supérieur à l’accord des annotateurs interhumains.

La figure 5 présente les résultats complets de la comparaison par paire. La divergence KL moyenne et le classement des récompenses de ces modèles sont DPO > P3O > PPO > SFT. Bien que le DPO dépasse légèrement le P3O en termes de récompense, il présente une divergence KL considérablement plus élevée, ce qui peut nuire à la qualité de la génération. En conséquence, DPO a un taux de récompense gagnant de 49,5 % par rapport à P3O, mais de seulement 45,4 % tel qu’évalué par GPT-4. Par rapport à d’autres méthodes, P3O présente un taux de victoire GPT-4 de 57,0 % contre PPO et de 69,3 % contre SFT. Ce résultat est cohérent avec nos conclusions de la métrique frontière KL-Reward, affirmant que P3O pourrait mieux s’aligner sur les préférences humaines que les références précédentes.

Conclusion

Dans cet article de blog, nous présentons de nouvelles perspectives sur l’alignement de grands modèles de langage sur les préférences humaines via l’apprentissage par renforcement. Nous avons proposé le cadre d’apprentissage par renforcement avec rétroaction relative, comme illustré dans la figure 1. Dans ce cadre, nous développons un nouvel algorithme de gradient de politique – P3O. Cette approche unifie les principes fondamentaux de la modélisation des récompenses et du réglage fin du RL grâce à une formation comparative. Nos résultats montrent que P3O surpasse les méthodes précédentes en termes de frontière KL-Reward ainsi que de taux de victoire GPT-4.

BibTex

Ce blog est basé sur notre récent papier et Blog. Si ce blog inspire votre travail, pensez à le citer avec :

@article{wu2023pairwise,
  title={Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for LLM Alignment},
  author={Wu, Tianhao and Zhu, Banghua and Zhang, Ruoyu and Wen, Zhaojin and Ramchandran, Kannan and Jiao, Jiantao},
  journal={arXiv preprint arXiv:2310.00212},
  year={2023}
}

Related Articles

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

Latest Articles