TL;DR: Invite de texte -> LLM -> Représentation intermédiaire (telle qu’une mise en page d’image) -> Diffusion stable -> Image.
Les progrès récents dans la génération de texte en image avec des modèles de diffusion ont donné des résultats remarquables synthétisant des images très réalistes et diverses. Cependant, malgré leurs capacités impressionnantes, les modèles de diffusion, tels que Diffusion stableont souvent du mal à suivre avec précision les invites lorsqu’un raisonnement spatial ou de bon sens est requis.
La figure suivante répertorie quatre scénarios dans lesquels Stable Diffusion ne parvient pas à générer des images correspondant avec précision aux invites données, à savoir négation, calculet affectation d’attribut, relations spatiales. En revanche, notre méthode, LLM-fondé Diffusion (LMD), offre une bien meilleure compréhension rapide de la génération de texte en image dans ces scénarios.
Figure 1 : La diffusion basée sur LLM améliore la capacité de compréhension rapide des modèles de diffusion texte-image.
Une solution possible pour résoudre ce problème consiste bien sûr à rassembler un vaste ensemble de données multimodales comprenant des sous-titres complexes et à former un grand modèle de diffusion avec un grand encodeur de langue. Cette approche entraîne des coûts importants : il est long et coûteux de former à la fois des modèles de langage étendus (LLM) et des modèles de diffusion.
Notre solution
Pour résoudre efficacement ce problème avec un coût minimal (c’est-à-dire sans frais de formation), nous avons plutôt équiper les modèles de diffusion d’un raisonnement spatial et de bon sens amélioré en utilisant des LLM figés prêts à l’emploi dans un nouveau processus de génération en deux étapes.
Tout d’abord, nous adaptons un LLM pour qu’il soit un générateur de mise en page guidé par texte grâce à un apprentissage en contexte. Lorsqu’il est équipé d’une invite d’image, un LLM génère une disposition de scène sous la forme de cadres de délimitation ainsi que des descriptions individuelles correspondantes. Deuxièmement, nous pilotons un modèle de diffusion avec un nouveau contrôleur pour générer des images conditionnées par la mise en page. Les deux étapes utilisent des modèles pré-entraînés gelés sans aucune optimisation des paramètres de LLM ou de modèle de diffusion. Nous invitons les lecteurs à lire l’article sur arXiv pour plus de détails.
Figure 2 : LMD est un modèle génératif texte-image avec un nouveau processus de génération en deux étapes : un générateur texte-mise en page avec un apprentissage LLM + en contexte et une nouvelle diffusion stable guidée par la mise en page. Les deux étapes sont sans formation.
Capacités supplémentaires du LMD
De plus, le LMD permet naturellement spécification de scène multi-tours basée sur le dialogue, permettant des clarifications supplémentaires et des modifications ultérieures pour chaque invite. De plus, LMD est capable de gérer les invites dans un langage qui n’est pas bien pris en charge par le modèle de diffusion sous-jacent.
Figure 3 : Intégrant un LLM pour une compréhension rapide, notre méthode est capable d’effectuer une spécification et une génération de scènes basées sur des dialogues à partir d’invites dans une langue (le chinois dans l’exemple ci-dessus) que le modèle de diffusion sous-jacent ne prend pas en charge.
Étant donné un LLM prenant en charge le dialogue à plusieurs tours (par exemple, GPT-3.5 ou GPT-4), LMD permet à l’utilisateur de fournir des informations supplémentaires ou des clarifications au LLM en interrogeant le LLM après la première génération de mise en page dans le dialogue et en générant des images avec la mise en page mise à jour dans la réponse ultérieure du LLM. Par exemple, un utilisateur peut demander d’ajouter un objet à la scène ou de modifier l’emplacement ou les descriptions des objets existants (moitié gauche de la figure 3).
De plus, en donnant un exemple d’invite non anglaise avec une mise en page et une description d’arrière-plan en anglais pendant l’apprentissage en contexte, LMD accepte les entrées d’invites non anglaises et générera des mises en page, avec des descriptions de cases et l’arrière-plan en anglais pour les applications ultérieures. génération de mise en page en image. Comme le montre la moitié droite de la figure 3, cela permet de générer des invites dans un langage que les modèles de diffusion sous-jacents ne prennent pas en charge.
Visualisations
Nous validons la supériorité de notre conception en la comparant au modèle de diffusion de base (SD 2.1) que LMD utilise sous le capot. Nous invitons les lecteurs à notre travail pour plus d’évaluations et de comparaisons.
Figure 4 : LMD surpasse le modèle de diffusion de base en générant avec précision des images en fonction d’invites qui nécessitent à la fois un raisonnement linguistique et spatial. LMD permet également la génération contrefactuelle de texte en image que le modèle de diffusion de base n’est pas capable de générer (la dernière ligne).
Pour plus de détails sur la diffusion basée sur LLM (LMD), visitez notre site Internet et lire l’article sur arXiv.
BibTex
Si la diffusion LLM-grounded inspire votre travail, veuillez le citer avec :
@article{lian2023llmgrounded,
title={LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models},
author={Lian, Long and Li, Boyi and Yala, Adam and Darrell, Trevor},
journal={arXiv preprint arXiv:2305.13655},
year={2023}
}