Ce qui est nouveau avec DALL·E 3, c’est qu’il offre un contexte bien meilleur que DALL·E 2. Les versions précédentes ont peut-être manqué certains détails ou ignoré quelques détails ici et là, mais DALL·E 3 est pertinent. Il reprend les détails exacts de ce que vous demandez, vous donnant une image plus proche de ce que vous imaginiez.
La partie cool ? DALL·E 3 et ChatGPT sont désormais intégrés ensemble. Ils travaillent ensemble pour vous aider à affiner vos idées. Vous photographiez un concept, ChatGPT vous aide à affiner l’invite et DALL·E 3 lui donne vie. Si vous n’êtes pas fan de l’image, vous pouvez demander à ChatGPT de modifier l’invite et demander à DALL·E 3 de réessayer. Pour un montant mensuel de 20 $, vous avez accès à GPT-4, DALL·E 3 et à de nombreuses autres fonctionnalités intéressantes.
de Microsoft Chat Bing a mis la main sur DALL·E 3 avant même ChatGPT d’OpenAI, et désormais, ce ne sont plus seulement les grandes entreprises, mais tout le monde qui peut jouer avec gratuitement. L’intégration dans Bing Chat et Bing Image Creator rend son utilisation beaucoup plus facile pour tout le monde.
L’essor des modèles de diffusion
Au cours des 3 dernières années, l’IA de vision a assisté à l’essor des modèles de diffusion, faisant un bond en avant significatif, notamment dans la génération d’images. Avant les modèles de diffusion, Réseaux adverses génératifs (GAN) étaient la technologie de référence pour générer des images réalistes.
Cependant, ils ont eu leur part de défis, notamment le besoin de grandes quantités de données et de puissance de calcul, ce qui les rendait souvent difficiles à gérer.
Entrer la diffusion des modèles. Ils sont apparus comme une alternative plus stable et plus efficace aux GAN. Contrairement aux GAN, les modèles de diffusion fonctionnent en ajoutant du bruit aux données, en les masquant jusqu’à ce qu’il ne reste plus que le caractère aléatoire. Ils travaillent ensuite à rebours pour inverser ce processus, en reconstruisant des données significatives à partir du bruit. Ce processus s’est avéré efficace et moins gourmand en ressources, faisant des modèles de diffusion un sujet brûlant dans la communauté de l’IA.
Le véritable tournant s’est produit vers 2020, avec une série d’articles innovants et l’introduction de Le CLIP d’OpenAI technologie, qui a considérablement amélioré les capacités des modèles de diffusion. Cela a rendu les modèles de diffusion exceptionnellement efficaces pour la synthèse texte-image, leur permettant de générer des images réalistes à partir de descriptions textuelles. Ces avancées ne concernaient pas seulement la génération d’images, mais également dans des domaines tels que composition musicale et recherche biomédicale.
Aujourd’hui, les modèles de diffusion ne sont pas seulement un sujet d’intérêt académique : ils sont également utilisés dans des scénarios pratiques et réels.
Modélisation générative et couches d’auto-attention : DALL-E 3
L’une des avancées majeures dans ce domaine a été l’évolution de la modélisation générative, avec en tête des approches basées sur l’échantillonnage telles que la modélisation générative autorégressive et les processus de diffusion. Ils ont transformé les modèles de conversion texte-image, entraînant des améliorations drastiques des performances. En décomposant la génération d’images en étapes discrètes, ces modèles sont devenus plus faciles à maîtriser et à apprendre pour les réseaux neuronaux.
En parallèle, l’utilisation des couches d’auto-attention a joué un rôle crucial. Ces couches, empilées ensemble, ont aidé à générer des images sans avoir recours à des biais spatiaux implicites, un problème courant avec les convolutions. Ce changement a permis aux modèles texte-image d’évoluer et de s’améliorer de manière fiable, grâce aux propriétés de mise à l’échelle bien comprises des transformateurs.
Défis et solutions dans la génération d’images
Malgré ces progrès, la contrôlabilité de la génération d’images reste un défi. Des problèmes tels que le suivi rapide, où le modèle peut ne pas adhérer étroitement au texte saisi, sont répandus. Pour résoudre ce problème, de nouvelles approches telles que l’amélioration des légendes ont été proposées, visant à améliorer la qualité des paires texte et image dans les ensembles de données de formation.
Amélioration des sous-titres : une nouvelle approche
L’amélioration des légendes implique de générer des légendes de meilleure qualité pour les images, ce qui contribue à la formation de modèles texte-image plus précis. Ceci est réalisé grâce à un sous-titreur d’images robuste qui produit des descriptions détaillées et précises des images. En s’entraînant sur ces légendes améliorées, DALL-E 3 a pu obtenir des résultats remarquables, ressemblant étroitement à des photographies et des œuvres d’art produites par des humains.
Formation sur Données synthétiques
Le concept de formation sur des données synthétiques n’est pas nouveau. Cependant, la contribution unique ici réside dans la création d’un nouveau système de sous-titrage d’images descriptif. L’impact de l’utilisation de sous-titres synthétiques pour la formation de modèles génératifs a été considérable, conduisant à des améliorations de la capacité du modèle à suivre les invites avec précision.
Évaluation de DALL-E 3
Grâce à de multiples évaluations et comparaisons avec des modèles précédents tels que DALL-E 2 et Stable Diffusion XL, DALL-E 3 a démontré des performances supérieures, en particulier dans les tâches liées au suivi rapide.
L’utilisation d’évaluations et de benchmarks automatisés a clairement démontré ses capacités, renforçant ainsi sa position en tant que générateur de texte en image de pointe.