Top 3 des générateurs de texte en image : comment DALL-E 2, GLIDE et Imagen se démarquent

Vous n’avez pas pu assister à Transform 2022 ? Découvrez dès maintenant toutes les sessions du sommet dans notre bibliothèque à la demande ! Regardez ici.


La révolution des générateurs de texte en image bat son plein avec des outils tels que DALL-E 2 et GLIDE d’OpenAI, ainsi que Imagen de Google, qui gagnent en popularité – même en version bêta – depuis que chacun a été introduit au cours de la dernière année.

Ces trois outils sont tous des exemples d’une tendance dans les systèmes d’intelligence : la synthèse texte-image ou un modèle génératif étendu sur des légendes d’images pour produire de nouvelles scènes visuelles.

Les systèmes intelligents qui peuvent créer des images et des vidéos ont un large éventail d’applications, du divertissement à l’éducation, avec le potentiel d’être utilisés comme solutions accessibles pour les personnes ayant un handicap physique. Les outils de conception graphique numérique sont largement utilisés dans la création et l’édition de nombreuses œuvres culturelles et artistiques modernes. Pourtant, leur complexité peut les rendre inaccessibles à quiconque ne dispose pas des connaissances techniques ou de l’infrastructure nécessaires.

C’est pourquoi les systèmes capables de suivre des instructions textuelles, puis d’effectuer une tâche d’édition d’image correspondante changent la donne en matière d’accessibilité. Ces avantages peuvent également être facilement étendus à d’autres domaines de la génération d’images, tels que les jeux, l’animation et la création de matériel pédagogique visuel.

L’essor des générateurs d’IA text-to-image

L’intelligence artificielle a progressé au cours de la dernière décennie en raison de trois facteurs importants : l’essor du big data, l’émergence de puissants GPU et la réémergence de l’apprentissage en profondeur. Les systèmes Generator AI aident le secteur technologique à concrétiser sa vision de l’avenir de l’informatique ambiante – l’idée que les gens pourront un jour utiliser les ordinateurs de manière intuitive sans avoir besoin de connaître des systèmes ou un codage particuliers.

Les générateurs de texte en image IA se transforment maintenant lentement de la génération d’images oniriques à la production de portraits réalistes. Certains spéculent même que l’art de l’IA dépassera les créations humaines. De nombreux systèmes de génération de texte en image d’aujourd’hui se concentrent sur l’apprentissage de la génération itérative d’images basées sur une entrée linguistique continue, tout comme un artiste humain peut le faire.

Ce processus est connu sous le nom de visuel neuronal génératif, un processus de base pour les transformateurs, inspiré du processus de transformation progressive d’une toile vierge en une scène. Les systèmes formés pour effectuer cette tâche peuvent tirer parti des progrès de la génération d’images uniques conditionnées par du texte.

Comment 3 outils d’IA text-to-image se démarquent

Les outils d’IA qui imitent la communication et la créativité humaines ont toujours fait le buzz. Au cours des quatre dernières années, les grands géants de la technologie ont donné la priorité à la création d’outils pour produire des images automatisées.

Il y a eu plusieurs versions remarquables au cours des derniers mois – quelques-unes étaient des phénomènes immédiats dès leur sortie, même si elles n’étaient disponibles que pour un groupe relativement restreint pour les tests.

Examinons la technologie de trois des générateurs de texte à image dont on parle le plus récemment – et ce qui distingue chacun d’eux.

DALL-E 2 d’OpenAI : Diffusion crée des images à la pointe de la technologie

Sorti en avril, DALL-E 2 est le dernier générateur de texte en image d’OpenAI et le successeur de DALL-E, un modèle de langage génératif qui prend des phrases et crée des images originales.

Un modèle de diffusion est au cœur de DALL-E 2, qui peut instantanément ajouter et supprimer des éléments tout en tenant compte des ombres, des reflets et des textures. Les recherches actuelles montrent que les modèles de diffusion sont apparus comme un cadre de modélisation générative prometteur, poussant les tâches de génération d’images et de vidéos de pointe. Pour obtenir les meilleurs résultats, le modèle de diffusion dans DALL-E 2 utilise une méthode de guidage pour optimiser la fidélité de l’échantillon (pour le photoréalisme) au prix de la diversité de l’échantillon.

DALL-E 2 apprend la relation entre les images et le texte grâce à la «diffusion», qui commence par un motif de points aléatoires, se transformant progressivement en une image où il reconnaît des aspects spécifiques de l’image. Dimensionné à 3,5 milliards de paramètres, DALL-E 2 est un grand modèle mais, fait intéressant, il n’est pas aussi grand que GPT-3 et est plus petit que son prédécesseur DALL-E (qui était de 12 milliards). Malgré sa taille, DALL-E 2 génère une résolution quatre fois meilleure que DALL-E et il est préféré par les juges humains plus de 70 % du temps, tant pour la correspondance des sous-titres que pour le photoréalisme.

Source de l’image : IA ouverte

Le modèle polyvalent peut aller au-delà des générations de phrase à image et en utilisant des incorporations robustes de CLIP, un système de vision par ordinateur d’OpenAI pour relier le texte à l’image, il peut créer plusieurs variations de sorties pour une entrée donnée, en préservant les informations sémantiques et stylistiques. éléments. De plus, par rapport à d’autres modèles de représentation d’images, CLIP intègre des images et du texte dans le même espace latent, permettant des manipulations d’images guidées par le langage.

Bien que le conditionnement de la génération d’images sur les intégrations CLIP améliore la diversité, un inconvénient spécifique est qu’il s’accompagne de certaines limitations. Par exemple, unCLIP, qui génère des images en inversant le décodeur d’image CLIP, est moins efficace pour lier les attributs aux objets qu’un modèle GLIDE correspondant. En effet, l’intégration CLIP elle-même ne lie pas explicitement les caractéristiques aux objets, et il a été constaté que les reconstructions du décodeur mélangent souvent les attributs et les objets. Aux échelles de guidage supérieures utilisées pour générer des images photoréalistes, unCLIP offre une plus grande diversité pour un photoréalisme comparable et une similitude de légende.

GLIDE par OpenAI : Modifications réalistes d’images existantes

La diffusion guidée du langage à l’image d’OpenAI pour la génération et l’édition, également connue sous le nom de GLIDE, a été publiée en décembre 2021. GLIDE peut créer automatiquement des images photoréalistes à partir d’invites en langage naturel, permettant aux utilisateurs de créer du matériel visuel grâce à un raffinement itératif plus simple et à une gestion plus fine. des images créées.

Ce modèle de diffusion atteint des performances comparables à DALL-E, malgré l’utilisation d’un tiers seulement des paramètres (3,5 milliards par rapport aux 12 milliards de paramètres de DALL-E). GLIDE peut également convertir des dessins au trait de base en photos photoréalistes grâce à ses puissantes capacités de production et de réparation sans échantillon pour des circonstances compliquées. De plus, GLIDE utilise un délai d’échantillonnage mineur et ne nécessite pas de réorganisation CLIP.

Plus particulièrement, le modèle peut également effectuer des retouches d’images ou apporter des modifications réalistes aux images existantes via des invites en langage naturel. Cela le rend aussi fonctionnel que des éditeurs tels qu’Adobe Photoshop, mais plus facile à utiliser.

Les modifications produites par le modèle correspondent au style et à l’éclairage du contexte environnant, y compris des ombres et des reflets convaincants. Ces modèles peuvent potentiellement aider les humains à créer rapidement et facilement des images personnalisées attrayantes, tout en réduisant considérablement la production de désinformation efficace ou de deepfakes. Pour se prémunir contre ces cas d’utilisation tout en facilitant les recherches futures, l’équipe d’OpenAI a également publié un modèle de diffusion plus petit et un modèle CLIP bruité formé sur des ensembles de données filtrés.

Source de l’image : IA ouverte

Imagen by Google : Meilleure compréhension des saisies textuelles

Annoncé en juin, Imagen est un générateur de texte en image créé par l’équipe Brain de Google Research. Il est similaire mais différent de DALL-E 2 et GLIDE.

L’équipe Brain de Google visait à générer des images avec une plus grande précision et fidélité en utilisant la méthode des phrases courtes et descriptives. Le modèle analyse chaque section de phrase comme un bloc d’informations assimilable et tente de produire une image aussi proche que possible de cette phrase.

Imagen s’appuie sur les prouesses des modèles de langage à grands transformateurs pour la compréhension syntaxique, tout en tirant parti de la force des modèles de diffusion pour la génération d’images haute fidélité. Contrairement aux travaux antérieurs qui n’utilisaient que des données image-texte pour la formation de modèles, la découverte fondamentale de Google était que les incorporations de texte à partir de grands modèles de langage, lorsqu’elles sont pré-formées sur des corpus de texte uniquement (ensembles de textes volumineux et structurés), sont remarquablement efficaces pour le texte. à la synthèse d’images. De plus, grâce à l’augmentation de la taille du modèle de langage, Imagen améliore à la fois la fidélité de l’échantillon et l’alignement du texte de l’image bien plus qu’il n’augmente la taille du modèle de diffusion de l’image.

Source de l’image : Google

Au lieu d’utiliser un ensemble de données image-texte pour former Imagen, l’équipe Google a simplement utilisé un encodeur de texte “prêt à l’emploi”, T5, pour convertir le texte d’entrée en incorporations. L’encodeur T5-XXL figé mappe le texte d’entrée dans une séquence d’intégrations et un modèle de diffusion d’image 64 × 64, suivi de deux modèles de diffusion à super résolution pour générer des images 256 × 256 et 1024 × 1024. Les modèles de diffusion sont conditionnés sur la séquence d’intégration de texte et utilisent des conseils sans classificateur, en s’appuyant sur de nouvelles techniques d’échantillonnage pour utiliser de grands poids de guidage sans dégradation de la qualité de l’échantillon.

Imagen obtient un score FID de pointe de 7,27 sur l’ensemble de données COCO sans jamais être formé sur COCO. Lorsqu’il a été évalué sur DrawBench avec les méthodes actuelles, notamment VQ-GAN+CLIP, les modèles de diffusion latente, GLIDE et DALL-E 2, Imagen s’est avéré meilleur en termes de qualité d’échantillon et d’alignement image-texte.

Opportunités et défis futurs du texte à l’image

Il ne fait aucun doute que l’évolution rapide de la technologie de générateur d’IA texte-image ouvre la voie à des opportunités sans précédent pour l’édition instantanée et la production de créations.

Il y a également de nombreux défis à relever, allant des questions d’éthique et de préjugés (bien que les créateurs aient mis en place des garanties dans les modèles conçus pour restreindre les applications potentiellement destructrices) aux problèmes de droit d’auteur et de propriété. La puissance de calcul nécessaire pour former des modèles texte-image à travers d’énormes quantités de données limite également le travail aux seuls acteurs importants et disposant de ressources suffisantes.

Mais il ne fait aucun doute que chacun de ces trois modèles d’IA texte-image est à lui seul un moyen pour les professionnels de la création de laisser libre cours à leur imagination.

La mission de VentureBeat est d’être une place publique numérique permettant aux décideurs techniques d’acquérir des connaissances sur la technologie d’entreprise transformatrice et d’effectuer des transactions. En savoir plus sur l’adhésion.

Leave a Comment