Dall-E 2 : pourquoi le générateur d’images AI est une invention révolutionnaire

L’intelligence artificielle a souvent affronté les humains dans des combats créatifs. Il peut battre les grands maîtres aux échecs, créer des symphonies, pomper des poèmes sincères et maintenant créer des œuvres d’art détaillées à partir d’une simple invite courte et formulée.L’équipe d’OpenAI a récemment créé un logiciel puissant, capable de produire une large gamme d’images en quelques secondes, juste à partir d’une chaîne de mots. Ce programme est connu sous le nom de Dall-E 2 et a été conçu pour révolutionner la façon dont nous utilisons l’IA avec des images. Nous avons parlé à Aditya Ramesh, l’un des ingénieurs principaux de Dall-E 2, pour mieux comprendre ce qu’il fait, ses limites et l’avenir qu’il pourrait réserver. Que fait Dall-E 2 ? La société de développement OpenAI a créé un programme connu sous le nom de « Dall-E » – un mélange des noms Salvador Dali et Wall-E. Ce logiciel était capable de prendre une invite textuelle et de créer une image entièrement unique générée par l’IA. Par exemple, « un renard dans un arbre » ferait apparaître une photo d’un renard assis dans un arbre, ou la recherche « astronaute avec un bagel dans sa main » montrerait… eh bien, vous voyez où cela mène. © OpenAI Bien que ce soit certainement impressionnant, les images étaient souvent floues, pas tout à fait précises et ont pris un certain temps à créer. Maintenant, OpenAI a apporté de vastes améliorations au logiciel, créant Dall-E 2 – une nouvelle itération puissante qui fonctionne à un niveau beaucoup plus élevé.Avec quelques autres nouvelles fonctionnalités, la principale différence avec ce deuxième modèle est une énorme amélioration de la résolution d’image, des latences plus faibles (combien de temps l’image prend pour être créée) et un algorithme plus intelligent pour créer les images. Le logiciel ne se contente pas de créer une image dans un seul style, vous pouvez ajouter différentes techniques artistiques à votre demande, en saisissant styles de dessin, peinture à l’huile, modèle en pâte à modeler, tricoté en laine, dessiné sur un mur de grotte ou même comme affiche de film des années 1960. « Dall-E est un assistant très utile qui amplifie ce qu’une personne peut normalement faire, mais c’est vraiment dépend de la créativité de la personne qui l’utilise. Un artiste ou quelqu’un de plus créatif peut créer des choses vraiment intéressantes « , déclare Ramesh. Un touche-à-tout En plus de la capacité de la technologie à produire des images uniquement sur des invites textuelles, Dall-E 2 avoir deux autres technologies intelligentes niques-inpainting et variations. Ces deux applications fonctionnent de la même manière que le reste de Dall-E, à une différence près. Avec l’inpainting, vous pouvez prendre une image existante et y modifier de nouvelles fonctionnalités ou en modifier des parties. Si vous avez une image d’un salon, vous pouvez ajouter un nouveau tapis, un chien sur le canapé, changer le tableau au mur ou encore jeter un éléphant dans la pièce… car cela se passe toujours bien. outil d’inpainting © OpenAI Variations est un autre service qui nécessite une image existante. Ajoutez une photo, une illustration ou tout autre type d’image et l’outil de variation de Dall-E créera des centaines de ses propres versions.Vous pouvez lui donner une image d’un Teletubby et il la reproduira en créant des versions similaires. Une vieille peinture d’un samouraï créera des images similaires, vous pouvez même prendre une photo de certains graffitis que vous voyez et obtenir des résultats similaires. Vous pouvez également utiliser cet outil pour combiner deux images en une seule collaboration bizarre. Mélangez un dragon et un corgi, ou un arc-en-ciel et un pot pour générer des pots avec de la couleur. (À gauche) une image originale (à droite) La variation de Dall-E © OpenAILimitations de Dall-E 2Bien qu’il n’y ait aucun doute sur la façon dont Cette technologie est impressionnante, elle n’est pas sans limites.L’un des problèmes que vous rencontrez est la confusion de certains mots ou phrases. Par exemple, lorsque nous saisissons « un trou noir à l’intérieur d’une boîte », Dall-E 2 renvoie un trou qui était noir à l’intérieur d’une boîte, au lieu du corps cosmique que nous recherchions. dans une boîte © OpenAI Cela peut arriver souvent lorsqu’un mot a plusieurs sens, des phrases peuvent être mal comprises ou si des expressions familières sont utilisées. C’est ce à quoi on peut s’attendre d’une intelligence artificielle qui prend le sens littéral de vos mots. « Une autre chose à laquelle s’habituer avec le système est la façon dont les invites et les styles artistiques fonctionnent. Lorsque vous tapez quelque chose, l’image initiale peut ne pas être correcte et bien qu’elle corresponde techniquement à votre demande, elle ne correspond pas entièrement à la sensation ou à l’idée que vous aviez en tête. Cela peut prendre un certain temps pour s’y habituer et quelques ajustements mineurs « , explique Ramesh. Un autre domaine où Dall-E peut devenir confus est avec le » mélange variable « . « Si vous demandez au modèle de dessiner un cube rouge au-dessus d’un cube bleu, il devient parfois confus et fait le contraire. Je pense que nous pourrons résoudre ce problème assez facilement dans les futures itérations du système », déclare Ramesh. La lutte contre les stéréotypes et l’apport humain être utilisé de manière contraire à l’éthique ? Et sans parler du problème supplémentaire de l’histoire de l’IA qui apprend certains comportements grossiers des internautes.Dall-E crée des bols de soupe qui sont des portails vers une autre dimension , il semble évident que cela pourrait être manipulé de plusieurs manières : la propagande, les fausses nouvelles et les images manipulées viennent à l’esprit comme les voies évidentes. Pour contourner cela, l’équipe OpenAI derrière Dall-E a mis en place une politique de sécurité pour toutes les images sur la plateforme qui fonctionne en trois étapes. La première étape consiste à filtrer les données qui incluent une violation majeure. Cela inclut la violence, le contenu sexuel et les images que l’équipe jugerait inappropriées.La deuxième étape est un filtre qui recherche des points plus subtils qui sont difficiles à détecter. Il peut s’agir de contenu politique ou de propagande sous une forme ou sous une autre. Enfin, dans sa forme actuelle, chaque image produite par Dall-E est revue par un humain, mais ce n’est pas une étape viable à long terme au fur et à mesure que le produit grandit.Malgré l’utilisation de cette politique, l’équipe est clairement consciente de l’avenir de ce produit. Ils ont énuméré les risques et les limites de Dall-E, détaillant le nombre de problèmes auxquels ils pourraient être confrontés, ce qui couvre un grand nombre de problèmes. Par exemple, les images peuvent souvent montrer des préjugés ou des stéréotypes comme l’utilisation du terme mariage renvoyant principalement aux mariages occidentaux. Ou la recherche d’un avocat montre une majorité d’hommes blancs plus âgés, les infirmières faisant de même avec les femmes.Ce ne sont pas du tout des problèmes nouveaux et c’est quelque chose que Google traite depuis des années. Souvent, la génération d’images peut suivre les préjugés observés dans la société.Astronaute tenant une fleur © OpenAIIl existe également des moyens de tromper Dall-E pour qu’il produise du contenu que le terme cherche à filtrer. Alors que le sang déclencherait le filtre de violence, un utilisateur pourrait taper « une mare de ketchup » ou quelque chose de similaire pour tenter de le contourner. Parallèlement à la politique de sécurité de l’équipe, ils ont une politique de contenu claire que les utilisateurs doivent respecter. Dall-ESo, la technologie existe et fonctionne clairement bien, mais quelle est la prochaine étape pour l’équipe Dall-E 2 ? À l’heure actuelle, le logiciel est lentement déployé sur une liste d’attente sans qu’il soit encore prévu de l’ouvrir au grand public. En publiant lentement son produit, le groupe OpenAI peut surveiller sa croissance, développer ses procédures de sécurité et préparer son produit pour le probable des millions de personnes qui vont bientôt imputer leurs commandes. « Nous voulons mettre cette recherche entre les mains des gens, mais pour le moment, nous sommes juste intéressés à avoir des retours sur la façon dont les gens utilisent la plate-forme. Nous sommes certainement intéressés par un déploiement plus large de cette technologie, mais nous n’avons actuellement aucun plan de commercialisation », déclare Ramesh. En savoir plus :

Laisser un commentaire