Text-to-image : et l'IA transforma les mots en pixels

Poussés par de nouvelles méthodes de génération automatique d'images, des algorithmes permettent d'obtenir des résultats visuels à partir de textes. À la croisée du traitement du langage naturel et de la reconnaissance d'images, ces outils sont aussi captivants que troublants.

Cet article est extrait du mensuel Sciences et Avenir - La Recherche n°908, daté octobre 2022.

Est-ce une image réelle ou produite par un algorithme ? Régulièrement, les progrès stupéfiants des intelligences dites artificielles (IA) brouillent un peu plus la frontière entre le réel et son imitation. Les premiers mois de 2022 ont permis de franchir une étape inédite : arrivés à maturité, des travaux de recherche permettent, de façon troublante, de transformer des mots en images (photos, dessins, croquis, simili-collages…) sur un écran d'ordinateur.

Les plus performantes de ces technologies ne sont encore qu'en accès restreint. Mais pour nous en convaincre, d'autres sont d'ores et déjà accessibles en ligne. Dall-E 2 (nom combinant celui de Salvador Dalí et du robot Wall-E du film éponyme) est la plus connue. Elle a été dévoilée en avril par le centre privé de recherche en intelligence artificielle OpenAI, fer de lance de ces développements. Craiyon en est une version simplifiée pour le grand public. Imagen, de Google, et StableDiffusion, conçu par un groupe de recherche de l'Université Louis-et-Maximilien de Munich (Allemagne) avec la start-up Stability.AI, sont spécialisés dans les rendus photoréalistes. Ceux de Midjourney, de la start-up américaine du même nom, ont une esthétique d'œuvres d'art. En juin, l'hebdomadaire britannique The Economist s'en est même servi pour concevoir sa une : un visage rétrofuturiste sur fond de formes géométriques colorées, qui illustrait un dossier consacré aux "nouvelles frontières de l'intelligence artificielle ".

Ce courant porte un nom : le "text-to-image". Première étape, l'utilisateur génère des visuels à partir de mots et de phrases en langage naturel. Mais l'état des recherches permet d'aller beaucoup plus loin. En y ajoutant des termes comme "feutre", "fusain", "aquarelle", mais aussi "Van Gogh" ou "Dali", par exemple, il peut leur appliquer le style graphique correspondant.

Les niveaux de détails, de fidélité au descriptif pr[...]

Lire la suite sur sciencesetavenir.fr

A lire aussi