Vous vous demandez comment créer une application de générateur de selfie AI ? Aujourd’hui, nous examinerons plusieurs approches pour créer des avatars, changer l’arrière-plan, ainsi que le traitement d’image en profondeur pour obtenir une sortie plus détaillée. Il convient également de noter que nous utiliserons à la fois des solutions toutes faites, à savoir le SDK Stability AI (une solution payante), et une interaction directe avec des modèles prédéfinis (une solution gratuite).

Qu’est-ce qu’un générateur d’images AI ?
Les générateurs d’images d’avatar magiques sont une nouvelle technologie basée sur l’IA qui transforme les images en illustrations en fonction des demandes des utilisateurs. Fondamentalement, un utilisateur télécharge une photo, généralement un portrait, et choisit un personnage ou un paramètre pour modifier l’image. Par exemple, vous pouvez télécharger votre selfie et demander à l’outil d’avatar magique de vous transformer en personnage Marvel. Vous connaissez peut-être l’éditeur de photos Lensa – l’outil d’avatar magique AI le plus populaire actuellement. Cette application utilise le modèle Stable Diffusion comme nous sommes sur le point de le faire. Voyons maintenant de plus près comment créer une application de générateur d’images AI.

Comment fonctionne une application AI Image Generator ?
Le cœur de la création d’une application personnalisée de génération de visages IA est un modèle entraîné. Les modèles sont essentiellement des algorithmes qui ont été formés sur des ensembles de données pour effectuer certaines actions, par exemple, générer des images basées sur des invites. Nous allons travailler avec des modèles de diffusion. Ils peuvent générer une quantité pratiquement infinie de nouvelles images en fonction des invites. Les modèles de diffusion sont un type de modèle génératif, ce qui signifie qu’ils génèrent de nouvelles données basées sur les données d’apprentissage. Ce qui rend les modèles de diffusion spéciaux, c’est qu’ils détruisent les données d’apprentissage en ajoutant du bruit, puis inversent ce processus pour récupérer les données. En termes simples, les modèles de diffusion créent de nouvelles images en ajoutant et en supprimant le bruit des données d’apprentissage afin qu’ils puissent générer de nouvelles images en essayant de recréer l’original. Les modèles de diffusion peuvent également générer des images à partir de texte seul en conditionnant le processus de génération d’images.

Fonctionnalités indispensables pour l’application AI Selfie Generator
L’ensemble de fonctionnalités indispensables pour une application d’avatar magique est assez simple car il s’articule autour d’un seul objectif : transformer la photo d’un utilisateur en œuvre d’art. Par conséquent, toute application mobile d’avatar IA devrait avoir les fonctionnalités suivantes :
- Télécharger une photo de la galerie ou prendre une nouvelle photo pour la génération d’image à image et le changement d’arrière-plan
- Une invite de texte pour la génération de texte à image
- Un ensemble de filtres d’arrière-plan avec une option personnalisée
- Un ensemble de filtres d’avatar (selon le thème de votre application) avec une option personnalisée
- Enregistrer des photos et les partager sur les réseaux sociaux
Comme vous le voyez, la liste des fonctionnalités de base pour une simple application de générateur d’avatar magique est plutôt courte. Mais que faut-il pour créer un générateur de selfie IA comme l’application Lensa ?

Tech Stack pour le développement d’applications AI Selfie Generator
Lorsqu’il s’agit de développer une application de génération d’images AI, une pile technologique peut être divisée en deux aspects : travailler avec le serveur de génération d’images et travailler avec l’application elle-même. Nous allons tous les deux interagir avec le modèle Stable Difusion directement et via Stability AI SDK. Pour faire fonctionner le serveur, nous nous appuierons sur Python. En ce qui concerne l’environnement de codage, nous avons opté pour Visual Studio Core.
Quant au développement d’applications mobiles, cela dépend du type d’application que vous avez choisi. Une pile technologique pour iOS, Android et les applications Flutter multiplateformes sera différente. Nous sommes allés avec SwiftUI pour créer une application iOS.
5 étapes pour créer un générateur de selfie AI comme Lensa
Passons maintenant au sujet principal de cet article : comment créer une application générateur d’art IA en seulement 5 étapes. Si vous recherchez quelque chose comme le développement du générateur de selfie Lensa AI, il est préférable de savoir comment tout cela fonctionne de l’intérieur.
Étape 1 : Sélection des modèles
Il existe un grand nombre de modèles de diffusion et les images de sortie que nous recevrons dépendent du modèle. Pour sélectionner des modèles, vous pouvez utiliser le site Web (voir la figure ci-dessous), et entrez Stable Diffusion dans la barre de recherche.

Chaque modèle a son propre identifiant, que nous utiliserons plus tard sur notre serveur. Chaque modèle a été initialisé avec les poids principaux et ajusté par un grand nombre d’étapes avec une résolution spécifique. Nous vous recommandons également d’utiliser de grands modèles avec des pas supérieurs à 400-500k pour obtenir les meilleurs résultats.
Étape 2 : Examen des fonctionnalités de diffusion stable
Nous avons un modèle, alors choisissons maintenant un mécanisme de génération d’image approprié pour celui-ci. Il existe les types suivants :
- Texte à image
- Image à image
- Profondeur de l’image
Texte à image, comme vous l’avez peut-être deviné, génère une image à partir du texte spécifié par l’utilisateur. Plus vous partagez de détails sur ce que vous voulez obtenir à la sortie, meilleur sera le résultat.

Image à image est un mécanisme plus compliqué car il nécessite une image et du texte en entrée. À l’aide de ces données, le système tentera de remplacer des parties de l’image à l’aide de l’invite de saisie. Nous vous recommandons de décrire les détails les plus importants, cela donnera un très bon résultat à l’avenir. C’est le mécanisme que nous utiliserons dans la construction des Magic Avatars.
Nous ferons également la fonctionnalité de remplacer l’arrière-plan sans changer la photo de la personne devant. Pour cela, nous devrons apprendre OpenCV afin de comprendre comment déterminer les différents types d’objets dans l’image et créer des masques appropriés pour eux.
Profondeur à l’image est la troisième fonctionnalité de Stable Diffusion, une version améliorée de Image-to-Image qui inclut un travail supplémentaire avec des informations de profondeur lors de la génération de nouvelles images.
Avec Depth-to-Image, vous avez un meilleur contrôle sur la synthèse séparée du sujet et de l’arrière-plan.
Étape 3 : Préparation du serveur
Pour exécuter le serveur, vous devez installer Python, pip et anaconda. En outre, nous vous recommandons d’utiliser Visual Studio Code comme application principale pour le codage.
Tout d’abord, nous devons trouver un modèle sur le site Web de Hugging Face ; ensuite, nous créons un tuyau dans le api.py fichier, que nous utiliserons pour générer des avatars.

Pour de meilleurs résultats de vitesse d’exécution, nous vous recommandons d’activer le découpage de l’attention pour image_to_image_pipe.
Il faut maintenant définir le dispositif torche qui servira d’unité de traitement (CPU, MPS, CUDA). Comme nous n’avons que des cartes graphiques M1 et Intel, nous choisissons MPS. CUDA peut vous fournir de meilleurs résultats, mais il n’est disponible que sur les cartes Nvidia.
Et maintenant, nous pouvons commencer à générer nos avatars en fournissant des paramètres au tube à partir de la requête réseau. De plus, nous utilisons le générateur car nous avons une liste de styles (pour les avatars et les arrière-plans) et les styles contiennent des identifiants de graine spécifiques. Le serveur utilise la graine 0 pour les invites personnalisées.

La sortie contient notre image générée qui est envoyée à l’utilisateur sur l’application mobile.
Étape 4 : Préparation de l’application mobile
Nous avons construit une application mobile minimaliste qui vous permet d’utiliser toutes les fonctionnalités de Stable Diffusion. Des styles prédéfinis pour les arrière-plans et les avatars sont à votre disposition. Un style est un modèle qui a été créé sur la base des générations d’images précédentes. Ses principaux paramètres sont la graine (une valeur unique correspondant au thème de l’image générée), l’invite (une description des détails que nous avons utilisés précédemment), l’échelle de guidage et la force. Nous avons sélectionné plusieurs styles afin que vous puissiez facilement générer des images sans créer de nouvelles invites.

Nous offrons également la possibilité de créer un avatar basé sur votre invite personnalisée ; ici tout dépend de votre imagination, mais nous vous recommandons d’utiliser le PromptHero site Web, où vous pouvez voir les différentes images générées et les paramètres qui ont été utilisés.
Alors, quelques étapes simples et vous aurez un Magic Avatar :
1. Prenez une photo à l’aide de l’appareil photo ou sélectionnez-en une existante dans la photothèque
2. Choisissez un style prédéfini (section Filtres d’avatar, par exemple, Elsa) ou appuyez sur Personnalisé pour proposer une invite intéressante
3. Attendez quelques secondes (le serveur génère une image)
4. Obtenez le résultat

Sur la base de l’image de sortie, nous pouvons générer de nouvelles images jusqu’à ce que nous trouvions celle que nous préférons.
Il convient également de noter qu’après avoir généré un avatar, nous pouvons modifier l’arrière-plan en choisissant un style prédéfini (section Filtres d’arrière-plan) ou en appuyant sur Personnalisé pour proposer une invite.

Comment aimez-vous le résultat?
Étape 5 : test du serveur sur différentes plates-formes
Nous avons testé les systèmes sur deux ordinateurs portables : un Macbook Pro basé sur un processeur Intel avec une carte vidéo (Intel UHD Graphics 630 1536 Mo) et un Macbook Pro M1. M1/M2 fonctionne beaucoup plus rapidement. Vous pouvez obtenir le meilleur résultat avec les cartes vidéo Nvidia.
Vous pouvez vérifier les résultats Apple sur ce lien.
Vous pouvez également essayer de tester la diffusion stable en exécutant Interface utilisateur Web dans le navigateur.
Coût de développement d’une application de génération d’images comme Lensa
En ce qui concerne le coût de développement d’une application de génération d’images comme Lensa, tout dépend du choix du modèle d’IA, de la fonctionnalité du serveur, du nombre de fonctionnalités, du niveau de complexité de la conception, des plates-formes (iOS, Android ou les deux), des tarifs de l’équipe, etc. au.
La création d’une application personnalisée de génération de visages IA est un travail hautement qualifié et complexe qui nécessite une compréhension approfondie de la modélisation de l’IA, de l’apprentissage automatique et du développement d’applications par des spécialistes. Le développement d’un générateur de selfie de haute qualité prend un temps décent et nécessite au moins deux développeurs sur le projet.
Le développement d’un générateur d’IA d’image MVP pour créer une solution similaire à Lensa peut prendre environ 3 à 4 mois pour le développement d’applications mobiles à cycle complet.
En multipliant ces estimations de temps par les taux de votre équipe de développement préférée, vous pouvez environ calculer le coût final pour développer une application personnalisée de générateur de selfie AI.

Étude de cas sur l’application AI Selfie Generator
Cette application d’avatar IA était une expérience pour l’équipe Perpetio sur la façon de créer une application de génération d’art numérique IA, de tester les capacités actuelles de Stable Diffusion et d’essayer cette solution pour créer une application mobile. Il est maintenant temps de démontrer les résultats que vous pouvez obtenir en créant un générateur de visage IA à partir d’une photo :




Emballer
Lorsque vous décidez de développer une application de génération d’images pour créer des selfies AI, gardez à l’esprit que le résultat du traitement de l’image dépend toujours fortement des paramètres d’image d’entrée. Nous pouvons prédire que les capacités et les performances des avatars basés sur l’IA, comme le développement du générateur d’image AI de Lensa, ne fera qu’augmenter avec le temps, ce qui signifie des œuvres d’art plus vives, créatives et précises. Assez sûrement, un tel développement conduira également à une plus grande accessibilité de la personnalisation des outils de retouche photo basés sur l’IA.
Ce projet est accessible sur notre GitHub.
📩
FAQ
Qu’est-ce qu’un générateur d’images IA ?
Les générateurs d’images d’avatar magiques sont une nouvelle technologie basée sur l’IA qui transforme les images en illustrations en fonction des demandes des utilisateurs. Fondamentalement, un utilisateur télécharge une photo, généralement un portrait, et choisit un personnage ou un paramètre pour modifier l’image.
Comment fonctionnent les générateurs d’images IA ?
Le cœur de la création d’une application personnalisée de génération de visages IA est un modèle formé. Les modèles sont essentiellement des algorithmes qui ont été formés sur des ensembles de données pour effectuer certaines actions, par exemple, générer des images basées sur des invites. Les générateurs d’images AI fonctionnent avec des modèles de diffusion.
Puis-je créer mon propre générateur d’art AI?
Oui, vous pouvez collaborer avec une société de développement d’applications mobiles expérimentée spécialisée dans l’IA, comme Perpetio, et faire développer un outil unique de génération d’images d’IA.