Tutoriel sur GPT Image 2 : guide complet, de l'inscription à la génération d'images (2026)

Résumé rapide

GPT Image 2 est un outil de génération d'images par IA fonctionnant dans un navigateur. Il ne propose que deux modes : « texte vers image » (text-to-image) et « image vers image » (image-to-image). Le tarif est fixe à 12 crédits par image, sans options supplémentaires telles que la résolution, les proportions ou les niveaux de qualité. Cet article vous guide pas à pas, de l'inscription à la création de votre première image, en passant par le téléchargement d'une photo de référence pour l'édition, jusqu'aux astuces pour générer des images exploitables. Essayez gratuitement GPT Image 2 →

Avant de commencer : ce dont vous avez besoin

Pour utiliser GPT Image 2, pas besoin d'une carte graphique haut de gamme, de Photoshop ni d'aucune expérience en IA : tous les calculs sont effectués sur le serveur, le navigateur ne servant qu'à saisir les données et à afficher les résultats. Ce qu'il faut vraiment préparer est très simple :

Un navigateur moderne. Les versions actuelles de Chrome, Edge, Safari, Firefox et Arc sont toutes compatibles. L'activation de l'accélération matérielle rendra l'aperçu plus fluide, mais ce n'est pas obligatoire.
Un compte de messagerie. L'inscription est possible via un mot de passe ou via la connexion en un clic avec Google. Les adresses professionnelles et Gmail sont acceptées, mais les adresses e-mail à usage unique seront refusées.
Un petit solde de crédits. Que ce soit pour la génération d'images à partir de texte ou d'images, quelle que soit la longueur de la prompt ou le format de sortie, le coût est de 12 crédits par image. Les nouveaux comptes disposent de crédits d'essai gratuits, suffisants pour réaliser les premières images de ce tutoriel.
Une image de référence (facultative). Si vous prévoyez d'utiliser la fonction « image vers image », préparez une ou deux images sources au format JPG / PNG / WebP, dont la taille ne doit pas dépasser 10 Mo par image. Les compositions carrées ou verticales permettent d'obtenir plus facilement des résultats stables.
**Une idée vague suffit. ** Les débutants cherchent souvent à rédiger d'emblée le « prompt parfait », ce qui les plonge dans l'indécision. La méthode la plus efficace consiste à générer une image à partir d'un prompt simple, à observer ce que le modèle vous propose, puis à décider comment l'améliorer.

En avril 2026, l'utilisation de GPT Image 2 ne nécessite aucun téléchargement de logiciel client, aucune demande de clé API et aucune liste d'attente. Il suffit de trois étapes : ouvrir la page d'accueil, se connecter et lancer la génération.

Couverture du guide d'utilisation de GPT Image 2 : un créateur utilisant un générateur d'images IA devant son ordinateur portable — Une table, un onglet de navigateur, une consigne : voilà tout ce dont GPT Image 2 a besoin pour fonctionner.

Cet article s'adresse à ceux qui souhaitent tirer le meilleur parti de cet outil. Si son utilisation technique s'apprend en deux minutes, ce sont les décisions concernant « ce qu'il faut écrire, ce qu'il faut relire et quand apporter des modifications » qui demandent le plus de travail ; c'est précisément ce dont traitent les chapitres suivants. Si vous êtes pressé, vous pouvez passer directement à la méthode n° 1, puis revenir aux sections consacrées aux astuces de formulation et aux erreurs courantes dès que vous obtenez un premier résultat qui ne vous satisfait pas.

Méthode n° 1 : Text-to-Image — Créer sa première image en partant de zéro

La génération d'images à partir de texte est la fonctionnalité que la plupart des utilisateurs souhaitent essayer en premier lorsqu'ils découvrent GPT Image 2 : il suffit d'écrire une description, de cliquer sur « Générer », et le modèle renvoie une image complète. Voici la procédure étape par étape.

Étape 1 : Ouvrez le générateur et connectez-vous

Ouvrez la page d'accueil de GPT Image 2. Le panneau du générateur se trouve sur la première page de la version bureau et constitue le premier bloc complet sur la version mobile. Si vous n'êtes pas connecté, un bouton « Générer après connexion » s'affiche ; sélectionnez votre adresse e-mail ou votre compte Google pour vous connecter, cela prend moins d'une minute.

Une fois connecté, votre solde de points s'affiche dans le coin supérieur droit. Vérifiez que vous disposez d'au moins 12 points : les nouveaux comptes bénéficient d'un crédit d'essai et vous pouvez réaliser le premier exemple de cet article sans avoir à associer de carte bancaire.

Étape 2 : Accédez à l'onglet « Text to Image »

En haut du générateur se trouvent deux onglets : Texte vers image et Image vers image. Commencez par utiliser la fonction « Texte vers image » par défaut. Le champ de saisie se trouve juste en dessous de la barre d'onglets.

Pas besoin de sélectionner manuellement un modèle : le service utilise en arrière-plan le modèle « gpt-image-2-text-to-image » de KIE. Pas de menus déroulants pour le format, les proportions ou la résolution : un seul modèle, un seul tarif.

Étape 3 : Commencez par rédiger une description volontairement succincte

Une erreur courante chez les débutants consiste à entasser tous les adjectifs qu'ils connaissent dans la première instruction. Évitez de faire cela. Commencez par une description brève et concrète pour voir comment le modèle se comporte « par défaut ». Voici l'instruction que j'ai utilisée lors de mon premier test, alors que je préparais cet article :

A golden retriever puppy sitting in a sunlit field of wildflowers, shallow depth of field,
warm afternoon light.

(Description : un chiot golden retriever assis au milieu d'un champ de fleurs sauvages ensoleillé, avec une faible profondeur de champ et la lumière chaleureuse d'un après-midi.)

Collez-le dans le champ de saisie, puis cliquez sur Generate. La plupart des suggestions renvoient un résultat en 20 à 40 secondes, mais le temps de réponse peut être légèrement plus long aux heures de pointe.

Étape 4 : Évaluer honnêtement les résultats

La première fois que j'ai utilisé la phrase d'invite ci-dessus, le résultat était globalement satisfaisant : des tons plutôt chauds, des yeux nets, un flou d'arrière-plan naturel... mais les pattes du chien étaient légèrement floues, ce qui est une faiblesse typique des modèles d'image actuels. C'est tout à fait normal : cette étape ne sert pas à attribuer une note, mais à vous faire une idée de ce qu'est une « sortie par défaut ».

Sur la première image, il faut au moins prêter attention à trois éléments :

Le sujet est-il correct ? Le modèle représente-t-il bien le sujet que vous souhaitez ? Ou y a-t-il une erreur (par exemple, un labrador doré dessiné comme un labrador noir) ?
**Direction de la lumière. ** La lumière réelle correspond-elle à votre description ? Une « lumière chaude d'après-midi » devrait être une lumière latérale douce et directionnelle, et non une lumière zénithale.
Composition. Le cadrage du sujet correspond-il à l'image que vous aviez en tête ? Ou est-il maladroitement centré ?

Si l'un de ces trois aspects ne convient pas, vous avez une raison valable de modifier le texte d'invite, plutôt que de relancer aveuglément la recherche.

Étape 5 : Rédiger une phrase d'invitation optimisée

Voici une version améliorée de la même scène. Le sujet et l'approche en matière d'éclairage sont les mêmes, mais la composition est mieux adaptée à GPT Image 2 :

A 3-month-old golden retriever puppy with fluffy fur and floppy ears, sitting upright in a
meadow of wild daisies and lavender. Warm late-afternoon sunlight streams from the left,
casting long gentle shadows and creating a soft golden rim light on the fur. Shallow depth
of field, background softly blurred with bokeh. Shot on an 85mm lens, eye level with the
puppy. Photorealistic, high detail, natural colors.

(Signification en chinois : un chiot golden retriever âgé de trois mois, au pelage duveteux et aux oreilles tombantes, est assis sur un pré parsemé de marguerites sauvages et de lavande. La lumière chaude de l'après-midi brille depuis la gauche, projetant une ombre longue et douce et créant un halo doré sur son pelage. Faible profondeur de champ, arrière-plan flou avec effet bokeh. Objectif 85 mm, prise de vue à hauteur des yeux du chiot. Style réaliste, riche en détails, couleurs naturelles.)

Par rapport à la première édition, quatre modifications ont été apportées :

Des détails plus précis sur le sujet (« âgé de trois mois », « pelage duveteux », « oreilles souples ») permettent au modéliste de se faire une image précise.
Une direction de lumière claire (« venant de la gauche », « lumière de contour sur le pelage »), plutôt que de se contenter d'écrire « chaleureuse ».
Le langage photographique (« objectif 85 mm », « à hauteur des yeux du chiot ») fournit au modèle un modèle de composition concret.
Les adjectifs qualitatifs sont placés à la fin (« réaliste, très détaillé, couleurs naturelles ») — courts, sans voler la vedette.

Cliquez à nouveau sur « Generate ». La deuxième image devrait se rapprocher davantage de ce que vous avez en tête. Si ce n'est pas encore le cas, ne réécrivez pas tout le texte : modifiez une variable à la fois, générez une nouvelle image et comparez-la à la précédente pour déterminer quel mot fait la différence.

Un modèle mental très utile : décomposez le mot-clé en quatre « éléments » : le sujet, l'action, le contexte et le style. Modifiez à chaque fois uniquement l'élément qui pose problème. Si le sujet ne convient pas, modifiez l'élément « sujet » ; si la lumière ne convient pas, modifiez l'élément « contexte » ; si le résultat ressemble à un dessin animé alors que vous vouliez une photo, modifiez l'élément « style ».

Étape 6 : Enregistrer, télécharger ou continuer à itérer

Une fois que vous êtes satisfait de l'image générée, un bouton de téléchargement apparaît sous l'aperçu. Chaque génération est automatiquement enregistrée dans l'historique de votre compte ; vous pouvez ainsi consulter les anciennes versions, copier d'anciennes descriptions et poursuivre le processus. Si vous souhaitez retravailler ce personnage ultérieurement dans l'outil de génération d'images, il vous suffit de sélectionner cette image dans l'historique pour l'utiliser comme image de base.

Image de qualité cinématographique générée par GPT Image 2 à partir d'un texte : une femme vêtue d'une longue robe en soie blanche sur une plage à l'heure dorée — Une prompt de génération d'image contenant une description précise de l'éclairage. En précisant « heure dorée » et « soie à contre-jour », le modèle dispose alors d'indices visuels clairs sur lesquels s'appuyer.

Le cycle « ouvrir – rédiger – évaluer – affiner – régénérer » que vous venez de suivre correspond au cycle de travail complet de la génération d'images à partir de texte. La suite de cet article vous explique comment accélérer ce cycle tout en économisant des points.

Si vous utilisez GPT Image 2 sur le long terme, je vous conseille de conserver une liste des « prompts efficaces » dans un fichier texte brut. Il ne s’agit pas d’un modèle, mais de votre propre journal : chaque fois que vous obtenez une image qui vous satisfait, ajoutez-y une ligne de commentaire contenant le prompt complet. Au bout de six mois, cette liste correspondra mieux à vos goûts esthétiques que n’importe quel modèle générique trouvé sur Internet.

Méthode n° 2 : Génération d'images à partir d'images — Modification ou changement de style d'une photo existante

La génération d'images à partir d'images (image-to-image, ou i2i) part d'une image source : le modèle conserve les éléments que vous souhaitez garder et réécrit le reste en fonction des instructions fournies. Ce mode est idéal pour répondre à des demandes telles que « changer la tenue d'une même personne », « changer l'arrière-plan d'un même produit » ou « changer le style d'une composition identique ».

Étape 1 : Accédez à l'onglet « Image vers image »

Revenez au générateur de page d'accueil et cliquez sur Image to Image. Une zone de téléchargement de fichiers apparaîtra au-dessus de la zone de saisie. La zone de texte reste disponible et prend toujours en charge jusqu'à 20 000 caractères, mais elle fonctionne désormais en tandem avec l'image téléchargée.

Cette fonctionnalité utilise en arrière-plan gpt-image-2-image-to-image, dont le prix est identique à celui de la génération d'images à partir de texte : 12 crédits par image. Il n'y a pas de curseur « intensité » distinct ; l'ampleur du changement dépend entièrement de la formulation de votre prompt.

Si vous avez déjà utilisé d'autres outils de type InPainting (retouche par masque), changez de mentalité : GPT Image 2 ne nécessite pas de dessiner de masque, mais analyse l'image source dans son intégralité ainsi que l'ensemble de la description avant de décider des modifications à apporter. Pour 80 % des besoins réels (changer d'arrière-plan, changer de vêtements, passer du jour à la nuit), il est en fait plus simple de se contenter de modifier la description.

Étape 2 : Télécharger l'image source

Faites glisser un fichier JPG, PNG ou WebP dans la zone de téléchargement, ou cliquez pour sélectionner un fichier. Pour vous entraîner, nous vous recommandons de choisir une photo bien éclairée et à la composition simple. Les photos présentant un flou de mouvement, un éclairage tamisé ou un arrière-plan encombré laissent trop de marge d'interprétation au modèle, ce qui rend la comparaison entre les images difficile à percevoir.

L'image ci-dessous est typique de ce que les débutants ont tendance à télécharger lorsqu'ils essaient un outil d'IA pour la première fois : un simple selfie pris en intérieur.

Une simple photo prise en intérieur, servant d'exemple d'image source pour la génération d'images par GPT Image 2 — Image d'origine : un selfie pris au quotidien en intérieur, légèrement surexposé. Ce n'est pas une photo retouchée, mais exactement le type d'image que « Tu Sheng Tu » sait le mieux transformer.

Étape 3 : Commencez par déterminer s'il s'agit d'une « petite retouche » ou d'une « transformation »

Avant de rédiger votre prompt, réfléchissez bien au niveau de modification souhaité. La génération d'images et le remplacement d'images répondent à deux intentions radicalement différentes, et la formulation du prompt varie en conséquence :

Petite modification (Edit) : conserver l'essentiel, ne changer qu'un seul élément. « Changer la couleur du vêtement en bleu marine. » « Supprimer la tasse de café. » « Remplacer l'arrière-plan par une bibliothèque. »
Transformation (Transform) : conserver l'identité, réécrire l'ensemble de la scène. « La même personne, vêtue d'un costume traditionnel chinois, debout sur la terrasse du palais au clair de lune. » « Le même produit, avec un plateau en marbre et un éclairage de studio. »

Plus la description du nouveau scénario fournie par le mot-clé est complète, plus le modèle modifie le résultat ; si vous ne mentionnez qu'une seule caractéristique, les autres éléments ont tendance à être conservés. C'est le levier qui vous permet de contrôler l'« ampleur des modifications » sans avoir recours à un curseur.

Exemple : « change the shirt to navy blue » (changer la chemise pour une chemise bleu marine) est une modification mineure : le visage, la coiffure, la posture, l'arrière-plan et la lumière restent inchangés. Si l'on remplace cette phrase par « Elle porte désormais un tailleur bleu marine sur mesure et se tient dans un bureau aux parois de verre à l'heure dorée », il s'agit alors d'une transformation : le tailleur, l'environnement et la lumière changent tous, seuls le visage et la silhouette restent inchangés. Il s'agit toujours d'une seule phrase, mais l'ampleur du changement dépend de la quantité de nouveaux éléments que vous décrivez.

Étape 4 : Rédigez une instruction indiquant au modèle « ce qu'il doit conserver »

Voici les mots-clés que j'ai utilisés pour « transformer » l'image d'origine ci-dessus :

Same woman — identical facial features and hair. Transform the scene: she now wears an
elaborate crimson-and-gold hanfu with intricate embroidery and a jeweled phoenix hairpin.
She stands on a moonlit palace terrace, red lanterns glowing softly in the background,
cherry blossom petals drifting in the air. Warm lantern light from the right, cool
moonlight fill from the left. Cinematic shallow depth of field, elegant composition, 4K
photorealistic.

(Signification en chinois : Il s'agit de la même femme — son visage et sa coiffure sont restés identiques. Réécriture de la scène : elle porte désormais une somptueuse robe traditionnelle chinoise rouge et dorée, aux broderies complexes, et une broche en forme de phénix doré est fixée sur son chignon. Elle se tient sur la terrasse du palais, baignée par la lumière de la lune, avec en arrière-plan des lanternes rouges diffusant une lumière douce et des pétales de cerisier qui virevoltent. La lumière chaude des lanternes à droite, la lumière froide de la lune à gauche. Une faible profondeur de champ digne d'un film, une composition élégante, un rendu réaliste en 4K.)

Deux points sont expressément précisés :

« Même femme — traits du visage et coiffure identiques. » Cette phrase permet pratiquement à elle seule de conserver l'identité du personnage. Si elle n'est pas mentionnée, le modèle risque de dériver de manière aléatoire.
Description complète de la nouvelle scène. Précisez clairement les vêtements, le lieu, les accessoires et la direction de la lumière. Le modèle est en train de reconstruire l'environnement dans son ensemble ; il a besoin d'une série complète d'instructions, et non d'une simple étiquette.

Étape 5 : Comparer l'avant et l'après une fois la génération effectuée

Cliquez sur « Generate » pour obtenir le résultat. Lors de mon test, l'image générée a conservé les traits reconnaissables du visage et la silhouette de la coiffure du sujet, tandis que tout le reste a été reconstruit conformément aux instructions.

Sortie GPT Image 2 : le même personnage transposé dans une scène de série historique en costume d'époque — Génération d'images : l'identité du personnage reste la même d'une image à l'autre, tandis que les vêtements, le décor et l'éclairage sont entièrement réécrits en fonction des indications fournies.

Considérez l'ensemble. Si le visage a trop changé, ajoutez la clause « same person » dans les instructions (par exemple, précisez « preserve exact face shape, same eyes, same nose, same lip shape » — conserver la forme exacte du visage, les mêmes yeux, le même nez et la même forme des lèvres) ; si le changement de décor n'est pas suffisant, ajoutez davantage de détails sur l'environnement. Ce sont là les leviers dont vous disposez.

Étape 6 : sans quitter la page, utilisez directement le résultat comme entrée suivante

L'un des principaux atouts de la génération d'images est que le résultat obtenu peut directement servir de base pour la prochaine modification. Il suffit de cliquer sur « Utiliser comme nouvelle entrée », puis de saisir une nouvelle consigne (par exemple « Même scène, mais à l'aube » ou « Même pose, mais avec un éventail à la main »). Le résultat final obtenu après plusieurs modifications successives est presque toujours plus abouti qu'une consigne interminable qui tente de tout régler d'un seul coup.

« L'édition en chaîne » est l'une des astuces de workflow les plus utiles de cet article. Erreur courante chez les débutants : rédiger une description de 300 mots censée tout englober, puis refaire huit essais sans jamais obtenir le résultat escompté. La méthode professionnelle consiste à procéder par étapes : commencer par définir le personnage, puis utiliser le résultat de cette étape comme image de référence pour définir les vêtements, l'environnement et l'éclairage. Chaque étape rapporte 12 points, soit un total de 48 points pour les quatre étapes — le résultat est bien plus net que si l'on avait relancé le processus dix fois d'un seul coup.

Transfert de style avec GPT Image 2 : photo d'une plage réelle à gauche, version redessinée dans un style cyberpunk néon à droite — Allons encore plus loin dans la transposition stylistique : un même personnage, une même pose, mais transposés d'une plage réelle vers un toit cyberpunk aux néons. Il suffit d'indiquer « same pose » dans la consigne pour que le modèle conserve sa structure géométrique, tandis que tout le reste s'adapte au nouveau décor.

Les astuces pour trouver les bons mots-clés qui améliorent réellement la qualité des images générées

Vous maîtrisez désormais l'ensemble du processus. La différence entre un nouvel utilisateur au premier jour et un utilisateur expérimenté capable de créer un portfolio grâce à GPT Image 2 ne réside pas dans une quelconque phrase-clé mystérieuse, mais dans la connaissance des leviers qui fonctionnent réellement. Les neuf conseils ci-dessous sont ceux qui offrent le meilleur rapport effort-résultat dans la pratique.

Astuce n° 1 : placez le sujet au début et les mots clés à la fin

Commencez la description par « Qui/Quoi est représenté », et placez les termes liés à la qualité d'image tels que « photorealistic », « cinematic », « 4K » et « high detail » à la fin. Le modèle lit la description de gauche à droite : le sujet mentionné au début bénéficie d'un poids plus important, tandis que celui qui se trouve à la fin, noyé parmi les sept balises de qualité, voit son impact dilué.

Faible : Photo ultra-HD cinématographique hyperréaliste en 4K d'un chat assis sur le rebord d'une fenêtre

Fort : Un chat tuxedo noir et blanc assis sur le rebord d'une fenêtre en bois, observant une rue pluvieuse à l'extérieur. Lumière douce et diffuse provenant de la fenêtre, faible profondeur de champ. Photoréaliste, cinématographique.

Astuce n° 2 : Décrivez la « direction de la lumière », et non « l'ambiance créée par la lumière »

« Un bel éclairage » ne veut presque rien dire. « Une lumière chaude de coucher de soleil venant de la gauche, avec de longues ombres tombant vers la droite » indique en revanche au modélisateur où chaque ombre doit se projeter. Les sources de lumière identifiées par leur direction et leur nom (lumière de fenêtre, lumière de contour, boîte à lumière au-dessus, éclairage de remplissage au néon par l'arrière) constituent l'un des moyens les plus efficaces pour améliorer la qualité de l'image tout en utilisant un minimum de mots.

Astuce n° 3 : décrivez la composition en utilisant des termes photographiques pour renforcer immédiatement le réalisme

Pour obtenir des images très réalistes, inspirez-vous du vocabulaire des photographes. En combinant les focales (35 mm, 50 mm, 85 mm, 135 mm), les indications sur la profondeur de champ (shallow depth of field, deep focus) et les angles de prise de vue (eye level, low angle, overhead), le modèle disposera d'un ensemble de modèles de composition concrets. L'article de Wikipédia en anglais Camera lens est une excellente ressource qui se lit en 10 minutes et vous aidera à choisir vos focales en toute connaissance de cause.

Astuce n° 4 : Décrivez le style en fonction du « support » plutôt que du « nom de l'artiste »

L'expression « dans le style de tel peintre » est à la fois fragile et source de controverses quant à l'attribution. Une approche plus sûre consiste à décrire le support lui-même : « peinture à l'huile avec des traces de pinceau visibles », « croquis au crayon avec des hachures croisées », « aspect vintage de la pellicule Kodachrome avec du grain », « illustration vectorielle épurée avec des couleurs plates ». Cela donne une orientation esthétique sans dépendre d'une personne en particulier.

Astuce n° 5 : Privilégiez les « descriptions positives » plutôt que les « restrictions négatives »

GPT Image 2 ne dispose pas de champ de saisie dédié aux instructions négatives. Pour éviter certains éléments, le mieux est de décrire clairement ce que vous souhaitez. Plutôt que d'écrire « pas de personnes, pas de texte, pas d'encombrement », écrivez « une pièce vide aux murs épurés, une composition minimaliste, une seule plante dans un coin ». Une description positive est bien plus fiable qu'une formulation négative.

Astuce n° 6 : pour créer une image à partir d'une autre, commencez par définir le personnage, puis réécrivez la scène

Lorsque vous effectuez un « changement de tenue ou de décor », si vous souhaitez que le visage reste identique, la première phrase de l'instruction est cruciale. Une phrase telle que « Same person — preserve facial features, hair color, and skin tone » (Même personne — conserver les traits du visage, la couleur des cheveux et le teint) placée au début est plus efficace que n'importe quelle description de décor, aussi belle soit-elle. Si vous souhaitez que l'identité soit encore plus précise, ajoutez « same eye shape, same nose, same lips » (même forme des yeux, même nez, mêmes lèvres). Il vaut mieux le dire clairement plutôt que de le suggérer.

Astuce n° 7 : procédez par petites étapes plutôt que de réécrire tout d'un coup

Ne modifiez qu'une seule variable à la fois. Si la posture est correcte mais que les vêtements ne conviennent pas, ne modifiez que la partie concernant les vêtements ; si l'éclairage ne convient pas mais que tout le reste est bon, ne modifiez que la partie concernant l'éclairage. C'est ainsi que vous pourrez créer une boucle de rétroaction véritablement contrôlable et savoir exactement quel mot a changé quoi. Réécrire tout le paragraphe détruirait ce signal et vous ferait perdre des points.

Astuce n° 8 : rédigez les consignes en suivant l'ordre des éléments auxquels le modèle doit accorder la priorité

Placez les éléments clés au début : sujet → action → environnement → style. En écrivant « dans le style d’une peinture à l’huile, une femme en robe rouge marche dans une rue pavée au crépuscule », vous indiquez au modèle « qu’il s’agit avant tout d’une peinture à l’huile », le reste n’étant que des détails secondaires. Remplacez cela par « Une femme en robe rouge marche dans une rue pavée au crépuscule, représentée sous forme de peinture à l'huile » : le modèle perçoit d'abord le sujet, puis seulement ensuite le support. La quantité d'informations est la même, mais le résultat est généralement nettement plus précis dans le second cas.

Astuce n° 9 : Utilisez les termes employés par les photographes et les réalisateurs

« Dutch angle » (angle hollandais), « rack focus » (focus progressif), « golden hour » (heure dorée), « overcast daylight » (lumière du jour par temps couvert), « softbox » (boîte à lumière), « gobo shadow » (ombre de gobo), « hero shot » (plan héros), « two-shot » (plan à deux), « negative space » (espace négatif) : ces termes ont une signification précise en photographie et au cinéma, et de nombreuses images de la base de données d'entraînement sont associées à ces mots. Les termes émotionnels vagues (vibey, dreamy, epic) constituent des signaux bien moins forts pour le modèle. L'article de Wikipédia en anglais Shot (filmmaking) constitue un bon guide de vocabulaire à consulter en 15 minutes.

Les erreurs les plus courantes chez les débutants et comment les corriger

Pour être honnête, j'ai commis toutes les erreurs suivantes. Il y a de fortes chances que vous les commettiez aussi, mais au moins, vous pourrez les repérer plus rapidement.

Erreur n° 1 : rédiger une prompt de 400 caractères en espérant obtenir un résultat final du premier coup. Les modèles d'image sont plus efficaces avec des prompts « concis et itératifs » qu'avec des prompts « interminables et exhaustifs ». La limite de 20 000 caractères n'est pas un objectif en soi. Les résultats qui m'ont le plus satisfait avec GPT Image 2 provenaient pour la plupart de prompts comptant entre 40 et 120 mots.

Erreur n° 2 : répéter l'opération sans modifier la prompt. Si l'on clique deux fois sur « Generate » avec la même prompt, le résultat est « presque prêt » ; en cliquant une troisième fois, il reste « presque prêt ». L'exploration aléatoire ne porte que sur un petit voisinage ; si la direction de ce voisinage est erronée, aucune répétition ne permettra de rattraper le coup : il faut modifier la prompt.

Erreur n° 3 : contradictions dans les mots-clés. Il est contradictoire d'utiliser à la fois « soft dreamy watercolor » (aquarelle douce et onirique) et « ultra-sharp photorealistic 4K » (4K ultra-net et photoréaliste) dans la même description. Le modèle choisira l'un ou l'autre, ou pire encore : fera la moyenne entre les deux. Réfléchissez bien avant de rédiger.

Erreur n° 4 : avoir des attentes trop élevées concernant le texte dans l'image. En avril 2026, les modèles d'IA générateurs d'images ne parviennent toujours pas à rendre de manière stable les longs passages de texte, en particulier ceux contenant des caractères non latins. Les courtes étiquettes sur les enseignes fonctionnent parfois, mais c'est rarement le cas pour des passages de texte plus longs. Lorsque le texte constitue l'information principale, il suffit de le superposer à l'image obtenue à l'aide d'un éditeur d'images quelconque.

Erreur n° 5 : télécharger une image source floue. Le modèle utilise le niveau de détail de l'image source comme référence. Une photo prise avec un téléphone portable, floue et peu éclairée, conservera ce flou quel que soit le texte de la prompt que vous utilisez, même si vous demandez une image « claire et nette ». Choisissez une image source nette si possible.

Erreur n° 6 : ne mettez pas l'accent sur les mains. Les mains restent la source d'imperfections la plus courante dans la génération d'images. Si la composition exige de mettre les mains en avant, acceptez de devoir effectuer plusieurs itérations ; si elles ne sont pas essentielles, faites en sorte qu'elles sortent du cadre ou qu'elles pendent naturellement.

Erreur n° 7 : ne pas tenir compte des proportions lors du téléchargement de l'image source. La sortie d'une image générée suit généralement les proportions de l'image source. Si vous souhaitez obtenir une bannière mais que vous téléchargez un selfie au format portrait, c'est comme si vous alliez à l'encontre du modèle. Recadrez l'image source au format souhaité avant la génération.

Erreur n° 8 : considérer la « première image acceptable » comme la version finale. Les utilisateurs expérimentés considèrent une image « correcte » comme le point de départ de la phase suivante. L'écart entre une image « correcte » et le niveau requis pour un book se creuse généralement lors de la troisième itération, et non dès la première.

Erreur n° 9 : oublier que le modèle n'a pas de mémoire entre deux générations. À moins d'utiliser la fonction « image vers image » en prenant la sortie précédente comme image source, chaque génération est entièrement nouvelle. Si vous souhaitez réutiliser un ancien personnage, enregistrez la prompt d'origine ou effectuez directement une édition en chaîne à partir de l'image précédente.

Comment fonctionne GPT Image 2 en interne (en bref)

Cette section n'est pas indispensable, mais elle vous aidera à définir des attentes réalistes. GPT Image 2 est une interface utilisateur simplifiée qui appelle directement les deux modèles KIE « gpt-image-2-text-to-image » et « gpt-image-2-image-to-image » — ceux-ci appartiennent à la famille des modèles de diffusion et ont été optimisés pour le suivi des instructions et le réalisme haute fidélité. Chaque requête est authentifiée, facturée 12 crédits, mise en file d'attente, puis renvoie une URL d'image.

La présence de curseurs sur l'interface est très rarement intentionnelle : l'API KIE n'expose pas ces éléments de contrôle, et l'ajout de « faux curseurs » au niveau supérieur ne ferait que semer la confusion. Tout ce que le modèle est capable de faire s'exprime par le biais des prompts. Pour en savoir plus sur les principes de fonctionnement, consultez l'article Wikipédia Diffusion model et la page de recherche d'OpenAI.

GPT Image 2 présente également des faiblesses

Un tutoriel ne serait pas complet s'il ne mentionnait que les points positifs sans aborder les points négatifs. Voici les faiblesses communes à GPT Image 2 – et, en réalité, à tous les modèles d'images courants actuels :

Reproduction fidèle des éléments de marque. Les logos, les personnages sous licence et les emballages de produits ne peuvent pas être reproduits de manière stable. La bonne méthode consiste à générer une composition, puis à y intégrer le logo réel.
**Cohérence rigoureuse des références. ** Lorsqu'un personnage doit rester parfaitement identique sur plusieurs dizaines d'images (par exemple dans une bande dessinée en série), la conservation de l'identité est bien meilleure avec la génération d'images à partir d'images qu'avec la génération d'images à partir de texte, mais elle reste moins précise que l'entraînement de LoRA ou le binding de personnages 3D, qui garantissent une précision image par image.
Anatomie dans des postures extrêmes. Les doigts, les pieds, les dents, les oreilles et les membres entrecroisés sont les parties les plus susceptibles de se déformer. Plus le plan est serré, plus les imperfections sont visibles.
Une mise en page parfaite. Comme mentionné plus haut, cela reste vrai.

Voici deux autres remarques d'ordre pratique : premièrement, les modèles de génération de contenu présentent intrinsèquement un caractère aléatoire dans l'échantillonnage — un même prompt donnera des résultats différents à chaque fois ; la diversité est un atout, tandis que le manque de cohérence est un inconvénient, ce dernier pouvant être atténué par l'édition en chaîne « image vers image ». Deuxièmement, le modèle reflète la distribution des données d'entraînement ; il est plus difficile d'obtenir un résultat précis du premier coup avec des contextes culturels peu courants qu'avec des thèmes grand public, il faut donc s'attendre à devoir effectuer plusieurs itérations.

Un véritable workflow de création d'images par IA ne repose pas sur un modèle unique, mais consiste plutôt à « laisser GPT Image 2 générer 80 % de l'image de base, puis à effectuer les 20 % restants à la main à l'aide d'un éditeur de base ».

Aperçu en une page : processus complet

Si vous souhaitez simplement afficher une version que l'on peut lire d'un seul coup d'œil à côté de l'écran :

Ouvrez la page d'accueil de GPT Image 2] et connectez-vous.
Vérifiez que votre compte dispose d'au moins 12 points.
Sélectionnez l'onglet : Text to Image ou Image to Image.
Génération d'image à partir d'une image : téléchargez une image source nette.
Rédigez d'abord une consigne courte et précise. Le sujet en premier, les mots de qualité ensuite.
Générer. Évaluez fidèlement selon trois critères : le sujet, la lumière et la composition.
Modifiez une seule variable, régénérez et comparez.
Répétez les étapes 6 et 7 jusqu’à ce que le résultat vous satisfasse.
Téléchargez.

C'est tout. Tous les raccourcis, astuces et habitudes de pro mentionnés dans cet article ne sont que des variantes de ces neuf étapes.

Voici une autre petite astuce : rédigez d'abord votre prompt dans un éditeur de texte, puis copiez-le dans le générateur. Cela permet de conserver l'historique, de modifier l'ordre des mots et de réutiliser des introductions standard telles que « Same person — preserve facial features… ». Une fois que vous êtes satisfait du résultat, recopiez la version finale dans votre journal de prompts. Cette petite contrainte vous évitera de perdre vos meilleurs prompts lorsque vous actualisez votre navigateur.

Foire aux questions

Combien de points rapporte chaque image avec GPT Image 2 ?

Que ce soit pour la génération d'images à partir de texte ou d'images, le tarif est le même : 12 points par image. Il n'y a pas de frais supplémentaires pour des « prompts plus longs », des « images plus grandes » ou des « niveaux de qualité supérieurs » : ces options n'existent tout simplement pas. Les points s'achètent sous forme de forfaits sur le site web, et les nouveaux comptes reçoivent automatiquement des points d'essai.

Faut-il installer quelque chose pour utiliser GPT Image 2 ?

Ce n'est pas nécessaire. Tout se fait directement dans le navigateur. Il n'y a pas d'application de bureau, pas d'extension de navigateur, et l'interface Web ne nécessite pas de clé API. Il vous suffit d'un navigateur moderne et d'un compte de messagerie.

Quelle est la longueur maximale d'un mot-clé ?

La saisie des promptions pour la génération d'images à partir de texte et la génération d'images à partir d'images prend en charge jusqu'à 20 000 caractères. Cela dit, dans la pratique, les promptions les plus efficaces comptent généralement entre 40 et 200 mots. Les promptions trop longues risquent de diluer le signal, voire d'engendrer des contradictions ; les promptions courtes et bien structurées s'avèrent généralement plus efficaces.

Est-il possible de télécharger plusieurs images de référence à la fois ?

Le mode « image à partir d'image » ne prend en charge qu'une seule image source à la fois. Si vous souhaitez combiner plusieurs références (par exemple « ce personnage + le style de ce vêtement »), vous pouvez procéder à une génération en chaîne : commencez par créer une image intermédiaire, puis utilisez-la comme image source pour la prochaine itération en ajoutant une nouvelle prompt et en apportant des modifications. L'édition en chaîne donne souvent des résultats plus nets qu'une image générée à partir d'une seule prompt complexe.

GPT Image 2 prend-il en charge des résolutions ou des proportions spécifiques ?

Les paramètres de tarification sont actuellement uniformes, et l'API KIE ne propose pas de commandes permettant à l'utilisateur de modifier le format ou la résolution. La sortie de l'image générée suit généralement la forme de l'image source ; par conséquent, si vous avez besoin d'un format spécifique, il faut d'abord recadrer l'image source avant de la régénérer.

Les images générées peuvent-elles être utilisées à des fins commerciales ?

Les droits d'utilisation sont régis par les conditions d'utilisation figurant en bas de page du site ; ces conditions font foi. Dans la pratique, jusqu'en 2026, la plupart des utilisateurs s'en servent pour des créations marketing, du contenu destiné aux réseaux sociaux, des maquettes et des créations personnelles. Avant d'utiliser une image dans un produit générateur de revenus, veuillez consulter les conditions en vigueur à ce moment-là.

Comment garantir la cohérence d'un même personnage sur plusieurs images ?

Utilisez la technique « image à partir d'image » et précisez clairement au début de la prompt une clause de conservation des caractéristiques physiques (« Same person — preserve facial features, hair color, and skin tone »). Utilisez ensuite chaque image générée comme image de départ pour la suivante, en ajoutant une nouvelle description de scène pour poursuivre la génération. Cette méthode n'est pas aussi précise que les modèles LoRA spécialement entraînés pour un personnage donné, mais elle est bien plus efficace que de repartir à zéro à chaque fois avec la technique « texte à image ».

Quelle est la meilleure façon d'apprendre rapidement à utiliser GPT Image 2 ?

Pour les 12 à 20 premières générations, utilisez des prompts simples de type « texte vers image » afin de bien cerner les performances du modèle en « mode par défaut » ; passez ensuite à la génération d'image à partir d'image, en commençant par une image source vierge. En suivant les instructions de la page de référence ci-dessus, la plupart des utilisateurs devraient pouvoir s'en sortir assez facilement après environ une heure d'entraînement assidu.

Pourquoi mes résultats ne correspondent-ils pas du tout à mes mots-clés ?

Il existe trois types de causes courantes : premièrement, les adjectifs sont regroupés au début et le sujet est relégué à la fin — placez le sujet en premier ; Deuxièmement, les mots-clés sont contradictoires (par exemple, « aquarelle » et « photoréaliste » juxtaposés) : choisissez un seul support ; Troisièmement, le texte ne contient que des adjectifs évocateurs (« beau », « saisissant ») sans noms concrets : ajoutez des objets précis, la direction de la lumière et le langage visuel.

Êtes-vous prêt à commencer ?

À ce stade, vous disposez d'un workflow complet, d'une série de prompts efficaces, d'une liste des pièges à éviter et d'une fiche de référence rapide. Il ne vous reste plus qu'une chose à faire : lancer le générateur et utiliser vos 100 premiers points pour découvrir « quels types de prompts vous préférez ». Personne ne peut écrire cette étape à votre place.

Ouvrez GPT Image 2 pour générer votre première image →

Si vous souhaitez approfondir le sujet :

Qu'est-ce que GPT Image 2 ? Fonctionnalités, tarifs et cas d'utilisation
Guide des prompts pour GPT Image 2 : Rédigez des prompts réellement efficaces
GPT Image 2 vs Sora : comparaison des capacités de génération d'images
Essayez d'abord le générateur de prompts d'images intégré, qui développe automatiquement un prompt complet à partir d'une simple idée.
Vous pouvez également accéder directement aux pages dédiées aux modes Text to Image ou Image to Image.

Cet article a été publié par l'équipe GPT Image 2. À compter d'avril 2026, les deux modèles seront facturés au tarif uniforme de 12 crédits par image. En cas de modification future, nous mettrons à jour cet article et l'indiquerons dans le journal des mises à jour.

Tutoriel sur GPT Image 2 : guide complet, de l'inscription à la génération d'images (2026)

Table des matières