Sintesi rapida
GPT Image 2 è uno strumento di generazione di immagini basato sull'intelligenza artificiale che funziona direttamente nel browser. Offre solo due modalità: "da testo a immagine" (text-to-image) e "da immagine a immagine" (image-to-image), con un costo unico di 12 crediti per immagine, senza opzioni aggiuntive relative a risoluzione, proporzioni o livelli di qualità. Questo articolo ti guiderà passo dopo passo attraverso la registrazione, la prima generazione di immagini, il caricamento di foto di riferimento per l'editing e le strategie di prompt per produrre immagini realmente utilizzabili. Prova gratuita di GPT Image 2 →
Prima di iniziare: cosa ti serve
Per utilizzare GPT Image 2 non servono schede grafiche di fascia alta, Photoshop o alcuna esperienza con l'intelligenza artificiale: tutte le elaborazioni vengono eseguite sul server, mentre il browser si occupa solo dell'inserimento dei dati e della visualizzazione dei risultati. In realtà, ciò che occorre preparare è molto semplice:
- Un browser moderno. Sono supportate le versioni attuali di Chrome, Edge, Safari, Firefox e Arc. L'attivazione dell'accelerazione hardware rende l'anteprima più fluida, ma non è indispensabile.
- Un account e-mail. È possibile registrarsi con password o tramite l'accesso con Google. Sono accettati sia indirizzi aziendali che Gmail; i domini di email usa e getta saranno rifiutati.
- Un piccolo saldo di punti. Che si tratti di "testo in immagine" o "immagine in immagine", indipendentemente dalla lunghezza del prompt e dalle proporzioni dell'output, il costo è di 12 punti per immagine. I nuovi account dispongono di punti di prova gratuiti, sufficienti per completare le prime immagini di questo tutorial.
- Un'immagine di riferimento (facoltativa). Se intendi utilizzare la funzione "immagine da immagine", prepara una o due immagini di riferimento in formato JPG / PNG / WebP; si consiglia che ogni singola immagine non superi i 10 MB. Le composizioni quadrate o verticali sono le più adatte per ottenere risultati stabili.
- **È sufficiente un'idea vaga. ** I principianti spesso cercano di scrivere subito il "prompt perfetto", finendo invece per rimanere bloccati. Il metodo davvero efficace è quello di generare prima un'immagine con un prompt semplice, vedere cosa ti propone il modello e poi decidere come modificarla.
A partire da aprile 2026, per utilizzare GPT Image 2 non è necessario scaricare alcun client, richiedere una chiave API né attendere in lista d'attesa. Basta aprire la pagina iniziale, effettuare l'accesso e iniziare a generare: solo tre semplici passaggi.

Questo articolo è rivolto a chi desidera utilizzare al meglio questo strumento. L'utilizzo tecnico si impara in due minuti, ma ciò che richiede davvero impegno sono le decisioni relative a "cosa scrivere, cosa osservare e quando modificare": i capitoli seguenti trattano proprio questi aspetti. Se avete fretta, potete passare direttamente al metodo 1 e tornare a leggere le sezioni dedicate alle tecniche di formulazione delle parole chiave e agli errori più comuni solo quando otterrete il primo risultato insoddisfacente.
Metodo 1: Testo-immagine — Creare la prima immagine partendo da zero
La generazione di immagini da testo è la funzionalità che la maggior parte degli utenti desidera provare quando accede a GPT Image 2: basta scrivere una descrizione, cliccare su "Genera" e il modello restituirà un'immagine completa. Di seguito sono riportate le istruzioni passo passo.
Passaggio 1: Aprire il generatore ed effettuare l'accesso
Apri la pagina iniziale di GPT Image 2. Il pannello del generatore si trova nella prima schermata della versione desktop e nel primo blocco completo della versione mobile. Se non hai effettuato l'accesso, verrà visualizzato il link "Genera dopo aver effettuato l'accesso"; seleziona l'indirizzo e-mail o l'account Google per completare l'accesso in meno di un minuto.
Una volta effettuato l'accesso, nell'angolo in alto a destra verrà visualizzato il saldo dei punti; assicurati di avere almeno 12 punti: i nuovi account dispongono di un credito di prova, quindi non è necessario associare una carta per completare il primo esempio descritto in questo articolo.
Passaggio 2: passare alla scheda "Text to Image"
Nella parte superiore del generatore sono presenti due schede: Text to Image e Image to Image. Per prima cosa, prova la funzione predefinita "da testo a immagine". La casella di immissione si trova proprio sotto la barra delle schede.
Non è necessario selezionare manualmente il modello: il sistema utilizza il modello gpt-image-2-text-to-image di KIE, senza menu a tendina per formato, proporzioni o risoluzione: un unico modello, un unico prezzo.
Passaggio 3: scrivi innanzitutto una frase chiave volutamente breve
Un errore comune tra i principianti è quello di inserire tutti gli aggettivi che conoscono nella prima prompt. Non fatelo. Iniziate con una descrizione breve e concreta per vedere come si comporta il modello nella sua "modalità predefinita". Ecco la prompt che ho usato durante la preparazione di questo articolo, nel mio primo test:
A golden retriever puppy sitting in a sunlit field of wildflowers, shallow depth of field,
warm afternoon light.(Descrizione: un cucciolo di golden retriever seduto in un prato fiorito illuminato dal sole, con una profondità di campo ridotta e la calda luce del pomeriggio.)
Incolla il testo nella casella di immissione e clicca su Generate. La maggior parte delle parole chiave restituisce i risultati in un tempo compreso tra i 20 e i 40 secondi, anche se durante le ore di punta il processo può risultare leggermente più lento.
Fase 4: Valutare onestamente i risultati
La prima volta che ho eseguito il prompt riportato sopra, il risultato era sostanzialmente soddisfacente: tonalità calde, occhi nitidi, sfocatura naturale dello sfondo... ma le zampe del cane risultavano leggermente sfocate, un punto debole tipico degli attuali modelli di immagini. È del tutto normale: questa fase non serve a dare un voto, ma a farti familiarizzare con l'"output predefinito".
Nella prima immagine bisogna prestare attenzione almeno a tre cose:
- Il soggetto è corretto? Il modello raffigura il soggetto che volevi? Oppure è diverso (ad esempio, un golden retriever disegnato come un labrador)?
- **Direzione della luce. ** La luce effettiva corrisponde a quella che hai descritto? La "calda luce pomeridiana" dovrebbe essere una luce laterale morbida e direzionale, non una luce dall'alto.
- Composizione. L'inquadratura del soggetto corrisponde all'immagine che avevi in mente? Oppure è goffamente centrata?
Se uno qualsiasi di questi tre aspetti non è corretto, hai un motivo valido per modificare la frase di prompt, invece di riprovare alla cieca.
Passaggio 5: Scrivere una versione ottimizzata della frase di prompt
Di seguito è riportata una versione avanzata della stessa scena. Il soggetto e l'approccio alla luce sono gli stessi, ma è stata adottata una struttura più adatta a GPT Image 2:
A 3-month-old golden retriever puppy with fluffy fur and floppy ears, sitting upright in a
meadow of wild daisies and lavender. Warm late-afternoon sunlight streams from the left,
casting long gentle shadows and creating a soft golden rim light on the fur. Shallow depth
of field, background softly blurred with bokeh. Shot on an 85mm lens, eye level with the
puppy. Photorealistic, high detail, natural colors.(Significato in cinese: un cucciolo di Golden Retriever di tre mesi, dal pelo soffice e dalle orecchie cadenti, seduto composto su un prato di margherite selvatiche e lavanda. La calda luce pomeridiana illumina da sinistra, proiettando un'ombra lunga e morbida e creando un contorno dorato sul pelo. Profondità di campo ridotta, sfondo sfocato con effetto bokeh. Obiettivo da 85 mm, all'altezza degli occhi del cucciolo. Stile realistico, alto livello di dettaglio, colori naturali.)
Rispetto alla prima edizione, sono state apportate quattro modifiche:
- Dettagli più specifici sul soggetto ("tre mesi", "pelo soffice", "orecchie morbide"), per aiutare il modello a definire l'immagine.
- Direzione della luce chiara ("da sinistra", "luce di contorno sul pelo"), invece di limitarsi a scrivere "calda".
- Il linguaggio dell'obiettivo ("obiettivo da 85 mm", "all'altezza degli occhi del cucciolo") fornisce al modello un modello compositivo concreto.
- Gli aggettivi che descrivono la qualità vanno messi alla fine ("realistico, altamente dettagliato, colori naturali") — brevi, senza rubare la scena.
Clicca di nuovo su "Generate". La seconda immagine dovrebbe essere più vicina a quella che hai in mente. Se non è ancora quella giusta, non riscrivere l'intero paragrafo: modifica una variabile alla volta, genera e confronta, così potrai capire quale parola sta facendo la differenza.
Un modello mentale molto utile: suddividi la parola chiave in quattro "compartimenti": soggetto, azione, ambiente e stile. Modifica ogni volta solo il compartimento che presenta il problema. Se il soggetto non è quello giusto, modifica il compartimento "soggetto"; se la luce non è quella giusta, modifica il compartimento "ambiente"; se l'immagine sembra un cartone animato ma tu vuoi una foto, modifica il compartimento "stile".
Passaggio 6: Salva, scarica o continua a iterare
Una volta soddisfatti dell'immagine generata, sotto l'anteprima troverai il pulsante di download. Ogni generazione viene salvata automaticamente nella cronologia del tuo account: potrai così rivedere le versioni precedenti, copiare i prompt utilizzati e continuare a perfezionare il risultato. Se in seguito vorrai modificare ulteriormente questo personaggio nella funzione "Genera da immagine", ti basterà selezionare questa immagine dalla cronologia come immagine di partenza.

Il ciclo "Apri – Scrivi – Valuta – Ottimizza – Rigenera" che hai appena completato rappresenta l'intero ciclo di lavoro della generazione di immagini da testo. Tutto il resto di questo articolo ti spiegherà come rendere questo ciclo più veloce e consumare meno punti.
Se utilizzi GPT Image 2 a lungo termine, ti consiglio di tenere un file di testo in cui annotare i "prompt efficaci". Non si tratta di un modello, ma di un tuo diario personale: ogni volta che sei soddisfatto dell'immagine generata, aggiungi una riga con il prompt completo come nota. Dopo sei mesi, questo archivio rispecchierà il tuo gusto estetico molto più di qualsiasi modello generico trovato online.
Metodo 2: Generazione di immagini da immagini — Modifica o applicazione di uno stile a una foto esistente
Il modello "immagine-a-immagine" (image-to-image, abbreviato in i2i) parte da un'immagine di partenza: il modello conserva le parti che desideri mantenere e riscrive il resto in base alle parole chiave fornite. Se desideri realizzare progetti come "cambiare l'abbigliamento della stessa persona", "cambiare lo sfondo dello stesso prodotto" o "cambiare lo stile mantenendo la stessa composizione", utilizza questo modello.
Passaggio 1: passare alla scheda "Da immagine a immagine"
Torna al generatore della pagina iniziale e clicca su Image to Image. Sopra l'area di inserimento comparirà un'area per il caricamento dei file; la casella di testo rimane, supporta ancora un massimo di 20.000 caratteri, ma ora funziona in sinergia con l'immagine caricata.
Utilizza in background gpt-image-2-image-to-image; il prezzo è lo stesso di quello per la generazione di immagini da testo: 12 crediti per immagine. Non è presente un cursore indipendente per regolare l'«intensità»: l'entità della variazione dipende interamente dalla formulazione del prompt.
Se avete già utilizzato altri strumenti di InPainting (correzione con maschera), ricordatevi di cambiare approccio: GPT Image 2 non richiede la creazione di una maschera, ma analizza l'intera immagine di partenza insieme all'intera stringa di prompt prima di decidere cosa modificare. Per l'80% delle esigenze reali (cambiare lo sfondo, cambiare gli abiti, trasformare il giorno in notte), la semplice modifica del prompt risulta in realtà più semplice.
Passaggio 2: Caricare l'immagine originale
Trascina i file JPG / PNG / WebP nell'area di caricamento oppure clicca su "Seleziona file". Per la tua prima prova, ti consigliamo di scegliere una foto con un'illuminazione pulita e una composizione semplice. Le foto con sfocature dovute al movimento, scarsa illuminazione o sfondi disordinati lasciano al modello più spazio per "interpretazioni libere", rendendo invece difficile la lettura del confronto tra le due immagini.
L'immagine qui sotto è il tipico esempio di "foto che un principiante caricherebbe al primo tentativo con uno strumento di IA": un normale selfie scattato in casa.

Fase 3: Valutare innanzitutto se si tratta di una "piccola riparazione" o di una "trasformazione"
Prima di scrivere le istruzioni, chiarisci bene quale livello di modifica desideri. La generazione di immagini e la sovrascrittura di immagini rispondono a due intenzioni completamente diverse, e di conseguenza anche le istruzioni da scrivere sono diverse:
- Modifica minore (Edit): mantenere la maggior parte, cambiare solo un elemento. "Cambiare il colore dei vestiti in blu navy." "Eliminare la tazza di caffè." "Sostituire lo sfondo con una libreria." "
- Trasformazione (Transform): mantenere l'identità, riscrivere l'intera scena. "Stessa persona, ma in abiti tradizionali cinesi sulla terrazza del palazzo al chiaro di luna." "Stesso prodotto, ma con piano in marmo e illuminazione da studio."
Più la descrizione fornita per il nuovo scenario è completa, più il modello subirà modifiche; se si indica solo una caratteristica, le altre parti tenderanno a rimanere invariate. Questo è il meccanismo che ti permette di controllare l'entità delle modifiche senza ricorrere ai cursori.
Esempio: «change the shirt to navy blue» (cambiare la camicia con una blu navy) è una modifica limitata, in cui il viso, l'acconciatura, la posa, lo sfondo e l'illuminazione rimangono invariati. Se invece si sostituisce con She is now wearing a tailored navy suit, standing in a glass-walled corporate office at golden hour (Indossa ora un tailleur blu navy su misura, in piedi in un ufficio aziendale con pareti di vetro all'ora del tramonto), si tratta di una trasformazione completa: il tailleur, l'ambiente e la luce cambiano completamente, mentre rimangono invariati solo il viso e la silhouette. Si tratta sempre di una sola frase, ma l'entità della modifica dipende da quanti nuovi scenari descrivi.
Passaggio 4: Scrivi una frase che indichi al modello "cosa conservare"
Di seguito sono riportate le parole chiave che ho utilizzato per "trasformare" l'immagine originale sopra riportata:
Same woman — identical facial features and hair. Transform the scene: she now wears an
elaborate crimson-and-gold hanfu with intricate embroidery and a jeweled phoenix hairpin.
She stands on a moonlit palace terrace, red lanterns glowing softly in the background,
cherry blossom petals drifting in the air. Warm lantern light from the right, cool
moonlight fill from the left. Cinematic shallow depth of field, elegant composition, 4K
photorealistic.(Significato in cinese: la stessa donna — il volto e l'acconciatura sono rimasti identici. Riscrittura della scena: ora indossa un sontuoso abito tradizionale cinese rosso e dorato, ricamato con motivi intricati, e sul chignon è fissata una spilla a forma di fenice d'oro. Si trova sulla terrazza del palazzo illuminata dalla luce della luna, con sullo sfondo lanterne rosse dalla luce soffusa e petali di ciliegio che fluttuano nell'aria. A destra la luce calda delle lanterne, a sinistra la luce fredda della luna. Profondità di campo ridotta in stile cinematografico, composizione elegante, realistica in 4K.)
Ci sono due punti che vengono espressamente indicati:
- "Stessa donna — tratti del viso e capelli identici." Questa frase è fondamentale per mantenere l'identità del personaggio. Se non viene inserita, il modello tenderà a variare in modo casuale.
- Descrizione completa della nuova scena. Indicare chiaramente abbigliamento, luogo, oggetti di scena e direzione della luce. Il modello sta ricostruendo l'intero ambiente e necessita di una serie completa di istruzioni, non solo di un'etichetta.
Passaggio 5: Confronto prima e dopo la generazione
Cliccando su "Generate" si ottengono i risultati. Durante il mio test, l'immagine generata ha mantenuto i tratti distintivi del viso e la forma dei capelli del soggetto, mentre tutto il resto è stato ricostruito in base alle parole chiave fornite.

Considera il tutto nel suo insieme. Se il volto è troppo alterato, aggiungi la clausola "same person" nelle istruzioni (ad esempio, aggiungi "preserve exact face shape, same eyes, same nose, same lip shape" – mantieni la forma esatta del viso, gli stessi occhi, lo stesso naso e la stessa forma delle labbra); se lo scenario non è stato modificato a sufficienza, aggiungi ulteriori dettagli ambientali. Queste sono le leve a tua disposizione.
Passaggio 6: senza uscire dalla pagina, utilizzare direttamente l'output come input successivo
Il vantaggio principale di TuShengTu è che l'immagine appena generata può essere utilizzata come immagine di partenza per la modifica successiva. Basta cliccare su "Usa come nuovo input" e inserire una nuova descrizione (ad esempio "Stessa scena, ma all'alba" o "Stessa posa, ma con un ventaglio in mano"). L'immagine finale ottenuta tramite piccole modifiche successive risulta quasi sempre più pulita rispetto a quella generata da una descrizione lunghissima che cerca di racchiudere tutto in una volta.
La "modifica a catena" è uno dei trucchi di workflow più utili di questo articolo. Un errore comune tra i principianti è quello di scrivere una descrizione di 300 parole che vuole abbracciare tutto, per poi ritrovarsi con otto tentativi falliti. Il metodo professionale consiste nel procedere per fasi: definire prima il personaggio, poi utilizzare il risultato della fase precedente come immagine di riferimento per definire l'abbigliamento, l'ambiente e l'illuminazione. 12 punti per ogni fase, per un totale di 48 punti in quattro fasi: il risultato è molto più pulito rispetto a quello ottenuto dopo dieci tentativi in un'unica sessione.

Suggerimenti efficaci per migliorare davvero le immagini generate
Ora hai acquisito una padronanza completa della procedura operativa. La differenza tra un nuovo utente al suo primo giorno e un utente esperto in grado di creare un portfolio grazie a GPT Image 2 non sta in una qualche frase chiave misteriosa, ma nel sapere quali leve funzionano davvero. I nove punti riportati di seguito sono quelli che offrono il miglior rapporto costi-benefici nell'uso pratico.
Suggerimento 1: mettere il soggetto all'inizio e il complemento oggetto alla fine
Inizia la descrizione indicando "chi/cosa è raffigurato", e sposta i termini relativi alla qualità dell'immagine come photorealistic, cinematic, 4K e high detail alla fine. Il modello legge la descrizione dall'inizio alla fine: l'elemento principale all'inizio riceve il peso maggiore, mentre quello nascosto dietro i sette tag di qualità viene sminuito.
Piuttosto debole: Foto iperrealistica in 4K, capolavoro cinematografico dai dettagli ultra-HD, di un gatto seduto sul davanzale di una finestra
Intenso: Un gatto tuxedo bianco e nero seduto sul davanzale di una finestra di legno, che osserva la strada piovosa della città fuori. Luce morbida e diffusa dalla finestra, profondità di campo ridotta. Fotorealistico, cinematografico.
Suggerimento 2: descrivi la "direzione della luce", non la "atmosfera creata dalla luce"
Dire semplicemente "bella illuminazione" equivale quasi a non dire nulla. Solo una descrizione del tipo "calda luce del tramonto proveniente da sinistra, con lunghe ombre che cadono verso destra" indica alla modella dove devono cadere le singole ombre. Le fonti di luce con una direzione e un nome specifici (luce dalla finestra, luce di contorno, softbox dall'alto, luce di riempimento al neon da dietro) sono uno dei modi più efficaci per migliorare la qualità dell'immagine con il minimo sforzo.
Suggerimento 3: descrivi la composizione usando termini fotografici per dare subito un tocco di realismo
Se vuoi ottenere immagini realistiche, attingi al vocabolario dei fotografi. Combinando le lunghezze focali (35 mm, 50 mm, 85 mm, 135 mm), gli indizi sulla profondità di campo (shallow depth of field, deep focus) e le angolazioni di ripresa (eye level, low angle, overhead), avrai a disposizione una serie di modelli compositivi concreti. La voce Camera lens su Wikipedia in inglese è un ottimo materiale che si legge in 10 minuti e ti aiuta a scegliere consapevolmente la lunghezza focale.
Suggerimento 4: descrivere lo stile in base al "mezzo" anziché al "nome dell'artista"
L'espressione "nello stile di un determinato pittore" è non solo ambigua, ma solleva anche questioni relative all'attribuzione. Un approccio più sicuro consiste nel descrivere il mezzo stesso: dipinto a olio con pennellate visibili, schizzo a matita con tratteggio incrociato, effetto pellicola Kodachrome vintage con grana, illustrazione vettoriale pulita con colori piatti. In questo modo si fornisce un'indicazione estetica senza dipendere da una persona specifica.
Suggerimento 5: Sostituisci i "limiti negativi" con "descrizioni positive"
GPT Image 2 non dispone di un campo di testo dedicato alle indicazioni negative. Per evitare determinati elementi, il modo migliore è descrivere chiaramente ciò che desideri. Anziché scrivere «no people, no text, no clutter», è preferibile scrivere «una stanza vuota con pareti pulite, composizione minimalista, una singola pianta in un angolo». Una descrizione positiva è molto più affidabile di una formulazione negativa.
Suggerimento 6: per creare immagini a partire da altre immagini, occorre prima definire l'identità, poi riscrivere la scena
Quando si esegue un "cambio di abbigliamento/scenario" e si desidera mantenere lo stesso volto, la prima frase della descrizione è fondamentale. Inserire all'inizio una frase del tipo Same person — preserve facial features, hair color, and skin tone (Stessa persona — mantenere i tratti del viso, il colore dei capelli e il tono della pelle) è più efficace di qualsiasi bella descrizione dello scenario che segue. Se occorre rendere l'identità ancora più chiara, aggiungere same eye shape, same nose, same lips (stessa forma degli occhi, stesso naso, stesse labbra). Esprimersi in modo esplicito è più efficace che lasciare intendere.
Suggerimento 7: Procedere per piccoli passi, anziché riscrivere interi brani
Modifica una sola variabile alla volta. Se la postura è corretta ma l’abbigliamento non va bene, modifica solo la parte relativa all’abbigliamento; se l’illuminazione non è corretta ma tutto il resto va bene, modifica solo la parte relativa all’illuminazione. Solo così potrai creare un ciclo di feedback realmente controllabile e capire quale parola ha modificato cosa. Riscrivere l’intero paragrafo comprometterebbe questo segnale e ti farebbe perdere punti.
Suggerimento 8: Scrivere le parole chiave seguendo l'ordine in cui il modello dovrebbe dare priorità
Metti gli elementi chiave all'inizio: soggetto → azione → ambiente → stile. Se scrivi "in the style of oil painting, there is a woman in a red dress walking down a cobblestone street at dusk", stai dicendo al modello "questo è innanzitutto un dipinto a olio", mentre il resto è secondario. Se invece scrivi "Una donna in abito rosso cammina lungo una strada acciottolata al crepuscolo, rappresentata come un dipinto a olio", il modello percepisce prima il soggetto e solo alla fine il mezzo espressivo. Il contenuto informativo è lo stesso, ma con la seconda formulazione il risultato visivo è solitamente molto più accurato.
Suggerimento 9: Usa i termini che utilizzano realmente i fotografi e i registi
Dutch angle (angolazione olandese), rack focus (cambio di messa a fuoco), golden hour (ora d'oro), overcast daylight (luce diurna in una giornata nuvolosa), softbox (softbox), gobo shadow (ombra gobo), hero shot (inquadratura dell'eroe), two-shot (inquadratura a due), negative space (spazio negativo): questi termini hanno un significato ben definito sia nella fotografia che nel cinema, e molte immagini nei dati di addestramento sono accompagnate da questi termini. I termini emotivi vaghi (vibey, dreamy, epic) sono segnali molto più deboli per il modello. La voce Shot (filmmaking) su Wikipedia in inglese è un'ottima guida rapida di 15 minuti al vocabolario.
Gli errori più comuni dei principianti e come correggerli
A dire il vero, ho commesso tutti gli errori elencati di seguito. Probabilmente li commetterai anche tu, ma almeno sarai in grado di riconoscerli più rapidamente.
Errore 1: scrivere una prompt di 400 parole sperando di ottenere il risultato finale al primo tentativo. I modelli di generazione di immagini sono più efficaci nel gestire prompt "brevi e iterabili" piuttosto che prompt "estremamente lunghi e definitivi". Il limite massimo di 20.000 caratteri non è l'obiettivo. I risultati di GPT Image 2 di cui sono più soddisfatto derivano per lo più da prompt che contengono tra le 40 e le 120 parole.
Errore 2: ripetere il processo più volte senza modificare la prompt. Se si preme due volte il pulsante "Generate" con la stessa prompt, il risultato è "quasi perfetto"; se lo si preme una terza volta, rimane comunque "quasi perfetto". La casualità esplora solo un piccolo ambito; se la direzione di tale ambito è sbagliata, riprovare più volte non servirà a nulla: occorre modificare la prompt.
Errore 3: contraddizioni nelle parole chiave. Nello stesso testo si parla sia di "soft dreamy watercolor" (acquerello morbido e sognante) che di "ultra-sharp photorealistic 4K" (4K fotorealistico ultra nitido): si tratta di una contraddizione. Il modello sceglierà una delle due opzioni o, peggio ancora, le medierà. Rifletteteci bene prima di scrivere.
Errore 4: aspettative troppo elevate riguardo al testo nell'immagine. A partire da aprile 2026, i modelli di immagini generati dall'IA presentano ancora prestazioni instabili nella resa di testi lunghi, in particolare quelli contenenti caratteri non latini. Le brevi didascalie sulle insegne a volte funzionano, mentre i testi a livello di paragrafo raramente vengono riprodotti correttamente. Quando il testo costituisce l'informazione principale, è sufficiente sovrapporlo all'immagine utilizzando un qualsiasi editor di immagini dopo aver ottenuto il risultato.
Errore 5: caricare un'immagine sorgente sfocata. Il modello utilizza il livello di dettaglio dell'immagine sorgente come riferimento. Una foto scattata con il cellulare, sfocata e con scarsa illuminazione, manterrà quell'effetto sfocato nell'output, indipendentemente da quanto tu possa specificare nella prompt di volere un'immagine "nitida e definita". Se possibile, scegli sempre immagini sorgenti nitide.
Errore 6: non mettere le mani al centro dell’immagine. Le mani rimangono la causa più comune di imperfezioni nella generazione di immagini. Se la composizione richiede che le mani siano in primo piano, accettate il fatto che dovrete ritoccare l’immagine più volte; se non sono l’elemento centrale, fate in modo che le mani escano dall’inquadratura o restino naturalmente distese.
Errore 7: trascurare le proporzioni durante la fase di caricamento dell'immagine da generare. L'immagine generata segue solitamente le proporzioni dell'immagine di partenza. Se desideri un banner ma carichi un selfie in formato verticale, è come andare controcorrente. Prima della generazione, ritaglia l'immagine di partenza in base alle proporzioni desiderate.
Errore n. 8: considerare la "prima bozza approssimativa" come il lavoro definitivo. Gli utenti esperti considerano un risultato "accettabile" come punto di partenza per la fase successiva. Il divario tra un risultato "accettabile" e il livello richiesto per un portfolio emerge solitamente al terzo tentativo, non al primo.
Errore 9: dimenticare che il modello non conserva la memoria tra una generazione e l'altra. A meno che non si utilizzi la funzione "genera da immagine" utilizzando l'output precedente come immagine di partenza, ogni generazione è completamente nuova. Se si desidera riutilizzare un personaggio precedente, è necessario salvare il prompt originale oppure modificare direttamente l'immagine precedente in modalità "editing a catena".
Come funziona internamente GPT Image 2 (in breve)
La lettura di questa sezione non è obbligatoria, ma ti aiuterà a farti un'idea realistica di cosa aspettarti. GPT Image 2 è un'interfaccia utente semplificata che richiama direttamente i due modelli KIE gpt-image-2-text-to-image e gpt-image-2-image-to-image, appartenenti alla famiglia dei modelli di diffusione e ottimizzati per il rispetto delle istruzioni e la resa realistica ad alta fedeltà. Ogni richiesta viene autenticata, addebitata con 12 crediti, inserita in coda e restituisce l'URL dell'immagine.
La quasi totale assenza di controlli sull'interfaccia è intenzionale: l'API KIE non espone questi elementi di controllo e l'aggiunta di "slider fittizi" a livello superiore potrebbe solo creare confusione. Tutto ciò che il modello è in grado di fare viene espresso tramite le prompt. Per approfondire i principi alla base, è possibile consultare la pagina di Wikipedia Diffusion model e la pagina di ricerca di OpenAI.
Anche GPT Image 2 presenta dei punti deboli
Se ci si limita a elogiare senza menzionare gli aspetti negativi, non si tratta più di un tutorial. Di seguito sono riportati i punti deboli comuni a GPT Image 2 – che, in realtà, rispecchiano quelli di tutti i principali modelli di generazione di immagini attualmente disponibili:
- Riproduzione accurata degli elementi del marchio. Il logo, i personaggi autorizzati e le confezioni dei prodotti non vengono riprodotti in modo coerente. La procedura corretta consiste nel generare una composizione e poi sovrapporvi il logo originale.
- **Rigorosa coerenza con il riferimento. ** Quando è necessario che un personaggio sia perfettamente identico in decine di immagini (ad esempio in un fumetto a puntate), il mantenimento dell'identità con la generazione di immagini da immagini è già molto migliore rispetto alla generazione di immagini da testo, ma non è ancora preciso come l'addestramento di LoRA o il binding di personaggi 3D, che garantiscono precisione fotogramma per fotogramma.
- ** Anatomia in pose estreme.** Dita, piedi, denti, orecchie e arti incrociati sono le parti più soggette a distorsioni. Più la ripresa è ravvicinata, più gli errori sono evidenti.
- Composizione perfetta. Come già menzionato in precedenza, questo rimane un dato di fatto.
Ecco altre due considerazioni concrete: primo, i modelli di diffusione presentano intrinsecamente una casualità di campionamento: lo stesso prompt produce risultati diversi ogni volta; la diversità è un vantaggio, mentre la coerenza è uno svantaggio, che può essere mitigato ricorrendo all’editing a catena (generazione di immagini a partire da immagini). Secondo, il modello riflette la distribuzione dei dati di addestramento: i contesti culturali meno diffusi sono più difficili da riprodurre correttamente al primo tentativo rispetto ai temi più popolari, quindi è necessario prevedere un numero maggiore di iterazioni.
Un flusso di lavoro davvero efficace per la generazione di immagini con l'IA non consiste nell'affidarsi a un unico modello, ma piuttosto nel far sì che "GPT Image 2 risolva l'80% delle immagini principali, mentre un editor di base si occupi del 20% di ritocchi manuali".
Guida rapida: procedura completa
Se vuoi solo una versione da leggere a colpo d'occhio, da appendere accanto allo schermo:
- Apri la pagina iniziale di GPT Image 2 ed effettua l'accesso.
- Verifica di avere almeno 12 punti sul tuo account.
- Seleziona l'etichetta: Text to Image o Image to Image.
- Generazione di immagini: carica un'immagine di partenza pulita.
- Scrivi prima una breve descrizione specifica. Il soggetto prima, i termini di qualità dopo.
- Genera. Valuta oggettivamente secondo tre criteri: soggetto, luce, composizione.
- Modifica una sola variabile, genera di nuovo e confronta.
- Ripeti i passaggi 6–7 fino a ottenere un risultato soddisfacente.
- Scarica.
Questo è tutto. Tutti i collegamenti rapidi, i trucchi e le abitudini degli esperti descritti in questo articolo sono varianti di questi nove passaggi.
Ecco un altro piccolo consiglio: scrivi prima il prompt nell'editor di testo, poi incollalo nel generatore. In questo modo potrai conservare la cronologia, modificare l'ordine delle parole e riutilizzare introduzioni fisse come "Same person — preserve facial features…". Una volta ottenuta l'immagine desiderata, ricopia la versione finale nel registro dei prompt. Questa piccola precauzione ti eviterà di perdere i tuoi prompt migliori quando aggiorni il browser.
Domande frequenti
Quanti punti si ottengono per ogni immagine con GPT Image 2?
Sia che si tratti di generare immagini da testo o di generare immagini da immagini, il costo è sempre di 12 punti per immagine. Non sono previsti costi aggiuntivi per "prompt più lunghi", "output più grandi" o "livelli di qualità più elevati": tali opzioni semplicemente non esistono. I punti possono essere acquistati in pacchetti sul sito web; ai nuovi account vengono automaticamente assegnati dei punti di prova.
È necessario installare qualcosa per utilizzare GPT Image 2?
Non serve. Tutto avviene direttamente nel browser. Non sono necessarie app desktop, estensioni del browser né un'interfaccia utente web, e non occorre richiedere una chiave API. Ti bastano un browser moderno e un account e-mail.
Qual è la lunghezza massima delle parole chiave?
Sia per la generazione di immagini da testo che per quella da immagine, i prompt supportano un massimo di 20.000 caratteri. Detto questo, nella pratica i prompt più efficaci contengono solitamente tra le 40 e le 200 parole. I prompt troppo lunghi tendono a indebolire il segnale e possono persino generare contraddizioni; i prompt brevi e ben strutturati di solito danno risultati migliori.
È possibile caricare più immagini di riferimento contemporaneamente?
La modalità "Genera immagine da immagine" supporta una sola immagine di riferimento alla volta. Se desideri combinare più riferimenti (ad esempio "questo personaggio + lo stile di questo vestito"), puoi ricorrere alla generazione a catena: crea prima un'immagine intermedia, poi utilizzala come immagine di riferimento per la volta successiva, aggiungendo nuove istruzioni per continuare a modificarla. L'editing a catena spesso produce risultati più puliti rispetto all'utilizzo di una singola istruzione complessa.
GPT Image 2 supporta risoluzioni o proporzioni specifiche?
Attualmente il prezzo è unico e l'API KIE non mette a disposizione dell'utente alcuna opzione per la selezione delle proporzioni o della risoluzione. L'immagine generata segue solitamente la forma dell'immagine di origine; pertanto, se sono necessarie proporzioni specifiche, è necessario ritagliare l'immagine di origine prima di procedere alla generazione.
Le immagini generate possono essere utilizzate a fini commerciali?
I diritti di utilizzo sono regolati dai Termini di servizio riportati nel piè di pagina del sito; tali Termini costituiscono il riferimento definitivo. Nell'uso pratico, fino al 2026, la maggior parte degli utenti li ha utilizzati per creazioni di marketing, contenuti social, prototipi e creazioni personali. Prima di utilizzare un'immagine in un prodotto a scopo di lucro, si prega di consultare i Termini in vigore in quel momento.
Come garantire la coerenza di uno stesso personaggio in più immagini?
Utilizza Image-to-Image e inserisci chiaramente all'inizio della prompt una clausola di conservazione delle caratteristiche ("Stessa persona — conserva i tratti del viso, il colore dei capelli e il tono della pelle"). Quindi utilizza ogni output come immagine di partenza per quella successiva e continua la generazione con una nuova descrizione della scena. Questo metodo non è preciso quanto un modello LoRA addestrato specificamente per un personaggio, ma è di gran lunga migliore rispetto al ricominciare ogni volta da zero con Text-to-Image.
Qual è il modo più veloce per imparare a usare GPT Image 2?
Per le prime 12-20 generazioni, utilizza semplici prompt di generazione di immagini da testo per comprendere appieno il comportamento del modello nella sua "modalità predefinita"; successivamente, passa alla generazione di immagini da immagini, partendo da un'immagine di partenza pulita. Seguendo le istruzioni riportate nella pagina precedente, la maggior parte degli utenti, con circa un'ora di pratica seria, sarà in grado di gestire il processo con una certa disinvoltura.
Perché i miei risultati non assomigliano affatto alla frase di riferimento?
Tre cause comuni: primo, i termini descrittivi sono raggruppati all'inizio, mentre il soggetto principale è nascosto alla fine — spostare il soggetto principale all'inizio; secondo, le parole chiave sono contraddittorie (ad esempio, "acquerello" e "fotorealistico" accostati) — scegliere un unico mezzo espressivo; terzo, si utilizzano solo termini emotivi ("bello", "sconvolgente") senza nomi concreti — aggiungere oggetti specifici, la direzione della luce e il linguaggio delle inquadrature.
Sei pronto a iniziare?
A questo punto, hai già a disposizione un flusso di lavoro completo, una serie di prompt efficaci, una lista degli errori da evitare e una scheda di riferimento rapido. Non ti resta che fare una sola cosa: aprire il generatore e utilizzare i tuoi primi 100 punti per scoprire "quali prompt preferisci". Questo passo non può farlo nessuno al posto tuo.
Apri GPT Image 2 e genera la tua prima immagine →
Se desideri approfondire l'argomento:
- Cos'è GPT Image 2? Funzionalità, prezzi e casi d'uso
- Guida alle prompt per GPT Image 2: Scrivere prompt davvero efficaci
- GPT Image 2 vs Sora: confronto delle capacità di generazione di immagini
- Prova prima il generatore di prompt per immagini integrato, che espande automaticamente un semplice spunto in un prompt completo.
- Puoi anche accedere direttamente alle pagine dedicate alle modalità singole Text to Image o Image to Image.
Questo articolo è stato pubblicato dal team di GPT Image 2. A partire da aprile 2026, entrambe le modalità saranno fatturate in modo uniforme a 12 punti per immagine. In caso di modifiche future, aggiorneremo questo articolo e lo segnaleremo nel registro delle modifiche.

