TL;DR
Uma boa prompt para o GPT Image 2 não é apenas uma frase, mas sim um conjunto de decisões: tema, cenário, estilo, ângulo de filmagem, iluminação e atmosfera. Este guia oferece mais de 50 modelos de prompts prontos a copiar, abrangendo cinco grandes categorias: estilo cinematográfico, retratos, ação, natureza e fantasia, acompanhados de uma lista de correções para cenários falhados e um fluxo de trabalho de iteração eficiente. Todas as imagens de exemplo apresentadas no artigo foram geradas utilizando o mesmo modelo KIE gpt-image-2-text-to-image, com um custo de 12 créditos por imagem e um limite de 20 000 caracteres por prompt. Experimente o GPT Image 2 gratuitamente →
A estrutura de uma boa frase-chave
A maioria das pessoas começa logo por escrever «o que eu quero». Mas quem consegue tirar boas fotografias escreve «o que a lente vê». Esse é todo o segredo.
Após realizarmos milhares de testes na interface KIE gpt-image-2-text-to-image, chegámos a uma fórmula de oito campos que abrange praticamente todos os cenários. Preencher seis dos oito campos já coloca o resultado acima da média, e preenchê-los todos permite atingir um nível comparável ao de filmes comerciais.
Fórmula:
[Sujeito] + [Ação/Postura] + [Cenário] + [Estilo/Referência] + [Enquadramento/Composição] + [Iluminação] + [Atmosfera/Tonalidade] + [Retoque de imagem]
Cada slot serve para definir de forma definitiva uma questão que o modelo teria de «adivinhar»:
- Sujeito — Quem ou o que aparece na imagem. «Bibliotecária ruiva» é dez vezes melhor do que «mulher».
- Ação/Postura — O que está a acontecer neste momento. O verbo determina a composição.
- Cenário — O mundo à volta. Especifique o país, a época e a hora.
- Estilo/Referência — «film noir», «animação ao nível da Ufotable», «composição simétrica de Wes Anderson», «estilo dos anúncios da Fenty Beauty». Recorra a linguagens visuais conhecidas, em vez de acumular adjetivos sem sentido.
- Lente/Composição — « "grande plano", "grande angular de ângulo baixo", "objetiva de retrato de 85 mm, f/1.4", "objetiva panorâmica". Esta é a chave para transformar uma fotografia instantânea num fotograma de cinema.
- Luz——"luz lateral da hora dourada", "luz única de Rembrandt", "reflexos de néon no chão molhado". A iluminação representa cerca de 60% do impacto de uma imagem.
- Clima/Tonalidade——"Conflito entre azul frio e laranja quente", "âmbar quente a aprofundar as sombras", "tom melancólico desaturado".
- Retoques de qualidade de imagem —— "4K hiper-realista", "grão de filme", "fotografia de moda". Seja breve, já fizemos o trabalho pesado anteriormente.
Básico vs. Otimizado — Duas rodadas de comparação sobre o mesmo tema

A frase de prompt original correspondente à imagem acima é:
A woman standing in a room.Vamos agora reescrever «o mesmo conceito» utilizando a fórmula dos oito slots:
A breathtaking young woman with flowing auburn hair stands in a luxurious Art Deco penthouse at golden hour. She wears a champagne-colored satin slip dress that catches the warm light. Floor-to-ceiling windows behind her show a panoramic city sunset. Dramatic side lighting creates deep shadows and golden highlights on her face and bare arms. The composition follows the rule of thirds. Cinematic depth of field with gorgeous city bokeh. Fashion editorial quality. Ultra-realistic 4K.Nota em português: Num apartamento no último andar de estilo Art Déco, uma mulher de cabelos longos está em pé diante da janela panorâmica, com a luz lateral do pôr-do-sol a delinear os contornos do seu rosto e dos seus braços.

Nota: A versão otimizada não consiste em acumular mais adjetivos, mas sim em reduzir a quantidade de informações que o modelo tem de adivinhar. O GPT Image 2 baseia-se num modelo de difusão orientado por transformadores (ver Explicação da Wikipédia sobre modelos de difusão); cada detalhe que não tenha sido escrito é preenchido pelo modelo utilizando a sua «média a priori». Se não referir «hora de ouro», ele irá, por predefinição, apresentar-lhe uma luz de uma tarde de terça-feira nublada às 14h.
Para terminar, aqui fica uma curiosidade: o limite máximo de caracteres para as instruções do GPT Image 2 é de 20 000 caracteres — o equivalente a cerca de 3000 palavras em inglês. Em situações normais, esse limite nunca será atingido, mas, no caso de cenas complexas com várias pessoas ou de diagramas conceituais detalhados, esse limite máximo significa que pode definir a sua composição com grande precisão. A secção 11 irá demonstrar como utilizar instruções longas.
Banco de sugestões: cenários com um toque cinematográfico
As cenas com um toque cinematográfico são o tipo mais fácil de recriar, pois a história do cinema acumulou um vocabulário visual ao longo de um século. Basta indicar o género, a época e o tipo de plano para que o modelo lhe apresente um fotograma com um aspeto credível.

1. As novas ruelas negras de Hong Kong
Film noir cinematic shot. A dangerously beautiful femme fatale in a curve-hugging red silk dress with a thigh-high slit, walking through a rain-soaked Hong Kong back alley at night. Neon signs in Chinese characters reflect red and blue on the wet cobblestones. She carries a black umbrella over one shoulder, her red-painted lips the only warm color against the cold teal lighting. Smoke wisps from a nearby vent. Anamorphic lens, shallow depth of field, cinematic grain. Ultra-realistic 4K noir film frame.Nota em chinês: Numa noite chuvosa, num beco de Hong Kong, uma mulher vestida de vermelho atravessa o caminho de pedras, sob o reflexo das luzes de néon, com um guarda-chuva na mão.
2. Bar de jazz Rembrandt
Moody jazz bar interior. A mysterious woman in a sheer black lace dress sits on a velvet barstool, one leg crossed showing stiletto heels. Cigarette smoke curls around her silhouette. Warm amber spotlight from above illuminates her face and exposed collarbones while the rest fades into deep shadow. A saxophone player is a blurred silhouette in the background. Film noir meets modern luxury aesthetic. Dramatic Rembrandt lighting, 35mm film look. Ultra-realistic 4K.Nota em chinês: A mulher vestida de renda preta no bar de jazz; a combinação de uma única fonte de luz e o fumo criam um efeito de iluminação dramático ao estilo de Rembrandt.
*3. O Telhado de Blade Runner
Cyberpunk cinematic wide shot. A lone detective in a wet black trench coat stands on a neon-drenched Tokyo rooftop at 3am. Giant holographic advertisements of a geisha float across the skyline behind him, casting shifting pink and cyan light on his face. Light rain catches the glow. Flying cars streak past as horizontal light trails. Shot on anamorphic lens, 2.39:1 aspect, shallow depth of field. Blade Runner 2049 color grade — teal shadows, orange highlights. Ultra-realistic 4K cinematic frame.Nota em chinês: Nos telhados de Tóquio, num cenário cyberpunk, o detetive está envolto numa aura de tons de azul e rosa projetada por um anúncio holográfico de uma geisha.
4. O átrio simétrico de Wes Anderson
Wes Anderson style cinematic composition. A 1960s hotel concierge in a burgundy uniform stands dead-center in a pastel-pink Art Deco lobby, flanked by perfectly symmetrical potted palms and brass sconces. Flat front-on framing, everything on center axis. Soft fluorescent overhead lighting. Pastel pink and mint green color palette. 35mm film look. Ultra-detailed 4K.Nota em chinês: Átrio de um hotel Art Déco em tons de rosa, com uma composição simétrica frontal, com o recepcionista no centro da imagem.
5. Confronto na cozinha num filme policial coreano
Cinematic still from a modern Korean crime thriller. Two men face each other across a small Seoul apartment kitchen at 2am, both holding knives but frozen in a tense moment. Single fluorescent tube overhead casts hard green-tinted light and harsh shadows. Steam rises from an abandoned pot on the stove. Tight composition, 40mm lens, handheld feel. Bong Joon-ho style. Ultra-realistic 4K.Nota em chinês: Duas pessoas frente a frente na cozinha de Seul às duas da manhã, sob a luz forte e esverdeada das lâmpadas fluorescentes + câmera com efeito de filmagem com a mão.

6. A epopeia do deserto de Villeneuve
Epic cinematic wide shot in Denis Villeneuve style. A lone hooded figure in flowing desert robes walks across a vast orange sand dune at sunset. The sun is enormous on the horizon, casting elongated shadows. Scale is extreme — the figure is tiny, the landscape overwhelming. Dust kicks up in the wind. Warm amber palette with deep violet shadows. Shot on 65mm, ultra-wide aspect. Ultra-realistic 4K cinematic quality.Nota em chinês: Grande angular desértico ao estilo de Villeneuve, com as figuras minúsculas e a paisagem avassaladora.
7. Café da Nova Vaga Francesa
Black and white French New Wave cinematic still. A young woman in a striped Breton shirt and dark bob haircut smokes at a Paris cafe table in 1962. She looks off-camera with soft intensity. Natural window light, high contrast, slightly overexposed highlights. Film grain visible. Godard aesthetic. 35mm monochrome, 50mm lens. Ultra-detailed.Nota em chinês: Mulher de cabelo curto num café em Paris, em 1962, em preto e branco ao estilo da Nova Vaga francesa.
8. O Corredor do Terror do Giallo Italiano
Cinematic horror frame in the style of a 1970s Italian giallo. A woman in a white nightgown stands at the end of a long Victorian hallway lit only by flickering red lamplight. Her back is turned. Shadow stretches toward the camera. Wallpaper is blood-red damask. Shallow depth of field, 28mm lens slightly distorted. Grainy film look. Deep red and black color story. Ultra-detailed 4K.Nota em chinês: Estilo giallo italiano dos anos 70; a silhueta de uma mulher vestida de branco no fim de um corredor vermelho-sangue.
9. Noite de néon em Miami
1980s Miami Vice cinematic shot. A woman in a white linen blazer drives a red convertible at night through downtown Miami. Palm trees and neon motel signs blur past. She looks at the camera with sunglasses reflecting the pink and turquoise glow of the city. Lens flare, soft film grain. Teal and magenta color grade. Ultra-realistic 4K.Nota em chinês: Paisagem noturna de Miami nos anos 80: um descapotável vermelho e óculos de sol a refletir as luzes de néon.
10. Adaptações live-action dos filmes da Ghibli
Cinematic still styled as a live-action Studio Ghibli adaptation. A young woman in a simple blue linen dress stands in a vast green hillside field, wind blowing her hair and skirt. Fluffy white clouds race overhead. Soft golden hour light. Warm, painterly color grading with gentle film grain. Wide lens, low-angle composition making her heroic against the sky. Ultra-detailed 4K.Nota em chinês: Imagem de uma encosta em estilo Studio Ghibli, filmada em ângulo baixo para realçar a linha do horizonte.
Banco de palavras-chave: Retratos e maquilhagem
O sucesso ou fracasso de um retrato depende apenas de três fatores: a lente, a direção da luz e a textura da pele. Especificar «85 mm f/1.4», «luz anelar» ou «caixa de luz à esquerda da frente da câmara» pode ajudar-te a evitar três rondas de tentativas infrutíferas.

11. Macro ao estilo Fenty Beauty
Extreme close-up beauty portrait. A stunning model with wet dewy skin and tousled damp hair, bare shoulders glistening. Water droplets on her face and neck catch the light of a ring light. Flawless skin texture in macro detail — every pore, every water droplet razor sharp. Smoky eye makeup with subtle gold shimmer. Lips slightly parted, intense gaze at camera. Dark background. Fenty Beauty campaign aesthetic. 85mm macro lens, f/1.4, ultra-shallow depth of field. Ultra-realistic 4K.Nota em chinês: Grande plano de maquilhagem na pele húmida, com iluminação circular, onde cada gota de água se destaca com nitidez.
12. Retrato em banco barroco
Luxury editorial portrait. A gorgeous model wearing an elegant black velvet off-shoulder gown reclines on a dark velvet chaise longue in a dimly lit Baroque-style room. One arm draped elegantly above her head. Rich warm Rembrandt lighting from a single window highlights the fabric draping against her glowing skin. Oil painting-like quality with deep shadows and warm highlights. High-end fashion editorial photography. 85mm lens, creamy bokeh. Ultra-realistic 4K.Nota em chinês: A mulher de vestido preto no sofá de veludo; a luz que entra pela única janela cria uma textura de pintura a óleo, ao estilo de Rembrandt.
13. Fotografia profissional nítida
Professional corporate headshot. A confident woman in her early 30s wearing a tailored navy blazer over a crisp white shirt. Neutral gray seamless studio background. Three-point lighting — soft key from camera left, subtle fill from right, rim light from behind. Genuine warm smile, direct eye contact. 85mm lens, f/2.8. Skin tone natural and healthy. LinkedIn executive headshot quality. Ultra-realistic 4K.Nota em português: Fundo cinzento + iluminação padrão de três pontos, foto de perfil de um executivo de alto nível do LinkedIn.
14. Retratos de rua em Tóquio
Environmental street portrait. A 20-something Tokyo local with bleached blonde hair and oversized vintage streetwear stands in Shibuya on a weekday afternoon. Shallow depth of field with crowd of pedestrians soft-blurred behind her. Natural overcast daylight. She looks slightly off-camera, lost in thought. Shot on Fujifilm X100 aesthetic, 35mm lens, f/2. Ultra-realistic 4K.Nota em chinês: Numa tarde de dia útil em Shibuya, uma rapariga com o cabelo pintado de loiro destaca-se contra um fundo de multidão esbatido.
15. Capa ao estilo da Vogue
High-end fashion portrait in the style of a Vogue Italia cover. A striking model with razor-sharp cheekbones wears an oversized metallic silver couture gown with architectural shoulders. She stares directly into camera with a cold, commanding expression. Hair pulled back tight. Studio lighting is a single hard light from 45 degrees creating sculptural shadows. Gray backdrop. 85mm portrait lens, f/5.6 for crisp detail. Ultra-detailed 4K.Nota em português: O estilo da capa da Vogue Itália: vestido prateado com efeito tridimensional + retrato escultural com iluminação forte e uniforme.
16. Retrato na cozinha com luz natural
Soft natural light portrait. A woman with wavy chestnut hair sits by a large north-facing window in a quiet morning kitchen. She holds a ceramic mug of coffee in both hands, looking out the window thoughtfully. Warm cream sweater, no makeup, freckles visible. Shot in Rembrandt light with window as the only source. 50mm lens, f/1.8, shallow depth of field. Soft, honest, lived-in feel. Ultra-realistic 4K.Nota em chinês: Uma mulher sem maquilhagem junto à janela da cozinha, à luz natural que entra por uma única janela.
17. Iluminação teatral monocromática
Dramatic black and white portrait. A man with a short salt-and-pepper beard and intense dark eyes stares into the lens. Only half his face is lit — hard side light from camera right, pure black shadow on the other side. Textured gray background fades to black. Shot on medium format film aesthetic, 80mm lens. Film grain. Peter Lindbergh style monochrome. Ultra-detailed.Nota em chinês: Retrato a preto e branco ao estilo de Peter Lindbergh, com metade do rosto iluminado por uma luz forte e a outra metade totalmente a preto.
18. Sessão fotográfica de maquilhagem em tons de rosa
Dreamy pastel beauty portrait. A model with soft pink lips, dewy skin, and flushed cheeks against a blush pink seamless backdrop. She wears a sheer white off-shoulder top. Soft diffused lighting from a large softbox creates flattering even illumination. Hair in loose tousled waves. 85mm lens, f/2. Cotton candy color palette — pink, peach, cream. Ultra-realistic 4K beauty editorial.Nota em chinês: Fundo rosa + grande softbox, sessão fotográfica de maquilhagem em tons pastéis.
19. Romance na hora dourada
Sun-drenched golden hour portrait. A woman in a flowing cream linen dress stands in a wheat field at 7pm on a summer evening. The sun is low behind her, creating a halo of golden backlight through her hair and the sheer fabric. Lens flare across the frame. Her eyes are closed, face tilted up to the warmth. 135mm telephoto lens, f/2, compressed background. Warm honey color grade. Ultra-realistic 4K.Nota em chinês: Um campo de trigo ao entardecer de verão, com luz de contraluz e uma lente teleobjetiva de 135 mm a comprimir o espaço.
20. Biblioteca da Escola das Trevas
Dark academia editorial portrait. A young woman with auburn hair in a loose braid wears a wool cardigan over a white collared shirt in an old university library. She holds an open leather-bound book, reading by the light of a green banker's lamp. Towering bookshelves around her fade into shadow. Warm tungsten light, deep navy and olive color palette. 50mm lens, f/2.8. Ultra-realistic 4K.Nota em chinês: Biblioteca antiga + candeeiro verde de estilo bancário, ambiente «dark academia».
Banco de palavras-chave: Ações e movimentos
As cenas de ação requerem duas coisas: expressões que captem o momento congelado («frozen mid-air», «high-speed capture») e luz de contorno, para destacar o objeto principal de um fundo caótico.

21. Imagem congelada do treino da Nike
Dynamic action freeze-frame. An athletic woman in a fitted sports bra and high-waisted compression shorts executes a powerful spinning roundhouse kick. Water splashes frozen in mid-air around her legs and feet in a dramatic spray pattern. Her toned abs and defined muscles visible. Dramatic single-source rim lighting from behind creates a glowing silhouette edge. Dark studio background. Nike Training campaign energy. High-speed photography feel — ultra-sharp subject, motion blur on water droplets. Ultra-realistic 4K.Nota em chinês: Fotografia de alta velocidade ao nível publicitário da Nike, com os salpicos de água congelados no ar.
22. Imagens do interior do tubo de surf
Epic wide-angle shot of a female surfer riding inside a massive crystal-clear barrel wave at golden hour. Her silhouette and athletic body visible through the translucent turquoise water of the wave tube. Golden sunlight creates an explosion of light and water mist behind her. Dramatic backlit composition. The wave is enormous and perfectly formed. GoPro-style immersive perspective. Ultra-realistic 4K cinematic quality.Nota em chinês: Uma surfista no tubo de uma onda gigante durante a hora dourada, em silhueta contra a luz.
23. Saltos de parkour nos telhados
High-speed action shot of a parkour athlete mid-leap between two Brooklyn rooftops at sunset. Frozen at the apex of the jump, arms and legs extended, silhouetted against a burning orange sky. The gap below him is dizzying — city streets far below. Motion blur on the trailing edge of his hoodie. Shot from a drone at his height, 35mm lens. Ultra-realistic 4K cinematic action.Nota em chinês: Parkour nos telhados de Brooklyn ao pôr-do-sol, com o ponto mais alto do salto congelado.
24. Os holofotes do ringue de MMA
Dramatic fight night action. A female MMA fighter mid-spinning back elbow, sweat flying from her hair in a visible arc of droplets. Single harsh overhead ring spotlight isolates her from pure black background — classic boxing photography look. Her opponent is a blurred silhouette out of focus. 70-200mm lens at 200mm, f/2.8, 1/2000 shutter frozen motion. High contrast, desaturated. Ultra-detailed 4K.Nota em chinês: Luz única no ringue de MMA, com as gotas de suor a salpicarem de forma claramente visível.
25. Poeira causada pelas motos todo-o-terreno
Low-angle action shot of a motocross rider airborne over a dirt jump, red desert dust exploding behind the rear tire. Late afternoon sun casts long shadows. The bike is tilted aggressively mid-trick. Camera is just above ground level looking up, making the jump look monumental. Anamorphic lens flare from the sun. Orange and teal color grade. Ultra-realistic 4K action.Nota em português: A moto todo-o-terreno salta no ar, com a roda traseira a levantar uma nuvem de poeira vermelha.
26. Salto na sala de ballet
Contemporary ballet dancer mid-grand jete frozen in the air, arms extended, body perfectly horizontal. She wears a simple nude leotard. Plain gray cyclorama studio background. Strong side-light from camera left creates a sculptural chiaroscuro on her musculature. Powder disturbed from the floor traces her leap in a soft cloud. 1/4000 shutter speed feel. Ultra-detailed 4K.Nota em chinês: No ponto mais alto do grand jeté do ballet, o corpo fica paralelo ao chão.
27. Afundanço no basquetebol
Low-angle hero shot of a male basketball player mid-slam dunk, one hand gripping the rim, body extended diagonally across the frame. Arena lights streak as lens flares. Crowd is a soft blurred wall of phone flashes behind him. Frozen sweat and net motion. Shot on 24mm wide from directly below the hoop. NBA official photography energy. Ultra-realistic 4K.Nota em chinês: Fotografia em grande angular de 24 mm, tirada logo abaixo do cesto, captando o momento da enterrada.
28. Cavalos a galopar pelas ondas
A rider on a powerful black horse gallops through knee-deep shallow ocean water at sunrise. Water explodes from each hoofstrike, frozen in a dramatic spray. The rider is leaned low, hair streaming behind. Warm golden backlight from the rising sun. Mist rising off the water. Shot at 1/4000 shutter, 200mm telephoto compression. Ultra-realistic 4K equine photography.Nota em chinês: Mar raso ao nascer do sol, cavalo preto a galopar com salpicos de água, efeito de compressão com teleobjetiva de 200 mm.
Banco de palavras-chave: Natureza e paisagens
As palavras-chave relacionadas com paisagens são hora do dia, clima e escala vertical. O modelo tem uma forte tendência a privilegiar a «beleza natural genérica»; é necessário utilizar termos específicos para o afastar dessa média.

29. O paraíso enevoado da cascata
Ethereal fantasy nature scene. A graceful young woman in a flowing sheer gossamer dress stands at the edge of a towering waterfall cliff. Dense tropical mist swirls around her legs and the translucent fabric. She extends one arm toward the cascade, water droplets catching golden light. Aerial perspective slightly from above showing the dramatic cliff drop. Lush green ferns frame the composition. Golden hour light filtering through the mist. Ultra-realistic 4K cinematic quality.Nota em chinês: Uma mulher vestida de branco junto a uma cascata à beira de um penhasco, vista aérea + neblina.
30. Imagens aéreas das ilhas flutuantes das Maldivas
Overhead drone shot of a beautiful woman in a minimal white bikini floating on her back in crystal-clear turquoise shallow water over white sand in the Maldives. Her long dark hair fans out in the water like a halo. The water is so clear her full body is visible through the translucent surface. Tiny fish swim nearby. Travel photography editorial style. Ultra-realistic 4K aerial quality.Legenda em português: Fotografia aérea tirada diretamente acima das Maldivas, mostrando uma mulher a flutuar nas águas cristalinas.
31. Costa de Areia Negra da Islândia
Dramatic wide landscape of Iceland's Reynisfjara black sand beach at dawn. Massive basalt sea stacks rise from the churning North Atlantic. Low fog drifts across the black sand. A single figure in a red rain jacket walks along the shoreline for scale. Moody desaturated color grade — almost monochrome with just the red jacket as accent. 24mm wide lens, f/11 for deep focus. Ultra-detailed 4K.Nota em chinês: A praia de areia preta da Islândia + a capa de chuva vermelha como pontos de referência cromáticos.
32. Luz na Igreja da Floresta de Sequóias
Vertical composition looking up through towering California redwood trees. Shafts of golden morning sunlight cut through the fog between the trunks like cathedral light rays. Ferns carpet the forest floor. A tiny hiker in the distance gives scale. Ultra-wide 14mm lens distorting the trunks into a radial pattern toward the sky. Warm green and gold palette. Ultra-realistic 4K nature photography.Nota em chinês: Fotografia em grande angular de 14 mm de um bosque de sequóias, com um feixe de luz a incidir sobre uma igreja envolta em neblina.
33. Lago Espelho da Patagónia
Perfect mirror reflection of the jagged Torres del Paine peaks in a glass-still Patagonian alpine lake at blue hour. Pink and purple alpenglow on the snow-capped summits. A single orange tent on the near shore as human scale. Complete symmetry — upper and lower half of frame are near-mirror images. 35mm lens, f/11. Ultra-realistic 4K landscape.Nota em chinês: O lago espelhado perfeito do Momento Azul, simétrico na vertical.
34. Tempestade de areia do Saara
Vast Sahara desert at the start of a sandstorm. Rolling orange dunes extend to the horizon, with a towering wall of sand approaching from the left. A lone nomadic figure on camelback is silhouetted against the dust cloud. Sun struggles through the haze as a dim orange disc. Cinematic wide-angle, heavy atmospheric haze. Monochromatic warm orange palette. Ultra-detailed 4K.Nota em chinês: À beira de uma tempestade de areia no Saara, a silhueta de um cameleiro enfrenta a parede de areia.
35. Cabana Aurora
Wide landscape of a tiny warm-lit wooden cabin in a Norwegian fjord valley at 1am. A spectacular green and purple aurora borealis dances overhead, reflecting in the still black fjord water. Snow-dusted pine trees and mountains frame the scene. The cabin glow is the only warm color in an otherwise cold composition. 20-second long exposure feel. Ultra-realistic 4K astrophotography.Nota em chinês: A aurora boreal às uma da manhã nos fiordes da Noruega e uma cabana acolhedora.
36. Pôr-do-sol na savana africana
Cinematic wide shot of a family of elephants crossing a golden savanna at sunset in Kenya. The sun is a huge orange disc on the horizon, silhouetting the herd. Long grass ripples in the warm wind. Dust kicked up by the herd diffuses the backlight into warm beams. 200mm telephoto compression. National Geographic editorial style. Ultra-realistic 4K wildlife photography.Nota em chinês: Pradaria ao pôr do sol no Quénia, silhuetas de uma manada de elefantes + efeito de compressão com teleobjetiva de 200 mm.
37. Rio das Cerejeiras em Flor de Quioto
Serene wide landscape of the Philosopher's Path in Kyoto at peak cherry blossom season. Pink petals float on the narrow canal, with more drifting down from the trees above. Traditional wooden bridges arch over the water. Early morning mist softens the light into diffused pink. A solo figure in a dark kimono walks along the stone path for scale. 50mm lens, f/4, gentle pastel color grade. Ultra-realistic 4K.Nota em chinês: Na época da floração das cerejeiras na Rota Filosófica de Quioto, pétalas cor-de-rosa flutuam na superfície do canal.
38. Luz da Tempestade nas Terras Altas da Escócia
Dramatic landscape of the Scottish Highlands during a clearing thunderstorm. Dark churning clouds above a lone glen, with a single shaft of golden sunlight breaking through and lighting one patch of heather-covered hillside. Rainbow arc barely visible at the edge. Ancient standing stones in the foreground. Moody cinematic color grade — steel blue shadows, warm sunlit highlight. 24mm wide, f/11. Ultra-realistic 4K landscape photography.Nota em chinês: Quando a tempestade nas Terras Altas da Escócia estava a dissipar-se, um único raio de sol dourado atravessou as nuvens negras.
Banco de sugestões: Fantasia e Estilo
Assim que mencionar uma referência artística específica no género fantástico (Ufotable, Arcane, Studio Trigger, ilustrações de Magic: The Gathering), as sugestões tornar-se-ão muito mais precisas. Uma descrição genérica como «arte fantástica» só lhe trará imagens genéricas de fantasia.

39. Ufotable: Senki
Epic anime-inspired fantasy warrior princess with flowing silver-white hair that reaches her waist, wearing ornate golden battle armor that hugs her figure with intricate engravings. She holds a glowing magical sword aloft, emitting bright blue energy. Cherry blossom petals and magical sparkles swirl in a violent storm around her. Her expression is fierce and determined. Dynamic action pose mid-battle leap. Ultra-detailed anime with CGI-quality lighting — Ufotable production quality. Rich colors, dramatic volumetric lighting. 4K quality.Nota em chinês: Uma guerreira anime ao nível da Ufotable, com uma espada mágica azul e uma tempestade de flores de cerejeira.
40. Feiticeira Elfa Negra
Dark fantasy dark elf sorceress with long flowing midnight-purple hair, pointed ears, and luminous violet eyes. She wears an elegant off-shoulder dark robe with intricate silver embroidery that reveals her collarbones and shoulders. Purple arcane energy spirals from her outstretched hands, illuminating her face from below. A vast star field and nebula visible in the background through a shattered stone archway. Semi-realistic fantasy illustration style with cinematic lighting. Ultra-detailed 4K.Nota em chinês: Maga elfa negra, com energia arcana roxa a rodopiar das suas mãos.
41. Os Espíritos da Floresta de Ghibli
Studio Ghibli style painterly scene. A small forest spirit that looks like a glowing white fox with three tails walks through a mossy enchanted forest at dusk. Fireflies dance around it. Soft painterly brushstrokes, warm honey-gold light filtering through massive ancient trees. Hayao Miyazaki watercolor aesthetic. Ultra-detailed animation cel quality.Nota em chinês: Uma raposa branca de três caudas, ao estilo Ghibli, passeia por um bosque coberto de musgo ao entardecer.
42. Arcane: A Batalha das Duas Cidades
Arcane Netflix animated series style illustration. A young woman with blue-tipped braided hair and steampunk goggles leans against a graffitied alley wall in the undercity of Piltover. Neon magical rune-signs glow behind her. Textured painterly brushstrokes visible, 2D illustration with 3D depth, saturated purple and teal color story. Fortiche animation studio aesthetic. Ultra-detailed 4K.Nota em chinês: Uma jovem nas ruelas da cidade baixa, no estilo Arcane Fortiche.
43. Dragão de Magic: The Gathering
Fantasy illustration in the style of a Magic The Gathering card. A colossal red dragon emerges from molten lava in an underground cavern, wings half-spread, mouth roaring with fire breath forming. A tiny knight in silver armor stands at the cavern's edge for scale, raising a shield. Dramatic low-angle hero composition. Rich oil-painting texture, Greg Rutkowski influence. Ultra-detailed 4K fantasy art.Nota em chinês: O Dragão de Lava Vermelho e o Cavaleiro Minúsculo, no estilo de ilustração do Magic: The Gathering.
44. Cyber Samurai
Cyberpunk fantasy fusion. A female samurai with a chrome katana stands on the rain-slicked rooftop of a neo-Tokyo megacorp tower at night. She wears a fusion of traditional kimono and carbon-fiber combat armor. Holographic cherry blossoms drift around her. Neon reflections on the wet rooftop, flying ad-drones in the background. Illustrated in the style of Katsuhiro Otomo meets modern 3D concept art. Ultra-detailed 4K.Nota em chinês: Samurai no telhado de Cyber-Tóquio + cerejeiras em flor holográficas.
45. A sereia subaquática
Ethereal underwater fantasy. A graceful mermaid with iridescent teal and violet scales swims through a coral reef illuminated by shafts of sunlight piercing the water surface above. Her long turquoise hair flows weightlessly. Bubbles trail from her fingertips. School of small silver fish swim past. Dreamlike painterly quality, Lisa Frank meets National Geographic. Ultra-detailed 4K fantasy art.Nota em chinês: A sereia arco-íris no recife de coral, com um feixe de luz a atravessar a superfície da água.
46. Capitão de um dirigível steampunk
Illustrated steampunk fantasy portrait. A young female airship captain in a brass-buttoned red military coat, goggles pushed up on her forehead, stands at the wheel of a wooden airship. Visible brass gears and copper pipes. Behind her, clouds and other distant airships. Warm golden hour lighting. Illustration style inspired by Nausicaa and Howl's Moving Castle. Ultra-detailed 4K.Nota em chinês: Capitã de dirigível ao estilo de Hayao Miyazaki e engrenagens de latão.
Iteração de vários estilos: o mesmo tema, mundos diferentes
Um fluxo de trabalho subestimado no GPT Image 2: fixar o objeto e alterar apenas os parâmetros de estilo. Poderá ver claramente o que cada estilo faz ao mesmo rosto, ao mesmo conjunto de roupa e à mesma postura — da próxima vez, já não terá de adivinhar ao escolher um estilo.

Palavras-chave básicas — o tema mantém-se totalmente consistente nas quatro gerações:
A beautiful young woman with shoulder-length brown hair stands in a sunlit garden, wearing a simple white sundress, one hand lightly touching a rose bush. Soft golden afternoon light. Three-quarter body framing, slightly tilted head, warm smile.Nota em chinês: Uma jovem de vestido simples a tocar nas rosas no Jardim do Sol, sob a luz dourada do fim de tarde.
Em seguida, basta alternar entre os slots de estilo, executando cada um uma vez:
47. Fotografia realista
[Base] — Hyperreal fashion photography aesthetic. 85mm lens at f/1.8, soft natural light, editorial sharpness. Ultra-realistic 4K.48. Animação japonesa
[Base] — Japanese anime style with cel shading, bold line art, vibrant saturated colors, large expressive eyes. Kyoto Animation production quality. Ultra-detailed.49. Pintura clássica a óleo
[Base] — Classical oil painting style with visible thick brushstrokes, warm Renaissance lighting, chiaroscuro shadow, Vermeer-like color palette. Museum-quality.50. Cyberpunk
[Base] — Neon-drenched cyberpunk futurism. Holographic overlays, circuit-pattern light tattoos on skin, magenta and cyan rim lighting. Ghost in the Shell art direction. Ultra-detailed.Executámos esta sequência numa conta de teste interna; a primeira imagem demorou cerca de 18 segundos e as seguintes demoraram aproximadamente o mesmo tempo para mudar de estilo. No total, em menos de dois minutos e com 48 créditos, obtivemos um moodboard completo. Ao incluí-lo na proposta para o cliente, isto equivale a reduzir a pesquisa de material, que normalmente levaria meio dia, ao tempo de uma chávena de café.
Casos comuns de falhas e soluções
Capítulo sobre honestidade: O GPT Image 2 é muito útil, mas não é mágica. A seguir, apresentamos os tipos de falhas mais frequentes que registámos, bem como os modelos de correção correspondentes. Use esta secção como uma lista de verificação para a resolução de problemas — da próxima vez que a imagem não sair como esperado, verifique tudo por ordem; a maioria dos problemas resolve-se após a primeira correção.
Falha 1: Resultado insípido
Before:
A beautiful woman in a city.After:
A 28-year-old woman with auburn hair pulled into a low ponytail, wearing a camel trench coat, crossing a Manhattan crosswalk at 6pm on a rainy Thursday. Yellow taxis blur past in motion-blurred streaks. 50mm lens, f/2, cinematic grain. Ultra-realistic 4K.A primeira palavra-chave não forneceu ao modelo qualquer ponto de referência. A solução consiste sempre em substantivos concretos e locais específicos.
Erro 2: Número incorreto de dedos
O GPT Image 2 já apresenta um desempenho muito superior ao da primeira geração de modelos de difusão no que diz respeito à representação das mãos, mas os grandes planos das mãos ainda podem dar errado. Existem duas formas fiáveis de contornar este problema:
- Não deixe que as mãos sejam o foco; elimine-as diretamente: «framing is shoulders up only» (fotografe apenas a partir dos ombros).
- Coloque algo nas mãos: «hands gently holding a ceramic coffee cup» (mãos a segurar delicadamente uma chávena de café de cerâmica). Ao ter um objeto a condicionar a postura, a posição dos dedos fica mais estável.
Erro 3: Caracteres ilegíveis na imagem
O modelo não é um software de composição gráfica. Para inserir logótipos, placas ou texto legível em cartazes na imagem, este deve ser extremamente curto (por exemplo, «uma placa com a indicação OPEN») ou deve ser adicionada diretamente uma nota explicativa: «sem texto, sem letras, sem palavras em qualquer parte da imagem», e depois a composição deve ser feita separadamente no Figma/Photoshop.
Erro 4: A direção da luz foi ignorada
Before:
A portrait of a woman with dramatic lighting.After:
A portrait of a woman lit by a single hard spotlight from 45 degrees camera-left, with deep black shadow filling the right side of her face. Rembrandt lighting with a small triangle of light on the shadowed cheek.«Iluminação dramática» não diz nada. Indicar a direção, a intensidade e a área de cobertura das sombras é que constitui uma verdadeira indicação.
Erro 5: O sujeito aparece na cena errada
Se o modelo continuar a colocar as personagens num estúdio fotográfico genérico em vez de numa biblioteca — coloca a cena no início da descrição e torna-a mais específica:
In a candle-lit 17th-century English library with floor-to-ceiling oak shelves, leather-bound books, and a stone fireplace, a woman in…Colocar o cenário à frente do sujeito equivale a definir toda a composição antes de introduzir a personagem.
Erro 6: Sobrecarga de palavras-chave
A partir de cerca de 1 200 palavras, o impacto de cada adjetivo começa a diluir-se. Se a sua lista de palavras-chave for uma simples enumeração de 40 etiquetas de estilo, o modelo irá «calcular a média». Manterá um estilo principal como referência (por exemplo, «film noir») e considerará os restantes como secundários.
Atingir 20 000 caracteres: prompts longos estruturados
Uma vantagem subestimada do GPT Image 2 é o limite máximo de 20 000 caracteres para as instruções. A maioria dos concorrentes fica limitada a cerca de 1 000–2 000 caracteres. Embora isso não seja necessário para retratos, as instruções longas e estruturadas são extremamente úteis para cenas complexas com várias pessoas, briefings de ilustrações conceptuais ou séries de imagens com forte consistência de marca.
Modelos que utilizamos frequentemente no briefing de produção:
# CENA
[Cena: local, hora, clima, período histórico, 2–3 frases]
# PERSONAGENS
- Personagem A: [aparência, vestuário, postura atual, expressão facial]
- Personagem B: [idem]
- Figurantes: [breve descrição]
# COMPOSIÇÃO
[Composição: Grande angular/Plano médio/Close-up; Ângulo de filmagem; Lentes; Profundidade de campo; Posição de cada personagem no enquadramento — Regra dos terços/Proporção áurea/Centro]
# ILUMINAÇÃO
[Fonte de luz, direção, intensidade, temperatura de cor, comportamento das sombras]
# COR⟦PRETO⟧[Descreva a paleta de cores utilizando 3–4 termos de cor. Orientação da paleta — quente/fria/paleta separada]
# STYLE
[Uma referência de estilo principal. Por exemplo, «O estilo de fotografia de Roger Deakins em *Blade Runner 2049*»]
# TÉCNICO
[Modificadores de resolução, granulação da película, formato, etiquetas de qualidade de imagem. Seja conciso]
# EXCLUSÕES
[O que evitar: «Sem texto, sem logótipos, sem marcas de água, sem membros extra»]Exemplo — Prompt estruturado completo (cerca de 500 palavras) para uma imagem principal de anúncio:
# SCENE
A restored 1930s Art Deco ballroom on a rainy Tuesday evening in Paris, set during a private jazz performance. Tall arched windows on the left show wet boulevards and soft yellow streetlamp glow. Interior is lit warm and amber.
# CHARACTERS
- Lead: A striking 32-year-old woman with dark auburn hair in a low chignon, wearing a deep emerald-green silk bias-cut gown with a low back. She stands near a grand piano, one hand resting on its polished black lid, gazing thoughtfully toward the windows. Faint melancholy in her expression.
- Pianist: A middle-aged man in a black tuxedo, seated at the piano mid-performance, profile view, fingers on keys. He is a secondary figure — should not pull focus from the lead.
- Background: Three or four well-dressed patrons at candlelit round tables in soft bokeh, unidentifiable faces.
# COMPOSITION
Medium-wide shot. Lead character is on the right third of the frame, piano extending diagonally across the center toward the left. Rule of thirds. 50mm lens, f/2.2, shallow depth of field — lead and piano sharp, background patrons and windows softly blurred. Eye-level camera height.
# LIGHTING
Warm tungsten chandelier overhead providing ambient glow on the room. Key light on the lead is a single practical wall sconce camera-right at 45 degrees, modeling her face in gentle Rembrandt pattern. Rim from the windows behind her (cool blue rainy light) separates her hair and shoulder edge from the warm interior. Overall contrast: high but soft.
# COLOR
Deep emerald green (dress) and warm amber (interior) as hero colors, with cool blue window light as counter-accent. Warm gold dominant, with selective teal shadow detail. Film-look color grade reminiscent of early Wong Kar-wai.
# STYLE
Cinematic still in the visual language of In the Mood for Love meets a modern luxury cognac commercial. Anamorphic lens quality (slight horizontal flare on the candles). Painterly softness, 35mm film grain.
# TECHNICAL
Ultra-realistic 4K, 16:9 aspect, cinematic frame.
# EXCLUSIONS
No text, no signage, no logos, no watermarks, no visible phones or modern electronics, no extra limbs, no warped fingers on the pianist.A estrutura em secções tem duas vantagens: em primeiro lugar, permite que você não se esqueça de preencher nenhuma secção; em segundo lugar, proporciona ao modelo um ponto de partida estruturado para a análise, em vez de um texto contínuo de 500 palavras. Basta alterar as secções CHARACTERS e SCENE em toda a série para produzir em massa diferentes tomadas do mesmo anúncio.
Uma sugestão prática: quando uma imagem estiver 80% correta, mas algum elemento estiver errado (por exemplo, a protagonista está a usar a cor errada), não reescreva toda a descrição. Copie a descrição que funcionou, altere apenas o campo correspondente e execute novamente. Os nossos registos internos de iterações mostram que, com prompts estruturados, é possível obter um quadro com qualidade de imagem principal em média 2,8 tentativas; enquanto que com prompts de prosa livre, são frequentemente necessárias mais de 6 tentativas. A 12 créditos por imagem, isto representa uma diferença de 2 $ e 5 $ por imagem principal.
Quer passar o fluxo de trabalho das palavras-chave estruturadas para um colega? Peça-lhe primeiro para consultar o Tutorial de introdução e, depois, volte a ler este artigo.
Perguntas frequentes
O que é mais importante nas instruções do GPT Image 2?
Luz e lente — é essa a ordem certa. Se o tema e o cenário estiverem um pouco desfocados, ainda dá para salvar, mas se a direção da luz e a escolha da lente forem vagas, o resultado vai parecer sempre uma imagem de banco de imagens. Se só tiver tempo para aperfeiçoar dois aspetos, concentre-se nestes dois. Defina claramente «de que direção vem a luz, qual é a intensidade e de que lado caem as sombras», e depois especifique «qual é a distância focal, qual é a abertura do diafragma e a distância de focagem»; assim, a base da imagem fica sólida.
Qual deve ser o comprimento das instruções para o GPT Image 2?
Para retratos e cenas simples, o ideal é entre 80 e 150 palavras. Para fotos de grande angular com um toque cinematográfico, que remetem a uma época ou a um estilo específico, entre 150 e 250 palavras. Para cenas com várias pessoas ou briefings publicitários, utilize modelos estruturados com 400 a 800 palavras. O limite máximo de 20 000 caracteres é reservado para casos extremos — no uso diário, raramente se ultrapassam as 500 palavras.
É possível incluir o nome de um artista real na descrição?
Pode referir-se a um estilo ou época — «film noir», «giallo dos anos 70», «estilo pictórico do Studio Ghibli» — e o modelo reconhecerá essas linguagens visuais. No entanto, utilizar diretamente o nome de um artista vivo como etiqueta de estilo é eticamente questionável e está a ser cada vez mais filtrado pelo modelo. A melhor prática consiste em descrever o estilo, o meio e a época, em vez de citar nomes de pessoas.
Por que é que os resultados variam sempre, mesmo que se utilize a mesma palavra-chave?
Os modelos de difusão são, por natureza, aleatórios — partem de uma imagem com ruído e removem esse ruído para gerar uma imagem. Ao executar a mesma instrução duas vezes, obtêm-se inevitavelmente resultados semelhantes, mas diferentes. Trata-se de uma característica e não de um bug, sendo também a fonte da «diversidade». Para reproduzir estes resultados, a maioria dos sistemas de geração suporta o parâmetro «seed». Para mais informações técnicas, consulte o blog sobre geração de imagens da OpenAI.
O comprimento da palavra-chave influencia o preço?
Não tem impacto. O GPT Image 2 utiliza um modelo de preços fixo: 12 créditos por imagem, quer escreva 20 palavras ou 2 000 palavras. O único fator que influencia o custo é o número de imagens geradas.
Quantas vezes se deve tentar uma ideia antes de desistir?
Regra prática: execute a mesma palavra-chave três vezes para avaliar a variação natural; se ainda não estiver correto, altere apenas um parâmetro, não comece do zero. Na maioria das vezes, o que precisa de ser ajustado é a iluminação ou a posição da câmara. Se, após a 8.ª tentativa, ainda não houver progressos, o problema está na estrutura — volte à fórmula dos oito parâmetros para verificar quantos deles preencheu. Temos ainda um hábito interno: registar cada prompt gerado e a semente correspondente numa tabela; assim, durante a análise, é fácil perceber qual das palavras é que realmente funcionou.
As imagens geradas pelo GPT Image 2 podem ser utilizadas para fins comerciais?
Sim. De acordo com os termos padrão do produto, as imagens que criar são de sua propriedade e podem ser utilizadas para fins comerciais. Os termos específicos da licença encontram-se no rodapé do site; no caso de cenários de alto risco (publicidade de marcas, capas de publicações, etc.), recomendamos que consulte um advogado. Além disso, não considere as pessoas reais ou marcas mencionadas nas palavras-chave como um «passe livre» — isso diz respeito a questões de direitos de imagem e direitos de marca, que não são abrangidas pelos termos do produto de IA.
Qual é a diferença entre as palavras-chave para «text-to-image» e «image-to-image»?
text-to-image começa a partir do ruído, sendo a descrição a única orientação. image-to-image começa a partir da imagem de referência que carregou, sendo que a descrição serve apenas para a modificar. As descrições para image-to-image devem ser mais curtas e centrar-se no «o que alterar» («alterar para um estilo de pintura a óleo, mantendo a postura e o vestuário do sujeito»), em vez de descrever novamente toda a cena — a imagem de referência já fornece a maior parte dos detalhes.
Está pronto para começar?
Agora tem mais de 50 sugestões de texto, um conjunto de fórmulas com oito parâmetros, uma lista de correções para casos de falha e um modelo estruturado para sugestões de texto longas. O próximo passo é abrir a ferramenta e testar uma delas. Escolha qualquer uma, cole-a e veja em que medida o resultado difere da imagem que tem em mente — depois, corrija apenas o parâmetro que deu errado e execute novamente. Em duas ou três tentativas, conseguirá produzir imagens «prontas a entregar» de forma consistente.
Guarde este artigo nos favoritos do seu navegador ou cole a fórmula dos oito elementos na lateral do seu segundo ecrã. O verdadeiro avanço não está em memorizar estas palavras-chave, mas sim em interiorizar a fórmula até se tornar memória muscular — depois disso, sempre que vir qualquer imagem de referência, irá naturalmente identificar o seu tema, a iluminação, a perspetiva e o estilo.
Comece a usar o GPT Image 2 gratuitamente →
Continuar a ler:
- O que é o GPT Image 2? Apresentação completa e primeiros passos
- Tutorial de utilização do GPT Image 2: guia passo a passo
- GPT Image 2 vs Sora: comparação honesta
- GPT Image 2 vs Kling: qual escolher?
Tem alguma dúvida sobre uma determinada palavra-chave? Deixe-nos uma mensagem no site — lemos todas as mensagens, e as perguntas mais frequentes costumam aparecer na próxima versão do guia. Para compreender o contexto teórico, pode ler em conjunto com a entrada da Wikipédia sobre modelos de geração de imagens a partir de texto; demora cerca de 10 minutos. Se quiser aprofundar os seus conhecimentos, o próximo passo é consultar o Tutorial de Utilização da mesma série, para passar de «gerar uma boa imagem» para «produzir consistentemente um conjunto de imagens com um estilo uniforme».

