Guía de indicaciones para GPT Image 2: más de 50 plantillas prácticas (2026)

Apr 22, 2026

TL;DR

Una buena prompt para GPT Image 2 no es una simple frase, sino un conjunto de decisiones: sujeto, escenario, estilo, encuadre, iluminación y atmósfera. Esta guía te ofrece más de 50 plantillas de prompts listas para copiar, que abarcan cinco categorías principales: estilo cinematográfico, retratos, acción, naturaleza y fantasía, y se incluyen una lista de soluciones para casos fallidos y un flujo de trabajo de iteración eficaz. Todas las imágenes de muestra del artículo utilizan el mismo modelo KIE «gpt-image-2-text-to-image», con un coste de 12 créditos por imagen y un límite de 20 000 caracteres por prompt. Prueba gratuita de GPT Image 2 →


La estructura de una buena frase de búsqueda

La mayoría de la gente empieza directamente escribiendo «lo que quiero». Sin embargo, quienes realmente sacan buenas fotos escriben «lo que ve el objetivo». Ese es todo el secreto.

Tras realizar miles de pruebas en la interfaz KIE «gpt-image-2-text-to-image», hemos elaborado una fórmula de ocho campos que cubre prácticamente todos los casos. Con solo rellenar seis de los ocho campos ya se supera la media, y si se rellenan todos, se alcanza un nivel propio de un anuncio publicitario.

Fórmula:

[Sujeto] + [Acción/Postura] + [Escenario] + [Estilo/Referencia] + [Plano/Composición] + [Iluminación] + [Atmósfera/Tonalidad] + [Retocado de la imagen]

Cada ranura sirve para fijar de forma definitiva una cuestión que, de otro modo, el modelo tendría que «adivinar»:

  • Sujeto: quién o qué aparece en la imagen. «La bibliotecaria pelirroja» es diez veces mejor que «la mujer».
  • Acción/Postura: qué está haciendo en ese momento. El verbo determina la composición.
  • Escenario: el mundo que la rodea. Especifica el país, la época y la hora.
  • Estilo/Referencias: «film noir», «animación al estilo de Ufotable», «composición simétrica de Wes Anderson», «estilo de los anuncios de Fenty Beauty». Recurre a un lenguaje visual conocido, en lugar de acumular adjetivos sin sentido.
  • Toma/Composición: « primerísimo primer plano», «gran angular desde un ángulo bajo», «objetivo de retrato de 85 mm, f/1,4», «objetivo panorámico anamórfico». Esta es la clave para convertir una instantánea en un fotograma de película.
  • Luz——«luz de contorno de la hora dorada», «luz única de Rembrandt», «reflejos de neón en suelo mojado». La iluminación representa el 60 % de la sensación que transmite una imagen.
  • Emoción/Tonalidad——«Contraste entre azul frío y naranja cálido», «sombras intensificadas con ámbar cálido», «tono melancólico desaturado».
  • Retocados de imagen: «4K hiperrealista», «grano de película», «fotografía de moda». Sé breve, ya has hecho el trabajo pesado al principio.

Básico frente a optimizado: dos rondas de comparación del mismo tema

Resultado generado a partir de una prompt básica de GPT Image 2: composición sencilla y iluminación uniforme.
Descripción básica: «Una mujer de pie en una habitación». La figura está borrosa, la iluminación es insulsa y no hay composición: la modelo no tiene ningún punto de referencia.

La frase de referencia original correspondiente a la imagen anterior es:

A woman standing in a room.

Ahora reescribamos «el mismo concepto» utilizando la fórmula de las ocho posiciones:

A breathtaking young woman with flowing auburn hair stands in a luxurious Art Deco penthouse at golden hour. She wears a champagne-colored satin slip dress that catches the warm light. Floor-to-ceiling windows behind her show a panoramic city sunset. Dramatic side lighting creates deep shadows and golden highlights on her face and bare arms. The composition follows the rule of thirds. Cinematic depth of field with gorgeous city bokeh. Fashion editorial quality. Ultra-realistic 4K.

Comentario en chino: En un ático de estilo Art Déco, una mujer de cabello largo se encuentra de pie ante un ventanal, con la luz lateral de la hora dorada esbozando los contornos de su rostro y sus brazos.

Resultados de la generación de imágenes con la prompt de GPT Image 2 optimizada mediante la fórmula completa de ocho ranuras
Frases clave optimizadas según la fórmula de las ocho casillas. Se trata del mismo concepto principal, pero se han aclarado todos los puntos ambiguos.

Nota: La versión optimizada no consiste en añadir más adjetivos, sino en reducir la información que el modelo tiene que adivinar. GPT Image 2 se basa en un modelo de difusión guiado por un transformador (véase la explicación de Wikipedia sobre los modelos de difusión); cada detalle que no hayas escrito, el modelo lo completará con su «media a priori». Si no mencionas la «hora dorada», te dará por defecto una luz de martes por la tarde a las dos, con el cielo nublado.

Para terminar, un dato curioso: el límite máximo de caracteres de las indicaciones de GPT Image 2 es de 20 000 caracteres, lo que equivale aproximadamente a 3000 palabras en inglés. En situaciones normales, este límite no se alcanza ni de lejos, pero en el caso de escenas complejas con varios personajes o de diagramas conceptuales detallados, este límite máximo te permite definir tus decisiones de composición con gran precisión. En la sección 11 se mostrará cómo utilizar indicaciones largas.


Banco de palabras clave: Escenas con aire cinematográfico

Las escenas de estilo cinematográfico son el tipo más fácil de recrear, ya que la historia del cine cuenta con un vocabulario visual acumulado a lo largo de un siglo. Basta con indicar el género, la época y el plano para que el modelo te genere un fotograma con un aspecto muy realista.

Imagen generada con una prompt de GPT-2 al estilo cine negro: una mujer vestida de rojo en un callejón de Hong Kong después de la lluvia
Callejones de Hong Kong al estilo del nuevo cine negro. La combinación de colores vivos y el formato panorámico se encargan de transmitir la mayor parte de la atmósfera.

1. Los callejones de Hong Kong en el nuevo negro

Film noir cinematic shot. A dangerously beautiful femme fatale in a curve-hugging red silk dress with a thigh-high slit, walking through a rain-soaked Hong Kong back alley at night. Neon signs in Chinese characters reflect red and blue on the wet cobblestones. She carries a black umbrella over one shoulder, her red-painted lips the only warm color against the cold teal lighting. Smoke wisps from a nearby vent. Anamorphic lens, shallow depth of field, cinematic grain. Ultra-realistic 4K noir film frame.

Comentario en chino: En un callejón de Hong Kong bajo la lluvia, una mujer vestida de rojo cruza con un paraguas el camino de losas que refleja la luz de los neones.

2. Bar de jazz Rembrandt

Moody jazz bar interior. A mysterious woman in a sheer black lace dress sits on a velvet barstool, one leg crossed showing stiletto heels. Cigarette smoke curls around her silhouette. Warm amber spotlight from above illuminates her face and exposed collarbones while the rest fades into deep shadow. A saxophone player is a blurred silhouette in the background. Film noir meets modern luxury aesthetic. Dramatic Rembrandt lighting, 35mm film look. Ultra-realistic 4K.

Nota en chino: La mujer vestida de encaje negro en el bar de jazz; la combinación de una única fuente de luz cenital y el humo crea una iluminación dramática al estilo de Rembrandt.

*3. El tejado de Blade Runner

Cyberpunk cinematic wide shot. A lone detective in a wet black trench coat stands on a neon-drenched Tokyo rooftop at 3am. Giant holographic advertisements of a geisha float across the skyline behind him, casting shifting pink and cyan light on his face. Light rain catches the glow. Flying cars streak past as horizontal light trails. Shot on anamorphic lens, 2.39:1 aspect, shallow depth of field. Blade Runner 2049 color grade — teal shadows, orange highlights. Ultra-realistic 4K cinematic frame.

Comentario en chino: En los tejados de Tokio, en un ambiente cyberpunk, el detective queda envuelto en los tonos azul y rosa de un anuncio holográfico de geishas.

4. El vestíbulo simétrico de Wes Anderson

Wes Anderson style cinematic composition. A 1960s hotel concierge in a burgundy uniform stands dead-center in a pastel-pink Art Deco lobby, flanked by perfectly symmetrical potted palms and brass sconces. Flat front-on framing, everything on center axis. Soft fluorescent overhead lighting. Pastel pink and mint green color palette. 35mm film look. Ultra-detailed 4K.

Comentario en chino: Vestíbulo de un hotel de estilo Art Déco en tonos rosados, con una composición simétrica frontal y el recepcionista situado en el centro de la imagen.

5. El enfrentamiento en la cocina de una película policíaca coreana

Cinematic still from a modern Korean crime thriller. Two men face each other across a small Seoul apartment kitchen at 2am, both holding knives but frozen in a tense moment. Single fluorescent tube overhead casts hard green-tinted light and harsh shadows. Steam rises from an abandoned pot on the stove. Tight composition, 40mm lens, handheld feel. Bong Joon-ho style. Ultra-realistic 4K.

Nota en chino: A las dos de la madrugada, dos personas se enfrentan en la cocina de Seúl, bajo la luz fría y verdosa de los fluorescentes y con una toma que transmite la sensación de estar filmada con cámara en mano.

Imagen generada a partir de la prompt «Mujer bajo la luz de Rembrandt en un bar de jazz» con GPT Image 2
Un único foco combinado con humo que aporta sensación de volumen es un recurso casi infalible para conseguir un efecto cinematográfico.

6. La epopeya del desierto de Villeneuve

Epic cinematic wide shot in Denis Villeneuve style. A lone hooded figure in flowing desert robes walks across a vast orange sand dune at sunset. The sun is enormous on the horizon, casting elongated shadows. Scale is extreme — the figure is tiny, the landscape overwhelming. Dust kicks up in the wind. Warm amber palette with deep violet shadows. Shot on 65mm, ultra-wide aspect. Ultra-realistic 4K cinematic quality.

Nota en chino: Gran angular al estilo de Villeneuve: las figuras se ven diminutas y el paisaje resulta abrumador.

7. La cafetería de la Nueva Ola francesa

Black and white French New Wave cinematic still. A young woman in a striped Breton shirt and dark bob haircut smokes at a Paris cafe table in 1962. She looks off-camera with soft intensity. Natural window light, high contrast, slightly overexposed highlights. Film grain visible. Godard aesthetic. 35mm monochrome, 50mm lens. Ultra-detailed.

Comentario en chino: Una mujer de pelo corto en un café de París en 1962, en blanco y negro al estilo de la Nueva Ola francesa.

8. El pasillo del terror del giallo italiano

Cinematic horror frame in the style of a 1970s Italian giallo. A woman in a white nightgown stands at the end of a long Victorian hallway lit only by flickering red lamplight. Her back is turned. Shadow stretches toward the camera. Wallpaper is blood-red damask. Shallow depth of field, 28mm lens slightly distorted. Grainy film look. Deep red and black color story. Ultra-detailed 4K.

Comentario en chino: Estilo giallo italiano de los años 70; la silueta de una mujer vestida de blanco al final de un pasillo rojo sangre.

9. Noche de neón en Miami

1980s Miami Vice cinematic shot. A woman in a white linen blazer drives a red convertible at night through downtown Miami. Palm trees and neon motel signs blur past. She looks at the camera with sunglasses reflecting the pink and turquoise glow of the city. Lens flare, soft film grain. Teal and magenta color grade. Ultra-realistic 4K.

Comentario en chino: Las noches de Miami en los años 80: un descapotable rojo y el reflejo de las luces de neón en las gafas de sol.

10. Adaptaciones live-action de Studio Ghibli

Cinematic still styled as a live-action Studio Ghibli adaptation. A young woman in a simple blue linen dress stands in a vast green hillside field, wind blowing her hair and skirt. Fluffy white clouds race overhead. Soft golden hour light. Warm, painterly color grading with gentle film grain. Wide lens, low-angle composition making her heroic against the sky. Ultra-detailed 4K.

Comentario en chino: Una escena de una ladera al estilo Studio Ghibli, filmada con un ángulo bajo que resalta la línea del horizonte.


Biblioteca de palabras clave: retratos y maquillaje

El éxito o el fracaso de un retrato depende de tres factores: el objetivo, la dirección de la luz y la textura de la piel. Si especificas «85 mm f/1,4», «luz anular» o «caja de luz situada en la parte delantera izquierda de la cámara», podrás saltarte directamente tres rondas de intentos infructuosos.

Primer plano de una piel húmeda bajo una luz circular: ejemplo de retrato con la prompt de GPT Image 2
Retrato macro de calidad publicitaria para productos de belleza. La frase «85 mm macro, f/1,4» es la verdadera razón por la que la piel adquiere esta textura.

11. Macro al estilo Fenty Beauty

Extreme close-up beauty portrait. A stunning model with wet dewy skin and tousled damp hair, bare shoulders glistening. Water droplets on her face and neck catch the light of a ring light. Flawless skin texture in macro detail — every pore, every water droplet razor sharp. Smoky eye makeup with subtle gold shimmer. Lips slightly parted, intense gaze at camera. Dark background. Fenty Beauty campaign aesthetic. 85mm macro lens, f/1.4, ultra-shallow depth of field. Ultra-realistic 4K.

Comentario en chino: Primer de belleza con piel hidratada, iluminado con una luz anular, cada gota de agua se ve nítida.

12. Retrato en un banco barroco

Luxury editorial portrait. A gorgeous model wearing an elegant black velvet off-shoulder gown reclines on a dark velvet chaise longue in a dimly lit Baroque-style room. One arm draped elegantly above her head. Rich warm Rembrandt lighting from a single window highlights the fabric draping against her glowing skin. Oil painting-like quality with deep shadows and warm highlights. High-end fashion editorial photography. 85mm lens, creamy bokeh. Ultra-realistic 4K.

Comentario en chino: La mujer de vestido negro en el diván de terciopelo; la luz que entra por la única ventana crea una textura pictórica, al estilo de Rembrandt.

13. Fotografía de carné profesional

Professional corporate headshot. A confident woman in her early 30s wearing a tailored navy blazer over a crisp white shirt. Neutral gray seamless studio background. Three-point lighting — soft key from camera left, subtle fill from right, rim light from behind. Genuine warm smile, direct eye contact. 85mm lens, f/2.8. Skin tone natural and healthy. LinkedIn executive headshot quality. Ultra-realistic 4K.

Nota en chino: Fondo gris + iluminación estándar de tres puntos; foto de perfil de un alto directivo de LinkedIn.

14. Retratos callejeros en Tokio

Environmental street portrait. A 20-something Tokyo local with bleached blonde hair and oversized vintage streetwear stands in Shibuya on a weekday afternoon. Shallow depth of field with crowd of pedestrians soft-blurred behind her. Natural overcast daylight. She looks slightly off-camera, lost in thought. Shot on Fujifilm X100 aesthetic, 35mm lens, f/2. Ultra-realistic 4K.

Comentario en chino: Una tarde de un día laborable en Shibuya, una chica con el pelo teñido de rubio destaca sobre un fondo difuminado de gente.

15. Portada al estilo Vogue

High-end fashion portrait in the style of a Vogue Italia cover. A striking model with razor-sharp cheekbones wears an oversized metallic silver couture gown with architectural shoulders. She stares directly into camera with a cold, commanding expression. Hair pulled back tight. Studio lighting is a single hard light from 45 degrees creating sculptural shadows. Gray backdrop. 85mm portrait lens, f/5.6 for crisp detail. Ultra-detailed 4K.

Nota en chino: Estilo de portada de Vogue Italia: vestido plateado con efecto tridimensional + retrato escultural con luz intensa y uniforme.

16. Retrato en la cocina con luz natural

Soft natural light portrait. A woman with wavy chestnut hair sits by a large north-facing window in a quiet morning kitchen. She holds a ceramic mug of coffee in both hands, looking out the window thoughtfully. Warm cream sweater, no makeup, freckles visible. Shot in Rembrandt light with window as the only source. 50mm lens, f/1.8, shallow depth of field. Soft, honest, lived-in feel. Ultra-realistic 4K.

Nota en chino: Una mujer sin maquillaje junto a la ventana de la cocina a la luz de la mañana, iluminada únicamente por la luz natural que entra por una ventana lateral.

17. Iluminación teatral monocromática

Dramatic black and white portrait. A man with a short salt-and-pepper beard and intense dark eyes stares into the lens. Only half his face is lit — hard side light from camera right, pure black shadow on the other side. Textured gray background fades to black. Shot on medium format film aesthetic, 80mm lens. Film grain. Peter Lindbergh style monochrome. Ultra-detailed.

Nota en chino: Retrato en blanco y negro al estilo de Peter Lindbergh, con una mitad del rostro iluminada por una luz intensa y la otra mitad completamente a oscuras.

18. Sesión fotográfica de maquillaje en tonos rosas

Dreamy pastel beauty portrait. A model with soft pink lips, dewy skin, and flushed cheeks against a blush pink seamless backdrop. She wears a sheer white off-shoulder top. Soft diffused lighting from a large softbox creates flattering even illumination. Hair in loose tousled waves. 85mm lens, f/2. Cotton candy color palette — pink, peach, cream. Ultra-realistic 4K beauty editorial.

Comentario en chino: Fondo rosa + caja de luz grande; sesión fotográfica de maquillaje en tonos pastel.

19. Un momento romántico

Sun-drenched golden hour portrait. A woman in a flowing cream linen dress stands in a wheat field at 7pm on a summer evening. The sun is low behind her, creating a halo of golden backlight through her hair and the sheer fabric. Lens flare across the frame. Her eyes are closed, face tilted up to the warmth. 135mm telephoto lens, f/2, compressed background. Warm honey color grade. Ultra-realistic 4K.

Comentario en chino: Un campo de trigo al atardecer en verano, a contraluz + teleobjetivo de 135 mm para comprimir el espacio.

20. Biblioteca de la Escuela Oscura

Dark academia editorial portrait. A young woman with auburn hair in a loose braid wears a wool cardigan over a white collared shirt in an old university library. She holds an open leather-bound book, reading by the light of a green banker's lamp. Towering bookshelves around her fade into shadow. Warm tungsten light, deep navy and olive color palette. 50mm lens, f/2.8. Ultra-realistic 4K.

Comentario en chino: Biblioteca antigua + lámpara de pie verde, ambiente «dark academia».


Banco de palabras clave: acciones y movimientos

Las escenas de acción requieren dos elementos: términos que describan el momento congelado («congelado en el aire», «captura a alta velocidad») y luz de contorno, que sirve para destacar al sujeto del fondo caótico.

Instantánea de un deportista en plena patada giratoria a gran velocidad — GPT Image 2: Ejemplos de indicaciones de movimiento
Un retrato en movimiento congelado. Lo que realmente perfila la silueta es ese haz de «luz lateral procedente de atrás».

21. Fotograma de entrenamiento de Nike

Dynamic action freeze-frame. An athletic woman in a fitted sports bra and high-waisted compression shorts executes a powerful spinning roundhouse kick. Water splashes frozen in mid-air around her legs and feet in a dramatic spray pattern. Her toned abs and defined muscles visible. Dramatic single-source rim lighting from behind creates a glowing silhouette edge. Dark studio background. Nike Training campaign energy. High-speed photography feel — ultra-sharp subject, motion blur on water droplets. Ultra-realistic 4K.

Nota en chino: Fotografía de alta velocidad al estilo de los anuncios de Nike, con las gotas de agua congeladas en el aire.

22. Interior del tubo de surf

Epic wide-angle shot of a female surfer riding inside a massive crystal-clear barrel wave at golden hour. Her silhouette and athletic body visible through the translucent turquoise water of the wave tube. Golden sunlight creates an explosion of light and water mist behind her. Dramatic backlit composition. The wave is enormous and perfectly formed. GoPro-style immersive perspective. Ultra-realistic 4K cinematic quality.

Comentario en chino: Una surfista en el tubo de una ola gigante durante el momento dorado, en silueta a contraluz.

23. Saltos de parkour por los tejados

High-speed action shot of a parkour athlete mid-leap between two Brooklyn rooftops at sunset. Frozen at the apex of the jump, arms and legs extended, silhouetted against a burning orange sky. The gap below him is dizzying — city streets far below. Motion blur on the trailing edge of his hoodie. Shot from a drone at his height, 35mm lens. Ultra-realistic 4K cinematic action.

Comentario en chino: Parkour sobre los tejados de Brooklyn al atardecer, imagen capturada en el punto más alto del salto.

24. Foco sobre el ring de las artes marciales mixtas

Dramatic fight night action. A female MMA fighter mid-spinning back elbow, sweat flying from her hair in a visible arc of droplets. Single harsh overhead ring spotlight isolates her from pure black background — classic boxing photography look. Her opponent is a blurred silhouette out of focus. 70-200mm lens at 200mm, f/2.8, 1/2000 shutter frozen motion. High contrast, desaturated. Ultra-detailed 4K.

Comentario en chino: Luz única sobre el ring de MMA; se ven claramente las gotas de sudor salpicando en el aire.

25. Polvo generado por las motos todoterreno

Low-angle action shot of a motocross rider airborne over a dirt jump, red desert dust exploding behind the rear tire. Late afternoon sun casts long shadows. The bike is tilted aggressively mid-trick. Camera is just above ground level looking up, making the jump look monumental. Anamorphic lens flare from the sun. Orange and teal color grade. Ultra-realistic 4K action.

Comentario en chino: La moto todoterreno se eleva en el aire y la rueda trasera levanta una nube de polvo rojo.

26. Salto en la sala de ballet

Contemporary ballet dancer mid-grand jete frozen in the air, arms extended, body perfectly horizontal. She wears a simple nude leotard. Plain gray cyclorama studio background. Strong side-light from camera left creates a sculptural chiaroscuro on her musculature. Powder disturbed from the floor traces her leap in a soft cloud. 1/4000 shutter speed feel. Ultra-detailed 4K.

Nota en chino: En el grand jeté del ballet, el punto más alto es cuando el cuerpo queda paralelo al suelo.

27. Mate de baloncesto con golpe hacia arriba

Low-angle hero shot of a male basketball player mid-slam dunk, one hand gripping the rim, body extended diagonally across the frame. Arena lights streak as lens flares. Crowd is a soft blurred wall of phone flashes behind him. Frozen sweat and net motion. Shot on 24mm wide from directly below the hoop. NBA official photography energy. Ultra-realistic 4K.

Nota en chino: Instantánea tomada con un gran angular de 24 mm justo desde debajo del aro, en el momento del mate.

28. Caballo galopando sobre las olas

A rider on a powerful black horse gallops through knee-deep shallow ocean water at sunrise. Water explodes from each hoofstrike, frozen in a dramatic spray. The rider is leaned low, hair streaming behind. Warm golden backlight from the rising sun. Mist rising off the water. Shot at 1/4000 shutter, 200mm telephoto compression. Ultra-realistic 4K equine photography.

Comentario en chino: En aguas poco profundas al amanecer, un caballo negro galopa y salpica el agua; efecto de compresión con teleobjetivo de 200 mm.


Banco de palabras clave: Naturaleza y paisajes

Las palabras clave relacionadas con los paisajes son la hora del día, el tiempo y la escala vertical. El modelo tiene una fuerte tendencia a favor de lo que se considera «belleza natural general», por lo que debes utilizar términos concretos para alejarlo de esa media.

Una mujer junto a una cascada en un acantilado, envuelta en la niebla — GPT Image 2: Ejemplos de indicaciones naturales
Una mujer envuelta en la niebla junto a una cascada al borde de un acantilado. La perspectiva aérea «ligeramente en picado» y el uso de un término concreto como «gossamer» evitan que el modelo caiga en lo convencional.

29. El paraíso de la niebla de la cascada

Ethereal fantasy nature scene. A graceful young woman in a flowing sheer gossamer dress stands at the edge of a towering waterfall cliff. Dense tropical mist swirls around her legs and the translucent fabric. She extends one arm toward the cascade, water droplets catching golden light. Aerial perspective slightly from above showing the dramatic cliff drop. Lush green ferns frame the composition. Golden hour light filtering through the mist. Ultra-realistic 4K cinematic quality.

Comentario en chino: Una mujer vestida de blanco junto a una cascada en un acantilado, tomada desde el aire y con niebla.

30. Vistas aéreas de las Maldivas

Overhead drone shot of a beautiful woman in a minimal white bikini floating on her back in crystal-clear turquoise shallow water over white sand in the Maldives. Her long dark hair fans out in the water like a halo. The water is so clear her full body is visible through the translucent surface. Tiny fish swim nearby. Travel photography editorial style. Ultra-realistic 4K aerial quality.

Descripción en español: Fotografía aérea tomada desde arriba de las Maldivas, en la que se ve a una mujer flotando en aguas cristalinas.

31. La costa de arena negra de Islandia

Dramatic wide landscape of Iceland's Reynisfjara black sand beach at dawn. Massive basalt sea stacks rise from the churning North Atlantic. Low fog drifts across the black sand. A single figure in a red rain jacket walks along the shoreline for scale. Moody desaturated color grade — almost monochrome with just the red jacket as accent. 24mm wide lens, f/11 for deep focus. Ultra-detailed 4K.

Nota en chino: La playa de arena negra de Islandia y el impermeable rojo como puntos de referencia cromáticos.

32. La luz de la iglesia del bosque de secuoyas

Vertical composition looking up through towering California redwood trees. Shafts of golden morning sunlight cut through the fog between the trunks like cathedral light rays. Ferns carpet the forest floor. A tiny hiker in the distance gives scale. Ultra-wide 14mm lens distorting the trunks into a radial pattern toward the sky. Warm green and gold palette. Ultra-realistic 4K nature photography.

Comentario en chino: Fotografía de gran angular de 14 mm de un bosque de secuoyas, con un haz de luz que atraviesa la niebla en una iglesia.

33. Los lagos de espejo de la Patagonia

Perfect mirror reflection of the jagged Torres del Paine peaks in a glass-still Patagonian alpine lake at blue hour. Pink and purple alpenglow on the snow-capped summits. A single orange tent on the near shore as human scale. Complete symmetry — upper and lower half of frame are near-mirror images. 35mm lens, f/11. Ultra-realistic 4K landscape.

Comentario en chino: El lago, con su superficie perfectamente reflectante en el momento azul, presenta una simetría vertical.

34. Tormentas de arena del Sáhara

Vast Sahara desert at the start of a sandstorm. Rolling orange dunes extend to the horizon, with a towering wall of sand approaching from the left. A lone nomadic figure on camelback is silhouetted against the dust cloud. Sun struggles through the haze as a dim orange disc. Cinematic wide-angle, heavy atmospheric haze. Monochromatic warm orange palette. Ultra-detailed 4K.

Comentario en chino: En los límites de una tormenta de arena del Sáhara, la silueta de un jinete de camello se yergue frente a un muro de polvo.

35. La cabaña de la aurora boreal

Wide landscape of a tiny warm-lit wooden cabin in a Norwegian fjord valley at 1am. A spectacular green and purple aurora borealis dances overhead, reflecting in the still black fjord water. Snow-dusted pine trees and mountains frame the scene. The cabin glow is the only warm color in an otherwise cold composition. 20-second long exposure feel. Ultra-realistic 4K astrophotography.

Comentario en chino: La aurora boreal a la una de la madrugada en los fiordos noruegos y una acogedora cabaña.

36. Puesta de sol en la sabana africana

Cinematic wide shot of a family of elephants crossing a golden savanna at sunset in Kenya. The sun is a huge orange disc on the horizon, silhouetting the herd. Long grass ripples in the warm wind. Dust kicked up by the herd diffuses the backlight into warm beams. 200mm telephoto compression. National Geographic editorial style. Ultra-realistic 4K wildlife photography.

Comentario en chino: Pradera al atardecer en Kenia, siluetas de una manada de elefantes + compresión con teleobjetivo de 200 mm.

37. El río de los cerezos en flor de Kioto

Serene wide landscape of the Philosopher's Path in Kyoto at peak cherry blossom season. Pink petals float on the narrow canal, with more drifting down from the trees above. Traditional wooden bridges arch over the water. Early morning mist softens the light into diffused pink. A solo figure in a dark kimono walks along the stone path for scale. 50mm lens, f/4, gentle pastel color grade. Ultra-realistic 4K.

Nota en chino: Durante la temporada de floración de los cerezos en el Camino de la Filosofía de Kioto, los pétalos rosados flotan sobre la superficie del canal.

38. La luz de la tormenta en las Highlands escocesas

Dramatic landscape of the Scottish Highlands during a clearing thunderstorm. Dark churning clouds above a lone glen, with a single shaft of golden sunlight breaking through and lighting one patch of heather-covered hillside. Rainbow arc barely visible at the edge. Ancient standing stones in the foreground. Moody cinematic color grade — steel blue shadows, warm sunlit highlight. 24mm wide, f/11. Ultra-realistic 4K landscape photography.

Comentario en chino: Cuando la tormenta en las Highlands escocesas estaba a punto de disiparse, un único rayo de sol dorado se abrió paso entre las nubes.


Banco de palabras clave: Fantasía y estilización

En cuanto menciones una referencia artística concreta del género fantástico (Ufotable, Arcane, Studio Trigger, ilustraciones de Magic: The Gathering), las sugerencias serán mucho más precisas. Si te limitas a escribir «arte fantástico» de forma genérica, solo obtendrás resultados genéricos.

La guerrera fantástica de la espada mágica luminosa — GPT Image 2: Ejemplos de prompts para anime
Una guerrera fantástica al estilo de Ufotable. Mencionar el nombre del estudio dice más que veinte adjetivos juntos.

39. Ufotable: Anime Senki

Epic anime-inspired fantasy warrior princess with flowing silver-white hair that reaches her waist, wearing ornate golden battle armor that hugs her figure with intricate engravings. She holds a glowing magical sword aloft, emitting bright blue energy. Cherry blossom petals and magical sparkles swirl in a violent storm around her. Her expression is fierce and determined. Dynamic action pose mid-battle leap. Ultra-detailed anime with CGI-quality lighting — Ufotable production quality. Rich colors, dramatic volumetric lighting. 4K quality.

Comentario en chino: Una «guerrera anime» al estilo Ufotable: espada mágica azul + tormenta de cerezos en flor.

40. Maga elfa oscura

Dark fantasy dark elf sorceress with long flowing midnight-purple hair, pointed ears, and luminous violet eyes. She wears an elegant off-shoulder dark robe with intricate silver embroidery that reveals her collarbones and shoulders. Purple arcane energy spirals from her outstretched hands, illuminating her face from below. A vast star field and nebula visible in the background through a shattered stone archway. Semi-realistic fantasy illustration style with cinematic lighting. Ultra-detailed 4K.

Comentario en chino: Una maga elfa oscura de la que brota energía arcana púrpura que se arremolina en sus manos.

41. Los duendes del bosque de Ghibli

Studio Ghibli style painterly scene. A small forest spirit that looks like a glowing white fox with three tails walks through a mossy enchanted forest at dusk. Fireflies dance around it. Soft painterly brushstrokes, warm honey-gold light filtering through massive ancient trees. Hayao Miyazaki watercolor aesthetic. Ultra-detailed animation cel quality.

Comentario en chino: Un zorro blanco de tres colas, al estilo Studio Ghibli, pasea por un bosque cubierto de musgo al atardecer.

42. Arcane: La batalla de las dos ciudades

Arcane Netflix animated series style illustration. A young woman with blue-tipped braided hair and steampunk goggles leans against a graffitied alley wall in the undercity of Piltover. Neon magical rune-signs glow behind her. Textured painterly brushstrokes visible, 2D illustration with 3D depth, saturated purple and teal color story. Fortiche animation studio aesthetic. Ultra-detailed 4K.

Comentario en chino: Una joven en los callejones de la ciudad baja, al estilo Arcane Fortiche.

43. Dragón de Magic: The Gathering

Fantasy illustration in the style of a Magic The Gathering card. A colossal red dragon emerges from molten lava in an underground cavern, wings half-spread, mouth roaring with fire breath forming. A tiny knight in silver armor stands at the cavern's edge for scale, raising a shield. Dramatic low-angle hero composition. Rich oil-painting texture, Greg Rutkowski influence. Ultra-detailed 4K fantasy art.

Nota en chino: El Dragón de Lava Rojo y el Caballero Insignificante, al estilo de las ilustraciones de Magic: The Gathering.

44. Cyber Knight

Cyberpunk fantasy fusion. A female samurai with a chrome katana stands on the rain-slicked rooftop of a neo-Tokyo megacorp tower at night. She wears a fusion of traditional kimono and carbon-fiber combat armor. Holographic cherry blossoms drift around her. Neon reflections on the wet rooftop, flying ad-drones in the background. Illustrated in the style of Katsuhiro Otomo meets modern 3D concept art. Ultra-detailed 4K.

Comentario en chino: Una samurái en los tejados de Cyber-Tokio + cerezos en flor holográficos.

45. La sirena submarina

Ethereal underwater fantasy. A graceful mermaid with iridescent teal and violet scales swims through a coral reef illuminated by shafts of sunlight piercing the water surface above. Her long turquoise hair flows weightlessly. Bubbles trail from her fingertips. School of small silver fish swim past. Dreamlike painterly quality, Lisa Frank meets National Geographic. Ultra-detailed 4K fantasy art.

Comentario en chino: Una sirena iridiscente en un arrecife de coral, con un haz de luz que atraviesa la superficie del agua.

46. Capitán de una aeronave steampunk

Illustrated steampunk fantasy portrait. A young female airship captain in a brass-buttoned red military coat, goggles pushed up on her forehead, stands at the wheel of a wooden airship. Visible brass gears and copper pipes. Behind her, clouds and other distant airships. Warm golden hour lighting. Illustration style inspired by Nausicaa and Howl's Moving Castle. Ultra-detailed 4K.

Comentario en chino: Una capitana de dirigible al estilo de Hayao Miyazaki y un engranaje de latón.


Iteraciones de múltiples estilos: un mismo tema, mundos diferentes

Un flujo de trabajo infravalorado en GPT Image 2: fijar el sujeto y modificar solo los parámetros de estilo. Podrás ver claramente qué aporta cada estilo al mismo rostro, la misma ropa y la misma postura; así, la próxima vez que elijas un estilo, ya no tendrás que adivinar.

Comparación de estilos en cuadrícula de cuatro casillas: realista, anime, pintura al óleo, cyberpunk — Prompt de GPT Image 2
Cuatro estilos del mismo tema. Esta presentación es ideal para crear un moodboard antes de presentar las opciones de estilo al cliente.

Palabras clave básicas: el tema se mantiene totalmente igual en las cuatro generaciones:

A beautiful young woman with shoulder-length brown hair stands in a sunlit garden, wearing a simple white sundress, one hand lightly touching a rose bush. Soft golden afternoon light. Three-quarter body framing, slightly tilted head, warm smile.

Comentario en chino: Una joven con un vestido sencillo acariciando las rosas en el Jardín del Sol, bajo la luz dorada de la tarde.

A continuación, cambia solo la ranura de estilo y ejecuta cada una una vez:

47. Fotografía realista

[Base] — Hyperreal fashion photography aesthetic. 85mm lens at f/1.8, soft natural light, editorial sharpness. Ultra-realistic 4K.

48. Anime japonés

[Base] — Japanese anime style with cel shading, bold line art, vibrant saturated colors, large expressive eyes. Kyoto Animation production quality. Ultra-detailed.

49. Pintura clásica al óleo

[Base] — Classical oil painting style with visible thick brushstrokes, warm Renaissance lighting, chiaroscuro shadow, Vermeer-like color palette. Museum-quality.

50. Cyberpunk

[Base] — Neon-drenched cyberpunk futurism. Holographic overlays, circuit-pattern light tattoos on skin, magenta and cyan rim lighting. Ghost in the Shell art direction. Ultra-detailed.

Hemos probado esta secuencia en nuestra cuenta de pruebas interna: la primera imagen tarda unos 18 segundos y el cambio de estilo en las siguientes tarda más o menos lo mismo. En menos de dos minutos y con 48 créditos, obtenemos un moodboard completo. Al incluirlo en la propuesta para el cliente, es como si hubiéramos comprimido la búsqueda de material, que normalmente llevaría medio día, en el tiempo que se tarda en tomarse un café.


Casos habituales de fallos y soluciones

Sección «Honestidad»: GPT Image 2 funciona muy bien, pero no es magia. A continuación, te presentamos los tipos de errores más frecuentes que hemos detectado, junto con las plantillas de corrección correspondientes. Utiliza esta sección como una lista de verificación para la resolución de problemas: la próxima vez que tengas un problema con una imagen, revísala paso a paso y la mayoría de los problemas se resolverán tras la primera modificación.

Fallo 1: resultado insulso

Before:

A beautiful woman in a city.

After:

A 28-year-old woman with auburn hair pulled into a low ponytail, wearing a camel trench coat, crossing a Manhattan crosswalk at 6pm on a rainy Thursday. Yellow taxis blur past in motion-blurred streaks. 50mm lens, f/2, cinematic grain. Ultra-realistic 4K.

La primera indicación no proporcionaba al modelo ningún punto de referencia. La solución siempre pasa por nombres propios y lugares concretos.

Error 2: número incorrecto de dedos

GPT Image 2 ya supera con creces a la primera generación de modelos de difusión en lo que respecta a la representación de las manos, pero los primeros planos de las manos siguen dando problemas. Hay dos formas fiables de evitarlo:

  • No dejes que las manos sean el centro de atención; recórtalas directamente: «el encuadre es solo de los hombros para arriba».
  • Haz que sostengan algo: «las manos sujetan con delicadeza una taza de café de cerámica». Al tener un objeto que condiciona la postura, la posición de los dedos queda fijada.

Error 3: Los caracteres de la imagen aparecen distorsionados

Las maquetas no son programas de maquetación. Si quieres incluir en la imagen un logotipo, un cartel o texto legible en un cartel —ya sea muy breve («un cartel que dice OPEN») o añada directamente en las instrucciones: «sin texto, sin letras, sin palabras en ninguna parte de la imagen»—, maquétenlo por separado en Figma o Photoshop.

Error 4: Se ha ignorado la dirección de la luz

Before:

A portrait of a woman with dramatic lighting.

After:

A portrait of a woman lit by a single hard spotlight from 45 degrees camera-left, with deep black shadow filling the right side of her face. Rembrandt lighting with a small triangle of light on the shadowed cheek.

«Iluminación dramática» no dice nada. Lo que realmente sirve de pista es especificar la dirección, la intensidad y el alcance de las sombras.

Error 5: El sujeto aparece en una escena incorrecta

Si el modelo sigue situando a los personajes en un estudio fotográfico genérico en lugar de en una biblioteca, coloca la escena al principio de la descripción y hazla más concreta:

In a candle-lit 17th-century English library with floor-to-ceiling oak shelves, leather-bound books, and a stone fireplace, a woman in…

Situar el escenario delante del sujeto equivale a definir toda la composición antes de introducir al personaje.

Error 6: Sobrecarga de palabras clave

A partir de unas 1200 palabras, la influencia de cada adjetivo individual empieza a diluirse. Si tu lista de palabras clave es una simple enumeración de 40 etiquetas de estilo, el modelo «tomará la media». Se mantendrá un estilo principal como referencia (por ejemplo, «cine negro») y el resto se considerarán secundarios.


Aprovechar los 20 000 caracteres: indicaciones largas estructuradas

Una ventaja subestimada de GPT Image 2 es que el límite máximo de caracteres para las indicaciones es de hasta 20 000. La mayoría de los productos de la competencia se quedan en unos 1000 o 2000 caracteres. Aunque esto no es necesario para retratos, las indicaciones largas y estructuradas resultan muy útiles para escenas complejas con varios personajes, briefs de imágenes conceptuales o series de imágenes con una fuerte coherencia de marca.

Plantillas que solemos utilizar en los briefs de producción:

# ESCENA
[Escena: lugar, hora, clima, época histórica; 2-3 frases]

# PERSONAJES
- Personaje A: [Apariencia, vestimenta, postura actual, expresión facial]
- Personaje B: [Idem]
- Figurantes de fondo: [Breve descripción]

# COMPOSICIÓN
[Composición: gran angular/plano medio/primer plano; ángulo de la cámara; plano; profundidad de campo; posición de cada personaje en el encuadre — regla de los tercios/proporción áurea/centro]

# ILUMINACIÓN
[Fuente de luz, dirección, intensidad, temperatura de color, comportamiento de las sombras]

# COLOR
[Describe la paleta de colores con 3 o 4 términos. Estilo cromático: cálido/frío/contrastado]

# STYLE
[Una referencia de estilo principal. Por ejemplo: «El estilo de fotografía de Roger Deakins en *Blade Runner 2049*»]

# TÉCNICO
[Modificaciones de resolución, grano de la película, formato, etiquetas de calidad de imagen. Sé conciso]

# EXCLUSIONES
[Elementos que deben evitarse: «Sin texto, sin logotipos, sin marcas de agua, sin extremidades adicionales»]

Ejemplo: texto de referencia completamente estructurado (aproximadamente 500 palabras) para una imagen principal de un anuncio:

# SCENE
A restored 1930s Art Deco ballroom on a rainy Tuesday evening in Paris, set during a private jazz performance. Tall arched windows on the left show wet boulevards and soft yellow streetlamp glow. Interior is lit warm and amber.

# CHARACTERS
- Lead: A striking 32-year-old woman with dark auburn hair in a low chignon, wearing a deep emerald-green silk bias-cut gown with a low back. She stands near a grand piano, one hand resting on its polished black lid, gazing thoughtfully toward the windows. Faint melancholy in her expression.
- Pianist: A middle-aged man in a black tuxedo, seated at the piano mid-performance, profile view, fingers on keys. He is a secondary figure — should not pull focus from the lead.
- Background: Three or four well-dressed patrons at candlelit round tables in soft bokeh, unidentifiable faces.

# COMPOSITION
Medium-wide shot. Lead character is on the right third of the frame, piano extending diagonally across the center toward the left. Rule of thirds. 50mm lens, f/2.2, shallow depth of field — lead and piano sharp, background patrons and windows softly blurred. Eye-level camera height.

# LIGHTING
Warm tungsten chandelier overhead providing ambient glow on the room. Key light on the lead is a single practical wall sconce camera-right at 45 degrees, modeling her face in gentle Rembrandt pattern. Rim from the windows behind her (cool blue rainy light) separates her hair and shoulder edge from the warm interior. Overall contrast: high but soft.

# COLOR
Deep emerald green (dress) and warm amber (interior) as hero colors, with cool blue window light as counter-accent. Warm gold dominant, with selective teal shadow detail. Film-look color grade reminiscent of early Wong Kar-wai.

# STYLE
Cinematic still in the visual language of In the Mood for Love meets a modern luxury cognac commercial. Anamorphic lens quality (slight horizontal flare on the candles). Painterly softness, 35mm film grain.

# TECHNICAL
Ultra-realistic 4K, 16:9 aspect, cinematic frame.

# EXCLUSIONS
No text, no signage, no logos, no watermarks, no visible phones or modern electronics, no extra limbs, no warped fingers on the pianist.

La estructura por secciones tiene dos ventajas: en primer lugar, te permite a ti mismo no dejar ningún campo sin rellenar; en segundo lugar, proporciona al modelo un punto de partida estructurado para el análisis, en lugar de un texto de 500 palabras sin estructura. Con solo modificar las secciones CHARACTERS y SCENE en toda la serie, se pueden generar de forma masiva diferentes tomas del mismo anuncio.

Un consejo práctico: cuando una imagen se haya renderizado en un 80 % correctamente, pero haya algún elemento que no cuadre (por ejemplo, la protagonista lleva un color equivocado), no reescribas toda la descripción. Copia la que haya funcionado, modifica solo el campo correspondiente y vuelve a ejecutarla. Nuestros registros internos de iteraciones muestran que, con las descripciones estructuradas, se obtiene un fotograma de calidad de imagen principal en una media de 2,8 intentos, mientras que con las descripciones en prosa libre a menudo se superan los 6 intentos. A 12 créditos por imagen, esto supone una diferencia de entre 2 y 5 dólares por cada imagen principal.

¿Quieres delegar el flujo de trabajo de las palabras clave estructuradas a un compañero? Primero, pídeles que consulten la guía de inicio y, después, vuelve a leer este artículo.


Preguntas frecuentes

¿Qué es lo más importante en las indicaciones de GPT Image 2?

La luz y el objetivo: ese es el orden. Si el sujeto y la escena están un poco borrosos, aún se puede salvar la imagen, pero si la dirección de la luz y la elección del objetivo son imprecisas, el resultado siempre parecerá una imagen de archivo. Si solo tienes tiempo para retocar dos aspectos, céntrate en estos dos. Define claramente «de qué dirección viene la luz, qué intensidad tiene y en qué lado caen las sombras», y luego especifica «qué distancia focal, qué apertura y a qué distancia se ha tomado la foto»: así, la base de la imagen quedará bien asentada.

¿Qué longitud deben tener las indicaciones para GPT Image 2?

Para retratos y escenas sencillas, lo ideal es entre 80 y 150 palabras. Para descripciones cinematográficas con referencias a épocas y estilos, entre 150 y 250 palabras. Para escenas con varios personajes o briefings publicitarios, utiliza plantillas estructuradas de entre 400 y 800 palabras. El límite máximo de 20 000 caracteres se reserva para casos extremos; en el uso diario, rara vez se superan las 500 palabras.

¿Se puede incluir el nombre de un artista real en la descripción?

Puedes hacer referencia a un estilo o época —como «cine negro», «giallo de los años 70» o «el estilo pictórico del Studio Ghibli»— y el modelo reconocerá esos lenguajes visuales. Sin embargo, utilizar directamente el nombre de un artista vivo como etiqueta de estilo es éticamente cuestionable y, cada vez más, los modelos lo filtran. Lo mejor es describir el estilo, el medio y la época, en lugar de nombrar a personas concretas.

¿Por qué los resultados varían cada vez que se utiliza la misma frase de prompt?

Los modelos de difusión son, por naturaleza, aleatorios: parten de una imagen con ruido y la transforman en una imagen sin ruido. Si se ejecuta la misma indicación dos veces, se obtendrán resultados similares, pero diferentes. Se trata de una característica, no de un error, y es también la fuente de la «diversidad». Para reproducir los resultados, la mayoría de los sistemas de generación admiten el parámetro «seed». Para más información técnica, consulte el blog de generación de imágenes de OpenAI](https://openai.com/blog/).

¿Influye la longitud de la palabra clave en el precio?

No afecta. GPT Image 2 utiliza una tarifa plana: 12 créditos por imagen, independientemente de si escribes 20 o 2000 palabras. Lo único que influye en el coste es el número de imágenes generadas.

¿Cuántas veces hay que probar una idea antes de descartarla?

Regla general: prueba la misma frase de prompt tres veces para ver cómo varía el resultado; si aún no es lo que buscas, cambia solo un parámetro, no empieces de cero. La mayoría de las veces lo que hay que ajustar es la iluminación o la perspectiva. Si tras 8 intentos no hay avances, el problema está en la estructura: vuelve a la fórmula de las ocho posiciones y comprueba cuántas has rellenado. Tenemos otra costumbre interna: anotar en una tabla cada prompt generado y su semilla correspondiente; así, al analizar el proceso, es fácil ver qué palabra es la que realmente funciona.

¿Se pueden utilizar con fines comerciales las imágenes generadas por GPT Image 2?

Por supuesto. Según las condiciones estándar del producto, las imágenes que generes son de tu propiedad y pueden utilizarse con fines comerciales. Las condiciones específicas de la licencia se rigen por lo establecido en el pie de página del sitio web; en casos de alto riesgo (como publicidad de marcas o portadas de publicaciones), te recomendamos que consultes a un abogado. Además, no consideres que las personas reales o las marcas mencionadas en las palabras clave te eximen de responsabilidad: se trata de cuestiones relacionadas con los derechos de imagen y los derechos de marca, que no están reguladas por las condiciones del producto de IA.

¿En qué se diferencian las palabras clave de «text-to-image» y «image-to-image»?

text-to-image parte de una imagen aleatoria, y la descripción es la única guía. image-to-image parte de la imagen de referencia que subes, y la descripción solo sirve para modificarla. Las descripciones para image-to-image deben ser más breves y centrarse en «qué cambiar» («cambiar al estilo de pintura al óleo, manteniendo la postura y la vestimenta del sujeto»), en lugar de volver a describir toda la escena, ya que la imagen de referencia ya proporciona la mayor parte de la información.


¿Estás listo para empezar?

Ahora tienes más de 50 indicaciones, un conjunto de fórmulas de ocho parámetros, una lista para corregir casos fallidos y una plantilla estructurada de indicaciones largas. El siguiente paso es abrir la herramienta y probar realmente una de ellas. Elige cualquiera, pégala y comprueba en qué medida el resultado difiere de la imagen que tienes en mente; a continuación, corrige solo el parámetro que se ha desviado y vuelve a probar. En dos o tres intentos, podrás generar de forma constante imágenes «listas para entregar».

Guarda este artículo en los marcadores de tu navegador o pega la fórmula de los ocho elementos junto a tu segundo monitor. La verdadera mejora no consiste en memorizar estas palabras clave, sino en interiorizar la fórmula hasta convertirla en memoria muscular; así, cuando veas cualquier imagen de referencia, podrás desglosar de forma natural su sujeto, la iluminación, el encuadre y el estilo.

Empieza a usar GPT Image 2 gratis →

Seguir leyendo:

¿Tienes alguna duda sobre alguna de las palabras clave? Déjanos un mensaje en la página: leemos todos los comentarios, y las preguntas más frecuentes suelen aparecer en la próxima versión de la guía. Para conocer los fundamentos teóricos, te recomendamos leer también el artículo de Wikipedia sobre modelos de generación de imágenes a partir de texto; te llevará unos 10 minutos. Si quieres mejorar aún más, el siguiente paso es consultar el tutorial de uso de la misma serie, para pasar de «generar una buena imagen» a «producir de forma constante un conjunto de imágenes con un estilo uniforme».

Equipo de GPT Image 2

Equipo de GPT Image 2

Generación de imágenes y vídeos mediante IA