Guide till GPT Image 2-promptar: Över 50 praktiska mallar (2026)

Apr 22, 2026

TL;DR

En bra GPT Image 2-prompt är inte bara en mening, utan en rad beslut: motiv, scen, stil, bildvinkel, belysning och stämning. Den här guiden ger dig över 50 promptmallar som du kan kopiera direkt, täckande fem huvudkategorier: filmisk stil, porträtt, action, natur och fantasy. Dessutom ingår en checklista för att rätta till misslyckade resultat samt ett effektivt arbetsflöde för iteration. Alla exempelbilder i texten är skapade med samma KIE-modell, gpt-image-2-text-to-image, med 12 krediter per bild och en gräns på 20 000 tecken för prompten. Prova GPT Image 2 gratis →


Hur en bra prompt är uppbyggd

De flesta börjar direkt med att skriva ”vad jag vill ha”. Men de som verkligen tar bra bilder skriver ”vad kameran ser”. Det är hela hemligheten.

Efter att ha kört tusentals tester på KIE:s gränssnitt gpt-image-2-text-to-image har vi tagit fram en formel med åtta platser som täcker nästan alla scenarier. Om man fyller i sex av de åtta platserna ligger resultatet redan över genomsnittet, och om man fyller i alla kan man uppnå en kvalitet som motsvarar kommersiella filmer.

Formel:

[Motiv] + [Handling/ställning] + [Miljö] + [Stil/referens] + [Bildvinkel/komposition] + [Belysning] + [Stämning/ton] + [Bildkvalitetsjustering]

Varje slot fastställer en fråga som modellen annars skulle ha varit tvungen att "gissa" sig fram till:

  • Motiv – Vem eller vad som finns i bilden. ”Den rödhåriga bibliotekarien” är tio gånger bättre än ”kvinnan”.
  • Handling/ställning – Vad personen gör just nu. Verbet avgör kompositionen.
  • Miljö – Omgivningen. Ange land, tidsperiod och tidpunkt.
  • Stil/referenser – ”film noir”, ”animation i Ufotable-klass”, ”Wes Andersons symmetriska komposition”, ”Fenty Beauty-reklamstil”. Använd kända visuella uttryck istället för att stapla meningslösa adjektiv.
  • Bildvinkel/komposition – ” extrem närbild", "vidvinkel från låg vinkel", "85 mm porträttobjektiv, f/1.4", "anamorft vidvinkelobjektiv". Detta är nyckeln till att förvandla en stillbild till en filmruta.
  • Ljus——"guldstundens kantljus", "enkel Rembrandt-belysning", "neonreflexer på våt mark". Ljuset står för 60 % av intrycket i en bild.
  • Stämning/ton——"Kontrast mellan kallt blått och varmt orange", "Varm bärnsten fördjupar skuggorna", "Avmättad, melankolisk ton".
  • Bildkvalitetsredigering——"Hyperrealistisk 4K", "filmkorn", "modereportage". Håll det kort, det tunga arbetet har redan gjorts tidigare.

Grundläggande vs optimerad – två jämförelser av samma ämne

Resultat genererat med den grundläggande GPT Image 2-prompten: kompositionen är intetsägande och belysningen är jämn
Grundläggande beskrivning: "En kvinna som står i ett rum." Motivet är otydligt, belysningen är svag och kompositionen saknas – modellen har ingenting att gå på.

Den ursprungliga beskrivningen som motsvarar bilden ovan är:

A woman standing in a room.

Nu skriver vi om "samma begrepp" med hjälp av formeln med åtta platser:

A breathtaking young woman with flowing auburn hair stands in a luxurious Art Deco penthouse at golden hour. She wears a champagne-colored satin slip dress that catches the warm light. Floor-to-ceiling windows behind her show a panoramic city sunset. Dramatic side lighting creates deep shadows and golden highlights on her face and bare arms. The composition follows the rule of thirds. Cinematic depth of field with gorgeous city bokeh. Fashion editorial quality. Ultra-realistic 4K.

Kommentar: I en takvåning i art déco-stil står en långhårig kvinna framför ett fönster från golv till tak, där sidosolen i den gyllene timmen framhäver konturerna av hennes ansikte och armar.

Bildresultat från GPT Image 2-prompt som optimerats med den fullständiga åtta-slotsformeln
Optimerade promptord för åtta platser. Samma huvudkoncept, men alla oklarheter har eliminerats.

Observera: Den optimerade versionen innebär inte att man har lagt till fler adjektiv, utan att modellen har färre detaljer att gissa sig till. GPT Image 2 bygger på en transformer-styrd diffusionsmodell (se Wikipedia: Förklaring av diffusionsmodeller), och för varje detalj som du inte har skrivit in fyller modellen i med sitt ”priori-medelvärde”. Om du inte nämner ”gyllene stund” ger den dig automatiskt ett molnigt ljus klockan två på en tisdagseftermiddag.

Avslutningsvis en liten kuriosa: GPT Image 2 har en gräns på 20 000 tecken för prompter – vilket motsvarar ungefär 3 000 engelska ord. I vanliga fall räcker det mer än väl, men när det gäller komplexa scener med flera personer eller detaljerade konceptbilder innebär denna gräns att du kan göra mycket detaljerade kompositionsval. I avsnitt 11 visar vi hur man använder långa prompter.


Förslag på nyckelord: Scener med filmkänsla

Filmiska scener är den kategori som är lättast att få till, eftersom filmhistorien har byggt upp ett visuellt språk under hundra år. Om du anger genre, tidsperiod och kameravinkel kan modellen återge en bild som ser riktigt bra ut.

En bild genererad med GPT-Image 2 i film noir-stil: En kvinna i rött i en bakgata i Hongkong efter regnet
En bakgata i Hongkong i ny noir-stil. Kontrasterande färger och bilder i widescreen-format bär upp större delen av stämningen.

1. Nya svarta bakgator i Hongkong

Film noir cinematic shot. A dangerously beautiful femme fatale in a curve-hugging red silk dress with a thigh-high slit, walking through a rain-soaked Hong Kong back alley at night. Neon signs in Chinese characters reflect red and blue on the wet cobblestones. She carries a black umbrella over one shoulder, her red-painted lips the only warm color against the cold teal lighting. Smoke wisps from a nearby vent. Anamorphic lens, shallow depth of field, cinematic grain. Ultra-realistic 4K noir film frame.

Kommentar på kinesiska: En regnig natt i Hongkongs bakgator går en kvinna i rött med paraply över den neonbelysta stenbelagda gatan.

2. Jazzbaren Rembrandt

Moody jazz bar interior. A mysterious woman in a sheer black lace dress sits on a velvet barstool, one leg crossed showing stiletto heels. Cigarette smoke curls around her silhouette. Warm amber spotlight from above illuminates her face and exposed collarbones while the rest fades into deep shadow. A saxophone player is a blurred silhouette in the background. Film noir meets modern luxury aesthetic. Dramatic Rembrandt lighting, 35mm film look. Ultra-realistic 4K.

Kommentar på kinesiska: Kvinnan i svart spets i jazzbaren; en enda taklampa i kombination med rök skapar ett dramatiskt ljus i Rembrandt-stil.

3. Taket på Blade Runner

Cyberpunk cinematic wide shot. A lone detective in a wet black trench coat stands on a neon-drenched Tokyo rooftop at 3am. Giant holographic advertisements of a geisha float across the skyline behind him, casting shifting pink and cyan light on his face. Light rain catches the glow. Flying cars streak past as horizontal light trails. Shot on anamorphic lens, 2.39:1 aspect, shallow depth of field. Blade Runner 2049 color grade — teal shadows, orange highlights. Ultra-realistic 4K cinematic frame.

Kinesisk kommentar: På ett tak i cyberpunk-Tokyo omsluts detektiven av en holografisk geisha-reklam i två färger: blått och rosa.

4. Wes Andersons symmetriska lobby

Wes Anderson style cinematic composition. A 1960s hotel concierge in a burgundy uniform stands dead-center in a pastel-pink Art Deco lobby, flanked by perfectly symmetrical potted palms and brass sconces. Flat front-on framing, everything on center axis. Soft fluorescent overhead lighting. Pastel pink and mint green color palette. 35mm film look. Ultra-detailed 4K.

Kommentar på kinesiska: En rosa hotelllobby i art déco-stil, med en symmetrisk komposition där conciergen står mitt i bilden.

5. Konfrontation i köket i en koreansk kriminalfilm

Cinematic still from a modern Korean crime thriller. Two men face each other across a small Seoul apartment kitchen at 2am, both holding knives but frozen in a tense moment. Single fluorescent tube overhead casts hard green-tinted light and harsh shadows. Steam rises from an abandoned pot on the stove. Tight composition, 40mm lens, handheld feel. Bong Joon-ho style. Ultra-realistic 4K.

Kommentar på kinesiska: Klockan två på natten står två personer öga mot öga i ett kök i Seoul, i det grönaktiga, skarpa ljuset från lysrören och filmat med handhållen kamera.

En kvinna i en jazzbar i Rembrandts ljus – bild genererad med GPT Image 2-prompt
En enda strålkastare i kombination med rök som skapar volym är ett nästan universellt knep för att få till en filmisk känsla.

6. Eposet om Villeneuve-öknen

Epic cinematic wide shot in Denis Villeneuve style. A lone hooded figure in flowing desert robes walks across a vast orange sand dune at sunset. The sun is enormous on the horizon, casting elongated shadows. Scale is extreme — the figure is tiny, the landscape overwhelming. Dust kicks up in the wind. Warm amber palette with deep violet shadows. Shot on 65mm, ultra-wide aspect. Ultra-realistic 4K cinematic quality.

Kommentar på kinesiska: En vidvinkelbild i Villeneuve-stil, där personerna framstår som små och landskapet som överväldigande.

7. Café Nouvelle Vague

Black and white French New Wave cinematic still. A young woman in a striped Breton shirt and dark bob haircut smokes at a Paris cafe table in 1962. She looks off-camera with soft intensity. Natural window light, high contrast, slightly overexposed highlights. Film grain visible. Godard aesthetic. 35mm monochrome, 50mm lens. Ultra-detailed.

Kommentar på kinesiska: En kortklippt kvinna på ett kafé i Paris 1962, svartvitt i stil med den franska nya vågen.

8. Den italienska giallo-skräckens korridor

Cinematic horror frame in the style of a 1970s Italian giallo. A woman in a white nightgown stands at the end of a long Victorian hallway lit only by flickering red lamplight. Her back is turned. Shadow stretches toward the camera. Wallpaper is blood-red damask. Shallow depth of field, 28mm lens slightly distorted. Grainy film look. Deep red and black color story. Ultra-detailed 4K.

Kommentar på kinesiska: Italiensk giallo-stil från 1970-talet; en kvinna i vitt sett bakifrån i slutet av en blodröd korridor.

9. Neonljus i Miami

1980s Miami Vice cinematic shot. A woman in a white linen blazer drives a red convertible at night through downtown Miami. Palm trees and neon motel signs blur past. She looks at the camera with sunglasses reflecting the pink and turquoise glow of the city. Lens flare, soft film grain. Teal and magenta color grade. Ultra-realistic 4K.

Kommentar på kinesiska: Nattbild från Miami på 80-talet: en röd cabriolet och solglasögon som reflekterar neonljuset.

10. Ghibli-filmerna blir live-action

Cinematic still styled as a live-action Studio Ghibli adaptation. A young woman in a simple blue linen dress stands in a vast green hillside field, wind blowing her hair and skirt. Fluffy white clouds race overhead. Soft golden hour light. Warm, painterly color grading with gentle film grain. Wide lens, low-angle composition making her heroic against the sky. Ultra-detailed 4K.

Kommentar på kinesiska: En livsstilsbild i Ghibli-stil, tagen från en låg vinkel som lyfter fram horisonten.


Sökordsbibliotek: Porträtt och skönhet

Framgången eller misslyckandet med ett porträtt beror på tre saker: objektiv, ljusets riktning och hudens struktur. Om du anger ”85 mm f/1,4”, ”ringljus” eller ”softbox framför kamerans vänstra sida” kan du direkt hoppa över tre omgångar av meningslösa försök.

Närbild på fuktig hud i ringbelysning – GPT Image 2-prompt: porträttsexempel
Porträttfotografi i reklamklass. Det är just frasen ”85 mm makro, f/1,4” som är den verkliga anledningen till att huden får denna konsistens.

11. Fenty Beauty-klassad makrofotografering

Extreme close-up beauty portrait. A stunning model with wet dewy skin and tousled damp hair, bare shoulders glistening. Water droplets on her face and neck catch the light of a ring light. Flawless skin texture in macro detail — every pore, every water droplet razor sharp. Smoky eye makeup with subtle gold shimmer. Lips slightly parted, intense gaze at camera. Dark background. Fenty Beauty campaign aesthetic. 85mm macro lens, f/1.4, ultra-shallow depth of field. Ultra-realistic 4K.

Kommentar på kinesiska: Närbild på sminkning på fuktig hud, belyst med ringljus – varje vattendroppe framträder skarpt.

12. Porträtt på en barockbänk

Luxury editorial portrait. A gorgeous model wearing an elegant black velvet off-shoulder gown reclines on a dark velvet chaise longue in a dimly lit Baroque-style room. One arm draped elegantly above her head. Rich warm Rembrandt lighting from a single window highlights the fabric draping against her glowing skin. Oil painting-like quality with deep shadows and warm highlights. High-end fashion editorial photography. 85mm lens, creamy bokeh. Ultra-realistic 4K.

Kommentar på kinesiska: Kvinnan i svart klänning på sammetsoffan; Rembrandts ljusinsläpp genom ett enda fönster ger målningen dess karakteristiska textur.

13. Ett snyggt passfoto för affärsändamål

Professional corporate headshot. A confident woman in her early 30s wearing a tailored navy blazer over a crisp white shirt. Neutral gray seamless studio background. Three-point lighting — soft key from camera left, subtle fill from right, rim light from behind. Genuine warm smile, direct eye contact. 85mm lens, f/2.8. Skin tone natural and healthy. LinkedIn executive headshot quality. Ultra-realistic 4K.

Kommentar på kinesiska: Grå bakgrund + standardbelysning med tre ljuskällor, profilbild för högt uppsatta chefer på LinkedIn.

14. Porträtt från Tokyos gator

Environmental street portrait. A 20-something Tokyo local with bleached blonde hair and oversized vintage streetwear stands in Shibuya on a weekday afternoon. Shallow depth of field with crowd of pedestrians soft-blurred behind her. Natural overcast daylight. She looks slightly off-camera, lost in thought. Shot on Fujifilm X100 aesthetic, 35mm lens, f/2. Ultra-realistic 4K.

Kommentar på kinesiska: En eftermiddag på en vardag i Shibuya, där en flicka med blont hår framträder mot en suddig bakgrund av folkmassan.

15. Omslag i Vogue-klass

High-end fashion portrait in the style of a Vogue Italia cover. A striking model with razor-sharp cheekbones wears an oversized metallic silver couture gown with architectural shoulders. She stares directly into camera with a cold, commanding expression. Hair pulled back tight. Studio lighting is a single hard light from 45 degrees creating sculptural shadows. Gray backdrop. 85mm portrait lens, f/5.6 for crisp detail. Ultra-detailed 4K.

Kommentar på kinesiska: En omslagskänsla à la Vogue Italia: en silverfärgad, tredimensionell klänning i kombination med ett skulpturalt porträtt i starkt ljus.

16. Porträtt i köket med naturligt ljus

Soft natural light portrait. A woman with wavy chestnut hair sits by a large north-facing window in a quiet morning kitchen. She holds a ceramic mug of coffee in both hands, looking out the window thoughtfully. Warm cream sweater, no makeup, freckles visible. Shot in Rembrandt light with window as the only source. 50mm lens, f/1.8, shallow depth of field. Soft, honest, lived-in feel. Ultra-realistic 4K.

Kommentar på kinesiska: En kvinna utan smink vid fönstret i ett kök i morgonljuset, belyst enbart av det naturliga ljuset från fönstret på ena sidan.

17. Enfärgat teaterljus

Dramatic black and white portrait. A man with a short salt-and-pepper beard and intense dark eyes stares into the lens. Only half his face is lit — hard side light from camera right, pure black shadow on the other side. Textured gray background fades to black. Shot on medium format film aesthetic, 80mm lens. Film grain. Peter Lindbergh style monochrome. Ultra-detailed.

Kommentar på kinesiska: Svartvita porträtt i Peter Lindberghs stil, med hårt ljus på ena halvan av ansiktet och helt svart på den andra.

18. Rosa sminkreportage

Dreamy pastel beauty portrait. A model with soft pink lips, dewy skin, and flushed cheeks against a blush pink seamless backdrop. She wears a sheer white off-shoulder top. Soft diffused lighting from a large softbox creates flattering even illumination. Hair in loose tousled waves. 85mm lens, f/2. Cotton candy color palette — pink, peach, cream. Ultra-realistic 4K beauty editorial.

Kommentar på kinesiska: Rosa bakgrund + stor softbox, en vacker bildserie med smink i pastellfärger.

19. Romantik i gyllene stunder

Sun-drenched golden hour portrait. A woman in a flowing cream linen dress stands in a wheat field at 7pm on a summer evening. The sun is low behind her, creating a halo of golden backlight through her hair and the sheer fabric. Lens flare across the frame. Her eyes are closed, face tilted up to the warmth. 135mm telephoto lens, f/2, compressed background. Warm honey color grade. Ultra-realistic 4K.

Kommentar på kinesiska: En vetefält i skymningen en sommardag, motljus + 135 mm teleobjektiv som komprimerar utrymmet.

20. Biblioteket vid den mörka akademin

Dark academia editorial portrait. A young woman with auburn hair in a loose braid wears a wool cardigan over a white collared shirt in an old university library. She holds an open leather-bound book, reading by the light of a green banker's lamp. Towering bookshelves around her fade into shadow. Warm tungsten light, deep navy and olive color palette. 50mm lens, f/2.8. Ultra-realistic 4K.

Kommentar på kinesiska: Gammal bibliotek + gröna bankirlampor, dark academia-känsla.


Ordlista: Rörelser och rörelsemönster

Actionsekvenser kräver två saker: uttryck som fångar ögonblicket (”frozen mid-air”, ”high-speed capture”) samt konturljus, som används för att lyfta fram motivet ur den kaotiska bakgrunden.

Ett ögonblick då en idrottares snurrspark fryses i hög hastighet – Exempel på GPT Image 2-rörelseprompt
Ett fryst rörelseporträtt. Det är just det där "ljusstrålen från sidan bakifrån" som verkligen framhäver konturerna.

21. Nike Training Freeze Frame

Dynamic action freeze-frame. An athletic woman in a fitted sports bra and high-waisted compression shorts executes a powerful spinning roundhouse kick. Water splashes frozen in mid-air around her legs and feet in a dramatic spray pattern. Her toned abs and defined muscles visible. Dramatic single-source rim lighting from behind creates a glowing silhouette edge. Dark studio background. Nike Training campaign energy. High-speed photography feel — ultra-sharp subject, motion blur on water droplets. Ultra-realistic 4K.

Kommentar på kinesiska: Nike-reklam med höghastighetsfotografering – vattenstänk frysta i luften.

22. Interiör från "Surfarens våg"

Epic wide-angle shot of a female surfer riding inside a massive crystal-clear barrel wave at golden hour. Her silhouette and athletic body visible through the translucent turquoise water of the wave tube. Golden sunlight creates an explosion of light and water mist behind her. Dramatic backlit composition. The wave is enormous and perfectly formed. GoPro-style immersive perspective. Ultra-realistic 4K cinematic quality.

Kommentar på kinesiska: En kvinnlig surfare i en gigantisk våg under den gyllene timmen, en silhuett mot ljuset.

23. Parkour-hopp över taket

High-speed action shot of a parkour athlete mid-leap between two Brooklyn rooftops at sunset. Frozen at the apex of the jump, arms and legs extended, silhouetted against a burning orange sky. The gap below him is dizzying — city streets far below. Motion blur on the trailing edge of his hoodie. Shot from a drone at his height, 35mm lens. Ultra-realistic 4K cinematic action.

Kommentar på kinesiska: Parkour på taket i Brooklyn i solnedgången, med en stillbild vid hoppets högsta punkt.

24. Strålkastarljuset riktas mot MMA-ringen

Dramatic fight night action. A female MMA fighter mid-spinning back elbow, sweat flying from her hair in a visible arc of droplets. Single harsh overhead ring spotlight isolates her from pure black background — classic boxing photography look. Her opponent is a blurred silhouette out of focus. 70-200mm lens at 200mm, f/2.8, 1/2000 shutter frozen motion. High contrast, desaturated. Ultra-detailed 4K.

Kommentar på kinesiska: En enda strålkastare lyser upp MMA-ringen, och svettdropparnas bågar syns tydligt.

25. Damm från terrängmotorcyklar

Low-angle action shot of a motocross rider airborne over a dirt jump, red desert dust exploding behind the rear tire. Late afternoon sun casts long shadows. The bike is tilted aggressively mid-trick. Camera is just above ground level looking up, making the jump look monumental. Anamorphic lens flare from the sun. Orange and teal color grade. Ultra-realistic 4K action.

Kommentar på kinesiska: Terrängmotorcykeln lyfter från marken och bakhjulet virvlar upp rött damm.

26. Ett hopp i balsalen

Contemporary ballet dancer mid-grand jete frozen in the air, arms extended, body perfectly horizontal. She wears a simple nude leotard. Plain gray cyclorama studio background. Strong side-light from camera left creates a sculptural chiaroscuro on her musculature. Powder disturbed from the floor traces her leap in a soft cloud. 1/4000 shutter speed feel. Ultra-detailed 4K.

Kommentar på kinesiska: Vid balettens grand jeté är kroppen parallell med marken vid högsta punkten.

27. Dunk i basket

Low-angle hero shot of a male basketball player mid-slam dunk, one hand gripping the rim, body extended diagonally across the frame. Arena lights streak as lens flares. Crowd is a soft blurred wall of phone flashes behind him. Frozen sweat and net motion. Shot on 24mm wide from directly below the hoop. NBA official photography energy. Ultra-realistic 4K.

Kommentar på kinesiska: En vidvinkelbild tagen rakt under korgen, 24 mm, som fångar ögonblicket då bollen dunkas i korgen.

28. En galopperande häst som rider på vågorna

A rider on a powerful black horse gallops through knee-deep shallow ocean water at sunrise. Water explodes from each hoofstrike, frozen in a dramatic spray. The rider is leaned low, hair streaming behind. Warm golden backlight from the rising sun. Mist rising off the water. Shot at 1/4000 shutter, 200mm telephoto compression. Ultra-realistic 4K equine photography.

Kommentar på kinesiska: I det grunda vattnet vid soluppgången, en svart häst galopperar och vattenstänk sprutar upp; taget med 200 mm teleobjektiv som ger en komprimerad effekt.


Sökordsbibliotek: Natur och landskap

Nyckelord för landskapsbilder är tidpunkt, väder och vertikal skala. Modellen har en mycket stark förutfattad mening om ”vanlig vacker natur”, så du måste använda konkreta ord för att få den att avvika från det genomsnittet.

En kvinna i dimman vid en klippkaskad – Exempel på naturliga promptord för GPT Image 2
En kvinna i dimman vid en vattenfall vid en klippa. Den ”något nedåtriktade” flygperspektivet i kombination med det specifika ordet ”gossamer” gör att modellen inte längre faller in i standardmallen.

29. En sagolik värld av vattenfallsdimma

Ethereal fantasy nature scene. A graceful young woman in a flowing sheer gossamer dress stands at the edge of a towering waterfall cliff. Dense tropical mist swirls around her legs and the translucent fabric. She extends one arm toward the cascade, water droplets catching golden light. Aerial perspective slightly from above showing the dramatic cliff drop. Lush green ferns frame the composition. Golden hour light filtering through the mist. Ultra-realistic 4K cinematic quality.

Kommentar på kinesiska: En kvinna i vitt vid en vattenfall vid en klippa, filmad från luften + dimma.

30. Flygbilder över Maldiverna

Overhead drone shot of a beautiful woman in a minimal white bikini floating on her back in crystal-clear turquoise shallow water over white sand in the Maldives. Her long dark hair fans out in the water like a halo. The water is so clear her full body is visible through the translucent surface. Tiny fish swim nearby. Travel photography editorial style. Ultra-realistic 4K aerial quality.

Bildtext: En bild tagen rakt ovanifrån över Maldiverna, där en kvinna flyter i det kristallklara vattnet.

31. Islands svarta sandstrand

Dramatic wide landscape of Iceland's Reynisfjara black sand beach at dawn. Massive basalt sea stacks rise from the churning North Atlantic. Low fog drifts across the black sand. A single figure in a red rain jacket walks along the shoreline for scale. Moody desaturated color grade — almost monochrome with just the red jacket as accent. 24mm wide lens, f/11 for deep focus. Ultra-detailed 4K.

Kommentar på kinesiska: Islands svarta sandstränder + röda regnrockar som färgreferenser.

32. Ljuset i Redwood Forest Church

Vertical composition looking up through towering California redwood trees. Shafts of golden morning sunlight cut through the fog between the trunks like cathedral light rays. Ferns carpet the forest floor. A tiny hiker in the distance gives scale. Ultra-wide 14mm lens distorting the trunks into a radial pattern toward the sky. Warm green and gold palette. Ultra-realistic 4K nature photography.

Kommentar på kinesiska: 14 mm vidvinkel, uppifrån tagen bild av en sekvojaskog, ljusstrålar i kyrkan genom dimman.

33. Spegelsjöarna i Patagonien

Perfect mirror reflection of the jagged Torres del Paine peaks in a glass-still Patagonian alpine lake at blue hour. Pink and purple alpenglow on the snow-capped summits. A single orange tent on the near shore as human scale. Complete symmetry — upper and lower half of frame are near-mirror images. 35mm lens, f/11. Ultra-realistic 4K landscape.

Kommentar på kinesiska: Den perfekta spegelsjön i det blå ögonblicket, symmetrisk uppifrån och ned.

34. Sandstormar i Sahara

Vast Sahara desert at the start of a sandstorm. Rolling orange dunes extend to the horizon, with a towering wall of sand approaching from the left. A lone nomadic figure on camelback is silhouetted against the dust cloud. Sun struggles through the haze as a dim orange disc. Cinematic wide-angle, heavy atmospheric haze. Monochromatic warm orange palette. Ultra-detailed 4K.

Kommentar på kinesiska: Vid kanten av en sandstorm i Sahara står en kamelryttares silhuett mot en sandvägg.

35. Aurora-stugan

Wide landscape of a tiny warm-lit wooden cabin in a Norwegian fjord valley at 1am. A spectacular green and purple aurora borealis dances overhead, reflecting in the still black fjord water. Snow-dusted pine trees and mountains frame the scene. The cabin glow is the only warm color in an otherwise cold composition. 20-second long exposure feel. Ultra-realistic 4K astrophotography.

Kommentar på kinesiska: Norrsken klockan ett på natten vid en norsk fjord och en mysig stuga.

36. Solnedgång på den afrikanska savannen

Cinematic wide shot of a family of elephants crossing a golden savanna at sunset in Kenya. The sun is a huge orange disc on the horizon, silhouetting the herd. Long grass ripples in the warm wind. Dust kicked up by the herd diffuses the backlight into warm beams. 200mm telephoto compression. National Geographic editorial style. Ultra-realistic 4K wildlife photography.

Kommentar på kinesiska: Solnedgång på savannen i Kenya, silhuetter av elefanthjordar + komprimering med 200 mm teleobjektiv.

37. Sakura-floden i Kyoto

Serene wide landscape of the Philosopher's Path in Kyoto at peak cherry blossom season. Pink petals float on the narrow canal, with more drifting down from the trees above. Traditional wooden bridges arch over the water. Early morning mist softens the light into diffused pink. A solo figure in a dark kimono walks along the stone path for scale. 50mm lens, f/4, gentle pastel color grade. Ultra-realistic 4K.

Kommentar på kinesiska: Under körsbärsblomningstiden på Filosofens väg i Kyoto flyter rosa blomblad på vattnet i kanalen.

38. Stormljus i de skotska högländerna

Dramatic landscape of the Scottish Highlands during a clearing thunderstorm. Dark churning clouds above a lone glen, with a single shaft of golden sunlight breaking through and lighting one patch of heather-covered hillside. Rainbow arc barely visible at the edge. Ancient standing stones in the foreground. Moody cinematic color grade — steel blue shadows, warm sunlit highlight. 24mm wide, f/11. Ultra-realistic 4K landscape photography.

Kommentar på kinesiska: Just när åskvädret över de skotska högländerna var på väg att avta, trängde en enda gyllene solstråle igenom de mörka molnen.


Ordlista: Fantasi och stiliserat

Så fort du nämner en specifik konstnärlig referens inom fantasygenren (Ufotable, Arcane, Studio Trigger, illustrationer från Magic: The Gathering) blir instruktionerna betydligt mer precisa. Om du bara anger det allmänna begreppet ”fantasy art” får du bara allmänna fantasybilder tillbaka.

Den lysande magiska svärdets fantasifulla krigshjältinna – GPT Image 2: Exempel på anime-prompt
En fantasifull krigshjältinna i Ufotable-stil. Att nämna studion är mer talande än att räkna upp tjugo adjektiv.

39. Ufotable: Anime-krigshjältinnan

Epic anime-inspired fantasy warrior princess with flowing silver-white hair that reaches her waist, wearing ornate golden battle armor that hugs her figure with intricate engravings. She holds a glowing magical sword aloft, emitting bright blue energy. Cherry blossom petals and magical sparkles swirl in a violent storm around her. Her expression is fierce and determined. Dynamic action pose mid-battle leap. Ultra-detailed anime with CGI-quality lighting — Ufotable production quality. Rich colors, dramatic volumetric lighting. 4K quality.

Kommentar på kinesiska: En anime i Ufotable-klass med krigshusarinnor, blått magiskt svärd och en storm av körsbärsblommor.

40. Mörkälv-magi

Dark fantasy dark elf sorceress with long flowing midnight-purple hair, pointed ears, and luminous violet eyes. She wears an elegant off-shoulder dark robe with intricate silver embroidery that reveals her collarbones and shoulders. Purple arcane energy spirals from her outstretched hands, illuminating her face from below. A vast star field and nebula visible in the background through a shattered stone archway. Semi-realistic fantasy illustration style with cinematic lighting. Ultra-detailed 4K.

Kinesisk kommentar: En mörk alv-magi, där lila arkanisk energi virvlar ut ur hennes händer.

41. Ghiblis skogsälvor

Studio Ghibli style painterly scene. A small forest spirit that looks like a glowing white fox with three tails walks through a mossy enchanted forest at dusk. Fireflies dance around it. Soft painterly brushstrokes, warm honey-gold light filtering through massive ancient trees. Hayao Miyazaki watercolor aesthetic. Ultra-detailed animation cel quality.

Kommentar på kinesiska: En vit trehalig räv i Ghibli-stil vandrar genom en mossig skog i skymningen.

42. Arcane: The Battle of the Twin Cities

Arcane Netflix animated series style illustration. A young woman with blue-tipped braided hair and steampunk goggles leans against a graffitied alley wall in the undercity of Piltover. Neon magical rune-signs glow behind her. Textured painterly brushstrokes visible, 2D illustration with 3D depth, saturated purple and teal color story. Fortiche animation studio aesthetic. Ultra-detailed 4K.

Kinesisk kommentar: En flicka i gränderna i den nedre staden i Arcane Fortiche-stil.

43. Magic: The Gathering-draken

Fantasy illustration in the style of a Magic The Gathering card. A colossal red dragon emerges from molten lava in an underground cavern, wings half-spread, mouth roaring with fire breath forming. A tiny knight in silver armor stands at the cavern's edge for scale, raising a shield. Dramatic low-angle hero composition. Rich oil-painting texture, Greg Rutkowski influence. Ultra-detailed 4K fantasy art.

Kommentar på kinesiska: En lava-röd drake och en liten riddare i Magic: The Gathering-stil.

44. Cyberkrigare

Cyberpunk fantasy fusion. A female samurai with a chrome katana stands on the rain-slicked rooftop of a neo-Tokyo megacorp tower at night. She wears a fusion of traditional kimono and carbon-fiber combat armor. Holographic cherry blossoms drift around her. Neon reflections on the wet rooftop, flying ad-drones in the background. Illustrated in the style of Katsuhiro Otomo meets modern 3D concept art. Ultra-detailed 4K.

Kinesisk kommentar: En kvinnlig samuraj på taket i Cyber-Tokyo + holografiska sakurablommor.

45. Sjöjungfrun

Ethereal underwater fantasy. A graceful mermaid with iridescent teal and violet scales swims through a coral reef illuminated by shafts of sunlight piercing the water surface above. Her long turquoise hair flows weightlessly. Bubbles trail from her fingertips. School of small silver fish swim past. Dreamlike painterly quality, Lisa Frank meets National Geographic. Ultra-detailed 4K fantasy art.

Kommentar på kinesiska: En regnbågsfärgad sjöjungfru i ett korallrev, med ljusstrålar som tränger ner genom vattenytan.

46. Kapten på ett steampunk-luftskepp

Illustrated steampunk fantasy portrait. A young female airship captain in a brass-buttoned red military coat, goggles pushed up on her forehead, stands at the wheel of a wooden airship. Visible brass gears and copper pipes. Behind her, clouds and other distant airships. Warm golden hour lighting. Illustration style inspired by Nausicaa and Howl's Moving Castle. Ultra-detailed 4K.

Kommentar på kinesiska: En kvinnlig luftskeppskapten i Hayao Miyazakis stil och mässingskugghjul.


Iterationer i olika stilar: samma motiv, olika världar

En underskattad arbetsmetod i GPT Image 2: Lås fast motivet och ändra endast stilparametrarna. Du kommer tydligt att se vad varje stil gör med samma ansikte, samma kläder och samma pose – nästa gång behöver du inte längre gissa när du väljer stil.

Jämförelse av fyra bildstilar: Realistisk, Anime, Oljemålning, Cyberpunk – GPT Image 2-prompt
Fyra olika stilar från samma designer. Denna presentation passar utmärkt som moodboard innan man presenterar stilalternativen för kunden.

Grundläggande prompter – huvudämnet förblir helt oförändrat under de fyra genereringarna:

A beautiful young woman with shoulder-length brown hair stands in a sunlit garden, wearing a simple white sundress, one hand lightly touching a rose bush. Soft golden afternoon light. Three-quarter body framing, slightly tilted head, warm smile.

Kommentar på kinesiska: En kvinna i en enkel klänning som rör vid en ros i Solens trädgård, i det gyllene eftermiddagsljuset.

Sedan byter du bara stilplats och kör varje en gång:

47. Realistisk fotografi

[Base] — Hyperreal fashion photography aesthetic. 85mm lens at f/1.8, soft natural light, editorial sharpness. Ultra-realistic 4K.

48. Japansk anime

[Base] — Japanese anime style with cel shading, bold line art, vibrant saturated colors, large expressive eyes. Kyoto Animation production quality. Ultra-detailed.

49. Klassisk oljemålning

[Base] — Classical oil painting style with visible thick brushstrokes, warm Renaissance lighting, chiaroscuro shadow, Vermeer-like color palette. Museum-quality.

50. Cyberpunk

[Base] — Neon-drenched cyberpunk futurism. Holographic overlays, circuit-pattern light tattoos on skin, magenta and cyan rim lighting. Ghost in the Shell art direction. Ultra-detailed.

Vi körde den här sekvensen på vårt interna testkonto. Den första bilden tog ungefär 18 sekunder, och de efterföljande bilderna tog ungefär lika lång tid att byta stil på. Totalt tog det mindre än två minuter och 48 krediter att få fram ett komplett moodboard. När vi lägger in det i ett kundförslag innebär det att vi har komprimerat en halv dags materiallet sökning till tiden det tar att dricka en kopp kaffe.


Vanliga fel och hur man åtgärdar dem

Ärlighetsavsnitt: GPT Image 2 fungerar utmärkt, men det är ingen magi. Nedan följer de vanligaste typerna av misslyckanden som vi har dokumenterat, tillsammans med motsvarande mallar för att åtgärda dem. Använd detta avsnitt som en felsökningslista – gå igenom den i ordning nästa gång en bild inte blir som förväntat, så kan de flesta problem lösas redan efter den första justeringen.

Misslyckande 1: Intetsägande resultat

Before:

A beautiful woman in a city.

After:

A 28-year-old woman with auburn hair pulled into a low ponytail, wearing a camel trench coat, crossing a Manhattan crosswalk at 6pm on a rainy Thursday. Yellow taxis blur past in motion-blurred streaks. 50mm lens, f/2, cinematic grain. Ultra-realistic 4K.

Den första prompten gav modellen inga ledtrådar. Lösningen är alltid konkreta substantiv och specifika platser.

Fel 2: Felaktigt antal fingrar

GPT Image 2 är redan betydligt bättre än den första generationens diffusionsmodeller när det gäller att återge händer, men närbildsbilder av händer kan fortfarande misslyckas. Två tillförlitliga sätt att undvika detta:

  • Låt inte händerna ta över, klipp bort dem direkt: "framing is shoulders up only" (fotografera endast från axlarna och uppåt).
  • Låt händerna hålla i något: "hands gently holding a ceramic coffee cup". När händerna håller i något styrs hållningen, och antalet fingrar blir då tydligare.

Fel 3: Tecknen i bilden visas som teckenkod

Modellen är inte ett layoutprogram. Om du vill placera logotyper, skyltar eller läsbar text på affischer i bilden – antingen mycket kort text (”en skylt med texten OPEN”) – eller lägg till en direkt anvisning: ”ingen text, inga bokstäver, inga ord någonstans i bilden”, och gör sedan layouten separat i Figma/Photoshop.

Misstag 4: Ljusets riktning har förbisetts

Before:

A portrait of a woman with dramatic lighting.

After:

A portrait of a woman lit by a single hard spotlight from 45 degrees camera-left, with deep black shadow filling the right side of her face. Rembrandt lighting with a small triangle of light on the shadowed cheek.

"Dramatisk belysning" säger ingenting. Det är först när man specificerar riktning, ljusets hårdhet och skuggornas utbredning som det blir en riktig ledtråd.

Misstag 5: Huvudpersonen befinner sig i fel scen

Om modellen upprepade gånger placerar personen i en vanlig fotostudio istället för i ett bibliotek – flytta scenen till början av uppgiften och formulera den mer konkret:

In a candle-lit 17th-century English library with floor-to-ceiling oak shelves, leather-bound books, and a stone fireplace, a woman in…

Att placera miljön framför motivet innebär att man fastställer hela kompositionen redan innan man introducerar personen.

Misstag 6: Överbelastning av promptord

När antalet ord överstiger cirka 1 200 börjar effekten av enskilda adjektiv att försvagas. Om din beskrivning består av en lång rad med 40 stiltaggar kommer modellen att ”ta ett genomsnitt”. Behåll en huvudsaklig stilankare (till exempel ”film noir”) och betrakta de övriga som kompletterande.


Använd 20 000 tecken: Strukturerade långa prompter

En underskattad fördel med GPT Image 2 är att promptarna kan vara upp till 20 000 tecken långa. De flesta konkurrerande produkter har en gräns på omkring 1 000–2 000 tecken. Det behövs inte för porträtt, men för komplexa scener med flera personer, briefar för konceptbilder eller bildserier med stark varumärkeskonsistens är strukturerade, långa promptar mycket värdefulla.

Mallar som vi ofta använder i produktionsbriefen:

# SCEN
[Scen: plats, tidpunkt, väder, historisk period, 2–3 meningar]

# KARAKTÄRER
- Karaktär A: [Utseende, klädsel, aktuell ställning, ansiktsuttryck]
- Karaktär B: [Samma som ovan]
- Statister i bakgrunden: [Kort beskrivning]

# KOMPOSITION
[Komposition: vidvinkel/mellannärbild/närbild; kameravinkel; bildvinkel; skärpedjup; varje karaktärs placering i bild – tredelning/gyllene snittet/centrering]

# BELYSNING
[Ljuskälla, riktning, ljusstyrka, färgtemperatur, skuggbeteende]

# COLOR
[Beskriv färgpaletten med 3–4 färgtermer. Färgriktning — varm/kall/separerad färgskala]

# STYLE
[En referens till en huvudsaklig stil. Exempel: "Roger Deakins fotograferingsstil i *Blade Runner 2049*"]

# TEKNISKT
[Upplösningsbeskrivning, filmkorn, bildformat, bildkvalitetsetikett. Håll det kortfattat]

# UNDANTAG
[Undvik följande: "Ingen text, inga logotyper, inga vattenstämplar, inga extra lemmar"]

Exempel – fullständigt strukturerad beskrivning (cirka 500 ord) för en huvudbild i en annons:

# SCENE
A restored 1930s Art Deco ballroom on a rainy Tuesday evening in Paris, set during a private jazz performance. Tall arched windows on the left show wet boulevards and soft yellow streetlamp glow. Interior is lit warm and amber.

# CHARACTERS
- Lead: A striking 32-year-old woman with dark auburn hair in a low chignon, wearing a deep emerald-green silk bias-cut gown with a low back. She stands near a grand piano, one hand resting on its polished black lid, gazing thoughtfully toward the windows. Faint melancholy in her expression.
- Pianist: A middle-aged man in a black tuxedo, seated at the piano mid-performance, profile view, fingers on keys. He is a secondary figure — should not pull focus from the lead.
- Background: Three or four well-dressed patrons at candlelit round tables in soft bokeh, unidentifiable faces.

# COMPOSITION
Medium-wide shot. Lead character is on the right third of the frame, piano extending diagonally across the center toward the left. Rule of thirds. 50mm lens, f/2.2, shallow depth of field — lead and piano sharp, background patrons and windows softly blurred. Eye-level camera height.

# LIGHTING
Warm tungsten chandelier overhead providing ambient glow on the room. Key light on the lead is a single practical wall sconce camera-right at 45 degrees, modeling her face in gentle Rembrandt pattern. Rim from the windows behind her (cool blue rainy light) separates her hair and shoulder edge from the warm interior. Overall contrast: high but soft.

# COLOR
Deep emerald green (dress) and warm amber (interior) as hero colors, with cool blue window light as counter-accent. Warm gold dominant, with selective teal shadow detail. Film-look color grade reminiscent of early Wong Kar-wai.

# STYLE
Cinematic still in the visual language of In the Mood for Love meets a modern luxury cognac commercial. Anamorphic lens quality (slight horizontal flare on the candles). Painterly softness, 35mm film grain.

# TECHNICAL
Ultra-realistic 4K, 16:9 aspect, cinematic frame.

# EXCLUSIONS
No text, no signage, no logos, no watermarks, no visible phones or modern electronics, no extra limbs, no warped fingers on the pianist.

Den uppdelade strukturen har två fördelar: för det första ser den till att du själv inte missar att fylla i något fält, och för det andra ger den modellen en strukturerad ingång för analys, istället för en sammanhängande text på 500 ord. Genom att bara ändra de två avsnitten CHARACTERS och SCENE kan man i hela serien massproducera olika tagningar av samma reklamfilm.

Ett praktiskt tips: När en bild är 80 % rätt men ett visst element är fel (till exempel att huvudpersonen har fel färg på kläderna), skriv inte om hela prompttexten. Kopiera den framgångsrika versionen, ändra bara det aktuella fältet och kör igen. Vår interna logg över iterationer visar att strukturerade promptar i genomsnitt ger en bild av huvudbildskvalitet efter 2,8 försök, medan fria, prosaiska promptar ofta kräver mer än 6 försök. Om man räknar med 12 krediter per bild innebär detta en skillnad på 2 respektive 5 dollar per huvudbild.

Vill du överlåta arbetsflödet för strukturerade promptord till en kollega? Låt dem först läsa introduktionsguiden, och återkom sedan till den här artikeln.


Vanliga frågor

Vad är det viktigaste i en GPT Image 2-prompt?

Ljus och objektiv – det är den rätta ordningen. Om motivet och scenen är lite otydliga går det att rädda, men om ljusets riktning och valet av objektiv är otydliga kommer resultatet alltid att se ut som en stockbild. Om du bara har tid att finjustera två aspekter, fokusera på just dessa. Ange tydligt ”från vilket håll ljuset kommer, hur starkt det är och på vilken sida skuggorna faller”, och ange sedan tydligt ”vilken brännvidd, vilken bländare och hur nära eller långt bort”. Då har du en stabil grund för bilden.

Hur lång ska en GPT Image 2-prompt vara?

För porträtt och enkla scener är 80–150 ord det optimala. För filmiska vidvinkelbilder med anknytning till en viss tidsepok eller stil är 150–250 ord lämpligt. För scener med flera personer eller reklamuppdrag bör man använda en strukturerad mall på 400–800 ord. Gränsen på 20 000 tecken är avsedd för extrema fall – i det dagliga arbetet överskrider man sällan 500 ord.

Kan man skriva namnet på en verklig konstnär i prompten?

Du kan hänvisa till en stil eller epok – till exempel ”film noir”, ”1970-talets giallo” eller ”Studio Ghiblis måleriska stil” – och modellen kommer att känna igen dessa visuella språk. Att använda namn på levande konstnärer som stiletiketter är dock etiskt tveksamt och filtreras allt oftare bort av modellerna. Det är bättre att beskriva stil, medium och epok än att nämna enskilda personer vid namn.

Varför blir resultaten olika varje gång man använder samma sökord?

Diffusionsmodeller är i grunden slumpmässiga – de utgår från en brusbild och avbrusar den till en färdig bild. Om samma prompt körs två gånger kommer resultatet oundvikligen att bli liknande men ändå olika. Detta är en egenskap, inte ett fel, och det är också källan till ”mångfald”. För att kunna återskapa resultaten stöder de flesta genereringssystem en seed-parameter. För teknisk bakgrund, se OpenAI:s blogg om bildgenerering.

Påverkar längden på sökordet priset?

Det påverkar inte kostnaden. GPT Image 2 använder en fast prissättning: 12 krediter per bild, oavsett om du skriver 20 ord eller 2 000 ord. Det enda som påverkar kostnaden är antalet bilder som genereras.

Hur många gånger bör man prova ett koncept innan man ger upp?

Tumregel: Testa samma prompt tre gånger för att få en känsla för den naturliga variationen. Om det fortfarande inte stämmer, ändra bara en parameter – börja inte om från början. Oftast är det ljuset eller kameravinkeln som behöver justeras. Om du har kört igenom 8 gånger utan framsteg är det något fel på strukturen – gå tillbaka till åtta-slotsformeln och kontrollera hur många du faktiskt har fyllt i. Vi har också en intern vana: att skriva ner varje genererad prompt och motsvarande seed i en tabell, så att det är lätt att se vilken ord som verkligen fungerar när vi analyserar resultatet.

Kan bilder som genererats med GPT Image 2 användas i kommersiellt syfte?

Ja, det går bra. Enligt produktens standardvillkor äger du de bilder du skapar och får använda dem i kommersiellt syfte. De specifika licensvillkoren återfinns i sidfoten på webbplatsen. Vid användning i situationer med hög risk (t.ex. varumärkesannonser eller omslag till publikationer) rekommenderar vi att du rådfrågar en jurist. Tänk också på att inte betrakta de verkliga personer eller varumärken som nämns i prompten som en fripassagerare – det rör sig om frågor som gäller rätt till bild och varumärkesrätt, vilket inte omfattas av villkoren för AI-produkten.

Vad är skillnaden mellan promptord för text-till-bild och bild-till-bild?

text-to-image utgår från brus, där prompten är den enda vägledningen. image-to-image utgår från den referensbild du laddar upp, där prompten endast används för att modifiera den. Prompten för image-to-image bör vara kortare och fokusera på ”vad som ska ändras” (”ändra till oljemålningsstil, men behåll motivets pose och klädsel”), snarare än att beskriva hela scenen på nytt – referensbilden har redan tillhandahållit de flesta detaljerna.


Är du redo att sätta igång?

Nu har du över 50 promptar, en formel med åtta fält, en checklista för att rätta till misslyckade resultat samt en mall för strukturerade långa promptar. Nästa steg är att öppna verktyget och faktiskt köra en prompt. Välj vilken som helst, klistra in den och se hur mycket resultatet skiljer sig från den bild du har i huvudet – och korrigera sedan bara det fält som inte stämmer, och kör igen. Efter två eller tre omgångar kommer du att kunna producera bilder som är ”klara att levereras” på ett konsekvent sätt.

Spara den här artikeln i webbläsarens bokmärken, eller sätt upp formeln för de åtta komponenterna bredvid din andra skärm. Den verkliga förbättringen ligger inte i att memorera dessa nyckelord, utan i att förvandla formeln till ett muskelminne – då kommer du automatiskt att kunna bryta ner vilken referensbild som helst i dess huvudmotiv, ljus, bildvinkel och stil.

Kom igång gratis med GPT Image 2 →

Läs vidare:

Har du frågor om någon specifik prompt? Skicka ett meddelande till oss på sajten – vi läser alla inlägg, och de vanligaste frågorna kommer ofta att tas med i nästa version av guiden. Den teoretiska bakgrunden kan läsas tillsammans med Wikipedia-artikeln om text-till-bild-modeller, vilket tar cirka 10 minuter. Vill du ta det ett steg längre kan du läsa användarhandboken i samma serie, för att uppgradera arbetsflödet från att ”skapa en bra bild” till att ”konsekvent producera en serie bilder med enhetlig stil”.

GPT Image 2-teamet

GPT Image 2-teamet

AI-generering av bilder och videor