Kort oppsummering
GPT Image 2 er et AI-verktøy for bildegenerering som kjører i nettleseren. Det har kun to moduser – tekst-til-bilde (text-to-image) og bilde-til-bilde (image-to-image) – og faktureres med 12 poeng per bilde. Det finnes ingen tilleggsvalg som oppløsning, sideforhold eller kvalitetsnivåer. Denne artikkelen tar deg gjennom hele prosessen, fra registrering, første bilde, opplasting av referansebilder for redigering, til tips om hvordan du kan lage brukbare bilder, alt på én gang. Prøv GPT Image 2 gratis →
Før du begynner: Hva du trenger å forberede
For å bruke GPT Image 2 trenger du ikke et avansert grafikkort, Photoshop eller noen erfaring med AI. Alle beregningene utføres på serveren, mens nettleseren bare håndterer inndata og viser resultatene. Det eneste du trenger å forberede er veldig enkelt:
- En moderne nettleser. Alle nåværende versjoner av Chrome, Edge, Safari, Firefox og Arc fungerer. Å aktivere maskinvareakselerasjon gir en jevnere forhåndsvisning, men er ikke nødvendig.
- En e-postkonto. Du kan registrere deg med e-postadresse og passord, eller bruke Google-pålogging. Både bedrifts-e-post og Gmail er tillatt, men engangs-e-postadresser vil bli avvist.
- En liten poengsaldo. Uansett om du bruker tekst-til-bilde eller bilde-til-bilde, uansett lengde på beskrivelsen og uansett utskriftsformat, koster det 12 poeng per bilde. Nye kontoer har gratis prøvepoeng som er nok til å fullføre de første bildene i denne veiledningen.
- Et referansebilde (valgfritt). Hvis du planlegger å bruke bilde-til-bilde, bør du forberede ett til to kildebilder i JPG-, PNG- eller WebP-format. Det anbefales at hvert bilde ikke overstiger 10 MB. Kvadratiske eller vertikale komposisjoner gir oftest de mest stabile resultatene.
- **En vag idé er nok. ** Nybegynnere prøver ofte å skrive den «perfekte prompt» på én gang, og ender opp med å gå i stå. Den virkelig effektive metoden er å først lage et bilde med en enkel prompt, se hva modellen gir deg, og deretter bestemme hvordan du skal endre det.
Per april 2026 trenger du ikke laste ned noen klient, søke om API-nøkkel eller stå på venteliste for å bruke GPT Image 2. Det er bare tre trinn: åpne hjemmesiden, logg inn og begynn å generere.

Denne artikkelen er skrevet for deg som ønsker å få mest mulig ut av verktøyet. Selve den tekniske bruken kan læres på to minutter, men det som virkelig krever innsats, er å ta avgjørelser om «hva du skal skrive, hva du skal se etter og når du skal endre». De påfølgende kapitlene handler nettopp om dette. Hvis du har det travelt, kan du hoppe rett til metode 1, og når du får det første resultatet du ikke er fornøyd med, kan du gå tilbake og lese avsnittene om tips til søkeord og vanlige feil.
Metode 1: Tekst til bilde – lage det første bildet fra bunnen av
Tekst-til-bilde er den funksjonen de fleste ønsker å prøve når de besøker GPT Image 2: Skriv en beskrivelse, klikk på «Generer», og modellen leverer et ferdig bilde. Her er en trinnvis veiledning.
Trinn 1: Åpne verktøyet og logg inn
Åpne GPT Image 2-hjemmesiden. Generatorpanelet vises på første skjermbilde på datamaskinen og som det første komplette området på mobilen. Hvis du ikke er logget inn, vises en «Generer etter innlogging»-knapp. Velg e-post eller Google for å logge inn – det tar mindre enn ett minutt.
Når du har logget inn, vises poengsaldoen øverst til høyre. Sjekk at du har minst 12 poeng – nye kontoer har en prøveperiode, så du trenger ikke å knytte et kort for å gjennomføre det første eksemplet i denne artikkelen.
Trinn 2: Gå til fanen «Text to Image»
Øverst i verktøyet finnes to faner: Tekst til bilde og Bilde til bilde. Begynn med standardfunksjonen «Tekst til bilde». Inntastingsfeltet ligger rett under fanelinjen.
Du trenger ikke å velge modell manuelt – tjenesten bruker KIE-modellen gpt-image-2-text-to-image i bakgrunnen, og det er ingen nedtrekksmenyer for størrelse, sideforhold eller oppløsning: én modell, én pris.
Trinn 3: Skriv først et bevisst kort nøkkelord
En vanlig feil blant nybegynnere er å stappe alle adjektivene de kan inn i det første promptet. Ikke gjør det. Begynn med en kort, konkret beskrivelse for å se hvordan modellen fungerer i «standardmodus». Her er promptet jeg brukte da jeg forberedte denne artikkelen og testet den for første gang:
A golden retriever puppy sitting in a sunlit field of wildflowers, shallow depth of field,
warm afternoon light.(Beskrivelse: En golden retriever-valp sitter i en blomstereng i solskinnet, med kort dybdeskarphet og varmt ettermiddagslys.)
Lim det inn i innskriftsfeltet og klikk på Generate. De fleste søkeordene gir resultater i løpet av 20 til 40 sekunder, men det kan ta litt lengre tid i travle perioder.
Trinn 4: Vurder resultatet ærlig
Da jeg kjørte kommandoen ovenfor for første gang, var resultatet stort sett som forventet: varme fargetoner, skarpe øyne og en naturlig uskarp bakgrunn – men hundens poter var litt uskarpe, noe som er en typisk svakhet ved dagens bildemodeller. Dette er helt normalt; dette trinnet er ikke ment for å gi en karakter, men for å gi deg en forståelse av hva som er «standardutdata».
På det første bildet må du i det minste se på tre ting:
- Er motivet riktig? Viser modellen det motivet du ønsket? Eller er det avvikende (for eksempel at en golden retriever er tegnet som en labrador)?
- **Lysretning. ** Stemmer den faktiske belysningen med beskrivelsen din? «Varm ettermiddagslys» bør være mykt, retningsbestemt sidelys, ikke lys ovenfra.
- Komposisjon. Stemmer motivets plassering i bildet med det du hadde forestilt deg? Eller er det plassert litt klosset midt i bildet?
Hvis det er noe som ikke stemmer i disse tre dimensjonene, har du en klar grunn til å endre søkeordet – i stedet for å prøve på nytt uten å tenke deg om.
Trinn 5: Skriv en optimalisert prompt
Her er en videreutviklet versjon av samme scene. Motivet og belysningskonseptet er det samme, men strukturen er tilpasset GPT Image 2:
A 3-month-old golden retriever puppy with fluffy fur and floppy ears, sitting upright in a
meadow of wild daisies and lavender. Warm late-afternoon sunlight streams from the left,
casting long gentle shadows and creating a soft golden rim light on the fur. Shallow depth
of field, background softly blurred with bokeh. Shot on an 85mm lens, eye level with the
puppy. Photorealistic, high detail, natural colors.(Beskrivelse: En tre måneder gammel golden retriever-valp med buskete pels og slappe ører sitter oppreist på en eng med tusenfryd og lavendel. Varm ettermiddagssol skinner inn fra venstre, kaster en myk, lang skygge og danner en gylden kontur på pelsen. Kort dybdeskarphet, myk bakgrunn med bokeh. 85 mm-objektiv, i øyehøyde med valpen. Realistisk stil, høy detaljrikdom, naturlige farger.)
Det er fire endringer sammenlignet med førsteutgaven:
- Mer konkrete detaljer om motivet («tre måneder gammel», «fluffy pels», «myke ører»), slik at modellen kan få et klart bilde av motivet.
- Tydelig lysretning («fra venstre», «konturlys på pelsen»), i stedet for bare å skrive «varmt».
- Objektivvalg («85 mm-objektiv», «i øyehøyde med valpen») gir modellen en konkret komposisjonsmal.
- Kvalitetsbeskrivelser plasseres til slutt («realistisk, høy detaljgrad, naturlige farger») – kortfattet, uten å stjele oppmerksomheten.
Klikk på «Generate» igjen. Det andre bildet bør være nærmere det du har i tankene. Hvis det fortsatt ikke stemmer, må du ikke skrive om hele avsnittet – endre bare én variabel om gangen, generer og sammenlign, så finner du ut hvilket ord som har betydning.
Et nyttig mentalt modell: Del stikkordet inn i fire «felt» – motiv, handling, miljø og stil. Endre bare det feltet som er problemet hver gang. Hvis motivet ikke stemmer, endrer du motivfeltet; hvis belysningen ikke stemmer, endrer du miljøfeltet; hvis det ser ut som en tegneserie, men du vil ha et foto, endrer du stilfeltet.
Trinn 6: Lagre, last ned eller fortsett å videreutvikle
Når du er fornøyd med bildet, finner du en nedlastingsknapp under forhåndsvisningen. Hver gang du genererer et bilde, lagres det automatisk i kontohistorikken din, slik at du kan se tidligere versjoner, kopiere gamle beskrivelser og fortsette å videreutvikle bildet. Hvis du senere ønsker å redigere denne figuren videre i bilde-til-bilde-funksjonen, kan du bare velge dette bildet som utgangspunkt fra historikken.

Den syklusen du nettopp har gjennomgått – «åpne – skrive tekst – evaluere – finjustere – generere på nytt» – utgjør hele arbeidsprosessen for tekst-til-bilde-generering. Resten av denne artikkelen handler om hvordan du kan få denne syklusen til å gå raskere og bruke færre poeng.
Hvis du bruker GPT Image 2 over lengre tid, anbefaler vi at du oppretter en ren tekstfil der du noterer ned «effektive prompter». Dette er ikke en mal, men din egen logg – hver gang du er fornøyd med et bilde, legger du inn en kommentar med den fullstendige prompten. Etter et halvt år vil denne samlingen passe bedre til din smak enn noen generisk mal du finner på nettet.
Metode 2: Bildegenerering – redigere eller endre stilen på eksisterende bilder
Image-to-image (i2i) tar utgangspunkt i et kildebilde, hvor modellen beholder de delene du ønsker å beholde og omskriver resten i henhold til en beskrivelse. Bruk denne modellen hvis du ønsker å gjøre ting som «samme person i forskjellige antrekk», «samme produkt med ny bakgrunn» eller «samme komposisjon i en annen stil».
Trinn 1: Gå til fanen «Image to Image»
Gå tilbake til hjemmesidegeneratoren og klikk på Image to Image. Over inntastingsfeltet vises et nytt område for filopplasting. Tekstfeltet er fortsatt der og støtter fortsatt opptil 20 000 tegn, men fungerer nå sammen med det opplastede bildet.
I bakgrunnen brukes gpt-image-2-image-to-image, og prisen er den samme som for tekst-til-bilde – 12 poeng per bilde. Det finnes ingen egen «intensitets»-glidebryter; hvor stor endringen blir, avhenger helt av hvordan du formulerer prompten.
Hvis du har brukt andre verktøy for InPainting (maskering og utfylling), må du endre tankegangen din: GPT Image 2 krever ikke at du tegner en maske, men leser hele kildebildet sammen med hele promptteksten før det bestemmer hva som skal endres. For 80 % av de reelle behovene (bytte bakgrunn, bytte klær, endre dag til natt) er det faktisk enklere å bare redigere promptteksten.
Trinn 2: Last opp kildebildet
Dra JPG-, PNG- eller WebP-filer til opplastingsområdet, eller klikk for å velge fil. Når du prøver dette for første gang, anbefaler vi at du velger et bilde med jevnt lys og enkel komposisjon. Bilder med bevegelsesuskarphet, svakt lys eller uoversiktlig bakgrunn gir modellen større rom for «fri tolkning», noe som gjør det vanskeligere å se forskjellen før og etter.
Bildet nedenfor er et typisk eksempel på «det bildet en nybegynner vil laste opp når han eller hun prøver et AI-verktøy for første gang» – et helt vanlig selfie tatt innendørs.

Trinn 3: Først må du avgjøre – er det snakk om en «mindre oppussing» eller en «totalrenovering»?
Før du skriver en prompt, bør du tenke nøye gjennom hvilket nivå av endringer du ønsker. Bildegenerering og bildedekning er to helt forskjellige formål, og måten man skriver prompter på varierer også:
- Mindre endring (Edit): Behold det meste, bare bytt ut ett element. «Endre klærne til marineblått.» «Fjern kaffekoppen.» «Bytt ut bakgrunnen med en bokhylle.» "
- Forvandling (Transform): Behold identiteten, men skriv om hele scenen. «Samme person, men nå kledd i kinesisk tradisjonell drakt og stående på terrassen til et palass i måneskinnet.» «Samme produkt, men nå med marmorbordplate og studiobelysning.»
Jo mer utfyllende beskrivelsen av den nye scenen er, desto mer endrer modellen; hvis du bare nevner én egenskap, vil den gjerne beholde de andre delene. Dette er måten du kan kontrollere «endringsomfanget» på uten å bruke glidebrytere.
Eksempel: «change the shirt to navy blue» (bytt skjorten til marineblå) er en begrenset redigering, der ansikt, frisyre, holdning, bakgrunn og belysning forblir uendret. Hvis du endrer det til «She is now wearing a tailored navy suit, standing in a glass-walled corporate office at golden hour» (Hun har nå på seg en skreddersydd marineblå dress og står i et kontor med glassvegger i den gyldne timen), er det en forvandling – dressen, omgivelsene og lyset endres fullstendig, mens ansiktet og kroppsformen beholdes. Det er fortsatt én setning, men omfanget av endringen avhenger av hvor mye av den nye scenen du beskriver.
Trinn 4: Skriv en instruksjon som forteller modellen hva den skal beholde
Her er nøkkelordene jeg brukte da jeg «forvandlet» bildet ovenfor:
Same woman — identical facial features and hair. Transform the scene: she now wears an
elaborate crimson-and-gold hanfu with intricate embroidery and a jeweled phoenix hairpin.
She stands on a moonlit palace terrace, red lanterns glowing softly in the background,
cherry blossom petals drifting in the air. Warm lantern light from the right, cool
moonlight fill from the left. Cinematic shallow depth of field, elegant composition, 4K
photorealistic.(Kinesisk betydning: Den samme kvinnen – ansiktet og frisyren er helt uendret. Ombeskrivelse av scenen: Hun er nå kledd i en praktfull rød- og gullfarget hanfu med intrikat broderi, og har en gullfugl-hårnål festet i hårknuten. Hun står på en palassterrasse i måneskinnet, med mykt lys fra røde lanterner i bakgrunnen og flyvende kirsebærblomsterblader. Lyset fra de varme fargede lanternene på høyre side og det kalde måneskinnet på venstre side fyller bildet. Filmisk kort dybdeskarphet, elegant komposisjon, 4K-realistisk.)
Det er to steder hvor dette er uttrykkelig angitt:
- «Samme kvinne – identiske ansiktstrekk og hår.» Denne setningen tar praktisk talt hånd om hele identitetsbevaringen. Uten den vil modellen bevege seg vilkårlig.
- Fullstendig beskrivelse av den nye scenen. Klær, sted, rekvisitter og lysretning må beskrives tydelig. Modellen er i ferd med å rekonstruere hele miljøet og trenger et komplett sett med instruksjoner, ikke bare en etikett.
Trinn 5: Sammenlign før og etter genereringen
Klikk på «Generate» for å se resultatet. Da jeg testet det, beholdt bildet de gjenkjennelige ansikts- og hårkonturene til hovedpersonen, mens alt annet ble rekonstruert i henhold til instruksjonene.

Se på før- og etterbildene sammen. Hvis ansiktet har endret seg for mye, kan du legge til «same person»-klausulen i instruksjonene (for eksempel ved å legge til «preserve exact face shape, same eyes, same nose, same lip shape» – behold ansiktsformen, øynene, nesen og leppene); hvis scenen ikke er endret nok, kan du legge til flere detaljer om omgivelsene. Det er disse knappene du har til rådighet.
Trinn 6: Uten å forlate siden, bruk utdataene som neste inndata
Det beste med å generere bilder fra bilder er at det siste resultatet i seg selv fungerer som et gyldig utgangspunkt for neste redigering. Klikk på «Bruk som ny inndata», og skriv deretter inn en ny beskrivelse (for eksempel «samme scene, men nå ved daggry» eller «samme positur, men med en vifte i hånden»). Det endelige bildet som fremkommer etter flere små, påfølgende redigeringer, blir nesten alltid renere enn et ekstremt langt beskrivelsestekst som prøver å dekke alt på en gang.
«Kjedebasert redigering» er et av de mest verdifulle arbeidsflyt-triksene i denne artikkelen. Et vanlig feilmønster blant nybegynnere er å skrive en beskrivelse på 300 ord som skal dekke alt, for så å prøve å generere bildet på nytt åtte ganger uten å få det riktig. Den profesjonelle metoden er å dele opp prosessen i runder: Først tar man seg av karakteren, deretter bruker man resultatet fra forrige runde som utgangspunkt for å finne frem til klær, miljø og belysning. 12 poeng per runde, totalt 48 poeng for fire runder – resultatet blir mye renere enn hvis man hadde prøvd å få det til på én gang med ti forsøk.

Tips og triks for å få bedre bilder
Nå har du fått fullstendig oversikt over arbeidsprosessen. Forskjellen mellom nye brukere på første dag og erfarne brukere som kan lage porteføljer ved hjelp av GPT Image 2, ligger ikke i en eller annen mystisk kommando, men i å vite hvilke virkemidler som virkelig fungerer. De ni punktene nedenfor gir den beste avkastningen i praksis.
Tips 1: Plasser hovedordet først og kvalitetsordet sist
Skriv «Hvem/hva er avbildet?» helt i begynnelsen av beskrivelsen, og flytt begrepene photorealistic, cinematic, 4K og high detail til slutten. Modellen leser beskrivelsen fra begynnelsen og bakover, slik at hovedelementet i begynnelsen får størst vekt, mens elementer som er begravd bak de syv kvalitetsmerkene, blir utvannet.
Svakere: Hyperrealistisk 4K-mesterverk – et kinematografisk detaljert ultra-HD-bilde av en katt som sitter på en vinduskarm
Kraftig: En svart-hvit smokingkatt som sitter på en vinduskarm av tre og ser ut på en regnfull bygate. Mykt, diffust lys fra vinduet, kort dybdeskarphet. Fotorealistisk, filmisk.
Tips 2: Beskriv «lysretningen», ikke «lysstemningen»
«Vakker belysning» sier nesten ingenting. «Varmt solnedgangslys fra venstre, lange skygger som faller mot høyre» forteller modellen hvor hver enkelt skygge skal falle. Lyskilder med retning og navn (window light, rim light, softbox from above, neon fill from behind) er blant de mest effektive virkemidlene for å forbedre bildekvaliteten med færrest mulig ord.
Tips 3: Beskriv komposisjonen med fotografiske uttrykk, så blir bildet umiddelbart mer realistisk
Hvis du vil lage bilder med sterk realisme, bør du låne ordforrådet fra fotografer. Ved å kombinere brennvidder (35 mm, 50 mm, 85 mm, 135 mm), begreper om dybdeskarphet (shallow depth of field, deep focus) og kameravinkler (eye level, low angle, overhead) får modellen en konkret mal for komposisjon. Artikkelen Camera lens på engelsk Wikipedia er et godt hjelpemiddel som du kan lese gjennom på 10 minutter, og som hjelper deg med å velge brennvidde på en bevisst måte.
Tips 4: Beskriv stilen ut fra «mediet» i stedet for «kunstnerens navn»
Uttrykket «i stil med en bestemt kunstner» er både usikkert og kan føre til uenighet om tilhørighet. En mer sikker tilnærming er å beskrive mediet i seg selv: «oljemaleri med synlige penselstrøk», «blyantskisse med kryssskravering», «vintage Kodachrome-film-look med korn», «ren vektorillustrasjon med flate farger». Dette gir en estetisk retning uten å være avhengig av en bestemt person.
Tips 5: Bruk «positive beskrivelser» i stedet for «negative begrensninger»
GPT Image 2 har ikke et eget felt for negative instruksjoner. Den beste måten å unngå visse elementer på er å beskrive tydelig hva du ønsker. I stedet for å skrive «ingen mennesker, ingen tekst, ingen rot», bør du skrive «et tomt rom med rene vegger, minimalistisk komposisjon, en enkelt plante i hjørnet». Positive beskrivelser er langt mer pålitelige enn negative formuleringer.
Tips 6: Når du lager bilder ut fra bilder, må du først fastslå identiteten og deretter omskrive scenen
Når du skal «skifte antrekk/scene», er det avgjørende at ansiktet forblir det samme, og det første i instruksjonen er nøkkelen. Å plassere noe som Same person — preserve facial features, hair color, and skin tone (Samme person — behold ansiktstrekk, hårfarge og hudfarge) helt i begynnelsen, er mer effektivt enn noen vakker scenebeskrivelse senere i teksten. Hvis identiteten må være enda tydeligere, kan du legge til same eye shape, same nose, same lips. Det er mer effektivt å si det rett ut enn å antyde det.
Tips 7: Gjør små endringer i stedet for å skrive om hele avsnittet
Endre bare én variabel om gangen. Hvis holdningen er riktig, men klærne ikke passer, endrer du bare den delen som handler om klærne; hvis belysningen ikke er riktig, men alt annet er bra, endrer du bare den delen som handler om belysningen. På denne måten kan du skape en virkelig kontrollert tilbakekoblingssløyfe, slik at du vet hvilken variabel som endrer hva. Å skrive om hele avsnittet vil ødelegge denne tilbakekoblingen og kaste bort poeng.
Tips 8: Skriv nøkkelordene i den rekkefølgen «modellen bør prioritere»
Plasser de viktigste elementene først: motiv → handling → miljø → stil. Hvis du skriver «i stil med et oljemaleri, er det en kvinne i rød kjole som går nedover en brosteinsgate i skumringen», forteller du modellen at «dette først og fremst er et oljemaleri», mens alt annet er sekundært. Bytt til «En kvinne i rød kjole går nedover en brosteinsgate i skumringen, gjengitt som et oljemaleri». Da hører modellen først hovedelementet, og først til slutt mediet. Informasjonsmengden er den samme, men det siste gir vanligvis et betydelig mer nøyaktig resultat.
Tips 9: Bruk ord som fotografer og regissører faktisk bruker
Dutch angle (hollandsk vinkel), rack focus (fokusforskyvning), golden hour (gyldent lys), overcast daylight (dagslys på overskyet himmel), softbox (softbox), gobo shadow (gobo-skygge), hero shot (hero-bilde), two-shot (to-personers bilde), negative space (negativt rom) – disse ordene har klare betydninger innen fotografering og film, og mange bilder i treningsdataene er merket med disse ordene. Vage følelsesord (vibey, dreamy, epic) gir mye svakere signaler for modellen. Artikkelen Shot (filmmaking) på engelsk Wikipedia er en god 15-minutters ordbok.
De vanligste feilene nybegynnere gjør, og hvordan man kan rette dem
For å være ærlig har jeg begått alle disse feilene. Det er stor sannsynlighet for at du også vil begå dem, men i det minste vil du kunne oppdage dem raskere.
Feil 1: Å skrive en beskrivelse på 400 tegn og forvente å få et ferdig resultat på én gang. Bildemodeller er bedre til å håndtere «smale, iterative» beskrivelser enn «svært lange, ferdige» beskrivelser. Grensen på 20 000 tegn er ikke målet. De resultatene jeg er mest fornøyd med fra GPT Image 2, har for det meste beskrivelser på mellom 40 og 120 ord.
Feil 2: Å gjenta genereringen uten å endre prompten. Hvis du trykker på «Generate» to ganger med samme prompt, blir resultatet «nesten ferdig», og selv om du trykker en tredje gang, er det fortsatt «nesten ferdig». Tilfeldigheten utforsker bare et lite område; hvis retningen i dette området er feil, hjelper det ikke å gjenta genereringen flere ganger – du må endre prompten.
Feil 3: Selvmotsigelser i beskrivelsen. Å skrive både «soft dreamy watercolor» (myk, drømmende akvarell) og «ultra-sharp photorealistic 4K» (ultra-skarp, fotorealistisk 4K) i samme beskrivelse er selvmotsigende. Modellen vil velge det ene eller det andre, eller enda verre: veie de to ut mot hverandre. Tenk deg godt om før du skriver.
Feil 4: For høye forventninger til teksten i bildet. Per april 2026 er AI-bildemodellers gjengivelse av lange tekstavsnitt, særlig med ikke-latinske tegn, fortsatt ustabil. Korte tekstmerker på skilt fungerer noen ganger, men tekst på avsnittsnivå fungerer sjelden. Når teksten er kjernen i budskapet, er det best å legge den inn som et lag i et hvilket som helst bildebehandlingsprogram etter at bildet er generert.
Feil 5: Å laste opp et uklart kildebilde. Modellen bruker detaljnivået i kildebildet som referanse. Et uklart mobilbilde med lite lys vil beholde den uklare kvaliteten i resultatet, uansett hvor mye du ber om at det skal være «klart og skarpt» i beskrivelsen. Velg et klart kildebilde hvis du har muligheten.
Feil 6: Ikke legg vekt på hendene. Hendene er fortsatt den vanligste kilden til feil i bildegenerering. Hvis komposisjonen krever at hendene skal fremheves, må du akseptere at du må gjennomføre flere runder; hvis de ikke er sentrale, bør du la hendene være utenfor bildet eller la dem henge naturlig ned.
Feil 7: Å overse formatet når du laster opp bilder til bildegenerering. Utdata fra bildegenerering følger vanligvis kildebildets format. Hvis du ønsker et banner, men laster opp et vertikalt selfie, er det som å jobbe mot modellen. Beskjær kildebildet til ønsket format før generering.
Feil 8: Å anse «det første, halvveis ferdige bildet» som det endelige resultatet. Erfarne brukere ser på «ganske bra» som utgangspunktet for neste runde. Forskjellen mellom «ganske bra» og «portfoliostandard» kommer vanligvis til syne ved tredje forsøk, ikke ved det første.
Feil 9: Å glemme at modellen ikke har hukommelse mellom to genereringer. Med mindre du bruker «image-to-image»-funksjonen og bruker forrige utdata som kildebilde, er hver generering helt ny. Hvis du vil gjenbruke gamle figurer, må du lagre den opprinnelige prompten eller bruke forrige bilde direkte til kjede-redigering.
Hvordan fungerer GPT Image 2 innvendig (kortfattet)
Dette avsnittet er ikke obligatorisk å lese, men det kan hjelpe deg med å danne deg et realistisk bilde av hva du kan forvente. GPT Image 2 er et forenklet brukergrensesnitt som direkte påkaller de to KIE-modellene gpt-image-2-text-to-image og gpt-image-2-image-to-image – disse tilhører familien av diffusjonsmodeller og er optimalisert for instruksjonsfølging og høyoppløselig realisme. Hver forespørsel gjennomgår autentisering, belaster 12 poeng, settes i kø og returnerer en bilde-URL.
Det er svært få knapper på grensesnittet, og dette er helt bevisst: KIE API-et eksponerer ikke disse kontrollelementene, og å legge til «falske glidebrytere» i det øvre laget vil bare være misvisende. Alt modellen kan gjøre, uttrykkes gjennom promptene. Hvis du vil forstå prinsippene bedre, kan du se på Wikipedia Diffusion model og OpenAI sin forskningsside.
GPT Image 2 har også sine svakheter
Det ville ikke være en veiledning hvis jeg bare fremhevet det positive og utelot det negative. Her er noen felles svakheter ved GPT Image 2 – som faktisk gjelder alle dagens vanlige bildemodeller:
- Nøyaktig gjengivelse av merkevareelementer. Logoer, lisensierte figurer og produktemballasje kan ikke gjengis på en stabil måte. Den riktige fremgangsmåten er å generere en komposisjon og deretter legge inn den virkelige logoen.
- **Streng konsistens i referansene. ** Når en karakter må være helt identisk i flere titalls bilder (for eksempel i en tegneserie), er identitetsbevaringen ved bilde-til-bilde-generering allerede mye bedre enn ved ren tekst-til-bilde-generering, men den er fortsatt ikke like presis som ved trening av LoRA eller 3D-karakterbinding, som gir presisjon i hvert enkelt bilde.
- Anatomi i ekstreme positurer. Fingre, føtter, tenner, ører og kryssede lemmer er de delene som lettest blir forvrengt. Jo nærmere kameraet er, desto tydeligere blir feilene.
- Perfekt komposisjon. Som nevnt ovenfor – dette er fortsatt et faktum.
Her er to til sannheter: For det første innebærer spredningsmodeller i seg selv en viss tilfeldighet i utvalget – samme prompt vil gi forskjellige resultater hver gang. Mangfold er en fordel, mens konsistens er en ulempe, men det siste kan avhjelpes ved hjelp av kjedelig redigering der man genererer bilder ut fra bilder. For det andre gjenspeiler modellen fordelingen i treningsdataene, og det er vanskeligere å treffe riktig med mindre kjente kulturelle kontekster enn med populære temaer, så man må regne med flere iterasjoner.
En virkelig god arbeidsflyt for AI-bildegenerering handler ikke om å bruke én modell til alt, men om at «GPT Image 2 tar seg av 80 % av de viktigste bildene, mens en grunnleggende redigeringsverktøy tar seg av de siste 20 % manuelt».
Oversikt på én side: Hele prosessen
Hvis du bare vil ha en versjon som kan leses på et øyeblikk ved å henge den ved siden av skjermen:
- Åpne GPT Image 2-hjemmesiden og logg inn.
- Kontroller at kontoen har minst 12 poeng.
- Velg etikett: Text to Image eller Image to Image.
- Bildegenerering: Last opp et rent kildebilde.
- Skriv først en kort, konkret beskrivelse. Hovedmotivet først, kvalitetsordene etterpå.
- Generer. Evaluer ærlig etter tre dimensjoner: hovedmotiv, lys og komposisjon.
- Endre bare én variabel, generer på nytt og sammenlign.
- Gjenta trinn 6–7 til du er fornøyd med resultatet.
- Last ned.
Det er alt. Alle snarveiene, triksene og vanene til erfarne brukere som nevnes i denne artikkelen, er varianter av disse ni trinnene.
Her er en liten ekstra vane: Skriv først promptene i en tekstredigerer, og lim dem deretter inn i generatoren. Dette gjør det enkelt å lagre historikk, endre rekkefølgen på ordene og gjenbruke faste innledninger som «Same person — preserve facial features…». Når du er fornøyd med bildet, skriver du den endelige versjonen tilbake til promptloggen. Denne lille ekstra hindringen hindrer at dine beste prompter går tapt når du oppdaterer nettleseren.
Vanlige spørsmål
Hvor mange poeng gir hvert bilde i GPT Image 2?
Uansett om det dreier seg om tekst-til-bilde eller bilde-til-bilde, koster det 12 poeng per bilde. Det er ingen ekstra kostnader for «lengre beskrivelser», «større utdata» eller «høyere bildeoppløsning» – slike alternativer finnes ganske enkelt ikke. Poengene kjøpes som en del av et abonnement på nettstedet, og nye kontoer får automatisk tildelt prøvepoeng.
Må man installere noe for å kunne bruke GPT Image 2?
Det trenger du ikke. Alt skjer i nettleseren. Det er ingen app for datamaskiner, ingen nettleserutvidelser, og du trenger ikke å registrere deg for å få en API-nøkkel til webgrensesnittet. Du trenger bare en moderne nettleser og en e-postkonto.
Hvor lang kan en prompt være?
Både «tekst-til-bilde»- og «bilde-til-bilde»-promptene støtter opptil 20 000 tegn. Likevel er de mest effektive promptene i praksis ofte mellom 40 og 200 ord. For lange prompt kan svekke signalet eller til og med føre til motstridende resultater; kortfattet og velstrukturerte prompt gir vanligvis de beste resultatene.
Kan man laste opp flere referansebilder samtidig?
Modusen «Generer bilde fra bilde» støtter kun ett kildebilde om gangen. Hvis du ønsker å kombinere flere referanser (for eksempel «denne personen + stilen på dette plagget»), kan du bruke kjede-generering: Lag først et mellomliggende bilde, og bruk deretter dette som kildebilde for neste runde med nye instruksjoner for å fortsette å justere bildet. Kjederedigering gir ofte et renere resultat enn å generere et bilde basert på én kompleks instruksjon.
Støtter GPT Image 2 angitte oppløsninger eller sideforhold?
Prisene er for øyeblikket faste, og KIE API har ikke noen innstillinger for skala eller oppløsning som brukeren kan velge selv. Utdata fra bilde-til-bilde-generering følger vanligvis kildebildets form – hvis du trenger en bestemt skala, må du derfor først beskjære kildebildet før du genererer det nye bildet.
Kan de genererte bildene brukes til kommersielle formål?
Bruken av innholdet er underlagt vilkårene for bruk som finnes i bunnteksten på nettstedet. Disse vilkårene er gjeldende. I praksis bruker de fleste brukere innholdet til markedsføringskonsepter, innhold på sosiale medier, prototypedesign og personlige prosjekter frem til 2026. Før du bruker et bilde i et produkt som genererer inntekter, må du sjekke de gjeldende vilkårene.
Hvordan kan man sikre at den samme figuren ser lik ut på flere bilder?
Bruk bildegenerering, og skriv tydelig inn en klausul om identitetsbevaring i begynnelsen av prompten («Same person — preserve facial features, hair color, and skin tone»). Bruk deretter hvert utdata som kildebilde for det neste bildet, og fortsett genereringen med en ny scenebeskrivelse. Denne metoden er ikke like nøyaktig som spesialtrente LoRA-modeller, men langt bedre enn å starte på nytt med tekst-til-bilde-generering hver gang.
Hva er den raskeste måten å lære seg å bruke GPT Image 2 på?
Bruk enkle tekst-til-bilde-promptord i de første 12 til 20 genereringene for å bli godt kjent med modellens «standardinnstillinger». Deretter kan du gå videre til bilde-til-bilde-generering, der du starter med et blankt utgangsbilde. Følg veiledningen på forrige side, og de fleste brukere vil kunne håndtere dette uten problemer etter å ha øvd grundig i omtrent en time.
Hvorfor ligner ikke resultatet mitt i det hele tatt på søkeordet?
Det finnes tre vanlige årsaker: For det første, når beskrivende ord er samlet i begynnelsen og hovedinnholdet er gjemt bakerst – flytt hovedinnholdet helt frem; For det andre, at nøkkelordene er motstridende (for eksempel «akvarell» og «fotorealistisk» side om side) – velg ett medium; for det tredje, at det kun brukes følelsesord («vakker», «overveldende») uten konkrete substantiver – legg til konkrete objekter, lysretning og bildespråk.
Er du klar til å begynne?
Nå har du fått en komplett arbeidsflyt, brukbare maler for prompt-tekster, tips om hva du bør unngå, samt en hurtigreferanse. Det gjenstår bare én ting å gjøre: Åpne generatoren og bruk de første 100 poengene dine til å finne ut «hvilken type prompt-tekst du selv liker best». Dette trinnet kan ingen gjøre for deg.
Åpne GPT Image 2 og lag ditt første bilde →
Hvis du vil lese mer:
- Hva er GPT Image 2? Funksjoner, pris og bruksområder
- Veiledning til GPT Image 2-prompt: Skriv prompt-ord som virkelig fungerer
- GPT Image 2 vs Sora: Sammenligning av bildegenereringsevne
- Prøv først den innebygde generatoren for bildesprompter, som automatisk utvider en enkel idé til en fullstendig prompt.
- Du kan også gå direkte til den dedikerte siden for enkeltmodus Text to Image eller Image to Image.
Denne artikkelen er publisert av GPT Image 2 Team. Per april 2026 koster begge modellene 12 poeng per bilde. Dersom det skjer endringer i fremtiden, vil vi oppdatere denne artikkelen og oppgi dette i oppdateringsloggen.

