Handledning för GPT Image 2: En komplett guide från registrering till bildgenerering (2026)

Apr 22, 2026

Kort sammanfattning

GPT Image 2 är ett AI-verktyg för bildgenerering som körs direkt i webbläsaren. Det finns endast två lägen – text-till-bild (text-to-image) och bild-till-bild (image-to-image) – och prissättningen är enhetlig på 12 poäng per bild. Det finns inga extra alternativ för upplösning, bildförhållande eller kvalitetsnivåer. I den här artikeln går vi igenom allt från registrering, första bildgenerering och uppladdning av referensbilder för redigering till tips på hur du formulerar promptar för att skapa användbara bilder – allt på ett ställe. Prova GPT Image 2 gratis →


Innan du börjar: Vad du behöver förbereda

För att använda GPT Image 2 behövs varken ett avancerat grafikkort, Photoshop eller någon erfarenhet av AI – alla beräkningar utförs på servern, medan webbläsaren endast hanterar inmatningen och visar resultatet. Det enda du behöver förbereda är mycket enkelt:

  • En modern webbläsare. Aktuella versioner av Chrome, Edge, Safari, Firefox och Arc fungerar alla. Att aktivera hårdvaruacceleration gör förhandsvisningen smidigare, men det är inte nödvändigt.
  • Ett e-postkonto. Registrering med e-postadress och lösenord stöds, liksom inloggning med Google. Både företagsmejl och Gmail fungerar, men engångsmejladresser avvisas.
  • Ett litet saldo av poäng. Oavsett om du skapar bilder från text eller från bilder, oavsett längd på prompt och oavsett utskriftsformat, kostar det 12 poäng per bild. Nya konton har gratis provpoäng som räcker för att genomföra de första bildgenereringarna i denna handledning.
  • En referensbild (valfritt). Om du planerar att använda bild-till-bild, förbered en eller två källbilder i JPG-, PNG- eller WebP-format. Varje bild bör helst inte vara större än 10 MB. Kvadratiska eller vertikala kompositioner ger oftast de mest stabila resultaten.
  • **En vag idé räcker. ** Nybörjare försöker ofta skriva den ”perfekta prompten” på en gång, vilket istället leder till att de fastnar i tvivel. Den verkligt effektiva metoden är att först skapa en bild med en enkel prompt, se vad modellen ger dig och sedan bestämma hur du vill ändra den.

Fram till april 2026 krävs det ingen nedladdning av någon klient, ingen ansökan om API-nyckel och ingen väntelista för att använda GPT Image 2. Öppna hemsidan, logga in och börja skapa – det är allt.

Omslag till handledningen för GPT Image 2: Skaparen använder ett AI-bildgenereringsverktyg framför sin bärbara dator
Ett bord, en webbläsarflik, en uppmaning – det är hela arbetsmiljön för GPT Image 2.

Den här artikeln riktar sig till dig som vill lära dig att använda verktyget på rätt sätt. Det tar bara två minuter att lära sig hur verktyget fungerar, men det som verkligen kräver tid och övning är att avgöra ”vad man ska skriva, vad man ska titta på och när man ska göra ändringar” – och det är just detta som de kommande avsnitten handlar om. Om du har bråttom kan du hoppa direkt till metod 1 och sedan återvända till avsnitten om tips för sökord och vanliga misstag när du stöter på det första resultatet som du inte är nöjd med.


Metod 1: Text till bild – skapa din första bild från grunden

Att skapa bilder utifrån text är det som de flesta vill prova när de besöker GPT Image 2: man skriver en beskrivning, klickar på ”Generera”, och modellen returnerar en färdig bild. Här följer en steg-för-steg-guide.

Steg 1: Öppna verktyget och logga in

Öppna GPT Image 2-hemsidan. Generatorpanelen visas på första skärmbilden på datorn och som det första hela avsnittet på mobilen. Om du inte är inloggad visas länken ”Generera efter inloggning”. Välj e-post eller Google för att logga in – det tar mindre än en minut.

När du har loggat in visas ditt poängsaldo i det övre högra hörnet. Kontrollera att du har minst 12 poäng – nya konton har ett provsaldo, så du behöver inte koppla ett kort för att genomföra det första exemplet i den här artikeln.

Steg 2: Gå till fliken Text till bild

Överst i verktyget finns två flikar: Text till bild och Bild till bild. Börja med att använda standardfunktionen för att skapa en bild utifrån text. Inmatningsfältet finns precis under flikarna.

Du behöver inte välja modell manuellt – tjänsten använder KIE:s gpt-image-2-text-to-image i bakgrunden, och det finns inga rullgardinsmenyer för kvalitetsnivåer, bildförhållanden eller upplösning: en modell, ett pris.

Steg 3: Skriv först en medvetet kort beskrivning

Ett vanligt misstag bland nybörjare är att stoppa in alla adjektiv man kan komma på i den första prompten. Gör inte så. Börja istället med en kort, konkret beskrivning och se hur modellen presterar i sitt ”standardläge”. Här är den prompt jag använde när jag förberedde den här artikeln och gjorde mitt första test:

A golden retriever puppy sitting in a sunlit field of wildflowers, shallow depth of field,
warm afternoon light.

(Beskrivning: En golden retriever-valp sitter i en blomsteräng i solskenet, med kort skärpedjup och varmt eftermiddagsljus.)

Klistra in texten i inmatningsfältet och klicka på Generera. De flesta prompter ger resultat inom 20 till 40 sekunder, men det kan ta lite längre tid under rusningstider.

Steg 4: Utvärdera resultatet ärligt

När jag körde kommandot ovan för första gången blev resultatet i stort sett som förväntat: en varmare ton, tydliga ögon och en naturligt suddig bakgrund – men hundens tassar var något suddiga, vilket är en typisk svaghet hos dagens bildmodeller. Det är helt normalt; det här steget är inte avsett för betygsättning, utan för att ge dig en uppfattning om vad som kan kallas ”standardutdata”.

På den första bilden ska man åtminstone titta på tre saker:

  1. Är motivet korrekt? Visar modellen det motiv du ville ha? Eller har det blivit fel (till exempel att en golden retriever har ritats som en labrador)?
  2. **Ljusets riktning. ** Stämmer det faktiska ljuset med din beskrivning? ”Varmt eftermiddagsljus” bör vara ett mjukt, riktat sidoljus, inte ett ovanifrånljus.
  3. Komposition. Stämmer motivets placering med den bild du har i tankarna? Eller är det konstigt centrerat?

Om något av dessa tre kriterier inte stämmer, har du en tydlig anledning att ändra sökordet – istället för att blint köra om kampanjen.

Steg 5: Skriv en optimerad prompt

Här är en vidareutvecklad version av samma scen. Motivet och ljussättningen är desamma, men strukturen är bättre anpassad för GPT Image 2:

A 3-month-old golden retriever puppy with fluffy fur and floppy ears, sitting upright in a
meadow of wild daisies and lavender. Warm late-afternoon sunlight streams from the left,
casting long gentle shadows and creating a soft golden rim light on the fur. Shallow depth
of field, background softly blurred with bokeh. Shot on an 85mm lens, eye level with the
puppy. Photorealistic, high detail, natural colors.

(Beskrivning: En tre månader gammal golden retriever-valp med fluffig päls och hängande öron sitter upprätt på en äng med prästkragar och lavendel. Det varma eftermiddagssolskenet lyser in från vänster och kastar en mjuk, lång skugga samt skapar ett gyllene konturljus på pälsen. Kort skärpedjup, bakgrunden är mjukt suddad med bokeh. 85 mm-objektiv, i ögonhöjd med valpen. Realistisk stil, hög detaljrikedom, naturliga färger.)

Jämfört med den första utgåvan har fyra ändringar gjorts:

  • Mer specifika detaljer om motivet (”tre månader gammal”, ”fluffig päls”, ”mjuka öron”) hjälper modellen att få en tydlig bild av motivet.
  • Tydlig ljusriktning (”från vänster”, ”konturljus som faller på pälsen”), istället för att bara skriva ”varmt”.
  • Objektivval (”85 mm-objektiv”, ”i ögonhöjd med valpen”) ger modellen en konkret kompositionsmall.
  • Kvalitetsbeskrivningar placeras i slutet (”realistisk, hög detaljrikedom, naturliga färger”) – korta och utan att stjäla uppmärksamheten.

Klicka på Generate igen. Den andra bilden bör ligga närmare den bild du har i huvudet. Om den fortfarande inte stämmer, skriv inte om hela stycket – ändra bara en variabel i taget, generera och jämför, så att du kan se vilket ord som påverkar resultatet.

Ett användbart mentalt modell: Dela upp stichordet i fyra ”fack” – motiv, handling, miljö och stil. Ändra varje gång endast det fack som är fel. Om motivet inte stämmer, ändra motivfacket; om belysningen inte stämmer, ändra miljöfacket; om bilden ser ut som en tecknad film men du vill ha ett foto, ändra stilfacket.

Steg 6: Spara, ladda ner eller fortsätt att iterera

När du är nöjd med bilden finns det en nedladdningsknapp under förhandsvisningen. Varje genererad bild sparas automatiskt i din kontohistorik, där du kan se tidigare versioner, kopiera tidigare promptar och fortsätta att vidareutveckla bilden. Om du senare vill fortsätta att redigera den här karaktären i bildgeneratorn kan du använda den här bilden som utgångsbild från historiken.

En bild i filmkvalitet skapad med GPT Image 2: En kvinna i en lång vit sidenklänning på stranden i det gyllene ljuset
En text-till-bild-prompt med en konkret beskrivning av ljusförhållandena. Genom att ange ”gyllene stund” och ”silke i motljus” får modellen tydliga visuella ledtrådar att utgå ifrån.

Den arbetscykel du just har gått igenom – ”öppna – skriva text – utvärdera – finjustera – generera på nytt” – är hela arbetscykeln för text-till-bild-generering. Allt som följer i den här artikeln handlar om hur du kan få denna cykel att gå snabbare och spara poäng.

Om du använder GPT Image 2 under en längre tid rekommenderar vi att du skapar en ren textfil där du samlar ”fungerande promptar”. Det ska inte vara en mall, utan din egen logg – varje gång du är nöjd med en bild lägger du till den fullständiga prompten med en kommentar. Efter ett halvår kommer den här samlingen att passa din smak bättre än någon allmän mall på nätet.


Metod 2: Bild till bild – redigera befintliga foton eller ändra deras stil

Image-to-image (i2i) utgår från en källbild, där modellen behåller de delar du vill behålla och omskriver resten utifrån en beskrivande text. Använd denna metod för uppgifter som att ”byta kläder på samma person”, ”byta bakgrund på samma produkt” eller ”ändra stil på samma komposition”.

Steg 1: Gå till fliken Bild till bild

Gå tillbaka till startsidans verktyg och klicka på Image to Image. Ovanför inmatningsfältet visas ett nytt område för filuppladdning. Textrutan finns kvar och stöder fortfarande upp till 20 000 tecken, men fungerar nu tillsammans med den uppladdade bilden.

I bakgrunden används gpt-image-2-image-to-image, och priset är detsamma som för text-till-bild – 12 poäng per bild. Det finns inget separat reglage för ”intensitet”, utan hur mycket som förändras beror helt på hur du formulerar din prompt.

Om du har använt andra verktyg för InPainting (maskeringskorrigering) bör du tänka om: GPT Image 2 kräver inte att du ritar en mask, utan läser hela källbilden tillsammans med hela prompttexten innan den bestämmer vad som ska ändras. För 80 % av de vanligaste behoven (byta bakgrund, byta kläder, ändra från dag till natt) är det faktiskt enklare att bara redigera prompttexten.

Steg 2: Ladda upp originalbilden

Dra och släpp JPG-, PNG- eller WebP-filer till uppladdningsområdet, eller klicka för att välja fil. För din första övning rekommenderar vi att du väljer en bild med jämnt ljus och enkel komposition. Bilder med rörelseoskärpa, svagt ljus eller rörig bakgrund ger modellen större utrymme för ”fria tolkningar”, vilket i sin tur gör det svårare att se skillnaden mellan före och efter.

Bilden nedan är ett typiskt exempel på den sorts bild som nybörjare brukar ladda upp när de provar ett AI-verktyg för första gången – en vanlig selfie tagen inomhus.

En vanlig selfie inomhus, som exempel på en källbild för bildgenerering med GPT Image 2
Originalbild: En något överexponerad vardaglig selfie tagen inomhus. Det är ingen retuscherad bild, utan precis den typ av material som Bild till Bild är bäst på att bearbeta.

Steg 3: Bestäm först – handlar det om en ”mindre renovering” eller en ”totalrenovering”?

Innan du skriver en prompt bör du fundera igenom vilken typ av ändringar du vill ha. Att generera en helt ny bild och att lägga en ny bild över en befintlig bild är två helt olika syften, och man skriver därför prompterna på olika sätt:

  • Små ändringar (Edit): Behåll det mesta, byt bara ut ett element. "Byt kläderna till marinblått." "Ta bort kaffekoppen." "Byt bakgrunden till en bokhylla. "
  • Omvandling (Transform): Behåll identiteten, skriv om hela scenen. "Samma person, nu klädd i hanfu och stående på palatsets terrass i månskenet." "Samma produkt, nu med marmorbord och studiobelysning."

Ju mer utförligt beskrivningsordet beskriver den nya scenen, desto mer ändrar modellen; om du bara nämner en egenskap tenderar övriga delar att förbli oförändrade. Detta är ditt verktyg för att styra ”ändringsomfånget” utan att använda skjutreglage.

Exempel: change the shirt to navy blue (byta skjortan till marinblå) är en begränsad redigering, där ansikte, frisyr, kroppshållning, bakgrund och belysning förblir oförändrade. Om man istället skriver She is now wearing a tailored navy suit, standing in a glass-walled corporate office at golden hour (Hon bär nu en skräddarsydd marinblå kostym och står i ett kontor med glasväggar vid skymningen) är det en förvandling – kostym, miljö och belysning förändras helt, endast ansiktet och kroppsformen förblir oförändrade. Det är samma mening, men omfattningen av förändringen avgörs av hur mycket av den nya scenen du beskriver.

Steg 4: Skriv en prompt som talar om för modellen vad den ska behålla

Här är de instruktioner jag använde när jag "förvandlade" den där källbilden:

Same woman — identical facial features and hair. Transform the scene: she now wears an
elaborate crimson-and-gold hanfu with intricate embroidery and a jeweled phoenix hairpin.
She stands on a moonlit palace terrace, red lanterns glowing softly in the background,
cherry blossom petals drifting in the air. Warm lantern light from the right, cool
moonlight fill from the left. Cinematic shallow depth of field, elegant composition, 4K
photorealistic.

(Kinesisk beskrivning: Samma kvinna – ansikte och frisyr är oförändrade. Omskriven scen: Hon bär nu en praktfull röd-guldfärgad hanfu med intrikata broderier och en guldfågelhårnål i hårknuten. Hon står på en palatsveranda i månskenet, med mjukt lysande röda lyktor i bakgrunden och fallande körsbärsblomblad. Varmt ljus från lyktorna till höger, kallt månsken till vänster. Filmisk kort skärpedjup, elegant komposition, 4K-realism.)

Det finns två ställen där detta uttryckligen anges:

  1. "Samma kvinna – identiska ansiktsdrag och hår." Denna mening klarar i stort sett hela arbetet med att bevara identiteten. Om den utelämnas kommer modellen att avvika godtyckligt.
  2. En fullständig beskrivning av den nya scenen. Kläder, plats, rekvisita och ljusets riktning ska anges tydligt. Modellen håller på att återskapa hela miljön och behöver en komplett uppsättning instruktioner, inte bara en etikett.

Steg 5: Jämför före och efter genereringen

Klicka på Generera för att se resultatet. När jag testade det behöll bilden huvudpersonens igenkännbara ansiktsdrag och frisyr, medan allt annat återskapades utifrån instruktionerna.

GPT Image 2: Bildgenerering – Samma person omvandlad till en scen ur en historisk hovdrama
Bild-till-bild-generering: Identiteten förblir densamma före och efter, medan kläder, miljö och belysning omskrivs helt enligt beskrivningen.

Betrakta före- och efterbilderna tillsammans. Om ansiktsdragen har förändrats för mycket, lägg till klausulen ”same person” i instruktionerna (till exempel genom att lägga till ”preserve exact face shape, same eyes, same nose, same lip shape” – behåll ansiktsformen, ögonen, näsan och munformen); om scenen inte har förändrats tillräckligt, lägg till fler detaljer om omgivningen. Det är de reglagen du har till ditt förfogande.

Steg 6: Utan att lämna sidan kan du använda utdata som nästa indata

Det bästa med att skapa bilder utifrån bilder är att den senaste utgångsbilden i sig fungerar som en giltig källbild för nästa redigering. Klicka på ”Använd som ny ingång” och skriv in en ny beskrivning (till exempel ”Samma scen, men vid gryningen” eller ”Samma pose, men med en vikbar solfjäder i handen”). Den slutliga bilden som skapas genom små, kontinuerliga redigeringar blir nästan alltid renare än en extremt lång beskrivning som försöker täcka allt på en gång.

"Kedjedigering" är ett av de mest värdefulla arbetsflödestipsen i den här artikeln. Ett vanligt misstag bland nybörjare är att skriva en 300 ord lång beskrivning som ska täcka allt, och sedan göra om det åtta gånger utan att det blir rätt. Den professionella metoden är att dela upp arbetet i omgångar: börja med karaktären, och använd sedan resultatet från den omgången som utgångspunkt för att utforma kläder, miljö och belysning. 12 poäng per omgång, totalt 48 poäng för fyra omgångar – resultatet blir mycket renare än om man gör om det tio gånger på en gång.

GPT Image 2 – Stilöverföring vid bildgenerering: till vänster ett foto av en riktig strand, till höger en ommålad version i cyberpunk-stil med neonljus
Ta stilöverföringen ett steg längre: samma person, samma pose, men omvandlad från en verklig strand till en neonbelyst cyberpunk-takterrass. Så länge du anger ”same pose” i prompten behåller modellen sin geometri, medan allt annat anpassas efter den nya miljön.

Tips och knep för att verkligen få bättre bilder

Nu har du fullständig koll på hela arbetsflödet. Skillnaden mellan en ny användare på första dagen och en erfaren användare som kan skapa ett portfolio med hjälp av GPT Image 2 ligger inte i någon mystisk prompt, utan i att veta vilka verktyg som verkligen fungerar. De nio punkterna nedan ger den bästa avkastningen i praktiken.

Tips 1: Skriv huvudordet först och kvalitetsordet sist

Börja prompttexten med "Vem/vad avbildas här" och placera ord som photorealistic, cinematic, 4K och high detail – som beskriver bildkvaliteten – i slutet. Modellen läser prompttexten från början till slut, vilket innebär att det som står först tilldelas högst vikt, medan det som hamnar längst bak, begravt under sju kvalitetstaggar, får mindre betydelse.

Svagare: Hyperrealistiskt 4K-mästerverk – filmiskt detaljerat foto i ultra-HD av en katt som sitter på en fönsterbräda

Stark: En svartvit smokingkatt som sitter på en fönsterbräda av trä och tittar ut på en regnig stadsgata. Mjukt, diffust ljus från fönstret, kort skärpedjup. Fotorealistiskt, filmiskt.

Tips 2: Beskriv ”ljusets riktning”, inte ”ljusets stämning”

"Vacker belysning" säger egentligen ingenting. "Varmt solnedgångsljus från vänster, långa skuggor som faller åt höger" talar om för modellen exakt var varje skugga ska falla. Ljuskällor med riktning och namn (”fönsterljus”, ”kantljus”, ”softbox ovanifrån”, ”neonfyllning bakifrån”) är ett av de mest effektiva sätten att förbättra bildkvaliteten med så få ord som möjligt.

Tips 3: Beskriv kompositionen med fotografiska termer så blir bilden genast mer realistisk

Om du vill skapa bilder med stark realism bör du ta till dig fotografernas terminologi. Genom att kombinera brännvidder (35 mm, 50 mm, 85 mm, 135 mm), ledtrådar om skärpedjup (shallow depth of field, deep focus) och kameravinklar (eye level, low angle, overhead) får modellen en uppsättning konkreta kompositionsmallar. Artikeln Camera lens på engelska Wikipedia är ett bra material som du kan läsa igenom på 10 minuter och som hjälper dig att medvetet välja brännvidd.

Tips 4: Beskriv stilen utifrån ”mediet” istället för ”konstnärens namn”

"i stil med en viss konstnär" är en beskrivning som är både osäker och kan leda till tvister om upphovsrätt. Ett säkrare tillvägagångssätt är att beskriva mediet i sig: oljemålning med synliga penseldrag, blyertsskiss med korsskuggning, vintage Kodachrome-filmkänsla med kornighet, ren vektorillustration med platta färger. Detta ger en estetisk riktning utan att vara beroende av en specifik person.

Tips 5: Använd ”positiva beskrivningar” istället för ”negativa begränsningar”

GPT Image 2 har inget separat inmatningsfält för negativa instruktioner. Det bästa sättet att undvika vissa element är att tydligt beskriva vad du vill ha. Istället för att skriva ”inga människor, ingen text, inget skräp” bör du skriva ”ett tomt rum med rena väggar, minimalistisk komposition, en enda växt i hörnet”. Positiva beskrivningar är betydligt mer tillförlitliga än negativa formuleringar.

Tips 6: När du skapar bilder utifrån bilder ska du först fastställa identiteten och sedan skriva om scenen

När du gör en ”kostym- eller miljöbyte” och vill att ansiktet ska förbli detsamma är den första meningen i instruktionen avgörande. Att inleda med något i stil med Samma person – behåll ansiktsdrag, hårfärg och hudton är effektivare än vilken vacker miljöbeskrivning som helst längre fram i texten. Om identiteten behöver framhävas ytterligare kan du lägga till samma ögonform, samma näsa, samma läppar. Att säga det rakt ut är effektivare än att antyda det.

Tips 7: Gör små stegvisa förbättringar istället för att skriva om hela avsnittet

Ändra bara en variabel åt gången. Om hållningen är rätt men kläderna fel, ändra bara det avsnittet om kläderna; om belysningen är fel men allt annat är bra, ändra bara det avsnittet om belysningen. På så sätt kan du skapa en verkligt kontrollerbar återkopplingsloop och veta vilken term som förändrar vad. Att skriva om hela avsnittet förstör denna signal och slösar bort poäng.

Tips 8: Skriv instruktionerna i den ordning som modellen bör prioritera

Placera de viktigaste elementen först: motiv → handling → miljö → stil. Om du skriver ”i stil med en oljemålning, där en kvinna i röd klänning går längs en kullerstensgata i skymningen”, säger du till modellen att ”detta först och främst är en oljemålning”, medan resten är sekundärt. Om du istället skriver ”En kvinna i röd klänning går längs en kullerstensgata i skymningen, återgiven som en oljemålning”, hör modellen först huvudämnet och först i slutet mediet. Informationsmängden är densamma, men den senare ger oftast ett betydligt mer exakt resultat.

Tips 9: Använd de ord som fotografer och regissörer faktiskt använder

Dutch angle (holländsk vinkel), rack focus (fokusförskjutning), golden hour (gyllene timmen), overcast daylight (molnigt dagsljus), softbox (mjukljuslåda), gobo shadow (gobo-skugga), hero shot (hjälteskott), two-shot (tvåpersonersbild), negative space (negativt utrymme) – dessa termer har tydliga betydelser inom fotografi och film, och en stor del av bilderna i träningsdata är försedda med dessa termer. Vaga känslobegrepp (vibey, dreamy, epic) är betydligt svagare signaler för modellen. Artikeln Shot (filmmaking) på engelska Wikipedia är en bra 15-minuters snabbreferens för terminologin.


De vanligaste misstagen som nybörjare gör, och hur man rättar till dem

Ärligt talat har jag begått alla dessa misstag. Du kommer troligen också att begå dem, men åtminstone kan du upptäcka dem snabbare.

Misstag 1: Skriva en prompt på 400 tecken och förvänta sig att få en färdig version på en gång. Bildmodeller är bättre på att hantera ”smala, iterativa” prompts än ”långa, färdiga” prompts. Gränsen på 20 000 tecken är inte målet. De resultat jag är mest nöjd med från GPT Image 2 har oftast prompts på mellan 40 och 120 ord.

Fel 2: Att köra om genereringen upprepade gånger utan att ändra prompten. Om man trycker på ”Generate” två gånger för samma prompt blir resultatet ”nästan klart”, och även vid tredje försöket är det fortfarande ”nästan klart”. Slumpmässigheten utforskar endast ett litet område; om riktningen i detta område är fel kan man inte rädda situationen genom att köra om genereringen hur många gånger som helst – man måste ändra prompten.

Fel 3: Motsägningar i beskrivningen. Att i samma beskrivning skriva både ”soft dreamy watercolor” (mjuk, drömlik akvarell) och ”ultra-sharp photorealistic 4K” (ultraskarp fotorealistisk 4K) är en motsägelse. Modellen kommer att välja det ena eller, ännu värre, jämna ut båda. Tänk igenom det noga innan du skriver.

Fel 4: För höga förväntningar på texten i bilden. I april 2026 är AI-bildmodellernas återgivning av längre textstycken, särskilt text med icke-latinska tecken, fortfarande ojämn. Korta etiketter på skyltar fungerar ibland, men text på styckenivå fungerar sällan. Om texten är den centrala informationen räcker det att lägga till ett textlager i valfri bildredigerare efter att bilden har genererats.

Fel 5: Att ladda upp en suddig källbild vid bildgenerering. Modellen använder källbildens detaljrikedom som referens. En suddig mobilbild med svagt ljus kommer att behålla sin suddighet i resultatet, oavsett hur mycket du i din prompt betonar att den ska vara ”skarp och tydlig”. Välj en skarp källbild om möjligt.

Misstag 6: Låt inte händerna ta överhanden. Händerna är fortfarande den vanligaste källan till brister i bildskapandet. Om kompositionen kräver att händerna framhävs, acceptera att du måste göra om bilden några gånger; om de inte är centrala, låt händerna hamna utanför bildrutan eller hänga naturligt nedåt.

Fel 7: Att bortse från bildförhållandet vid uppladdning av bildgenererade bilder. Bildgenererade bilder följer vanligtvis källbildens bildförhållande. Om du vill ha en banner men laddar upp en stående selfie är det som att gå emot modellen. Beskär källbilden till önskat bildförhållande innan du genererar bilden.

Misstag 8: Att betrakta den ”första hyfsade bilden” som det färdiga resultatet. Erfarna användare ser det som ”hyfsat” som utgångspunkt för nästa omgång. Skillnaden mellan ”hyfsat” och ”portföljnivå” uppstår oftast vid det tredje försöket, inte vid det första.

Fel 9: Att glömma att modellen inte har något minne mellan två genereringar. Om man inte använder "bild-till-bild"-funktionen och använder den förra utgången som källbild, är varje generering helt ny. Om du vill återanvända gamla karaktärer bör du spara den ursprungliga prompten eller direkt använda den förra bilden för kedjeredigering.


Hur fungerar GPT Image 2 inuti (kortfattat)

Det här avsnittet är inte nödvändigt att läsa, men det kan hjälpa dig att skapa rimliga förväntningar. GPT Image 2 är ett förenklat användargränssnitt som direkt anropar de två KIE-modellerna gpt-image-2-text-to-image och gpt-image-2-image-to-image. Dessa tillhör familjen av diffusionsmodeller och är optimerade för att följa instruktioner och återge högupplösta, realistiska bilder. Varje förfrågan genomgår autentisering, debiteras 12 poäng, placeras i kö och returnerar en bild-URL.

Det är sällan avsiktligt att det finns reglage på gränssnittet: KIE API exponerar inte dessa kontrollelement i sig, och att lägga till ”falska reglage” i de övre lagren skulle bara vara vilseledande. Allt som modellen kan göra uttrycks genom prompter. Om du vill fördjupa dig i principerna kan du läsa på Wikipedia Diffusion model och OpenAI:s forskningssida.


GPT Image 2 har också sina svagheter

Om man bara lyfter fram det positiva och inte nämner det negativa är det ingen riktig handledning. Nedan följer de gemensamma svagheterna hos GPT Image 2 – som i själva verket gäller alla dagens vanliga bildmodeller:

  • Exakt återgivning av varumärkeselement. Logotyper, licensierade karaktärer och produktförpackningar kan inte återges på ett konsekvent sätt. Det rätta tillvägagångssättet är att generera en komposition och sedan lägga in den riktiga logotypen.
  • **Strikt överensstämmelse med referensmaterialet. ** När en karaktär måste vara helt identisk i flera dussin bilder (t.ex. i en serietidning) är identitetsbevarandet vid bild-till-bild-generering redan mycket bättre än vid ren text-till-bild-generering, men det är fortfarande inte lika exakt som vid LoRA-träning eller 3D-karaktärsbindning, där varje bildruta är exakt.
  • Anatomi i extrema poser. Fingrar, fötter, tänder, öron och korsade lemmar är de delar som lättast förvrängs. Ju närmare kameran är, desto tydligare blir felen.
  • Perfekt komposition. Som nämnts ovan – detta gäller fortfarande.

Här är ytterligare två sanningar: För det första har spridningsmodellen i sig en viss slumpmässighet i urvalet – samma prompt ger olika resultat varje gång. Mångfald är en fördel, medan bristande konsistens är en nackdel, vilket kan mildras genom kedjeredigering där bilder genererar nya bilder. För det andra speglar modellen fördelningen i träningsdata, vilket innebär att det är svårare att få ett korrekt resultat på första försöket för nischade kulturella sammanhang än för populära ämnen; man bör därför räkna med att behöva göra flera iterationer.

En riktigt bra arbetsflöde för AI-bildgenerering bygger inte på att ”en enda modell ska klara allt”, utan på att ”GPT Image 2 hanterar 80 % av de centrala bildelementen, medan en enkel redigerare sköter de sista 20 % av finjusteringen manuellt”.


Översikt på en sida: hela processen

Om du bara vill ha en version som ryms bredvid skärmen och som går att läsa i ett ögonkast:

  1. Öppna GPT Image 2-hemsidan och logga in.
  2. Kontrollera att du har minst 12 poäng på ditt konto.
  3. Välj tagg: Text to Image eller Image to Image.
  4. Bild till bild: ladda upp en tydlig källbild.
  5. Skriv först en kort, konkret beskrivning. Huvudmotivet först, kvalitetsord senare.
  6. Generera. Utvärdera objektet objektivt utifrån tre dimensioner: huvudmotiv, belysning och komposition.
  7. Ändra endast en variabel, generera på nytt och jämför.
  8. Upprepa steg 6–7 tills du är nöjd med resultatet.
  9. Ladda ner.

Det var allt. Alla genvägar, tips och vanor som erfarna användare har som nämns i den här artikeln är varianter av dessa nio steg.

Här är ytterligare ett litet tips: Skriv först din prompt i en textredigerare och klistra sedan in den i generatorn. Det gör det enklare att spara historik, ändra ordföljd och återanvända fasta inledningar som ”Same person — preserve facial features…”. När du är nöjd med resultatet skriver du tillbaka den slutgiltiga versionen till promptloggen. Denna lilla extra ansträngning förhindrar att din bästa prompt går förlorad när du uppdaterar webbläsaren.


Vanliga frågor

Hur många poäng ger varje bild i GPT Image 2?

Oavsett om det gäller bildgenerering utifrån text eller bildgenerering utifrån bild är priset detsamma: 12 poäng per bild. Det tillkommer inga extra avgifter för ”längre prompt”, ”större utdata” eller ”högre bildkvalitet” – sådana alternativ finns helt enkelt inte. Poängen köps som paket på webbplatsen, och nya konton tilldelas automatiskt provpoäng.

Behöver man installera något för att kunna använda GPT Image 2?

Det behövs inte. Allt sker i webbläsaren. Det finns ingen stationär app, inga webbläsartillägg och du behöver inte ansöka om någon API-nyckel för webbgränssnittet. Allt du behöver är en modern webbläsare och ett e-postkonto.

Hur lång kan en prompt vara?

Både vid text-till-bild och bild-till-bild stödjer promptinmatningen upp till 20 000 tecken. I praktiken är dock de mest effektiva prompterna oftast mellan 40 och 200 ord. Alltför långa prompter kan försvaga signalerna eller till och med leda till motsägelser; välstrukturerade, korta prompter brukar oftast ge bäst resultat.

Kan man ladda upp flera referensbilder samtidigt?

Funktionen "Skapa bild från bild" stöder endast en källbild åt gången. Om du vill kombinera flera referenser (till exempel "den här personen + den här klädstilen") kan du använda kedjegenerering: skapa först en mellanbild och använd sedan den som källbild för nästa omgång med en ny prompt för att fortsätta redigera. Kedjegenerering ger ofta ett renare resultat än att skapa en bild utifrån en enda komplex prompt.

Stöder GPT Image 2 angivna upplösningar eller bildförhållanden?

Prissättningen är för närvarande enhetlig, och KIE API:et har inga inställningsreglage för skala eller upplösning som användaren kan välja. Utgångsbilden följer vanligtvis källbildens form – om du behöver en specifik skala bör du därför först beskära källbilden och sedan generera den nya bilden.

Får de genererade bilderna användas i kommersiellt syfte?

Användningsrätten regleras av användarvillkoren i sidfoten på webbplatsen, och dessa villkor gäller som slutgiltig referens. I praktiken använder de flesta användare materialet fram till 2026 för marknadsföringskampanjer, innehåll i sociala medier, prototyputveckling och personliga skapelser. Innan du använder en bild i en intäktsgenererande produkt bör du först kontrollera de villkor som gäller vid den tidpunkten.

Hur ser man till att samma karaktär ser likadan ut på flera bilder?

Använd bild-till-bild och ange tydligt en identitetsbevarande klausul i början av prompten (”Samma person – bevara ansiktsdrag, hårfärg och hudton”). Använd sedan varje utdata som källbild för nästa bild och fortsätt generera med en ny scenbeskrivning. Denna metod är inte lika precis som en specialtränad LoRA-modell, men betydligt bättre än att börja om från början med text-till-bild varje gång.

Vad är det snabbaste sättet att lära sig använda GPT Image 2?

Använd enkla text-till-bild-promptar under de första 12 till 20 genereringarna för att få en grundlig förståelse för modellens ”standardbeteende”. Gå sedan vidare till bild-till-bild-generering och börja med en tom källbild. Följ anvisningarna på föregående sida, och de flesta användare kommer att känna sig ganska säkra efter att ha övat noggrant i ungefär en timme.

Varför ser mina resultat inte alls ut som prompten?

Det finns tre vanliga orsaker: För det första, att beskrivande ord hopas i början medan huvudinnehållet hamnar längst bak – flytta huvudinnehållet till början; För det andra, motstridiga beskrivande ord (t.ex. ”akvarell” och ”fotorealistisk” i samma mening) – välj ett medium; för det tredje, endast känslomässiga ord (”vacker”, ”överväldigande”) utan konkreta substantiv – komplettera med specifika objekt, ljusriktning och bildspråk.


Är du redo att sätta igång?

Nu har du fått en komplett arbetsflöde, användbara tips på promptformuleringar, fallgropar att undvika samt en översiktssida. Det enda som återstår är att öppna generatorn och använda dina första 100 poäng för att hitta ”vilken typ av prompt du själv gillar”. Det här steget kan ingen göra åt dig.

Öppna GPT Image 2 och skapa din första bild →

Om du vill läsa mer:

Denna artikel har publicerats av GPT Image 2 Team. Från och med april 2026 debiteras båda modellerna enhetligt med 12 poäng per bild. Om priset ändras i framtiden kommer vi att uppdatera denna artikel och ange detta i uppdateringsloggen.

GPT Image 2-teamet

GPT Image 2-teamet

AI-generering av bilder och videor