Rövid összefoglaló
A GPT Image 2 egy böngészőben futó AI-alapú képkészítő eszköz, amelynek csupán két üzemmódja van: szöveg-kép (text-to-image) és kép-kép (image-to-image). Az árazás egységesen 12 pont/kép, nincsenek felbontási, arány- vagy minőségi beállítási lehetőségek. Ez a cikk végigvezeti Önt a regisztrációtól, az első kép előállításán és a referenciafotó feltöltésén át egészen az igazán használható képek előállításához szükséges prompt-stratégiákig. Próbálja ki ingyen a GPT Image 2-t →
Mielőtt elkezdenéd: mire van szükséged
A GPT Image 2 használatához nincs szükség csúcskategóriás grafikus kártyára, Photoshopra vagy bármilyen AI-tapasztalatra; az összes számítás a szerveren történik, a böngésző pedig csak a bevitelért és az eredmények megjelenítéséért felel. Az egyetlen dolog, amit ténylegesen elő kell készíteni, nagyon egyszerű:
- Egy modern böngésző. A Chrome, Edge, Safari, Firefox és Arc aktuális verziói mind megfelelnek. A hardveres gyorsítás bekapcsolása zökkenőmentesebbé teszi az előnézetet, de nem kötelező.
- Egy e-mail fiók. Támogatja az e-mail címmel és jelszóval történő regisztrációt, valamint a Google-fiókkal történő egérkattintásos bejelentkezést is. Céges e-mail vagy Gmail is megfelel, az egyszer használatos e-mail címeket a rendszer elutasítja.
- Kis mennyiségű pont. Akár szövegből képet, akár képből képet készít, a prompt hosszától és a kimeneti aránytól függetlenül minden kép 12 pontba kerül. Az új fiókokhoz ingyenes próba pontok tartoznak, amelyek elegendőek a bemutató első néhány képének elkészítéséhez.
- Egy referencia kép (opcionális). Ha képből képet szeretne generálni, készítsen elő egy-két JPG / PNG / WebP formátumú forrásképet, amelyek mérete egyenként ne haladja meg a 10 MB-ot. A négyzetes vagy álló kompozícióval a legkönnyebb stabil eredményt elérni.
- **Egy homályos ötlet is elegendő. ** A kezdők gyakran szeretnének egyszerre megírni a „tökéletes promptot”, és emiatt elakadnak a gondolkodásban. A valóban hatékony módszer az, hogy először egy egyszerű prompttal készítesz egy képet, megnézed, mit ad a modell, és csak utána döntesz, hogyan módosítod.
- áprilisig a GPT Image 2 használatához nem kell letölteni semmilyen kliensalkalmazást, nem kell API-kulcsot igényelni, és nem kell várólistára feliratkozni. Csak három lépés: nyisd meg a kezdőlapot, jelentkezz be, és kezdd el a generálást.

Ez a cikk azoknak szól, akik hatékonyan szeretnék használni az eszközt. A műveletek végrehajtását két perc alatt el lehet sajátítani, az igazi kihívás azonban az, hogy eldöntsük: „mit írjunk, mit nézzünk meg, és mikor módosítsunk” – a következő fejezetek ezekkel a kérdésekkel foglalkoznak. Ha siet, ugorjon előre az 1. módszerhez, és csak akkor térjen vissza a „Kulcsszavak” és a „Gyakori hibák” fejezetekhez, ha az első eredmény nem felel meg az elvárásainak.
1. módszer: Szövegből kép – Az első kép elkészítése a semmiből
A szövegből kép generálás az a funkció, amelyet a legtöbb felhasználó elsőként szeretne kipróbálni a GPT Image 2-ben: elég, ha beír egy leírást, rákattint a generálás gombra, és a modell máris egy kész képet ad vissza. Az alábbiakban bemutatjuk a lépésről lépésre történő használatát.
1. lépés: Indítsa el a generátort, és jelentkezzen be
Nyissa meg a GPT Image 2 kezdőlapját. A generátor panel az asztali verzióban az első képernyőn, a mobil verzióban pedig az első teljes blokkban található. Bejelentkezés nélkül megjelenik a „Bejelentkezés után generálás” gomb; válassza ki az e-mail címét vagy a Google-fiókját a bejelentkezéshez, ami kevesebb mint egy percet vesz igénybe.
Bejelentkezés után a jobb felső sarokban megjelenik a pontállomány; ellenőrizze, hogy legalább 12 pontja van-e – az új fiókokhoz próbaidőszakra szóló pontkeret tartozik, így a cikk első példáját bankkártya megadása nélkül is végrehajthatja.
2. lépés: Váltson át a „Text to Image” fülre
A generátor tetején két fül található: Text to Image és Image to Image. Először az alapértelmezett szöveg-kép funkciót használjuk. A beviteli mező a fülek alatt található.
Nincs szükség a modell kézi kiválasztására – a háttérben a KIE gpt-image-2-text-to-image funkciója fut, nincsenek méret-, arány- és felbontás-legördülő menük: egy modell, egy ár.
3. lépés: Írj először egy szándékosan rövid leírást
A kezdők gyakori hibája, hogy az összes ismert melléknévüket az első promptba tömörítik. Ne tegyék ezt! Először írjanak egy rövid, konkrét leírást, és nézzék meg, hogyan viselkedik a modell „alapállapotában”. Az alábbi promptot használtam én is, amikor ezt a cikket készítettem, és először teszteltem:
A golden retriever puppy sitting in a sunlit field of wildflowers, shallow depth of field,
warm afternoon light.(Kínai leírás: Egy golden retriever kölyökkutya a napfényben, vadvirágok között ül; sekély mélységélesség, meleg délutáni fény.)
Illessze be a beviteli mezőbe, majd kattintson a Generate gombra. A legtöbb prompt 20–40 másodperc alatt ad eredményt, csúcsidőben ez kissé lassabb lehet.
4. lépés: A kimenet őszinte értékelése
Amikor először futtattam a fenti parancssort, az eredmény nagyjából megfelelő volt: a tónusok melegek, a szemek élesek, a háttér természetesen elmosódott – de a kutya mancsai kissé homályosak voltak, ami a jelenlegi képgeneráló modellek tipikus gyengesége. Ez teljesen normális, hiszen ez a lépés nem a pontszámadásra szolgál, hanem arra, hogy kialakítsd a „alapértelmezett kimenetről” alkotott benyomásodat.
Az első képen legalább három dologra kell figyelni:
- A főtárgy helyes-e. A modell azt a főtárgyat ábrázolja, amit szerettél volna? Vagy eltér tőle (például a golden retrievert labradornak rajzolta)?
- **A fény iránya. ** A valós fényviszonyok megegyeznek-e az Ön leírásával? A „meleg délutáni fény” inkább lágy, irányított oldalsó fénynek kell lennie, nem pedig felülről érkező fénynek.
- Kompozíció. A téma beállítása megfelel-e az Ön elképzelésének? Vagy esetleg kínosan középen helyezkedik el?
Ha e három szempont közül bármelyik nem stimmel, akkor egyértelmű okod van a prompt módosítására – ahelyett, hogy vakon újra futtatnád.
5. lépés: Írjon egy optimalizált utasítást
Az alábbiakban bemutatjuk ugyanazon jelenet továbbfejlesztett változatát. A fő motívum és a megvilágítás koncepciója megegyezik, de a GPT Image 2-hez jobban illeszkedő szerkezetet alkalmaztunk:
A 3-month-old golden retriever puppy with fluffy fur and floppy ears, sitting upright in a
meadow of wild daisies and lavender. Warm late-afternoon sunlight streams from the left,
casting long gentle shadows and creating a soft golden rim light on the fur. Shallow depth
of field, background softly blurred with bokeh. Shot on an 85mm lens, eye level with the
puppy. Photorealistic, high detail, natural colors.(A kép leírása: Egy három hónapos golden retriever kölyökkutya, bolyhos szőrrel és lelógó fülekkel, egy vadvirágos és levendulás réten ül. A meleg délutáni napfény balról süt rá, hosszú, lágy árnyékot vetve, és arany színű kontúrt kölcsönözve a szőrzetnek. Kis mélységélesség, a háttér lágyan elmosódott, bokeh-hatással. 85 mm-es objektív, a kiskutyával egy magasságban. Realista stílus, nagy részletgazdagság, természetes színek.)
Az első kiadáshoz képest négy ponton változott:
- A főtárgy részletei konkrétabbak („három hónapos”, „bolyhos szőr”, „puha fülek”), így a modell pontosan meg tudja ragadni a képet.
- A fény iránya egyértelmű („balról”, „a kontúrt fény a szőrre esik”), nem csak „meleg” jelzővel írva.
- Objektív specifikációk („85 mm-es objektív”, „szemmagasságban a kiskutyával”) konkrét kompozíciós sablont adnak a modellnek.
- A minőséget leíró jelzők a végére kerülnek („realisztikus, nagy részletgazdagságú, természetes színek”) – rövidek, nem vonják el a figyelmet.
Kattints még egyszer a „Generate” gombra. A második kép már jobban hasonlít majd arra, amit elképzeltél. Ha még mindig nem az, ne írd át az egész szöveget – minden alkalommal csak egy változót módosíts, majd generáld újra és hasonlítsd össze az eredményeket, így tudhatod meg, melyik szó hatással van a végeredményre.
Egy hasznos gondolati modell: bontsuk a leírást négy „elemre” – alany, cselekvés, környezet, stílus. Minden alkalommal csak azt az elemet módosítsuk, amelyikkel probléma van. Ha a téma nem megfelelő, módosítsuk az alanyt; ha a megvilágítás nem megfelelő, módosítsuk a környezetet; ha rajzfilmszerű, de fotót szeretnénk, módosítsuk a stílust.
6. lépés: Mentés, letöltés vagy folytatás
Ha elégedett vagy a képekkel, az előnézet alatt található a letöltés gomb. Minden generálás automatikusan elmentésre kerül a fiókod előzményei közé, így visszanézheted a korábbi verziókat, lemásolhatod a korábbi promptokat, és folytathatod a fejlesztést. Ha később a képgenerátorban tovább szeretnéd szerkeszteni ezt a karaktert, egyszerűen válaszd ki ezt a képet az előzmények közül forrásképként.

Az imént végigjárt „megnyitás – szövegírás – értékelés – finomhangolás – újragenerálás” folyamat az egész szöveg-kép generálás munkaciklusát képezi. A cikk további részei mind azt mutatják be, hogyan lehet ezt a ciklust gyorsabban és kevesebb erőforrás felhasználásával végrehajtani.
Ha hosszú távon használod a GPT Image 2-t, javaslom, hogy készíts egy egyszerű szöveges fájlt, amelyben rögzíted az „hatékony promptokat”. Ne sablonokat, hanem a saját naplóbejegyzéseidet – minden alkalommal, amikor elégedett vagy a képekkel, illeszd be a teljes promptot egy új sorba, megjegyzésként. Fél év múlva ez a gyűjtemény jobban megfelel majd az ízlésednek, mint bármelyik internetes általános sablon.
2. módszer: Képből kép – meglévő fotók módosítása vagy stílusátvitel
Az image-to-image (rövidítve i2i) modell egy forrásképet vesz kiindulási pontként, megtartja a megőrzendő részeket, majd a megadott utasítások alapján átírja a többi részt. Ha olyan feladatot szeretnél megoldani, mint például „ugyanazon személy ruhaváltása”, „ugyanazon termék háttércseréje” vagy „ugyanazon kompozíció stílusváltása”, akkor ezt a modellt használd.
1. lépés: Váltson az „Image to Image” fülre
Térj vissza a főoldal-készítőhöz, és kattints az Image to Image gombra. A beviteli mező felett megjelenik egy fájlfeltöltő mező; a szövegmező továbbra is megmarad, és továbbra is legfeljebb 20 000 karaktert támogat, de most már a feltöltött képpel együttműködik.
A háttérben a gpt-image-2-image-to-image funkciót hívja meg, az ára megegyezik a szöveg-kép generálással: 12 pont/kép. Nincs külön „erősség” csúszka, a változás mértékét teljes mértékben a prompt megfogalmazása határozza meg.
Ha korábban már használtál más InPainting (maszkos javítás) eszközöket, akkor változtasd meg a gondolkodásmódodat: a GPT Image 2 nem maszk rajzolását kéri, hanem az egész forrásképet és a teljes utasítást együtt olvassa be, majd dönti el, mit módosítson. A valós igények 80%-ában (háttércsere, ruhacsere, nappalról éjszakára váltás) a puszta utasítás szerkesztése sokkal egyszerűbb.
2. lépés: A forráskép feltöltése
Húzza a JPG, PNG vagy WebP fájlt a feltöltési területre, vagy kattintson a „Fájl kiválasztása” gombra. Első próbálkozásként érdemes egy tiszta megvilágítású, egyszerű kompozíciójú fotót választani. A mozgás miatti elmosódás, a gyenge megvilágítás és a zavaros háttér több „szabad értelmezési” teret hagy a modellnek, ami viszont megnehezíti az előtte-utána összehasonlítást.
Az alábbi kép egy tipikus példa arra, amit egy kezdő felhasználó általában feltölt, amikor először próbálja ki az AI-eszközöket – egy egyszerű beltéri szelfi.

3. lépés: Először döntsd el: „kis javítás” vagy „átalakítás”?
Mielőtt megírnád a promptot, gondold át, milyen mértékű módosítást szeretnél. A képkészítés és a kép felülírása két teljesen eltérő célt szolgál, ezért a prompt megírásának módja is eltérő:
- Kis módosítás (Edit): A legtöbbet megtartom, csak egy elemet cserélek. „A ruhát sötétkékre cserélem.” „A kávéscsészét eltávolítom.” „A hátteret könyvespolcra cserélem.” "
- Átalakítás (Transform): Az identitás megmarad, a teljes jelenet átírásra kerül. „Ugyanaz a személy, hanfu ruhában áll a holdfényes palota teraszán.” „Ugyanaz a termék, márvány asztallappal és stúdióvilágítással.”
Minél teljesebb képet adsz az új jelenetről a leírásban, annál többet változtat a modell; ha csak egy tulajdonságot emelsz ki, a többi rész általában változatlan marad. Ez az a módszer, amellyel csúszka nélkül szabályozhatod a „változás mértékét”.
Példa: A „change the shirt to navy blue” (cseréld ki az inget sötétkékre) kifejezés szűk értelemben vett szerkesztésnek számít, mivel az arc, a frizura, a testtartás, a háttér és a megvilágítás változatlan marad. Ha ezt She is now wearing a tailored navy suit, standing in a glass-walled corporate office at golden hour (Most egy testre szabott sötétkék öltönyt visel, és egy üvegfalú vállalati irodában áll az aranyórában) formára cseréljük, akkor ez már egy átalakulás – az öltöny, a környezet és a fényviszonyok teljesen megváltoznak, csak az arc és az alak marad meg. Mindkét esetben egy mondatról van szó, a változás mértékét pedig az határozza meg, hogy hány új jelenetet írsz le.
4. lépés: Írj egy utasítást, amely megmondja a modellnek, hogy „mit tartson meg”
Az alábbiakban felsorolom azokat a kulcsszavakat, amelyeket a fenti forráskép alapján az „átalakulás” elkészítéséhez használtam:
Same woman — identical facial features and hair. Transform the scene: she now wears an
elaborate crimson-and-gold hanfu with intricate embroidery and a jeweled phoenix hairpin.
She stands on a moonlit palace terrace, red lanterns glowing softly in the background,
cherry blossom petals drifting in the air. Warm lantern light from the right, cool
moonlight fill from the left. Cinematic shallow depth of field, elegant composition, 4K
photorealistic.(Kínai jelentés: Ugyanaz a nő – arcvonásai és frizurája változatlanok maradtak. A jelenet átírása: Most pompás, vörös-arany színű hanfu-t visel, melyet bonyolult hímzések díszítenek, hajcsomójában pedig arany phoenix-tű van. A holdfényben áll a palota teraszán, háttérben lágy fényű vörös lámpások és szétperegő cseresznyevirág-szirmok. A jobb oldalon meleg tónusú lámpafény, a bal oldalon hideg tónusú holdfény tölti ki a képet. Mozis minőségű sekély mélységélesség, elegáns kompozíció, 4K-s valósághű felbontás.)
Két helyen ezt kifejezetten megemlítik:
- „Ugyanaz a nő – azonos arcvonások és haj.” Ez a mondat gyakorlatilag teljes mértékben biztosítja a karakter identitásának megőrzését. Ha ezt nem írjuk le, a modell véletlenszerűen eltérhet a kívánttól.
- A teljes új jelenet leírása. A ruházatot, a helyszínt, a kellékeket és a fény irányát is pontosan meg kell határozni. A modell a teljes környezetet újraépíti, ezért egy teljes utasítássorra van szüksége, nem pedig egyetlen címkére.
5. lépés: A létrehozás után hasonlítsuk össze az eredményt az eredetivel
A „Generate” gombra kattintva kapunk eredményeket. Amikor teszteltem, a kapott kép megőrizte a főszereplő felismerhető arcvonásait és frizuráját, minden egyéb elemet pedig a leírás alapján újrateremtett.

Nézd meg az előtte és utána lévő képeket együtt. Ha az arc túlzottan eltér, akkor a leírásba vegyél fel egy „same person” (ugyanaz a személy) kifejezést (például írd hozzá: „preserve exact face shape, same eyes, same nose, same lip shape” – az arcformát, a szemeket, az orrot és az ajkak formáját meg kell őrizni); ha a környezet nem változott eléggé, akkor adj hozzá több környezeti részletet. Ezek a rendelkezésedre álló beállítási lehetőségek.
6. lépés: Az oldal elhagyása nélkül, a kimenetet közvetlenül a következő bemenetként használja
A Tusheng Tusheng legnagyobb előnye, hogy az iménti kimenet máris felhasználható a következő szerkesztéshez. Csak kattints az „Új bemenetként használás” gombra, majd írd be az új leírást (például: „Ugyanaz a jelenet, de hajnalban” vagy „Ugyanaz a póz, de a kezében egy legyezővel”). A kis lépésekkel, folyamatos szerkesztéssel létrehozott végső kép szinte mindig tisztább lesz, mint egy olyan túl hosszú leírás, amely egyszerre próbál mindent megoldani.
A „láncszerű szerkesztés” az egyik legértékesebb munkafolyamat-tipp ebben a cikkben. A kezdők gyakori hibája: megírnak egy 300 szavas, mindent magába foglaló leírást, majd nyolcszor újraindítják a generálást, de még mindig nem jön ki jól. A profik több lépésben dolgoznak: először a karaktert alakítják ki, majd az előző lépés eredményét alapul véve kidolgozzák a ruházatot, a környezetet és a megvilágítást. Minden kör 12 pontot ér, négy kör összesen 48 pontot – ez sokkal tisztább eredményt ad, mint ha egyszerre tízszer próbálnánk újra.

Tippek és trükkök, amelyekkel valóban jobb képeket kaphatunk
Most már ismered a teljes munkafolyamatot. Az első napon regisztrált új felhasználók és azok között, akik a GPT Image 2 segítségével tudnak portfóliót készíteni, a különbség nem valami titkos kulcsszóban rejlik, hanem abban, hogy tudják, melyik trükkök működnek valóban. Az alábbi kilenc tipp az, amelyek a gyakorlatban a legjobb megtérülést nyújtják.
1. tipp: A főszót helyezd az elejére, a minőségi szót pedig a végére
A leírás elején írja le, hogy „ki/mi látható a képen”, a photorealistic, cinematic, 4K, high detail és hasonló képminőségre utaló kifejezéseket pedig helyezze a végére. A modell a leírást elölről hátrafelé olvassa, így az elején szereplő tárgy kapja a legnagyobb súlyozást, míg a hét minőségi címke mögé rejtett tárgyak hatása elhalványul.
Gyengébb: Hiperrealisztikus, 4K-felbontású, filmminőségű, rendkívül részletgazdag, ultra-HD fotó egy ablakpárkányon ülő macskáról
Erőteljes: Egy fekete-fehér szmokingos macska ül egy fa ablakpárkányon, és az esős városi utcát figyeli odakint. Lágy, szórt fény árad be az ablakon, a mélységélesség csekély. Fotórealisztikus, filmszerű.
2. tipp: Írj a „fény irányáról”, ne a „fény hangulatáról”
A „gyönyörű megvilágítás” kifejezés szinte semmit sem mond. Csak a „meleg naplemente-fény balról, hosszú árnyékok jobbra” leírás jelzi a modellnek, hogy az egyes árnyékok hova essenek. Az irányított, megnevezett fényforrások (például „ablakfény”, „keretfény”, „fentről érkező softbox”, „hátulról érkező neon kitöltő fény”) a legkevesebb szóval a képminőséget leginkább javító eszközök közé tartoznak.
3. tipp: Ha a kompozíciót fotós szakszavakkal írjuk le, a kép valósághűsége azonnal javul
Ha valósághű képeket szeretnél készíteni, vedd át a fotósok szókincsét. A gyújtótávolságok (35 mm, 50 mm, 85 mm, 135 mm), a mélységélességre utaló kifejezések (shallow depth of field, deep focus) és a felvételi szögek (eye level, low angle, overhead) kombinálásával a modell egy konkrét kompozíciós sablonhoz juthat. Az angol Wikipédia Camera lens cikke egy remek forrás, amelyet 10 perc alatt elolvashat, és segít a fókusztávolság tudatos kiválasztásában.
4. tipp: A stílust „műfaj” alapján írja le, ne pedig „művésznév” alapján
A „valamely festő stílusában” típusú leírás egyrészt bizonytalan, másrészt tulajdonjogi vitákat is felvethet. Biztonságosabb megoldás a médium leírása: olajfestmény látható ecsetvonásokkal, ceruzavázlat keresztvonásokkal, vintage Kodachrome filmhatás szemcsés textúrával, tiszta vektoros illusztráció lapos színekkel. Így megadjuk az esztétikai irányt, anélkül, hogy egy adott személytől függnénk.
5. tipp: A „negatív korlátozás” helyett használjon „pozitív leírást”
A GPT Image 2-ben nincs külön mező a tiltó kifejezések megadására. Ha el szeretnél kerülni bizonyos elemeket, a legjobb módszer az, ha pontosan leírod, mit szeretnél. Ahelyett, hogy azt írnád, hogy „nincs ember, nincs szöveg, nincs rendetlenség”, inkább írd le így: „egy üres szoba tiszta falakkal, minimalista kompozícióval, egyetlen növény a sarokban”. A pozitív leírás sokkal megbízhatóbb, mint a tiltó megfogalmazás.
6. tipp: A képalkotáshoz először rögzítsd a szereplőket, majd írd át a jelenetet
Ha „ruha- vagy helyszínváltást” végzünk, és szeretnénk, hogy az arcvonások változatlanok maradjanak, akkor a parancs első mondata a legfontosabb. Ha az elejére írjuk, hogy „Ugyanaz a személy – őrizzük meg az arcvonásokat, a hajszínt és a bőrszínt”, az hatékonyabb, mint bármilyen későbbi, mégoly szép helyszínleírás. Ha az identitást még szigorúbban kell megőrizni, akkor egészítsük ki azzal, hogy „ugyanaz a szemforma, ugyanaz az orr, ugyanazok az ajkak”. A kifejezett utasítás hatékonyabb, mint a burkolt.
7. tipp: Apró lépésekben fejlesztés, ne pedig teljes szakaszok átírása
Egyszerre csak egy változót módosíts. Ha a testtartás helyes, de a ruházat nem, akkor csak a ruházattal kapcsolatos részt módosítsd; ha a megvilágítás nem megfelelő, de minden más rendben van, akkor csak a megvilágítással kapcsolatos részt módosítsd. Csak így alakíthatsz ki egy valóban ellenőrizhető visszacsatolási hurkot, és tudhatod meg, hogy melyik szó mit változtatott meg. Az egész szakasz átírása tönkretenné ezt a jelzést, és pontokat veszítenél.
8. tipp: Írja meg a kulcsszavakat a „modellnek elsősorban figyelnie kell” sorrendben
Helyezd a legfontosabb elemeket az elejére: alany → cselekvés → környezet → stílus. Ha így írod: „olajfestmény stílusában egy vörös ruhás nő sétál alkonyatkor egy macskaköves utcán”, akkor azt mondod a modellnek, hogy „ez elsősorban egy olajfestmény”, a többi csak kiegészítés. Ha ezt így fogalmazod: „Egy piros ruhás nő sétál egy macskaköves utcán alkonyatkor, olajfestményként ábrázolva”, a modell először a fő témát hallja, és csak utoljára a médiumot. Az információmennyiség ugyanaz, de az utóbbi esetben a kép általában lényegesen pontosabb lesz.
9. tipp: Használja azokat a kifejezéseket, amelyeket a fotósok és a rendezők ténylegesen használnak
Dutch angle (holland szög), rack focus (fókuszváltás), golden hour (aranyóra), overcast daylight (borult napfény), softbox (softbox), gobo shadow (gobo árnyék), hero shot (hősfelvétel), two-shot (kétfigurás felvétel), negative space (negatív tér) – ezeknek a kifejezéseknek a fotózásban és a filmkészítésben egyértelmű jelentése van, és a képzési adathalmazban rengeteg képhez társítják őket. A homályos érzelmi kifejezések (vibey, dreamy, epic) sokkal gyengébb jelzést jelentenek a modell számára. Az angol Wikipédia Shot (filmmaking) cikke egy jó 15 perces szótár.
A kezdők leggyakoribb hibái és azok kijavítása
Őszintén szólva, az alábbi hibákat én is mind elkövettem. Valószínűleg te is el fogod követni őket, de legalább hamarabb felismered majd őket.
1. hiba: 400 karakteres leírást írni, és azt remélni, hogy egyből kész lesz a végleges változat. A képalkotó modellek jobban boldogulnak a „szűk, iterálható” leírásokkal, mint a „hatalmas, egy lépésben elkészülő” leírásokkal. A 20 000 karakteres felső határ nem cél. A GPT Image 2-n kapott legkielégítőbb eredményeim esetében a leírások többsége 40 és 120 szó között volt.
2. hiba: Ismételt futtatás változatlan prompt mellett. Ugyanazon prompttal kétszer elindított generálás után mindkét alkalommal „majdnem kész” eredményt kapunk, harmadik alkalommal pedig továbbra is „majdnem kész”. A véletlenszerűség csak egy szűk tartományon belül keresgél; ha a tartomány iránya rossz, akkor hiába futtatjuk újra többször is, nem lehet megmenteni a helyzetet – a promptot kell módosítani.
3. hiba: Ellentmondás a leírásban. Ugyanazon bejegyzésben egyszerre szerepel a „soft dreamy watercolor” (lágy, álomszerű akvarell) és az „ultra-sharp photorealistic 4K” (rendkívül éles, fotórealisztikus 4K) kifejezés, ami ellentmondásos. A modell vagy az egyiket választja, vagy ami még rosszabb: átlagolja a kettőt. Gondold át alaposan, mielőtt leírod!
4. hiba: Túlzott elvárások a képen megjelenő szöveggel kapcsolatban. 2026 áprilisában az AI-képalkotó modellek még mindig nem képesek megbízhatóan megjeleníteni a hosszú szövegrészeket, különösen a nem latin betűket. A rövid feliratok néha sikerülnek, de a bekezdésnyi szövegek ritkán. Ha a szöveg a legfontosabb információ, akkor a kimenet után egyszerűen illesszünk rá egy réteget bármilyen képszerkesztő programmal.
5. hiba: Homályos forráskép feltöltése a képkészítéshez. A modell a forráskép részletességi szintjét veszi alapul. Ha egy homályos, gyenge megvilágítású mobiltelefonos fotót töltesz fel, akkor a kimenet – függetlenül attól, hogy a leírásban mennyire hangsúlyozod az „éles és tiszta” kifejezést – megőrzi azt a homályos hatást. Ha lehet, mindig válassz éles forrásképet.
6. hiba: Ne helyezd a hangsúlyt a kézre. A kéz továbbra is a képalkotás leggyakoribb hibaforrása. Ha a kompozícióban feltétlenül ki kell emelni a kezet, akkor számolj azzal, hogy többször át kell dolgoznod a képet; ha viszont nem ez a középpont, akkor hagyd, hogy a kéz kikerüljön a képből, vagy természetesen lógjon le.
7. hiba: A képgenerálás feltöltési szakaszában figyelmen kívül hagyják az arányokat. A képgenerálás kimenete általában a forráskép arányait követi. Ha széles képet szeretnél, de egy álló formátumú szelfit töltesz fel, az olyan, mintha a rendszerrel szembemennél. A generálás előtt vágd le a forrásképet a kívánt arányra.
8. hiba: Az „első, elégséges képet” végleges változatnak tekinteni. A tapasztalt felhasználók a „megfelelő” eredményt a következő lépés kiindulópontjának tekintik. A „megfelelő” és a „portfólióba illő” szint közötti különbség általában a harmadik próbálkozásnál jelentkezik, nem pedig az elsőnél.
9. hiba: Elfelejti, hogy a modellnek nincs memóriája a két generálás között. Hacsak nem használja a „képből kép” funkciót, amely az előző kimenetet használja forrásképként, minden generálás teljesen új. Ha újra szeretné használni a korábbi karaktert, mentse el az eredeti promptot, vagy közvetlenül az előző képet használja láncszerű szerkesztéshez.
Hogyan működik a GPT Image 2 belsőleg (rövid összefoglaló)
Ez a szakasz nem kötelező, de segít abban, hogy reális elvárásokat támaszthass. A GPT Image 2 egy egyszerűsített felhasználói felület, amely közvetlenül hívja meg a KIE gpt-image-2-text-to-image és gpt-image-2-image-to-image modelljeit – ezek a diffúziós modellek családjába tartoznak, és utasításkövetésre, valamint nagy pontosságú, valósághű ábrázolásra vannak optimalizálva. Minden kérésnél hitelesítés történik, 12 pont kerül felszámításra, a kérés sorba kerül, majd a rendszer visszaadja a kép URL-jét.
A felületen szinte egyáltalán nincsenek csúszkák, és ez szándékos: a KIE API maga nem teszi elérhetővé ezeket a vezérlőelemeket, a felső rétegbe beépített „álcsúszkák” pedig csak félrevezetnék a felhasználót. A modell által elvégezhető összes művelet a promptokon keresztül valósul meg. Ha mélyebben szeretné megérteni az elveket, olvassa el a Wikipédiát Diffusion model és az OpenAI kutatási oldalát.
A GPT Image 2-nek is vannak hiányosságai
Ha csak a jó oldalát emeljük ki, és a rosszat nem említjük, az már nem is oktatóanyag. Az alábbiakban felsoroljuk a GPT Image 2 – sőt, valójában az összes jelenlegi mainstream képalkotó modell – közös gyengeségeit:
- A márkaelemek pontos visszaadása. A logó, a licencelt karakterek és a termékcsomagolás nem reprodukálhatók megbízhatóan. A helyes módszer az, hogy először elkészítjük a kompozíciót, majd ráillesztjük a valódi logót.
- **A referenciák szigorú konzisztenciája. ** Ha egy karakternek több tucat képkockán (például egy képregény-sorozatban) teljesen azonosnak kell lennie, a kép-kép generálás már sokkal jobb megoldás, mint a szöveg-kép generálás, de még mindig nem olyan pontos, mint a LoRA vagy a 3D-s karakter-binding használata, amely minden egyes képkockán pontos.
- Anatómia szélsőséges testhelyzetekben. Az ujjak, a lábak, a fogak, a fülek és a keresztezett végtagok azok a részek, amelyeknél a legkönnyebben eltorzul a forma. Minél közelebb van a kamera, annál szembetűnőbbek a hibák.
- Tökéletes kompozíció. Már említettük a fenti szövegben – ez továbbra is igaz.
Még két őszinte megjegyzés: Először is, a generatív modellekben eleve benne van a mintavételi véletlenszerűség – ugyanaz a prompt minden alkalommal más eredményt ad; a sokszínűség előny, a konzisztencia pedig hátrány, utóbbit pedig a kép-kép láncszerű szerkesztéssel lehet enyhíteni. Másodszor, a modell a képzési adatok eloszlását tükrözi, így a kevésbé ismert kulturális kontextusok esetében nehezebb elsőre pontos eredményt kapni, mint a népszerű témáknál; több iterációra kell számítani.
Az igazán hatékony AI-alapú képkészítési munkafolyamat nem az, hogy „egy modell mindent megold”, hanem az, hogy „a GPT Image 2 a képek 80%-át elkészíti, az alapvető szerkesztő pedig a maradék 20%-ot kézzel finomítja”.
Egyoldalas áttekintés: a teljes folyamat
Ha csak a képernyő mellé szeretnéd kitenni, hogy egy pillantásra áttekinthető legyen:
- Nyissa meg a GPT Image 2 kezdőlapját, és jelentkezzen be.
- Ellenőrizze, hogy a fiókjában legalább 12 pont van-e.
- Válassza ki a címkét: Text to Image vagy Image to Image.
- Képből kép: Töltsön fel egy tiszta forrásképet.
- Először írjon egy rövid, konkrét utasítást. Először a fő téma, utána a minőségi szavak.
- Generálás. Három szempontból értékelje a képet: fő téma, fényviszonyok, kompozíció.
- Csak egy változót módosítson, generáljon újra, és hasonlítsa össze az eredményeket.
- Ismételje meg a 6–7. lépéseket, amíg elégedett az eredménnyel.
- Töltse le a képet.
Ennyi lenne. A cikkben szereplő összes gyorsbillentyű, trükk és tapasztalt felhasználók szokása e kilenc lépés valamelyikének variációja.
Még egy apró tipp: először írd meg a promptot egy szövegszerkesztőben, majd illeszd be a generátorba. Így könnyebben nyomon követheted a korábbi verziókat, átrendezheted a mondatsorrendet, és újra felhasználhatod az olyan sablonokat, mint például a „Same person — preserve facial features…”. Ha elégedett vagy a képekkel, írd vissza a végleges változatot a promptnaplóba. Ez a kis plusz lépés megakadályozza, hogy a legjobb promptok elvesznek a böngésző frissítésekor.
Gyakran ismételt kérdések
Hány pontot ér egy-egy kép a GPT Image 2-ben?
Akár szövegből kép, akár képből kép készítésről van szó, az ár mindkét esetben 12 pont/kép. Nincs külön díj „hosszabb leírás”, „nagyobb kimeneti méret” vagy „magasabb képminőségi szint” esetén – ezek az opciók eleve nem is léteznek. A pontokat a weboldalon elérhető csomagokban lehet megvásárolni, az új fiókokhoz pedig automatikusan próba pontok kerülnek jóváírásra.
A GPT Image 2 használatához szükséges-e valamit telepíteni?
Nincs rá szükség. Minden a böngészőben zajlik. Nincs asztali alkalmazás, nincs böngészőbővítmény, és a webes felülethez sem kell API-kulcsot igényelni. Csak egy modern böngészőre és egy e-mail fiókra van szükséged.
Milyen hosszú lehet a leghosszabb kulcsszó?
A szövegből kép és a képből kép generáláshoz használt promptok mindegyike legfeljebb 20 000 karakter hosszúságú lehet. Ugyanakkor a gyakorlatban a leghatékonyabb promptok többsége 40 és 200 szó között mozog. A túl hosszú promptok könnyen elmoshatják a jeleket, sőt ellentmondásokat is okozhatnak; a jól felépített, rövid promptok általában eredményesebbek.
Több referencia képet is feltölthetek egyszerre?
A „képből kép” mód egyszerre csak egy forrásképet támogat. Ha több referenciát szeretnél ötvözni (például „ez a karakter + ez a ruhastílus”), akkor láncszerű generálást alkalmazhatsz: először készíts egy köztes képet, majd azt használd a következő lépés forrásképeként, és új leírással folytasd a módosítást. A láncszerű szerkesztés gyakran tisztább eredményt ad, mint egy bonyolult leírás alapján készült kép.
A GPT Image 2 támogatja a megadott felbontást vagy képarányt?
Jelenleg az árképzés egységes, és a KIE API maga sem kínál a felhasználók számára méretarány- vagy felbontás-beállítási lehetőséget. A képből kép generálás kimenete általában a forráskép alakját követi – ezért ha konkrét méretarányra van szükség, először a forrásképet kell kivágni, majd újra generálni.
A generált képek kereskedelmi célokra is felhasználhatók?
A felhasználási jogokra a webhely láblécében található felhasználási feltételek vonatkoznak; kérjük, ezeket tekintsék végleges irányadónak. A gyakorlatban 2026-ig a felhasználók többsége marketinganyagok, közösségi média-tartalmak, prototípusok és személyes alkotások készítéséhez használja a képeket. Mielőtt egy képet bevételt generáló termékben felhasználná, kérjük, olvassa el az akkor hatályos feltételeket.
Hogyan lehet ugyanazt a karaktert több képen is egységesen ábrázolni?
Használjuk a képből kép funkciót, és a prompt elejére írjuk be egyértelműen az identitásmegőrzési feltételt („Ugyanaz a személy – az arcvonások, a hajszín és a bőrszín megőrzése”). Ezután minden kimenetet használjunk a következő kép forrásképeként, és új jelenetleírással folytassuk a generálást. Ez a módszer nem olyan pontos, mint a kifejezetten erre a célra betanított karakter-LoRA, de messze jobb, mintha minden alkalommal a szövegből kép generálással kezdenénk elölről.
Hogyan lehet a leggyorsabban megtanulni a GPT Image 2 használatát?
Az első 12–20 generálás során egyszerű szöveg-kép generálási promptokat használjunk, hogy alaposan megismerjük a modell „alapértelmezett viselkedését”; ezt követően térjünk át a kép-kép generálásra, egy üres kiinduló képből indulva. Ha a fenti oldalon található gyors útmutatót követjük, a legtöbb felhasználó körülbelül egy óra szorgalmas gyakorlás után már viszonylag magabiztosan boldogulhat.
Miért nem hasonlít az eredményem egyáltalán a megadott kulcsszóra?
Három gyakori ok: először is, a minőségi jelzők az elején, a főtartalom pedig a végén szerepel – helyezzük a főtartalmat az elejére; másodszor, a leíró szavak egymásnak ellentmondanak (például a „watercolor” és a „photorealistic” egymás mellett szerepelnek) – válasszon ki egy médiumot; harmadszor, csak hangulati szavakat használ („gyönyörű”, „lenyűgöző”), konkrét nevek nélkül – egészítse ki konkrét tárgyakkal, a fény irányával, a kamera nyelvével.
Készen állsz a kezdésre?
Mostanra már megvan a teljes munkafolyamat, a használható prompt-sablonok, a kerülendő buktatók, valamint az egyoldalas gyorsreferencia. Már csak egy dolog maradt: nyisd meg a generátort, és használd fel az első 100 pontodat arra, hogy kiderítsd, „melyik prompt tetszik neked”. Ezt a lépést senki sem teheti meg helyetted.
Nyisd meg a GPT Image 2 alkalmazást, és készítsd el az első képedet →
Ha tovább szeretne olvasni:
- Mi az a GPT Image 2? Funkciók, árak és felhasználási példák
- GPT Image 2 prompt-útmutató: Írjon valóban használható promptokat
- GPT Image 2 vs Sora: képalkotási képességek összehasonlítása
- Próbálja ki először a beépített kép-prompt generátort, amely egy egyszerű ötletből automatikusan teljes promptot ír.
- Vagy lépjen közvetlenül a Text to Image vagy a Image to Image egyedi módok oldalára.
Ezt a cikket a GPT Image 2 Team tette közzé. 2026 áprilisától mindkét modell esetében egységesen 12 pont/kép az ár. Amennyiben a jövőben változás történik, frissítjük ezt a cikket, és ezt a frissítési naplóban is feltüntetjük.

