Przewodnik po promptach dla GPT Image 2: ponad 50 praktycznych szablonów (2026)

TL;DR

Skuteczna instrukcja dla modelu GPT Image 2 to nie jedno zdanie, lecz zbiór decyzji: temat, sceneria, styl, ujęcie, oświetlenie, nastrój. W tym przewodniku znajdziesz ponad 50 gotowych szablonów instrukcji, które można od razu skopiować. Obejmują one pięć głównych kategorii: styl filmowy, portrety, akcję, przyrodę i fantastykę. Dołączono do nich również listę wskazówek dotyczących poprawiania nieudanych wyników oraz opis wydajnego procesu iteracyjnego. Wszystkie przykładowe obrazy w tym artykule zostały wygenerowane przy użyciu tego samego modelu KIE gpt-image-2-text-to-image, przy czym każdy obraz kosztował 12 kredytów, a długość podpowiedzi była ograniczona do 20 000 znaków. Wypróbuj GPT Image 2 za darmo →

Jak zbudowana jest dobra fraza kluczowa

Większość ludzi od razu zaczyna od tego, „czego chcę”. Natomiast ci, którzy potrafią stworzyć naprawdę dobre zdjęcia, opisują „co widzi obiektyw”. To właśnie cała tajemnica.

Po przeprowadzeniu kilku tysięcy testów na interfejsie KIE gpt-image-2-text-to-image opracowaliśmy zestaw formuł ośmiu slotów, który obejmuje niemal wszystkie scenariusze. Wypełnienie sześciu z ośmiu slotów zapewnia już wynik powyżej średniej, a wypełnienie wszystkich pozwala osiągnąć poziom filmów komercyjnych.

Wzór:

[Podmiot] + [Czynność/pozycja] + [Scena] + [Styl/inspiracja] + [Ujęcie/kompozycja] + [Oświetlenie] + [Nastrój/tonacja] + [Retusz obrazu]

Każde miejsce w tablicy pamięci pozwala modelowi jednoznacznie określić odpowiedź na pytanie, które w innym przypadku musiałby „odgadnąć”:

Podmiot — kto lub co znajduje się na kadrze. „Rudowłosa bibliotekarka” jest dziesięć razy lepsza niż „kobieta”.
Ruch/pozycja — co dana postać właśnie robi. Czasownik decyduje o kompozycji.
Sceneria — otaczający świat. Określ kraj, epokę, porę dnia.
Styl/odniesienia — „film noir”, „animacja na poziomie produkcji Ufotable”, „symetryczna kompozycja Wesa Andersona”, „styl reklam Fenty Beauty”. Odwołuj się do znanego języka wizualnego, zamiast gromadzić bezsensowne przymiotniki.
Ujęcie/kompozycja — „ „ekstremalny zbliżenie”, „szeroki kąt z niskiej perspektywy”, „obiektyw portretowy 85 mm, f/1.4”, „obiektyw panoramiczny”. To klucz do przekształcenia migawki w kadr filmowy.
Oświetlenie——„światło z krawędzi złotej godziny”, „pojedyncze światło Rembrandta”, „odbicie neonów na mokrej nawierzchni”. Oświetlenie stanowi około 60% wrażenia, jakie wywiera zdjęcie.
Nastrój/tonacja——„Zderzenie chłodnego błękitu z ciepłą pomarańczą”, „Ciepły bursztyn pogłębiający cienie”, „Nasycona, melancholijna tonacja”.
Poprawki jakości obrazu——„hiperrealistyczne 4K”, „ziarnistość kliszy”, „modowe ujęcia”. Trzymaj się zwięzłości, najtrudniejsza praca została już wykonana.

Podstawy a optymalizacja – dwa etapy porównania tego samego tematu

Podstawowy efekt wygenerowany na podstawie podpowiedzi GPT Image 2; kompozycja jest nudna, a oświetlenie jednolite — Podstawowy opis: „Kobieta stojąca w pokoju”. Niewyraźny obiekt, słabe oświetlenie, brak kompozycji – modelka nie ma żadnych punktów odniesienia.

Oryginalnym opisem odpowiadającym powyższemu obrazkowi jest:

A woman standing in a room.

Teraz przepiszmy „tę samą koncepcję” przy użyciu wzoru na osiem gniazd:

A breathtaking young woman with flowing auburn hair stands in a luxurious Art Deco penthouse at golden hour. She wears a champagne-colored satin slip dress that catches the warm light. Floor-to-ceiling windows behind her show a panoramic city sunset. Dramatic side lighting creates deep shadows and golden highlights on her face and bare arms. The composition follows the rule of thirds. Cinematic depth of field with gorgeous city bokeh. Fashion editorial quality. Ultra-realistic 4K.

Komentarz w języku chińskim: W apartamencie na najwyższym piętrze urządzonym w stylu art déco kobieta o długich włosach stoi przy oknie sięgającym podłogi, a światło padające z boku o złotej porze dnia podkreśla kontury jej twarzy i ramion.

Efekty generowania obrazów przy użyciu podpowiedzi GPT Image 2 zoptymalizowanej za pomocą pełnej formuły ośmiu slotów — Słowa kluczowe po optymalizacji formuły ośmiu pól. Ta sama koncepcja główna, ale wszystkie niejasności zostały wyeliminowane.

Uwaga: Wersja zoptymalizowana nie polega na dodaniu większej liczby przymiotników, ale na zmniejszeniu zakresu tego, co model musi sam odgadnąć. GPT Image 2 opiera się na modelu dyfuzyjnym opartym na transformatorze (zobacz wyjaśnienie Wikipedii dotyczące modeli dyfuzyjnych), a każdy szczegół, którego nie podałeś, model uzupełnia na podstawie swojej „wartości średniej a priori”. Jeśli nie wspomnisz o „złotej godzinie”, model domyślnie wygeneruje światło charakterystyczne dla pochmurnego wtorkowego popołudnia o godz. 14:00.

Na koniec jeszcze jedna ciekawostka: maksymalna długość podpowiedzi w GPT Image 2 wynosi 20 000 znaków – czyli około 3000 angielskich słów. W zwykłych sytuacjach nie wykorzystuje się nawet w przybliżeniu tej liczby, ale w przypadku złożonych scen z wieloma postaciami lub szczegółowych schematów koncepcyjnych ten limit oznacza, że można bardzo precyzyjnie dopracować kompozycję. W sekcji 11 pokażemy, jak korzystać z długich podpowiedzi.

Biblioteka słów kluczowych: Sceny w stylu filmowym

Sceny w stylu filmowym to najłatwiejsza do uchwycenia kategoria, ponieważ historia kina zgromadziła już stuletni zasób środków wyrazu wizualnego. Wystarczy podać gatunek, epokę i ujęcie, a model wygeneruje dla Ciebie całkiem przyzwoity kadr.

Obraz wygenerowany przez GPT Image 2 na podstawie podpowiedzi w stylu filmu noir: Kobieta w czerwonej sukience w zaułku Hongkongu po deszczu — Hongkońskie zaułki w stylu nowego filmu noir. Kontrastujące odcienie zieleni i czerwieni oraz ujęcia w formacie panoramicznym tworzą większość atmosfery.

1. Nowe czarne zaułki Hongkongu

Film noir cinematic shot. A dangerously beautiful femme fatale in a curve-hugging red silk dress with a thigh-high slit, walking through a rain-soaked Hong Kong back alley at night. Neon signs in Chinese characters reflect red and blue on the wet cobblestones. She carries a black umbrella over one shoulder, her red-painted lips the only warm color against the cold teal lighting. Smoke wisps from a nearby vent. Anamorphic lens, shallow depth of field, cinematic grain. Ultra-realistic 4K noir film frame.

Komentarz w języku chińskim: Deszczowa noc w zaułku Hongkongu; kobieta w czerwonej sukience przechodzi z parasolką po brukowanej uliczce, na której odbijają się światła neonów.

2. Bar jazzowy Rembrandt Light

Moody jazz bar interior. A mysterious woman in a sheer black lace dress sits on a velvet barstool, one leg crossed showing stiletto heels. Cigarette smoke curls around her silhouette. Warm amber spotlight from above illuminates her face and exposed collarbones while the rest fades into deep shadow. A saxophone player is a blurred silhouette in the background. Film noir meets modern luxury aesthetic. Dramatic Rembrandt lighting, 35mm film look. Ultra-realistic 4K.

Komentarz w języku chińskim: Kobieta w czarnej koronce w barze jazzowym; pojedyncze światło z góry w połączeniu z dymem tworzy dramatyczne oświetlenie w stylu Rembrandta.

3. Dach z filmu „Łowca androidów”

Cyberpunk cinematic wide shot. A lone detective in a wet black trench coat stands on a neon-drenched Tokyo rooftop at 3am. Giant holographic advertisements of a geisha float across the skyline behind him, casting shifting pink and cyan light on his face. Light rain catches the glow. Flying cars streak past as horizontal light trails. Shot on anamorphic lens, 2.39:1 aspect, shallow depth of field. Blade Runner 2049 color grade — teal shadows, orange highlights. Ultra-realistic 4K cinematic frame.

Komentarz w języku chińskim: Na dachu cyberpunkowego Tokio detektywa otacza dwukolorowa poświata – niebieska i różowa – rzucana przez holograficzną reklamę gejszy.

4. Symetryczny hol Wes'a Andersona

Wes Anderson style cinematic composition. A 1960s hotel concierge in a burgundy uniform stands dead-center in a pastel-pink Art Deco lobby, flanked by perfectly symmetrical potted palms and brass sconces. Flat front-on framing, everything on center axis. Soft fluorescent overhead lighting. Pastel pink and mint green color palette. 35mm film look. Ultra-detailed 4K.

Komentarz w języku chińskim: Różowy hol hotelowy w stylu art déco, kompozycja symetryczna, konsjerż stoi pośrodku kadru.

5. Starcie w kuchni w koreańskim filmie kryminalnym

Cinematic still from a modern Korean crime thriller. Two men face each other across a small Seoul apartment kitchen at 2am, both holding knives but frozen in a tense moment. Single fluorescent tube overhead casts hard green-tinted light and harsh shadows. Steam rises from an abandoned pot on the stove. Tight composition, 40mm lens, handheld feel. Bong Joon-ho style. Ultra-realistic 4K.

Komentarz w języku chińskim: O drugiej w nocy w kuchni w Seulu dochodzi do konfrontacji między dwojgiem ludzi; zimne, zielonkawe światło jarzeniówek + ujęcie z ręki.

Kobieta w barze jazzowym w świetle Rembrandta – obraz wygenerowany na podstawie podpowiedzi GPT Image 2 — Pojedynczy reflektor punktowy w połączeniu z dymem nadającym scenie objętości to niemal uniwersalny sposób na uzyskanie kinowego efektu.

6. Epicka opowieść o pustyni Villeneuve

Epic cinematic wide shot in Denis Villeneuve style. A lone hooded figure in flowing desert robes walks across a vast orange sand dune at sunset. The sun is enormous on the horizon, casting elongated shadows. Scale is extreme — the figure is tiny, the landscape overwhelming. Dust kicks up in the wind. Warm amber palette with deep violet shadows. Shot on 65mm, ultra-wide aspect. Ultra-realistic 4K cinematic quality.

Komentarz w języku chińskim: Szeroki kadr w stylu Villeneuve’a, przedstawiający postacie jako maleńkie w porównaniu z przytłaczającym krajobrazem.

7. Kawiarnia Francuskiej Nowej Fali

Black and white French New Wave cinematic still. A young woman in a striped Breton shirt and dark bob haircut smokes at a Paris cafe table in 1962. She looks off-camera with soft intensity. Natural window light, high contrast, slightly overexposed highlights. Film grain visible. Godard aesthetic. 35mm monochrome, 50mm lens. Ultra-detailed.

Opis w języku chińskim: Kobieta z krótką fryzurą w paryskiej kawiarni z 1962 roku, czarno-białe zdjęcie w stylu francuskiej nowej fali.

8. Korytarz horroru w stylu włoskiego giallo

Cinematic horror frame in the style of a 1970s Italian giallo. A woman in a white nightgown stands at the end of a long Victorian hallway lit only by flickering red lamplight. Her back is turned. Shadow stretches toward the camera. Wallpaper is blood-red damask. Shallow depth of field, 28mm lens slightly distorted. Grainy film look. Deep red and black color story. Ultra-detailed 4K.

Komentarz w języku chińskim: Styl włoskiego giallo z lat 70., sylwetka kobiety w białej sukience na końcu krwistoczerwonego korytarza.

9. Neonowa noc w Miami

1980s Miami Vice cinematic shot. A woman in a white linen blazer drives a red convertible at night through downtown Miami. Palm trees and neon motel signs blur past. She looks at the camera with sunglasses reflecting the pink and turquoise glow of the city. Lens flare, soft film grain. Teal and magenta color grade. Ultra-realistic 4K.

Komentarz w języku chińskim: Nocny widok Miami z lat 80., czerwony kabriolet i odbicie neonów w okularach przeciwsłonecznych.

10. Film aktorski na podstawie filmów studia Ghibli

Cinematic still styled as a live-action Studio Ghibli adaptation. A young woman in a simple blue linen dress stands in a vast green hillside field, wind blowing her hair and skirt. Fluffy white clouds race overhead. Soft golden hour light. Warm, painterly color grading with gentle film grain. Wide lens, low-angle composition making her heroic against the sky. Ultra-detailed 4K.

Komentarz w języku chińskim: Scena na zboczu wzgórza w stylu studia Ghibli, uchwycona z niskiego kąta, z widokiem na linię horyzontu.

Biblioteka słów kluczowych: portrety i makijaż

O sukcesie lub porażce zdjęcia portretowego decydują tylko trzy czynniki: obiektyw, kierunek światła i faktura skóry. Podanie informacji takich jak „85 mm f/1,4”, „lampy pierścieniowe” lub „box rozpraszający z lewej strony aparatu” pozwoli Ci od razu pominąć trzy rundy bezowocnych prób.

Zbliżenie na wilgotną skórę w świetle lampy pierścieniowej – przykładowy opis obrazu GPT Image 2 — Portret makro w stylu reklam kosmetycznych. To właśnie zdanie „85 mm makro, f/1,4” jest prawdziwym powodem, dla którego skóra zyskuje taką fakturę.

11. Makrofotografia w stylu Fenty Beauty

Extreme close-up beauty portrait. A stunning model with wet dewy skin and tousled damp hair, bare shoulders glistening. Water droplets on her face and neck catch the light of a ring light. Flawless skin texture in macro detail — every pore, every water droplet razor sharp. Smoky eye makeup with subtle gold shimmer. Lips slightly parted, intense gaze at camera. Dark background. Fenty Beauty campaign aesthetic. 85mm macro lens, f/1.4, ultra-shallow depth of field. Ultra-realistic 4K.

Komentarz w języku chińskim: Zbliżenie na makijaż na nawilżonej skórze, oświetlone lampą pierścieniową – każda kropla wody jest wyraźnie uchwycona.

12. Barokowa ławka z wizerunkami

Luxury editorial portrait. A gorgeous model wearing an elegant black velvet off-shoulder gown reclines on a dark velvet chaise longue in a dimly lit Baroque-style room. One arm draped elegantly above her head. Rich warm Rembrandt lighting from a single window highlights the fabric draping against her glowing skin. Oil painting-like quality with deep shadows and warm highlights. High-end fashion editorial photography. 85mm lens, creamy bokeh. Ultra-realistic 4K.

Komentarz w języku chińskim: Kobieta w czarnej sukience na aksamitnej kanapie; Rembrandt wykorzystał światło padające przez pojedyncze okno, aby nadać obrazowi charakterystyczną fakturę.

13. Profesjonalne zdjęcie do dokumentów

Professional corporate headshot. A confident woman in her early 30s wearing a tailored navy blazer over a crisp white shirt. Neutral gray seamless studio background. Three-point lighting — soft key from camera left, subtle fill from right, rim light from behind. Genuine warm smile, direct eye contact. 85mm lens, f/2.8. Skin tone natural and healthy. LinkedIn executive headshot quality. Ultra-realistic 4K.

Komentarz w języku chińskim: Szare tło + standardowe oświetlenie z trzech punktów, zdjęcie profilowe menedżera wysokiego szczebla na LinkedIn.

14. Portrety z ulic Tokio

Environmental street portrait. A 20-something Tokyo local with bleached blonde hair and oversized vintage streetwear stands in Shibuya on a weekday afternoon. Shallow depth of field with crowd of pedestrians soft-blurred behind her. Natural overcast daylight. She looks slightly off-camera, lost in thought. Shot on Fujifilm X100 aesthetic, 35mm lens, f/2. Ultra-realistic 4K.

Komentarz w języku chińskim: Popołudnie w dni robocze w Shibuya; dziewczyna z blond włosami na tle rozmytego tłumu.

15. Okładka w stylu Vogue

High-end fashion portrait in the style of a Vogue Italia cover. A striking model with razor-sharp cheekbones wears an oversized metallic silver couture gown with architectural shoulders. She stares directly into camera with a cold, commanding expression. Hair pulled back tight. Studio lighting is a single hard light from 45 degrees creating sculptural shadows. Gray backdrop. 85mm portrait lens, f/5.6 for crisp detail. Ultra-detailed 4K.

Komentarz w języku chińskim: Styl okładki „Vogue Italia”: srebrna suknia z efektem trójwymiarowości + rzeźbiony portret o ostrym oświetleniu.

16. Portret w kuchni przy naturalnym świetle

Soft natural light portrait. A woman with wavy chestnut hair sits by a large north-facing window in a quiet morning kitchen. She holds a ceramic mug of coffee in both hands, looking out the window thoughtfully. Warm cream sweater, no makeup, freckles visible. Shot in Rembrandt light with window as the only source. 50mm lens, f/1.8, shallow depth of field. Soft, honest, lived-in feel. Ultra-realistic 4K.

Komentarz w języku chińskim: Kobieta bez makijażu przy oknie w kuchni „Poranne Światło”, oświetlona wyłącznie naturalnym światłem wpadającym przez jedno okno.

17. Jednobarwne oświetlenie sceniczne

Dramatic black and white portrait. A man with a short salt-and-pepper beard and intense dark eyes stares into the lens. Only half his face is lit — hard side light from camera right, pure black shadow on the other side. Textured gray background fades to black. Shot on medium format film aesthetic, 80mm lens. Film grain. Peter Lindbergh style monochrome. Ultra-detailed.

Komentarz w języku chińskim: Czarno-biały portret w stylu Petera Lindbergha, z jedną połową twarzy oświetloną ostrym światłem, a drugą całkowicie czarną.

18. Sesja zdjęciowa z kosmetykami w odcieniach różu

Dreamy pastel beauty portrait. A model with soft pink lips, dewy skin, and flushed cheeks against a blush pink seamless backdrop. She wears a sheer white off-shoulder top. Soft diffused lighting from a large softbox creates flattering even illumination. Hair in loose tousled waves. 85mm lens, f/2. Cotton candy color palette — pink, peach, cream. Ultra-realistic 4K beauty editorial.

Komentarz w języku chińskim: Różowe tło + duża softbox, sesja zdjęciowa makijażu w cukierkowych odcieniach.

19. Romantyczna złota godzina

Sun-drenched golden hour portrait. A woman in a flowing cream linen dress stands in a wheat field at 7pm on a summer evening. The sun is low behind her, creating a halo of golden backlight through her hair and the sheer fabric. Lens flare across the frame. Her eyes are closed, face tilted up to the warmth. 135mm telephoto lens, f/2, compressed background. Warm honey color grade. Ultra-realistic 4K.

Komentarz w języku chińskim: Pola pszenicy o letnim zmierzchu, światło padające z tyłu + obiektyw o ogniskowej 135 mm, który kompresuje przestrzeń.

20. Biblioteka Tajnego Kolegium

Dark academia editorial portrait. A young woman with auburn hair in a loose braid wears a wool cardigan over a white collared shirt in an old university library. She holds an open leather-bound book, reading by the light of a green banker's lamp. Towering bookshelves around her fade into shadow. Warm tungsten light, deep navy and olive color palette. 50mm lens, f/2.8. Ultra-realistic 4K.

Komentarz w języku chińskim: Stara biblioteka + zielona lampa w stylu bankiera, klimat dark academia.

Słownik słów kluczowych: ruch i dynamika

Sceny akcji wymagają dwóch elementów: słów oddających zatrzymanie w powietrzu („frozen mid-air”, „high-speed capture”) oraz światła konturowego, które pozwala wyodrębnić obiekt z chaotycznego tła.

Zawodnik wykonujący kopnięcie obrotowe – ujęcie w zwolnionym tempie – GPT Image 2: Przykładowe słowa kluczowe opisujące ruch — Zatrzymaj ruch na portrecie. To właśnie ten strumień „światła padającego z tyłu” nadaje konturom wyrazistość.

21. Nike: Trening – zatrzymane ujęcie

Dynamic action freeze-frame. An athletic woman in a fitted sports bra and high-waisted compression shorts executes a powerful spinning roundhouse kick. Water splashes frozen in mid-air around her legs and feet in a dramatic spray pattern. Her toned abs and defined muscles visible. Dramatic single-source rim lighting from behind creates a glowing silhouette edge. Dark studio background. Nike Training campaign energy. High-speed photography feel — ultra-sharp subject, motion blur on water droplets. Ultra-realistic 4K.

Komentarz w języku chińskim: Reklamowa sekwencja zdjęć poklatkowych Nike – rozpryski wody zatrzymane w powietrzu.

22. Widok wnętrza tuby

Epic wide-angle shot of a female surfer riding inside a massive crystal-clear barrel wave at golden hour. Her silhouette and athletic body visible through the translucent turquoise water of the wave tube. Golden sunlight creates an explosion of light and water mist behind her. Dramatic backlit composition. The wave is enormous and perfectly formed. GoPro-style immersive perspective. Ultra-realistic 4K cinematic quality.

Opis w języku chińskim: Surferka na fali w programie „Golden Hour”, sylwetka na tle światła.

23. Skoki parkurowe po dachach

High-speed action shot of a parkour athlete mid-leap between two Brooklyn rooftops at sunset. Frozen at the apex of the jump, arms and legs extended, silhouetted against a burning orange sky. The gap below him is dizzying — city streets far below. Motion blur on the trailing edge of his hoodie. Shot from a drone at his height, 35mm lens. Ultra-realistic 4K cinematic action.

Komentarz w języku chińskim: Parkour na dachach Brooklynu o zachodzie słońca, ujęcie w momencie najwyższego skoku.

24. Reflektory na ringu MMA

Dramatic fight night action. A female MMA fighter mid-spinning back elbow, sweat flying from her hair in a visible arc of droplets. Single harsh overhead ring spotlight isolates her from pure black background — classic boxing photography look. Her opponent is a blurred silhouette out of focus. 70-200mm lens at 200mm, f/2.8, 1/2000 shutter frozen motion. High contrast, desaturated. Ultra-detailed 4K.

Komentarz w języku chińskim: Pojedyncze oświetlenie górne na ringu MMA; wyraźnie widać łuki rozpryskującej się potu.

25. Pył wzbijany przez motocykle terenowe

Low-angle action shot of a motocross rider airborne over a dirt jump, red desert dust exploding behind the rear tire. Late afternoon sun casts long shadows. The bike is tilted aggressively mid-trick. Camera is just above ground level looking up, making the jump look monumental. Anamorphic lens flare from the sun. Orange and teal color grade. Ultra-realistic 4K action.

Komentarz w języku chińskim: Motocykl terenowy wzbił się w powietrze, a tylne koło wznieciło czerwoną chmurę pyłu.

26. Skok w sali baletowej

Contemporary ballet dancer mid-grand jete frozen in the air, arms extended, body perfectly horizontal. She wears a simple nude leotard. Plain gray cyclorama studio background. Strong side-light from camera left creates a sculptural chiaroscuro on her musculature. Powder disturbed from the floor traces her leap in a soft cloud. 1/4000 shutter speed feel. Ultra-detailed 4K.

Komentarz w języku chińskim: Najwyższy punkt w balecie podczas wykonania grand jeté – ciało znajduje się równolegle do podłoża.

27. Wsad do kosza z wyskoku

Low-angle hero shot of a male basketball player mid-slam dunk, one hand gripping the rim, body extended diagonally across the frame. Arena lights streak as lens flares. Crowd is a soft blurred wall of phone flashes behind him. Frozen sweat and net motion. Shot on 24mm wide from directly below the hoop. NBA official photography energy. Ultra-realistic 4K.

Komentarz w języku chińskim: Ujęcie szerokokątne z perspektywy 24 mm, uchwycone tuż pod koszem, przedstawiające moment wsadu.

28. Galopujący koń na falach

A rider on a powerful black horse gallops through knee-deep shallow ocean water at sunrise. Water explodes from each hoofstrike, frozen in a dramatic spray. The rider is leaned low, hair streaming behind. Warm golden backlight from the rising sun. Mist rising off the water. Shot at 1/4000 shutter, 200mm telephoto compression. Ultra-realistic 4K equine photography.

Komentarz w języku chińskim: Płytkie morze o wschodzie słońca, pędzący czarny koń rozpryskujący wodę, efekt kompresji dzięki obiektywowi o ogniskowej 200 mm.

Zbiór słów kluczowych: Przyroda i krajobrazy

Kluczowe słowa związane z krajobrazami to pora dnia, pogoda, skala pionowa. Model ma bardzo silne założenia a priori dotyczące „ogólnej pięknej przyrody”, więc trzeba użyć konkretnych słów, aby odchylić go od tej średniej.

Kobieta w mgle przy wodospadzie na skraju urwiska — przykładowe słowo kluczowe dla GPT Image 2 — Kobieta w mgle przy wodospadzie na skraju urwiska. Perspektywa ujęcia z lotu ptaka, z „lekko spoglądającym w dół” kątem, w połączeniu z konkretnym słowem „gossamer” sprawia, że modelka nie wtapia się już w otoczenie.

29. Kraina mgiełki wodospadu

Ethereal fantasy nature scene. A graceful young woman in a flowing sheer gossamer dress stands at the edge of a towering waterfall cliff. Dense tropical mist swirls around her legs and the translucent fabric. She extends one arm toward the cascade, water droplets catching golden light. Aerial perspective slightly from above showing the dramatic cliff drop. Lush green ferns frame the composition. Golden hour light filtering through the mist. Ultra-realistic 4K cinematic quality.

Opis w języku chińskim: Kobieta w białej sukni nad wodospadem na skraju urwiska, ujęcie z lotu ptaka + mgła.

30. Widok z lotu ptaka na Malediwach

Overhead drone shot of a beautiful woman in a minimal white bikini floating on her back in crystal-clear turquoise shallow water over white sand in the Maldives. Her long dark hair fans out in the water like a halo. The water is so clear her full body is visible through the translucent surface. Tiny fish swim nearby. Travel photography editorial style. Ultra-realistic 4K aerial quality.

Opis: Zdjęcie z lotu ptaka przedstawiające Malediwy, z kobietą unoszącą się na fali w krystalicznie czystej wodzie.

31. Wybrzeże Czarnego Piasku na Islandii

Dramatic wide landscape of Iceland's Reynisfjara black sand beach at dawn. Massive basalt sea stacks rise from the churning North Atlantic. Low fog drifts across the black sand. A single figure in a red rain jacket walks along the shoreline for scale. Moody desaturated color grade — almost monochrome with just the red jacket as accent. 24mm wide lens, f/11 for deep focus. Ultra-detailed 4K.

Uwaga w języku chińskim: Czarna plaża na Islandii + czerwony płaszcz przeciwdeszczowy jako punkty odniesienia kolorystyczne.

32. Światło w kościele w sekwoi

Vertical composition looking up through towering California redwood trees. Shafts of golden morning sunlight cut through the fog between the trunks like cathedral light rays. Ferns carpet the forest floor. A tiny hiker in the distance gives scale. Ultra-wide 14mm lens distorting the trunks into a radial pattern toward the sky. Warm green and gold palette. Ultra-realistic 4K nature photography.

Opis w języku chińskim: Szerokokątne ujęcie lasu sekwoi z perspektywy z dołu, promień światła padający na kościół we mgle.

33. Jezioro Lustrzane w Patagonii

Perfect mirror reflection of the jagged Torres del Paine peaks in a glass-still Patagonian alpine lake at blue hour. Pink and purple alpenglow on the snow-capped summits. A single orange tent on the near shore as human scale. Complete symmetry — upper and lower half of frame are near-mirror images. 35mm lens, f/11. Ultra-realistic 4K landscape.

Komentarz w języku chińskim: Idealnie lustrzana tafla jeziora w błękitnej godzinie, symetryczna w pionie.

34. Burza piaskowa na Saharze

Vast Sahara desert at the start of a sandstorm. Rolling orange dunes extend to the horizon, with a towering wall of sand approaching from the left. A lone nomadic figure on camelback is silhouetted against the dust cloud. Sun struggles through the haze as a dim orange disc. Cinematic wide-angle, heavy atmospheric haze. Monochromatic warm orange palette. Ultra-detailed 4K.

Komentarz w języku chińskim: Na skraju burzy piaskowej na Saharze sylwetka jeźdźca na wielbłądzie zmaga się z ścianą pyłu.

35. Domek Aurora

Wide landscape of a tiny warm-lit wooden cabin in a Norwegian fjord valley at 1am. A spectacular green and purple aurora borealis dances overhead, reflecting in the still black fjord water. Snow-dusted pine trees and mountains frame the scene. The cabin glow is the only warm color in an otherwise cold composition. 20-second long exposure feel. Ultra-realistic 4K astrophotography.

Komentarz w języku chińskim: Zorza polarna o pierwszej w nocy nad norweskimi fiordami i przytulna chatka.

36. Zachód słońca na afrykańskiej sawannie

Cinematic wide shot of a family of elephants crossing a golden savanna at sunset in Kenya. The sun is a huge orange disc on the horizon, silhouetting the herd. Long grass ripples in the warm wind. Dust kicked up by the herd diffuses the backlight into warm beams. 200mm telephoto compression. National Geographic editorial style. Ultra-realistic 4K wildlife photography.

Komentarz w języku chińskim: Kenijskie sawanny o zachodzie słońca, sylwetki stada słoni + efekt kompresji dzięki obiektywowi o ogniskowej 200 mm.

37. Rzeka Sakura w Kioto

Serene wide landscape of the Philosopher's Path in Kyoto at peak cherry blossom season. Pink petals float on the narrow canal, with more drifting down from the trees above. Traditional wooden bridges arch over the water. Early morning mist softens the light into diffused pink. A solo figure in a dark kimono walks along the stone path for scale. 50mm lens, f/4, gentle pastel color grade. Ultra-realistic 4K.

Komentarz w języku chińskim: W sezonie kwitnienia wiśni na Ścieżce Filozofów w Kioto różowe płatki unoszą się na wodzie kanału.

38. Burza w szkockich górach

Dramatic landscape of the Scottish Highlands during a clearing thunderstorm. Dark churning clouds above a lone glen, with a single shaft of golden sunlight breaking through and lighting one patch of heather-covered hillside. Rainbow arc barely visible at the edge. Ancient standing stones in the foreground. Moody cinematic color grade — steel blue shadows, warm sunlit highlight. 24mm wide, f/11. Ultra-realistic 4K landscape photography.

Komentarz w języku chińskim: Gdy burza w szkockich górach dobiegała końca, z ciemnych chmur przebił się jedyny promień złocistego słońca.

Biblioteka słów kluczowych: fantastyka i stylizacja

Gdy tylko w kontekście fantastyki podasz konkretne przykłady inspiracji artystycznych (Ufotable, Arcane, Studio Trigger, ilustracje do gry Magic: The Gathering), Twoje wskazówki staną się znacznie bardziej precyzyjne. Ogólne hasło „fantasy art” przyniesie Ci jedynie ogólne ilustracje fantasy.

Fantastyczna wojowniczka z świecącym magicznym mieczem — przykładowe hasło do GPT Image 2 — Fantastyczna wojowniczka w stylu Ufotable. Wystarczy wymienić nazwę studia, to mówi więcej niż dwadzieścia przymiotników.

39. Ufotable: Anime Senki

Epic anime-inspired fantasy warrior princess with flowing silver-white hair that reaches her waist, wearing ornate golden battle armor that hugs her figure with intricate engravings. She holds a glowing magical sword aloft, emitting bright blue energy. Cherry blossom petals and magical sparkles swirl in a violent storm around her. Her expression is fierce and determined. Dynamic action pose mid-battle leap. Ultra-detailed anime with CGI-quality lighting — Ufotable production quality. Rich colors, dramatic volumetric lighting. 4K quality.

Komentarz w języku chińskim: Anime klasy Ufotable z bohaterką-wojowniczką, niebieskim magicznym mieczem i burzą kwiatów wiśni.

40. Czarodziejka z rasy mrocznych elfów

Dark fantasy dark elf sorceress with long flowing midnight-purple hair, pointed ears, and luminous violet eyes. She wears an elegant off-shoulder dark robe with intricate silver embroidery that reveals her collarbones and shoulders. Purple arcane energy spirals from her outstretched hands, illuminating her face from below. A vast star field and nebula visible in the background through a shattered stone archway. Semi-realistic fantasy illustration style with cinematic lighting. Ultra-detailed 4K.

Komentarz w języku chińskim: Czarodziejka z rasy mrocznych elfów, z której dłoni wiruje fioletowa energia magiczna.

41. Leśne elfy z Ghibli

Studio Ghibli style painterly scene. A small forest spirit that looks like a glowing white fox with three tails walks through a mossy enchanted forest at dusk. Fireflies dance around it. Soft painterly brushstrokes, warm honey-gold light filtering through massive ancient trees. Hayao Miyazaki watercolor aesthetic. Ultra-detailed animation cel quality.

Komentarz w języku chińskim: Trójogoniasty biały lis w stylu studia Ghibli spaceruje po porośniętym mchem lesie o zmierzchu.

42. Arcane: Wiatr wojen między dwoma miastami

Arcane Netflix animated series style illustration. A young woman with blue-tipped braided hair and steampunk goggles leans against a graffitied alley wall in the undercity of Piltover. Neon magical rune-signs glow behind her. Textured painterly brushstrokes visible, 2D illustration with 3D depth, saturated purple and teal color story. Fortiche animation studio aesthetic. Ultra-detailed 4K.

Komentarz w języku chińskim: Dziewczyna w zaułku dolnego miasta w stylu Arcane Fortiche.

43. Smok z Magic: The Gathering

Fantasy illustration in the style of a Magic The Gathering card. A colossal red dragon emerges from molten lava in an underground cavern, wings half-spread, mouth roaring with fire breath forming. A tiny knight in silver armor stands at the cavern's edge for scale, raising a shield. Dramatic low-angle hero composition. Rich oil-painting texture, Greg Rutkowski influence. Ultra-detailed 4K fantasy art.

Komentarz w języku chińskim: Smok lawowy i Mały Rycerz w stylu ilustracji z gry Magic: The Gathering.

44. Cyber Samurai

Cyberpunk fantasy fusion. A female samurai with a chrome katana stands on the rain-slicked rooftop of a neo-Tokyo megacorp tower at night. She wears a fusion of traditional kimono and carbon-fiber combat armor. Holographic cherry blossoms drift around her. Neon reflections on the wet rooftop, flying ad-drones in the background. Illustrated in the style of Katsuhiro Otomo meets modern 3D concept art. Ultra-detailed 4K.

Komentarz w języku chińskim: Samurajka na dachu Cyber-Tokio + holograficzne kwiaty wiśni.

45. Podwodna syrenka

Ethereal underwater fantasy. A graceful mermaid with iridescent teal and violet scales swims through a coral reef illuminated by shafts of sunlight piercing the water surface above. Her long turquoise hair flows weightlessly. Bubbles trail from her fingertips. School of small silver fish swim past. Dreamlike painterly quality, Lisa Frank meets National Geographic. Ultra-detailed 4K fantasy art.

Komentarz w języku chińskim: Tęczowa syrenka wśród raf koralowych, promienie światła przebijają się przez powierzchnię wody.

46. Kapitan sterowca w stylu steampunkowym

Illustrated steampunk fantasy portrait. A young female airship captain in a brass-buttoned red military coat, goggles pushed up on her forehead, stands at the wheel of a wooden airship. Visible brass gears and copper pipes. Behind her, clouds and other distant airships. Warm golden hour lighting. Illustration style inspired by Nausicaa and Howl's Moving Castle. Ultra-detailed 4K.

Komentarz w języku chińskim: Kapitan sterowca w stylu Hayao Miyazakiego i mosiężne koło zębate.

Różnorodne interpretacje: ten sam motyw, różne światy

Jedna z niedocenianych metod pracy w GPT Image 2: zablokuj obiekt, zmieniaj tylko parametry stylu. Wyraźnie zobaczysz, jak każdy styl wpływa na tę samą twarz, ten sam strój i tę samą pozę – dzięki temu następnym razem nie będziesz musiał zgadywać przy wyborze stylu.

Porównanie stylów w układzie czterech kadrów: realizm, anime, malarstwo olejne, cyberpunk — podpowiedzi dla GPT Image 2 — Cztery style tego samego motywu. Takie wariacje doskonale nadają się do stworzenia moodboardu przed przedstawieniem klientowi propozycji stylistycznych.

Podstawowe słowa kluczowe – treść pozostaje całkowicie niezmieniona w czterech generacjach:

A beautiful young woman with shoulder-length brown hair stands in a sunlit garden, wearing a simple white sundress, one hand lightly touching a rose bush. Soft golden afternoon light. Three-quarter body framing, slightly tilted head, warm smile.

Komentarz w języku chińskim: Dziewczyna w prostej sukience dotykająca róży w Słonecznym Ogrodzie, w złocistym popołudniowym świetle.

Następnie wystarczy przełączać sloty stylów, uruchamiając każdy z nich raz:

47. Fotografia realistyczna

[Base] — Hyperreal fashion photography aesthetic. 85mm lens at f/1.8, soft natural light, editorial sharpness. Ultra-realistic 4K.

48. Japońskie anime

[Base] — Japanese anime style with cel shading, bold line art, vibrant saturated colors, large expressive eyes. Kyoto Animation production quality. Ultra-detailed.

49. Klasyczne malarstwo olejne

[Base] — Classical oil painting style with visible thick brushstrokes, warm Renaissance lighting, chiaroscuro shadow, Vermeer-like color palette. Museum-quality.

50. Cyberpunk

[Base] — Neon-drenched cyberpunk futurism. Holographic overlays, circuit-pattern light tattoos on skin, magenta and cyan rim lighting. Ghost in the Shell art direction. Ultra-detailed.

Przetestowaliśmy tę sekwencję na naszym wewnętrznym koncie testowym – pierwsze zdjęcie wygenerowało się w około 18 sekund, a kolejne, wymagające zmiany stylu, zajęły mniej więcej tyle samo czasu. W sumie w niecałe dwie minuty i za 48 kredytów otrzymaliśmy kompletną tablicę inspiracji. W kontekście oferty dla klienta oznacza to, że czas poświęcony na wyszukiwanie materiałów, który pierwotnie zajmował pół dnia, udało się skrócić do czasu potrzebnego na wypicie filiżanki kawy.

Typowe awarie i sposoby ich usuwania

Sekcja „Szczerość”: GPT Image 2 działa świetnie, ale nie jest to żadna magia. Poniżej przedstawiamy najczęstsze rodzaje niepowodzeń, jakie odnotowaliśmy, wraz z odpowiednimi szablonami poprawek. Potraktuj tę sekcję jako listę kontrolną do wykrywania błędów – gdy następnym razem obraz nie wyjdzie tak, jak powinien, sprawdź wszystko po kolei, a większość problemów uda się rozwiązać już po pierwszej poprawce.

Błąd 1: Nudny wynik

Before：

A beautiful woman in a city.

After：

A 28-year-old woman with auburn hair pulled into a low ponytail, wearing a camel trench coat, crossing a Manhattan crosswalk at 6pm on a rainy Thursday. Yellow taxis blur past in motion-blurred streaks. 50mm lens, f/2, cinematic grain. Ultra-realistic 4K.

Pierwsza wskazówka nie dała modelowi żadnych punktów zaczepienia. Rozwiązaniem jest zawsze konkretny rzeczownik i konkretne miejsce.

Błąd 2: Nieprawidłowa liczba palców

GPT Image 2 radzi sobie znacznie lepiej z odwzorowaniem dłoni niż pierwsza generacja modeli dyfuzyjnych, ale zbliżenia dłoni nadal mogą dać w kość. Istnieją dwa sprawdzone sposoby na uniknięcie tego problemu:

Nie pozwól, by dłonie stały się głównym elementem kadru – po prostu je odetnij: „framing is shoulders up only” (fotografuj tylko od ramion w górę).
Niech dłonie trzymają jakiś przedmiot: „hands gently holding a ceramic coffee cup”. Przedmiot ogranicza pozycję dłoni, dzięki czemu palce pozostają w stabilnej pozycji.

Błąd 3: Zniekształcony tekst na obrazku

Model nie jest programem do składu graficznego. Jeśli chcesz umieścić na rysunku logo, tablicę informacyjną lub czytelny tekst z plakatu, powinien on być albo bardzo krótki („na tablicy widnieje napis OPEN”), albo dodaj bezpośrednio w opisie: „żadnego tekstu, żadnych liter, żadnych słów w żadnym miejscu obrazu”, a następnie zredaguj go osobno w programie Figma lub Photoshop.

Błąd 4: Zignorowano kierunek światła

Before：

A portrait of a woman with dramatic lighting.

After：

A portrait of a woman lit by a single hard spotlight from 45 degrees camera-left, with deep black shadow filling the right side of her face. Rembrandt lighting with a small triangle of light on the shadowed cheek.

„Dramatyczne oświetlenie” nic nie mówi. Dopiero określenie kierunku, ostrości i zasięgu cieni stanowi prawdziwą wskazówkę.

Błąd 5: Podmiot pojawia się w niewłaściwej scenie

Jeśli modelka ciągle umieszcza postać w zwykłym studiu fotograficznym zamiast w bibliotece – przenieś scenę na początek podpowiedzi i opisz ją bardziej szczegółowo:

In a candle-lit 17th-century English library with floor-to-ceiling oak shelves, leather-bound books, and a stone fireplace, a woman in…

Umieszczenie scenerii przed głównym obiektem oznacza, że cała kompozycja zostaje ustalona jeszcze przed wprowadzeniem postaci.

Błąd 6: Nadmiar słów kluczowych

Gdy liczba słów przekroczy około 1200, wpływ poszczególnych przymiotników zaczyna się osłabiać. Jeśli Twoje słowa kluczowe to po prostu lista 40 tagów stylistycznych, model obliczy „średnią”. Zachowa jeden główny punkt odniesienia stylistycznego (na przykład „film noir”), a pozostałe potraktuje jako pomocnicze.

Wykorzystaj 20 000 znaków: ustrukturyzowane długie podpowiedzi

Jedną z niedocenianych zalet GPT Image 2 jest limit długości podpowiedzi wynoszący aż 20 000 znaków. Większość konkurencyjnych narzędzi ogranicza się do około 1000–2000 znaków. Nie jest to potrzebne w przypadku portretów, ale w przypadku złożonych scen z wieloma postaciami, briefów dotyczących grafik koncepcyjnych lub serii obrazów wymagających ścisłej spójności wizerunku marki, długie, uporządkowane podpowiedzi są bardzo przydatne.

Szablony, z których często korzystamy w briefach produkcyjnych:

# SCENA
[Scena: miejsce, czas, pogoda, okres historyczny, 2–3 zdania]

# POSTACIE
- Postać A: [wygląd, strój, aktualna pozycja, wyraz twarzy]
- Postać B: [jak wyżej]
- Statyści w tle: [krótki opis]

# KOMPOZYCJA
[Kompozycja: szeroki kąt/plan średni/zbliżenie; kąt ustawienia kamery; ujęcie; głębia ostrości; położenie każdej postaci w kadrze — zasada trójpodziału/zasada złotego podziału/środek]

# OŚWIETLENIE
[Źródło światła, kierunek, ostrość, temperatura barwowa, zachowanie cieni]

# COLOR
[Opisz paletę barw za pomocą 3–4 terminów kolorystycznych. Kierunek kolorystyczny — ciepły/zimny/kontrastowy]

# STYLE
[Odniesienie do głównego stylu. Np. „Styl zdjęć Rogera Deakinsa w filmie »Blade Runner 2049«”]

# TECHNICAL
[Modyfikatory rozdzielczości, ziarnistość filmu, format, etykiety jakości obrazu. Proszę o zwięzłość]

# WYŁĄCZENIA
[Czego należy unikać: „Bez tekstu, bez logo, bez znaków wodnych, bez dodatkowych kończyn”]

Przykład — kompletny, ustrukturyzowany tekst opisowy (ok. 500 słów) do jednego zdjęcia głównego:

# SCENE
A restored 1930s Art Deco ballroom on a rainy Tuesday evening in Paris, set during a private jazz performance. Tall arched windows on the left show wet boulevards and soft yellow streetlamp glow. Interior is lit warm and amber.

# CHARACTERS
- Lead: A striking 32-year-old woman with dark auburn hair in a low chignon, wearing a deep emerald-green silk bias-cut gown with a low back. She stands near a grand piano, one hand resting on its polished black lid, gazing thoughtfully toward the windows. Faint melancholy in her expression.
- Pianist: A middle-aged man in a black tuxedo, seated at the piano mid-performance, profile view, fingers on keys. He is a secondary figure — should not pull focus from the lead.
- Background: Three or four well-dressed patrons at candlelit round tables in soft bokeh, unidentifiable faces.

# COMPOSITION
Medium-wide shot. Lead character is on the right third of the frame, piano extending diagonally across the center toward the left. Rule of thirds. 50mm lens, f/2.2, shallow depth of field — lead and piano sharp, background patrons and windows softly blurred. Eye-level camera height.

# LIGHTING
Warm tungsten chandelier overhead providing ambient glow on the room. Key light on the lead is a single practical wall sconce camera-right at 45 degrees, modeling her face in gentle Rembrandt pattern. Rim from the windows behind her (cool blue rainy light) separates her hair and shoulder edge from the warm interior. Overall contrast: high but soft.

# COLOR
Deep emerald green (dress) and warm amber (interior) as hero colors, with cool blue window light as counter-accent. Warm gold dominant, with selective teal shadow detail. Film-look color grade reminiscent of early Wong Kar-wai.

# STYLE
Cinematic still in the visual language of In the Mood for Love meets a modern luxury cognac commercial. Anamorphic lens quality (slight horizontal flare on the candles). Painterly softness, 35mm film grain.

# TECHNICAL
Ultra-realistic 4K, 16:9 aspect, cinematic frame.

# EXCLUSIONS
No text, no signage, no logos, no watermarks, no visible phones or modern electronics, no extra limbs, no warped fingers on the pianist.

Podział na sekcje ma dwie zalety: po pierwsze, pozwala samemu nie pominąć żadnego pola; po drugie, zapewnia modelowi uporządkowany punkt wyjścia do analizy, zamiast 500-słowowego fragmentu tekstu. Wystarczy zmodyfikować tylko dwie sekcje – CHARACTERS i SCENE – aby w ramach całej serii wygenerować różne ujęcia tej samej reklamy.

Praktyczna rada: gdy renderowanie obrazu jest w 80% poprawne, ale jeden element jest nieprawidłowy (na przykład bohaterka ma na sobie ubranie w niewłaściwym kolorze), nie należy przepisywać całego opisu. Skopiuj udany opis, zmień tylko odpowiedni element, a następnie uruchom proces ponownie. Nasze wewnętrzne dzienniki iteracji pokazują, że w przypadku strukturalnych opisów średnio wystarczy 2,8 próby, aby uzyskać klatkę na poziomie głównego obrazu, podczas gdy w przypadku opisów w formie swobodnego tekstu często potrzeba ponad 6 prób. Przy cenie 12 kredytów za obraz oznacza to różnicę między 2 a 5 dolarami za każdy główny obraz.

Chcesz przekazać proces tworzenia strukturalnych słów kluczowych współpracownikom? Najpierw niech zapoznają się z przewodnikiem dla początkujących, a potem wróć do tego artykułu.

Często zadawane pytania

Co jest najważniejsze w podpowiedziach dla GPT Image 2?

Światło i obiektyw – oto kolejność. Jeśli postać i sceneria są nieco rozmyte, da się to jeszcze naprawić, ale jeśli kierunek światła i wybór obiektywu są niejasne, zdjęcie zawsze będzie wyglądało jak zdjęcie stockowe. Jeśli masz czas na dopracowanie tylko dwóch elementów, skup się właśnie na nich. Określ dokładnie, „skąd pada światło, jak mocne jest i po której stronie padają cienie”, a następnie określ, „jakiego ogniskowej obiektywu użyłeś, jaką przysłonę i z jakiej odległości fotografowałeś” – dzięki temu podstawy zdjęcia będą solidne.

Jak długie powinny być podpowiedzi dla GPT Image 2?

W przypadku portretów i prostych scen optymalna długość to 80–150 słów. W przypadku zdjęć szerokokątnych o kinowym charakterze, nawiązujących do konkretnej epoki lub stylu, 150–250 słów. W przypadku scen z wieloma postaciami lub briefów reklamowych należy stosować ustrukturyzowane szablony o długości 400–800 słów. Limit 20 000 znaków jest zarezerwowany na skrajne przypadki — w codziennym użytkowaniu rzadko przekracza się 500 słów.

Czy w poleceniu można podać nazwisko prawdziwego artysty?

Możesz odwołać się do stylu lub epoki — „film noir”, „giallo z lat 70.”, „malarski styl studia Ghibli” — model rozpozna te języki wizualne. Jednak bezpośrednie używanie nazwisk żyjących artystów jako tagów stylistycznych budzi wątpliwości etyczne i jest coraz częściej filtrowane przez modele. Lepszym rozwiązaniem jest opisywanie stylu, medium i epoki, a nie wymienianie konkretnych osób.

Dlaczego wyniki dla tego samego słowa kluczowego są za każdym razem inne?

Model dyfuzyjny ma z natury charakter losowy – zaczyna od obrazu zawierającego szum, a następnie usuwa ten szum, tworząc obraz. Dwukrotne zastosowanie tej samej podpowiedzi da z pewnością podobne, ale nie identyczne wyniki. Jest to cecha charakterystyczna, a nie błąd, i stanowi źródło „różnorodności”. Aby odtworzyć ten efekt, większość systemów generujących obsługuje parametr seed. Informacje techniczne można znaleźć na blogu OpenAI poświęconym generowaniu obrazów ].

Czy długość słowa kluczowego ma wpływ na cenę?

Nie ma to znaczenia. GPT Image 2 stosuje stałą stawkę: 12 punktów za obraz, niezależnie od tego, czy wpisujesz 20 słów, czy 2000. Na koszt wpływa wyłącznie liczba generowanych obrazów.

Ile razy należy wypróbować daną koncepcję, zanim się z niej zrezygnuje?

Zasada praktyczna: Po trzech próbach z tym samym hasłem, jeśli nadal nie pasuje, zmień tylko jedno pole, nie zaczynaj od nowa. W większości przypadków poprawić trzeba oświetlenie lub kadr. Jeśli po 8 próbach nadal nie ma postępów, problem leży w strukturze – wróć do formuły ośmiu elementów i sprawdź, ile z nich faktycznie wypełniłeś. Mamy też wewnętrzną zasadę: zapisujemy każdy wygenerowany prompt i odpowiadające mu nasiona w tabeli, dzięki czemu podczas analizy łatwo widać, które słowa naprawdę działają.

Czy obrazy wygenerowane przez GPT Image 2 można wykorzystywać do celów komercyjnych?

Oczywiście. Zgodnie ze standardowymi warunkami korzystania z produktu, wygenerowane przez Ciebie grafiki są Twoją własnością i możesz je wykorzystywać do celów komercyjnych. Szczegółowe warunki licencji znajdują się w stopce strony; w przypadku zastosowań wysokiego ryzyka (reklamy marek, okładki publikacji itp.) zalecamy skonsultowanie się z prawnikiem. Ponadto nie traktuj prawdziwych osób lub znaków towarowych wymienionych w podpowiedziach jako „kartę wolności od odpowiedzialności” – są to kwestie związane z prawem do wizerunku i prawem do znaków towarowych, które nie podlegają warunkom korzystania z produktów AI.

Czym różnią się podpowiedzi dla funkcji „text-to-image” i „image-to-image”?

W przypadku text-to-image zaczynamy od szumu, a podpowiedź stanowi jedyną wskazówkę. W przypadku image-to-image zaczynamy od przesłanego przez Ciebie obrazu referencyjnego, a podpowiedź służy jedynie do jego modyfikacji. Podpowiedź w przypadku image-to-image powinna być krótsza i skupiać się na tym, „co zmienić” („zmień styl na malarski, zachowując pozę i ubiór głównego bohatera”), a nie na ponownym opisywaniu całej sceny – obraz referencyjny dostarcza już większości elementów.

Gotowi do rozpoczęcia pracy?

Masz teraz ponad 50 podpowiedzi, zestaw formuł z ośmioma polami, listę działań naprawczych w przypadku niepowodzeń oraz szablon ustrukturyzowanych długich podpowiedzi. Następnym krokiem jest uruchomienie narzędzia i wygenerowanie jednego obrazka. Wybierz dowolną podpowiedź, wklej ją i sprawdź, jak bardzo wynik różni się od obrazu, który masz w głowie – a następnie popraw tylko to pole, które nie działało prawidłowo, i uruchom narzędzie ponownie. W ciągu dwóch lub trzech rund będziesz w stanie regularnie tworzyć obrazy gotowe do dostarczenia.

Dodaj ten artykuł do zakładek w przeglądarce lub przyklej formułę ośmiu elementów na krawędzi swojego drugiego monitora. Prawdziwy postęp nie polega na zapamiętaniu tych wskazówek, ale na wewnętrznym przyswojeniu formuły – dzięki temu, gdy zobaczysz dowolny obraz referencyjny, w naturalny sposób rozłożysz go na elementy: kompozycję, oświetlenie, kadr i styl.

Zacznij korzystać z GPT Image 2 za darmo →

Czytaj dalej:

Masz pytania dotyczące konkretnego słowa kluczowego? Napisz do nas na stronie – sprawdzamy każdą wiadomość, a najczęściej zadawane pytania zazwyczaj trafiają do kolejnej wersji przewodnika. Informacje teoretyczne warto przeczytać w połączeniu z artykułem Wikipedii na temat modeli generowania obrazów na podstawie tekstu; zajmie to około 10 minut. Jeśli chcesz osiągnąć jeszcze lepsze wyniki, zapoznaj się z kolejnym artykułem z tej serii Poradnik użytkownika, aby przejść od „wygenerowania jednego dobrego obrazu” do „stałego tworzenia serii obrazów o spójnym stylu”.

Przewodnik po promptach dla GPT Image 2: ponad 50 praktycznych szablonów (2026)

Spis treści