Leitfaden für GPT Image 2-Prompts: Über 50 praxisorientierte Vorlagen (2026)

TL;DR

Ein guter Prompt für GPT Image 2 besteht nicht aus einem einzigen Satz, sondern aus einer Reihe von Entscheidungen: Motiv, Szene, Stil, Kameraeinstellung, Beleuchtung und Stimmung. Dieser Leitfaden bietet dir über 50 direkt kopierbare Prompt-Vorlagen, die die fünf Hauptkategorien Filmstil, Porträt, Action, Natur und Fantasy abdecken, sowie eine Checkliste zur Korrektur missglückter Ergebnisse und einen effizienten iterativen Arbeitsablauf. Alle Beispielbilder im Artikel wurden mit demselben KIE-Modell „gpt-image-2-text-to-image“ erstellt, wobei jedes Bild 12 Credits kostet und die Prompt-Länge auf 20.000 Zeichen begrenzt ist. GPT Image 2 kostenlos testen →

Die Struktur eines guten Prompts

Die meisten Leute schreiben gleich zu Beginn: „Was ich will.“ Wer jedoch wirklich gute Bilder macht, schreibt: „Was die Kamera sieht.“ Das ist das ganze Geheimnis.

Nachdem wir mehrere tausend Tests mit der KIE-Schnittstelle „gpt-image-2-text-to-image“ durchgeführt hatten, haben wir eine Acht-Slot-Formel entwickelt, die nahezu alle Anwendungsfälle abdeckt. Wenn sechs der acht Slots ausgefüllt sind, liegt das Ergebnis bereits über dem Durchschnitt; sind alle Slots ausgefüllt, erreicht es das Niveau eines kommerziellen Films.

Formel:

[Motiv] + [Bewegung/Haltung] + [Szene] + [Stil/Vorbild] + [Einstellung/Bildkomposition] + [Licht] + [Stimmung/Farbton] + [Bildbearbeitung]

Jeder Slot dient dazu, eine Frage, die das Modell eigentlich „erraten“ müsste, festzulegen:

Hauptmotiv – Wer oder was ist auf dem Bild zu sehen? „Die rothaarige Bibliothekarin“ ist zehnmal besser als „die Frau“.
Handlung/Haltung – Was geschieht gerade? Das Verb bestimmt die Bildkomposition.
Szene – Die Umgebung. Geben Sie Land, Epoche und Uhrzeit an.
Stil/Referenz – „Film Noir“, „Animation im Stil von Ufotable“, „symmetrische Bildkomposition à la Wes Anderson“, „Fenty Beauty-Werbestil“. Greifen Sie auf bekannte visuelle Sprachen zurück, anstatt bedeutungslose Adjektive anzuhäufen.
Einstellung/Bildkomposition – „ Extreme Nahaufnahme“, „Weitwinkel aus niedriger Perspektive“, „85-mm-Porträtobjektiv, f/1,4“, „Anamorphotische Breitbildoptik“. Das ist der Schlüssel, um aus einem Schnappschuss einen Filmrahmen zu machen.
Licht——„Licht am Rande der goldenen Stunde“, „Einzelnes Rembrandt-Licht“, „Neonreflexe auf nassem Boden“. Das Licht macht gefühlt 60 % eines Bildes aus.
Stimmung/Farbton——„Kontrast zwischen kühlem Blau und warmem Orange“, „warme Bernsteintöne vertiefen die Schatten“, „desaturierte, melancholische Töne“.
Bildbearbeitung – „Hyperrealistisches 4K“, „Filmkorn“, „Modische Blockbuster“. Halten Sie es kurz, die eigentliche Arbeit ist bereits erledigt.

Basis vs. Optimierung – Zwei Vergleichsrunden zum gleichen Thema

Ergebnis der Generierung anhand der GPT-Image-2-Grundprompt: Die Bildkomposition ist schlicht, die Beleuchtung gleichmäßig — Grundlegende Stichworte: „Eine Frau, die in einem Raum steht.“ Das Motiv ist unscharf, die Beleuchtung ist flach, es fehlt jegliche Komposition – das Modell findet absolut keinen Anhaltspunkt.

Der ursprüngliche Eingabe-Text für das obige Bild lautet:

A woman standing in a room.

Schreiben wir nun „dasselbe Konzept“ unter Verwendung der Acht-Slots-Formel neu:

A breathtaking young woman with flowing auburn hair stands in a luxurious Art Deco penthouse at golden hour. She wears a champagne-colored satin slip dress that catches the warm light. Floor-to-ceiling windows behind her show a panoramic city sunset. Dramatic side lighting creates deep shadows and golden highlights on her face and bare arms. The composition follows the rule of thirds. Cinematic depth of field with gorgeous city bokeh. Fashion editorial quality. Ultra-realistic 4K.

Anmerkung: In einem Penthouse im Art-Déco-Stil steht eine Frau mit langen Haaren vor einem bodentiefen Fenster; das Seitenlicht der goldenen Stunde zeichnet die Konturen ihres Gesichts und ihrer Arme nach.

Ergebnisse der Bildgenerierung mit dem GPT-Image-2-Prompt, optimiert unter Verwendung der vollständigen 8-Slot-Formel — Optimierte Suchbegriffe für die 8-Slot-Formel. Es handelt sich um dasselbe Kernkonzept, doch alle Unklarheiten wurden beseitigt.

Hinweis: Bei der optimierten Version geht es nicht darum, mehr Adjektive anzuhäufen, sondern darum, dem Modell weniger Raum zum Raten zu lassen. GPT Image 2 basiert auf einem Transformer-gesteuerten Diffusionsmodell (siehe Wikipedia-Erklärung zu Diffusionsmodellen). Jedes Detail, das Sie nicht geschrieben haben, füllt das Modell mit seinem „prioritären Mittelwert“ auf. Wenn Sie nicht „goldene Stunde“ sagen, gibt es Ihnen standardmäßig das Licht eines bewölkten Dienstagnachmittags um 14 Uhr.

Zum Schluss noch eine interessante Randnotiz: Die maximale Länge für Prompts bei GPT Image 2 beträgt 20.000 Zeichen – das entspricht etwa 3.000 englischen Wörtern. In normalen Fällen wird diese Kapazität bei weitem nicht ausgeschöpft, aber bei komplexen Szenen mit mehreren Personen oder detaillierten Konzeptzeichnungen bedeutet diese Obergrenze, dass Sie Ihre Kompositionsentscheidungen sehr genau festlegen können. In Abschnitt 11 wird gezeigt, wie man lange Prompts einsetzt.

Stichwort-Datenbank: Filmreife Szenen

Szenen im Filmstil sind am einfachsten nachzubilden, da die Filmgeschichte über ein Jahrhundert lang ein visuelles Vokabular entwickelt hat. Nenne einfach das Genre, die Epoche und die Kameraeinstellung, und das Modell liefert dir ein ansehnliches Bild.

Ein Bild im Film-Noir-Stil, erstellt mit einer GPT-Image-2-Prompt: Eine Frau in roter Kleidung in einer Hintergasse in Hongkong nach einem Regenschauer — Hintergassen in Hongkong im Stil des neuen Film Noir. Die Farbkomposition aus kontrastierenden Blau- und Rottönen sowie die Aufnahmen im Breitbildformat vermitteln den Großteil der Stimmung.

1. Die neuen dunklen Hintergassen von Hongkong

Film noir cinematic shot. A dangerously beautiful femme fatale in a curve-hugging red silk dress with a thigh-high slit, walking through a rain-soaked Hong Kong back alley at night. Neon signs in Chinese characters reflect red and blue on the wet cobblestones. She carries a black umbrella over one shoulder, her red-painted lips the only warm color against the cold teal lighting. Smoke wisps from a nearby vent. Anamorphic lens, shallow depth of field, cinematic grain. Ultra-realistic 4K noir film frame.

Anmerkung: In einer regnerischen Nacht in Hongkong schreitet eine Frau in rotem Kleid mit einem Regenschirm durch die von Neonlicht beleuchteten Gassen.

2. Jazzbar Rembrandt

Moody jazz bar interior. A mysterious woman in a sheer black lace dress sits on a velvet barstool, one leg crossed showing stiletto heels. Cigarette smoke curls around her silhouette. Warm amber spotlight from above illuminates her face and exposed collarbones while the rest fades into deep shadow. A saxophone player is a blurred silhouette in the background. Film noir meets modern luxury aesthetic. Dramatic Rembrandt lighting, 35mm film look. Ultra-realistic 4K.

Anmerkung: Die Frau in schwarzer Spitze in der Jazzbar; eine einzelne Lichtquelle und Nebel erzeugen eine dramatische Beleuchtung im Stil Rembrandts.

3. Das Dach von „Blade Runner“

Cyberpunk cinematic wide shot. A lone detective in a wet black trench coat stands on a neon-drenched Tokyo rooftop at 3am. Giant holographic advertisements of a geisha float across the skyline behind him, casting shifting pink and cyan light on his face. Light rain catches the glow. Flying cars streak past as horizontal light trails. Shot on anamorphic lens, 2.39:1 aspect, shallow depth of field. Blade Runner 2049 color grade — teal shadows, orange highlights. Ultra-realistic 4K cinematic frame.

Anmerkung: Auf den Dächern des Cyberpunk-Tokio hüllt ein zweifarbiger Schleier aus Blau und Rosa, der von holografischen Geisha-Werbebildern projiziert wird, den Detektiv ein.

4. Die symmetrische Lobby von Wes Anderson

Wes Anderson style cinematic composition. A 1960s hotel concierge in a burgundy uniform stands dead-center in a pastel-pink Art Deco lobby, flanked by perfectly symmetrical potted palms and brass sconces. Flat front-on framing, everything on center axis. Soft fluorescent overhead lighting. Pastel pink and mint green color palette. 35mm film look. Ultra-detailed 4K.

Anmerkung: Die Lobby des Art-Deco-Hotels in Rosa, symmetrische Bildkomposition, der Concierge steht in der Bildmitte.

5. Konfrontation in der Küche in einem koreanischen Krimi

Cinematic still from a modern Korean crime thriller. Two men face each other across a small Seoul apartment kitchen at 2am, both holding knives but frozen in a tense moment. Single fluorescent tube overhead casts hard green-tinted light and harsh shadows. Steam rises from an abandoned pot on the stove. Tight composition, 40mm lens, handheld feel. Bong Joon-ho style. Ultra-realistic 4K.

Anmerkung: Um zwei Uhr morgens stehen sich zwei Personen in einer Küche in Seoul gegenüber, beleuchtet von grellem, grünlich schimmerndem Neonlicht und gefilmt mit einer Handkamera.

Eine Frau im Licht von Rembrandt in einer Jazzbar – Bild generiert anhand der GPT-Bild-2-Prompt — Ein einzelner Scheinwerfer in Kombination mit voluminösem Nebel ist ein nahezu universeller Trick, um einen cineastischen Look zu erzielen.

6. Das Epos der Wüste von Villeneuve

Epic cinematic wide shot in Denis Villeneuve style. A lone hooded figure in flowing desert robes walks across a vast orange sand dune at sunset. The sun is enormous on the horizon, casting elongated shadows. Scale is extreme — the figure is tiny, the landscape overwhelming. Dust kicks up in the wind. Warm amber palette with deep violet shadows. Shot on 65mm, ultra-wide aspect. Ultra-realistic 4K cinematic quality.

Anmerkung: Ein Weitwinkelbild im Stil von Villeneuve: Die Figuren wirken winzig, die Landschaft überwältigend.

7. Das Café „Nouvelle Vague“

Black and white French New Wave cinematic still. A young woman in a striped Breton shirt and dark bob haircut smokes at a Paris cafe table in 1962. She looks off-camera with soft intensity. Natural window light, high contrast, slightly overexposed highlights. Film grain visible. Godard aesthetic. 35mm monochrome, 50mm lens. Ultra-detailed.

Anmerkung: Eine Frau mit kurzem Haar in einem Pariser Café, 1962, Schwarz-Weiß im Stil der französischen Nouvelle Vague.

8. Der italienische Giallo-Horror-Korridor

Cinematic horror frame in the style of a 1970s Italian giallo. A woman in a white nightgown stands at the end of a long Victorian hallway lit only by flickering red lamplight. Her back is turned. Shadow stretches toward the camera. Wallpaper is blood-red damask. Shallow depth of field, 28mm lens slightly distorted. Grainy film look. Deep red and black color story. Ultra-detailed 4K.

Anmerkung: Im Stil des italienischen Giallo der 1970er Jahre: die Rückenansicht einer Frau in weißer Kleidung am Ende eines blutroten Korridors.

9. Neon-Nacht in Miami

1980s Miami Vice cinematic shot. A woman in a white linen blazer drives a red convertible at night through downtown Miami. Palm trees and neon motel signs blur past. She looks at the camera with sunglasses reflecting the pink and turquoise glow of the city. Lens flare, soft film grain. Teal and magenta color grade. Ultra-realistic 4K.

Anmerkung: Die Nachtansicht von Miami in den 80er Jahren: ein rotes Cabrio und Sonnenbrillen, in denen sich die Neonlichter spiegeln.

10. Realverfilmungen von Ghibli-Filmen

Cinematic still styled as a live-action Studio Ghibli adaptation. A young woman in a simple blue linen dress stands in a vast green hillside field, wind blowing her hair and skirt. Fluffy white clouds race overhead. Soft golden hour light. Warm, painterly color grading with gentle film grain. Wide lens, low-angle composition making her heroic against the sky. Ultra-detailed 4K.

Anmerkung: Eine realistische Darstellung eines Hügels im Ghibli-Stil, aufgenommen aus einem niedrigen Blickwinkel, der die Skyline hervorhebt.

Stichwortdatenbank: Porträts und Make-up

Der Erfolg eines Porträts hängt von drei Faktoren ab: Objektiv, Lichtrichtung und Hauttextur. Wenn Sie „85 mm f/1,4“, „Ringlicht“ oder „Softbox links vor der Kamera“ angeben, können Sie drei Runden erfolgloser Versuche überspringen.

Nahaufnahme von feuchter Haut im Schein einer Ringlampe – GPT Image 2: Beispiel für eine Bildbeschreibung — Ein Makro-Porträt in Werbequalität für Kosmetikprodukte. Der Satz „85 mm Makro, f/1,4“ ist der eigentliche Grund dafür, dass die Haut diese Textur erhält.

11. Fenty Beauty-Qualität im Makrobereich

Extreme close-up beauty portrait. A stunning model with wet dewy skin and tousled damp hair, bare shoulders glistening. Water droplets on her face and neck catch the light of a ring light. Flawless skin texture in macro detail — every pore, every water droplet razor sharp. Smoky eye makeup with subtle gold shimmer. Lips slightly parted, intense gaze at camera. Dark background. Fenty Beauty campaign aesthetic. 85mm macro lens, f/1.4, ultra-shallow depth of field. Ultra-realistic 4K.

Anmerkung: Nahaufnahme eines Make-ups auf feuchter Haut, beleuchtet durch einen Ringlicht, wobei jede einzelne Wassertropfen klar und deutlich zu erkennen ist.

12. Barocke Bankfiguren

Luxury editorial portrait. A gorgeous model wearing an elegant black velvet off-shoulder gown reclines on a dark velvet chaise longue in a dimly lit Baroque-style room. One arm draped elegantly above her head. Rich warm Rembrandt lighting from a single window highlights the fabric draping against her glowing skin. Oil painting-like quality with deep shadows and warm highlights. High-end fashion editorial photography. 85mm lens, creamy bokeh. Ultra-realistic 4K.

Anmerkung: Die Frau im schwarzen Kleid auf dem Samtsofa; Rembrandt lässt durch das einzige Fenster Licht hereinfallen, wodurch die Textur des Gemäldes zur Geltung kommt.

13. Sauberes Passfoto für geschäftliche Zwecke

Professional corporate headshot. A confident woman in her early 30s wearing a tailored navy blazer over a crisp white shirt. Neutral gray seamless studio background. Three-point lighting — soft key from camera left, subtle fill from right, rim light from behind. Genuine warm smile, direct eye contact. 85mm lens, f/2.8. Skin tone natural and healthy. LinkedIn executive headshot quality. Ultra-realistic 4K.

Anmerkung: Grauer Hintergrund + Standard-Dreipunktbeleuchtung, Profilbild eines hochrangigen Managers auf LinkedIn.

14. Straßenporträts aus Tokio

Environmental street portrait. A 20-something Tokyo local with bleached blonde hair and oversized vintage streetwear stands in Shibuya on a weekday afternoon. Shallow depth of field with crowd of pedestrians soft-blurred behind her. Natural overcast daylight. She looks slightly off-camera, lost in thought. Shot on Fujifilm X100 aesthetic, 35mm lens, f/2. Ultra-realistic 4K.

Anmerkung: An einem Nachmittag unter der Woche in Shibuya: Ein Mädchen mit blond gefärbten Haaren vor einem verschwommenen Hintergrund aus Menschenmassen.

15. Titelseite im Vogue-Stil

High-end fashion portrait in the style of a Vogue Italia cover. A striking model with razor-sharp cheekbones wears an oversized metallic silver couture gown with architectural shoulders. She stares directly into camera with a cold, commanding expression. Hair pulled back tight. Studio lighting is a single hard light from 45 degrees creating sculptural shadows. Gray backdrop. 85mm portrait lens, f/5.6 for crisp detail. Ultra-detailed 4K.

Anmerkung: Im Stil des Covers von „Vogue Italia“: ein silberner, dreidimensionaler Abendkleid + ein Porträt in skulpturaler Manier mit hartem Licht.

16. Porträts in der Küche bei natürlichem Licht

Soft natural light portrait. A woman with wavy chestnut hair sits by a large north-facing window in a quiet morning kitchen. She holds a ceramic mug of coffee in both hands, looking out the window thoughtfully. Warm cream sweater, no makeup, freckles visible. Shot in Rembrandt light with window as the only source. 50mm lens, f/1.8, shallow depth of field. Soft, honest, lived-in feel. Ultra-realistic 4K.

Anmerkung: Eine Frau ohne Make-up am Küchenfenster im Morgenlicht, beleuchtet nur durch das natürliche Licht, das durch das einseitige Fenster fällt.

17. Einfarbiges Bühnenlicht

Dramatic black and white portrait. A man with a short salt-and-pepper beard and intense dark eyes stares into the lens. Only half his face is lit — hard side light from camera right, pure black shadow on the other side. Textured gray background fades to black. Shot on medium format film aesthetic, 80mm lens. Film grain. Peter Lindbergh style monochrome. Ultra-detailed.

Anmerkung: Schwarz-Weiß-Porträt im Stil von Peter Lindbergh, eine Gesichtshälfte in grellem Licht, die andere komplett schwarz.

18. Rosa Make-up-Fotoserie

Dreamy pastel beauty portrait. A model with soft pink lips, dewy skin, and flushed cheeks against a blush pink seamless backdrop. She wears a sheer white off-shoulder top. Soft diffused lighting from a large softbox creates flattering even illumination. Hair in loose tousled waves. 85mm lens, f/2. Cotton candy color palette — pink, peach, cream. Ultra-realistic 4K beauty editorial.

Anmerkung: Rosa Hintergrund + großer Softbox – eine Make-up-Fotoserie in Bonbonfarben.

19. Romantik in der goldenen Stunde

Sun-drenched golden hour portrait. A woman in a flowing cream linen dress stands in a wheat field at 7pm on a summer evening. The sun is low behind her, creating a halo of golden backlight through her hair and the sheer fabric. Lens flare across the frame. Her eyes are closed, face tilted up to the warmth. 135mm telephoto lens, f/2, compressed background. Warm honey color grade. Ultra-realistic 4K.

Anmerkung: Weizenfeld an einem Sommerabend, Gegenlicht + 135-mm-Teleobjektiv für räumliche Kompression.

20. Bibliothek der Schule der Dunkelheit

Dark academia editorial portrait. A young woman with auburn hair in a loose braid wears a wool cardigan over a white collared shirt in an old university library. She holds an open leather-bound book, reading by the light of a green banker's lamp. Towering bookshelves around her fade into shadow. Warm tungsten light, deep navy and olive color palette. 50mm lens, f/2.8. Ultra-realistic 4K.

Anmerkung: Alte Bibliothek + grüne Bankleuchten, „Dark Academia“-Atmosphäre.

Stichwortverzeichnis: Bewegungen und Dynamik

Für Action-Szenen sind zwei Dinge erforderlich: Begriffe, die den Moment einfrieren („frozen mid-air“, „high-speed capture“) sowie Kontrastlicht, um das Motiv vom unruhigen Hintergrund abzuheben.

Der Moment, in dem ein Sportler einen Roundhouse-Kick ausführt – GPT Image 2: Beispiel für Bewegungsbeschreibungen — Ein eingefrorenes Porträt in Bewegung. Was die Konturen wirklich hervorhebt, ist dieser Strahl „Licht von hinten“.

21. Nike Training Freeze Frame

Dynamic action freeze-frame. An athletic woman in a fitted sports bra and high-waisted compression shorts executes a powerful spinning roundhouse kick. Water splashes frozen in mid-air around her legs and feet in a dramatic spray pattern. Her toned abs and defined muscles visible. Dramatic single-source rim lighting from behind creates a glowing silhouette edge. Dark studio background. Nike Training campaign energy. High-speed photography feel — ultra-sharp subject, motion blur on water droplets. Ultra-realistic 4K.

Anmerkung: Hochgeschwindigkeitsaufnahmen in Nike-Werbequalität, bei denen die Wasserspritzer in der Luft eingefroren sind.

22. Blick in die Surfer-Welle

Epic wide-angle shot of a female surfer riding inside a massive crystal-clear barrel wave at golden hour. Her silhouette and athletic body visible through the translucent turquoise water of the wave tube. Golden sunlight creates an explosion of light and water mist behind her. Dramatic backlit composition. The wave is enormous and perfectly formed. GoPro-style immersive perspective. Ultra-realistic 4K cinematic quality.

Anmerkung: Eine Surferin in der „Golden Hour“ inmitten einer riesigen Welle, als Silhouette im Gegenlicht.

23. Parkour-Sprung über das Dach

High-speed action shot of a parkour athlete mid-leap between two Brooklyn rooftops at sunset. Frozen at the apex of the jump, arms and legs extended, silhouetted against a burning orange sky. The gap below him is dizzying — city streets far below. Motion blur on the trailing edge of his hoodie. Shot from a drone at his height, 35mm lens. Ultra-realistic 4K cinematic action.

Anmerkung: Parkour auf den Dächern von Brooklyn im Abendlicht, der höchste Sprungpunkt eingefroren.

24. Im Rampenlicht des Mixed-Martial-Arts-Rings

Dramatic fight night action. A female MMA fighter mid-spinning back elbow, sweat flying from her hair in a visible arc of droplets. Single harsh overhead ring spotlight isolates her from pure black background — classic boxing photography look. Her opponent is a blurred silhouette out of focus. 70-200mm lens at 200mm, f/2.8, 1/2000 shutter frozen motion. High contrast, desaturated. Ultra-detailed 4K.

Anmerkung: Im MMA-Ring fällt ein einziger Lichtstrahl von oben, und die Flugbahn der Schweißtropfen ist deutlich zu erkennen.

25. Staubentwicklung durch Geländemotorräder

Low-angle action shot of a motocross rider airborne over a dirt jump, red desert dust exploding behind the rear tire. Late afternoon sun casts long shadows. The bike is tilted aggressively mid-trick. Camera is just above ground level looking up, making the jump look monumental. Anamorphic lens flare from the sun. Orange and teal color grade. Ultra-realistic 4K action.

Anmerkung: Das Geländemotorrad schießt in die Luft, und das Hinterrad wirbelt roten Staub auf.

26. Sprung im Ballettstudio

Contemporary ballet dancer mid-grand jete frozen in the air, arms extended, body perfectly horizontal. She wears a simple nude leotard. Plain gray cyclorama studio background. Strong side-light from camera left creates a sculptural chiaroscuro on her musculature. Powder disturbed from the floor traces her leap in a soft cloud. 1/4000 shutter speed feel. Ultra-detailed 4K.

Anmerkung: Beim Grand Jeté im Ballett ist der Körper am höchsten Punkt parallel zum Boden.

27. Dunking im Basketball

Low-angle hero shot of a male basketball player mid-slam dunk, one hand gripping the rim, body extended diagonally across the frame. Arena lights streak as lens flares. Crowd is a soft blurred wall of phone flashes behind him. Frozen sweat and net motion. Shot on 24mm wide from directly below the hoop. NBA official photography energy. Ultra-realistic 4K.

Anmerkung: 24-mm-Weitwinkelaufnahme des Dunkings direkt unter dem Korb.

28. Ein galoppierendes Pferd reitet auf einer Welle

A rider on a powerful black horse gallops through knee-deep shallow ocean water at sunrise. Water explodes from each hoofstrike, frozen in a dramatic spray. The rider is leaned low, hair streaming behind. Warm golden backlight from the rising sun. Mist rising off the water. Shot at 1/4000 shutter, 200mm telephoto compression. Ultra-realistic 4K equine photography.

Anmerkung: Flaches Wasser bei Sonnenaufgang, ein schwarzes Pferd galoppiert und lässt Wasserfontänen aufspritzen; aufgenommen mit einem 200-mm-Teleobjektiv.

Stichwort-Datenbank: Natur und Landschaft

Die Schlüsselbegriffe für Landschaftsfotos sind Tageszeit, Wetter und vertikale Perspektive. Das Modell hat eine sehr starke Voreinstellung auf „allgemeine natürliche Schönheit“; du musst es mit konkreten Begriffen von diesem Mittelwert wegbewegen.

Eine Frau im Nebel am Rande eines Wasserfalls an einer Klippe – GPT Image 2: Beispiel für eine natürliche Prompt-Formulierung — Eine Frau im Nebel am Rande eines Wasserfalls an einer Klippe. Die „leicht von oben“ gezeigte Luftaufnahme + ein konkretes Wort wie „gossamer“ sorgen dafür, dass das Modell nicht mehr dem Standardbild entspricht.

29. Das Nebelreich am Wasserfall

Ethereal fantasy nature scene. A graceful young woman in a flowing sheer gossamer dress stands at the edge of a towering waterfall cliff. Dense tropical mist swirls around her legs and the translucent fabric. She extends one arm toward the cascade, water droplets catching golden light. Aerial perspective slightly from above showing the dramatic cliff drop. Lush green ferns frame the composition. Golden hour light filtering through the mist. Ultra-realistic 4K cinematic quality.

Anmerkung: Eine Frau in einem weißen Kleid am Rande eines Wasserfalls an einer Klippe, aus der Vogelperspektive + Nebel.

30. Luftaufnahmen vom Schwimmen auf den Malediven

Overhead drone shot of a beautiful woman in a minimal white bikini floating on her back in crystal-clear turquoise shallow water over white sand in the Maldives. Her long dark hair fans out in the water like a halo. The water is so clear her full body is visible through the translucent surface. Tiny fish swim nearby. Travel photography editorial style. Ultra-realistic 4K aerial quality.

Bildbeschreibung: Eine Frau, die im kristallklaren Wasser schwimmt, aufgenommen aus der Vogelperspektive direkt über den Malediven.

31. Die schwarze Sandküste Islands

Dramatic wide landscape of Iceland's Reynisfjara black sand beach at dawn. Massive basalt sea stacks rise from the churning North Atlantic. Low fog drifts across the black sand. A single figure in a red rain jacket walks along the shoreline for scale. Moody desaturated color grade — almost monochrome with just the red jacket as accent. 24mm wide lens, f/11 for deep focus. Ultra-detailed 4K.

Anmerkung: Der schwarze Sandstrand in Island und die rote Regenjacke dienen als farbliche Ankerpunkte.

32. Das Licht der Redwood-Kirche

Vertical composition looking up through towering California redwood trees. Shafts of golden morning sunlight cut through the fog between the trunks like cathedral light rays. Ferns carpet the forest floor. A tiny hiker in the distance gives scale. Ultra-wide 14mm lens distorting the trunks into a radial pattern toward the sky. Warm green and gold palette. Ultra-realistic 4K nature photography.

Anmerkung: 14-mm-Weitwinkelaufnahme eines Redwood-Waldes, Lichtstrahlen durch den Nebel auf eine Kirche.

33. Der Spiegelsee in Patagonien

Perfect mirror reflection of the jagged Torres del Paine peaks in a glass-still Patagonian alpine lake at blue hour. Pink and purple alpenglow on the snow-capped summits. A single orange tent on the near shore as human scale. Complete symmetry — upper and lower half of frame are near-mirror images. 35mm lens, f/11. Ultra-realistic 4K landscape.

Anmerkung: Der perfekte, spiegelglatte See in der blauen Stunde, symmetrisch von oben bis unten.

34. Sandstürme in der Sahara

Vast Sahara desert at the start of a sandstorm. Rolling orange dunes extend to the horizon, with a towering wall of sand approaching from the left. A lone nomadic figure on camelback is silhouetted against the dust cloud. Sun struggles through the haze as a dim orange disc. Cinematic wide-angle, heavy atmospheric haze. Monochromatic warm orange palette. Ultra-detailed 4K.

Anmerkung: Am Rande eines Sandsturms in der Sahara stehen die Silhouetten von Kamelreitern einer Sandwand gegenüber.

35. Aurora-Hütte

Wide landscape of a tiny warm-lit wooden cabin in a Norwegian fjord valley at 1am. A spectacular green and purple aurora borealis dances overhead, reflecting in the still black fjord water. Snow-dusted pine trees and mountains frame the scene. The cabin glow is the only warm color in an otherwise cold composition. 20-second long exposure feel. Ultra-realistic 4K astrophotography.

Anmerkung: Nordlichter um ein Uhr morgens in einem norwegischen Fjord und eine gemütliche Hütte.

36. Sonnenuntergang auf der afrikanischen Savanne

Cinematic wide shot of a family of elephants crossing a golden savanna at sunset in Kenya. The sun is a huge orange disc on the horizon, silhouetting the herd. Long grass ripples in the warm wind. Dust kicked up by the herd diffuses the backlight into warm beams. 200mm telephoto compression. National Geographic editorial style. Ultra-realistic 4K wildlife photography.

Anmerkung: Kenianische Steppe bei Sonnenuntergang, Silhouetten einer Elefantenherde + 200-mm-Teleobjektiv für perspektivische Kompression.

37. Der Kirschblütenfluss in Kyoto

Serene wide landscape of the Philosopher's Path in Kyoto at peak cherry blossom season. Pink petals float on the narrow canal, with more drifting down from the trees above. Traditional wooden bridges arch over the water. Early morning mist softens the light into diffused pink. A solo figure in a dark kimono walks along the stone path for scale. 50mm lens, f/4, gentle pastel color grade. Ultra-realistic 4K.

Anmerkung: Während der Kirschblüte auf dem Philosophenweg in Kyoto treiben rosa Blütenblätter auf dem Wasser des Kanals.

38. Sturmlicht in den schottischen Highlands

Dramatic landscape of the Scottish Highlands during a clearing thunderstorm. Dark churning clouds above a lone glen, with a single shaft of golden sunlight breaking through and lighting one patch of heather-covered hillside. Rainbow arc barely visible at the edge. Ancient standing stones in the foreground. Moody cinematic color grade — steel blue shadows, warm sunlit highlight. 24mm wide, f/11. Ultra-realistic 4K landscape photography.

Anmerkung: Als sich das Gewitter über den schottischen Highlands gerade auflöste, drang ein einziger goldener Sonnenstrahl durch die dunklen Wolken.

Stichwort-Datenbank: Fantasy und Stilisierung

Sobald du im Fantasy-Bereich konkrete künstlerische Vorbilder nennst (Ufotable, Arcane, Studio Trigger, Illustrationen aus „Magic: The Gathering“), werden die Suchergebnisse viel treffsicherer. Ein allgemeiner Suchbegriff wie „Fantasy-Kunst“ liefert dir nur allgemeine Fantasy-Bilder.

Die magische Kriegerin mit dem leuchtenden Schwert – GPT Image 2: Beispiele für Anime-Prompts — Eine Fantasy-Kriegerin im Ufotable-Stil. Den Namen des Studios zu nennen, sagt mehr aus als zwanzig Adjektive.

39. Ufotable: Anime-Kriegerprinzessin

Epic anime-inspired fantasy warrior princess with flowing silver-white hair that reaches her waist, wearing ornate golden battle armor that hugs her figure with intricate engravings. She holds a glowing magical sword aloft, emitting bright blue energy. Cherry blossom petals and magical sparkles swirl in a violent storm around her. Her expression is fierce and determined. Dynamic action pose mid-battle leap. Ultra-detailed anime with CGI-quality lighting — Ufotable production quality. Rich colors, dramatic volumetric lighting. 4K quality.

Anmerkung: Eine Anime-Heldin auf Ufotable-Niveau: das blaue Zauberschwert + Kirschblütensturm.

40. Dunkelelfen-Magierin

Dark fantasy dark elf sorceress with long flowing midnight-purple hair, pointed ears, and luminous violet eyes. She wears an elegant off-shoulder dark robe with intricate silver embroidery that reveals her collarbones and shoulders. Purple arcane energy spirals from her outstretched hands, illuminating her face from below. A vast star field and nebula visible in the background through a shattered stone archway. Semi-realistic fantasy illustration style with cinematic lighting. Ultra-detailed 4K.

Anmerkung: Eine Dunkelelfen-Magierin, aus deren Händen violette arkane Energie wirbelt.

41. Die Waldgeister von Studio Ghibli

Studio Ghibli style painterly scene. A small forest spirit that looks like a glowing white fox with three tails walks through a mossy enchanted forest at dusk. Fireflies dance around it. Soft painterly brushstrokes, warm honey-gold light filtering through massive ancient trees. Hayao Miyazaki watercolor aesthetic. Ultra-detailed animation cel quality.

Anmerkung: Ein dreischwänziger weißer Fuchs im Ghibli-Stil schlendert durch einen moosbewachsenen Wald in der Abenddämmerung.

42. Arcane: Der Kampf der Städte

Arcane Netflix animated series style illustration. A young woman with blue-tipped braided hair and steampunk goggles leans against a graffitied alley wall in the undercity of Piltover. Neon magical rune-signs glow behind her. Textured painterly brushstrokes visible, 2D illustration with 3D depth, saturated purple and teal color story. Fortiche animation studio aesthetic. Ultra-detailed 4K.

Anmerkung: Ein Mädchen in den Gassen der Unterstadt im Arcane-Fortiche-Stil.

43. Der Drachen von Magic: The Gathering

Fantasy illustration in the style of a Magic The Gathering card. A colossal red dragon emerges from molten lava in an underground cavern, wings half-spread, mouth roaring with fire breath forming. A tiny knight in silver armor stands at the cavern's edge for scale, raising a shield. Dramatic low-angle hero composition. Rich oil-painting texture, Greg Rutkowski influence. Ultra-detailed 4K fantasy art.

Anmerkung: Der Lava-Rote Drache und der Winzige Ritter im Illustrationsstil von Magic: The Gathering.

44. Cyber-Samurai

Cyberpunk fantasy fusion. A female samurai with a chrome katana stands on the rain-slicked rooftop of a neo-Tokyo megacorp tower at night. She wears a fusion of traditional kimono and carbon-fiber combat armor. Holographic cherry blossoms drift around her. Neon reflections on the wet rooftop, flying ad-drones in the background. Illustrated in the style of Katsuhiro Otomo meets modern 3D concept art. Ultra-detailed 4K.

Anmerkung: Eine Samurai-Kriegerin auf den Dächern von Cyber-Tokio + holografische Kirschblüten.

45. Die Meerjungfrau

Ethereal underwater fantasy. A graceful mermaid with iridescent teal and violet scales swims through a coral reef illuminated by shafts of sunlight piercing the water surface above. Her long turquoise hair flows weightlessly. Bubbles trail from her fingertips. School of small silver fish swim past. Dreamlike painterly quality, Lisa Frank meets National Geographic. Ultra-detailed 4K fantasy art.

Anmerkung: Eine schillernde Meerjungfrau im Korallenriff, während Lichtstrahlen durch die Wasseroberfläche dringen.

46. Kapitän eines Steampunk-Luftschiffs

Illustrated steampunk fantasy portrait. A young female airship captain in a brass-buttoned red military coat, goggles pushed up on her forehead, stands at the wheel of a wooden airship. Visible brass gears and copper pipes. Behind her, clouds and other distant airships. Warm golden hour lighting. Illustration style inspired by Nausicaa and Howl's Moving Castle. Ultra-detailed 4K.

Anmerkung: Eine Luftschiffkapitänin im Stil von Hayao Miyazaki und ein Messingzahnrad.

Stilvielfalt: Ein und dasselbe Motiv, verschiedene Welten

Ein unterschätzter Workflow in GPT Image 2: Das Motiv fixieren und nur den Stil-Slider anpassen. So kannst du ganz genau sehen, wie sich die einzelnen Stile auf dasselbe Gesicht, dieselbe Kleidung und dieselbe Pose auswirken – beim nächsten Mal musst du den Stil nicht mehr erraten.

Stilvergleich in vier Feldern: Realistisch, Anime, Ölgemälde, Cyberpunk – GPT Image 2-Prompts — Vier verschiedene Stile desselben Motivs. Diese Varianten eignen sich hervorragend für die Erstellung eines Moodboards, bevor dem Kunden eine Auswahl an Stilen vorgelegt wird.

Grundlegende Prompt-Anweisungen – Der Hauptteil bleibt in allen vier Generierungen vollständig identisch:

A beautiful young woman with shoulder-length brown hair stands in a sunlit garden, wearing a simple white sundress, one hand lightly touching a rose bush. Soft golden afternoon light. Three-quarter body framing, slightly tilted head, warm smile.

Anmerkung: Eine Frau in einem schlichten Kleid, die im Sonnengarten eine Rose berührt, im goldenen Licht des Nachmittags.

Dann wechsle nur die Stil-Slots und führe jeden einmal aus:

47. Realistische Fotografie

[Base] — Hyperreal fashion photography aesthetic. 85mm lens at f/1.8, soft natural light, editorial sharpness. Ultra-realistic 4K.

48. Japanische Anime

[Base] — Japanese anime style with cel shading, bold line art, vibrant saturated colors, large expressive eyes. Kyoto Animation production quality. Ultra-detailed.

49. Klassische Ölmalerei

[Base] — Classical oil painting style with visible thick brushstrokes, warm Renaissance lighting, chiaroscuro shadow, Vermeer-like color palette. Museum-quality.

50. Cyberpunk

[Base] — Neon-drenched cyberpunk futurism. Holographic overlays, circuit-pattern light tattoos on skin, magenta and cyan rim lighting. Ghost in the Shell art direction. Ultra-detailed.

Wir haben diese Sequenz auf unserem internen Testkonto abgespielt: Das erste Bild dauerte etwa 18 Sekunden, die Stilwechsel bei den folgenden Bildern nahmen etwa genauso viel Zeit in Anspruch. Insgesamt benötigten wir weniger als zwei Minuten und 48 Credits, um ein vollständiges Moodboard zu erstellen. Für eine Kundenpräsentation bedeutet dies, dass wir die Materialrecherche, die ursprünglich einen halben Tag gedauert hätte, auf die Zeit einer Tasse Kaffee verkürzt haben.

Häufige Fehlerfälle und deren Behebung

Kapitel „Ehrlichkeit“: GPT Image 2 ist sehr nützlich, aber es ist kein Zaubermittel. Im Folgenden finden Sie die häufigsten Fehlerarten, die wir festgestellt haben, sowie entsprechende Vorlagen zur Behebung. Nutzen Sie diesen Abschnitt als Checkliste zur Fehlerbehebung – gehen Sie die Punkte der Reihe nach durch, wenn das nächste Mal ein Bild nicht wie gewünscht ausfällt; die meisten Probleme lassen sich bereits nach der ersten Korrektur beheben.

Fehler 1: Unspektakuläre Ausgabe

Before：

A beautiful woman in a city.

After：

A 28-year-old woman with auburn hair pulled into a low ponytail, wearing a camel trench coat, crossing a Manhattan crosswalk at 6pm on a rainy Thursday. Yellow taxis blur past in motion-blurred streaks. 50mm lens, f/2, cinematic grain. Ultra-realistic 4K.

Der erste Prompt bot dem Modell keinerlei Anhaltspunkte. Die Lösung besteht immer darin, konkrete Substantive und konkrete Orte zu verwenden.

Fehler 2: Falsche Anzahl von Fingern

GPT Image 2 liefert bei der Darstellung von Händen bereits deutlich bessere Ergebnisse als die erste Generation der Diffusionsmodelle, doch bei Nahaufnahmen von Händen kann es immer noch zu Fehlern kommen. Zwei bewährte Methoden, um dies zu vermeiden:

Die Hände sollten nicht im Mittelpunkt stehen; schneide sie einfach weg: „Framing is shoulders up only“ (nur von den Schultern aufwärts fotografieren).
Lass die Hände etwas halten: „Hände, die sanft eine Keramik-Kaffeetasse halten“. Durch den Gegenstand wird die Haltung bestimmt, wodurch die Anzahl der Finger stabil bleibt.

Fehler 3: Die Schriftzeichen im Bild sind verstümmelt

Ein Modell ist keine Layout-Software. Wenn Sie Logos, Schilder oder lesbaren Text auf Plakaten in die Grafik einfügen möchten, sollte dieser entweder sehr kurz sein („a sign reads OPEN“) oder Sie fügen direkt in die Beschriftung den Hinweis „no text, no letters, no words anywhere in the image“ ein und gestalten das Layout anschließend separat in Figma/Photoshop.

Fehler 4: Die Lichtrichtung wurde nicht berücksichtigt

Before：

A portrait of a woman with dramatic lighting.

After：

A portrait of a woman lit by a single hard spotlight from 45 degrees camera-left, with deep black shadow filling the right side of her face. Rembrandt lighting with a small triangle of light on the shadowed cheek.

„Dramatische Beleuchtung“ sagt gar nichts aus. Erst die Angabe von Richtung, Helligkeit und Schattenbereich ist ein echter Hinweis.

Fehler 5: Das Motiv befindet sich im falschen Bildausschnitt

Wenn das Modell die Figur immer wieder in ein normales Fotostudio statt in eine Bibliothek versetzt – verschiebe die Szene an den Anfang der Eingabeaufforderung und formuliere sie konkreter:

In a candle-lit 17th-century English library with floor-to-ceiling oak shelves, leather-bound books, and a stone fireplace, a woman in…

Wenn man die Szenerie vor die Hauptfigur stellt, legt man damit die gesamte Bildkomposition fest, noch bevor die Figur ins Bild tritt.

Fehler 6: Überladene Prompts

Ab etwa 1.200 Wörtern beginnt die Aussagekraft einzelner Adjektive zu schwinden. Wenn Ihre Eingabe eine Aneinanderreihung von 40 Stil-Tags ist, bildet das Modell einen „Durchschnitt“. Es behält einen Hauptstil als Anker bei (zum Beispiel „Film Noir“) und behandelt alle anderen als sekundär.

20.000 Zeichen voll ausnutzen: Strukturierte lange Prompts

Ein unterschätzter Vorteil von GPT Image 2 ist die Obergrenze von bis zu 20.000 Zeichen für Prompts. Die meisten Konkurrenzprodukte sind auf etwa 1.000 bis 2.000 Zeichen begrenzt. Für Porträts ist dies zwar nicht erforderlich, doch bei komplexen Szenen mit mehreren Personen, Konzeptentwürfen oder Bilderserien mit strenger Markenkonsistenz lohnen sich strukturierte, lange Prompts sehr.

Eine Vorlage, die wir häufig in Produktions-Briefings verwenden:

# SZENE
[Szene: Ort, Zeit, Wetter, historische Epoche, 2–3 Sätze]

# CHARAKTERE
- Charakter A: [Aussehen, Kleidung, aktuelle Haltung, Gesichtsausdruck]
- Charakter B: [wie oben]
- Statisten im Hintergrund: [kurze Beschreibung]

# KOMPOSITION
[Komposition: Weitwinkel/Halbnahe Einstellung/Nahaufnahme; Kameraperspektive; Bildebene; Schärfentiefe; Position der einzelnen Figuren im Bild – Drittelregel/Goldener Schnitt/Zentrierung]

# LIGHTING
[Lichtquelle, Richtung, Helligkeit, Farbtemperatur, Schattenverhalten]

# COLOR
[Beschreiben Sie die Farbpalette mit 3–4 Farbbegriffen. Farbrichtung – warm/kalt/kontrastreich]

# STYLE
[Eine Referenz zum Hauptstil. Z. B. „Roger Deakins’ Kamerastil in ‚Blade Runner 2049‘“]

# TECHNISCH
[Auflösungsangaben, Filmkorn, Bildformat, Bildqualitätsangaben. Bitte kurz halten]

# AUSSCHLÜSSE
[Zu vermeidende Elemente: „Kein Text, keine Logos, keine Wasserzeichen, keine zusätzlichen Gliedmaßen“]

Beispiel – Vollständig strukturierte Keyword-Liste (ca. 500 Wörter) für ein Hauptbild:

# SCENE
A restored 1930s Art Deco ballroom on a rainy Tuesday evening in Paris, set during a private jazz performance. Tall arched windows on the left show wet boulevards and soft yellow streetlamp glow. Interior is lit warm and amber.

# CHARACTERS
- Lead: A striking 32-year-old woman with dark auburn hair in a low chignon, wearing a deep emerald-green silk bias-cut gown with a low back. She stands near a grand piano, one hand resting on its polished black lid, gazing thoughtfully toward the windows. Faint melancholy in her expression.
- Pianist: A middle-aged man in a black tuxedo, seated at the piano mid-performance, profile view, fingers on keys. He is a secondary figure — should not pull focus from the lead.
- Background: Three or four well-dressed patrons at candlelit round tables in soft bokeh, unidentifiable faces.

# COMPOSITION
Medium-wide shot. Lead character is on the right third of the frame, piano extending diagonally across the center toward the left. Rule of thirds. 50mm lens, f/2.2, shallow depth of field — lead and piano sharp, background patrons and windows softly blurred. Eye-level camera height.

# LIGHTING
Warm tungsten chandelier overhead providing ambient glow on the room. Key light on the lead is a single practical wall sconce camera-right at 45 degrees, modeling her face in gentle Rembrandt pattern. Rim from the windows behind her (cool blue rainy light) separates her hair and shoulder edge from the warm interior. Overall contrast: high but soft.

# COLOR
Deep emerald green (dress) and warm amber (interior) as hero colors, with cool blue window light as counter-accent. Warm gold dominant, with selective teal shadow detail. Film-look color grade reminiscent of early Wong Kar-wai.

# STYLE
Cinematic still in the visual language of In the Mood for Love meets a modern luxury cognac commercial. Anamorphic lens quality (slight horizontal flare on the candles). Painterly softness, 35mm film grain.

# TECHNICAL
Ultra-realistic 4K, 16:9 aspect, cinematic frame.

# EXCLUSIONS
No text, no signage, no logos, no watermarks, no visible phones or modern electronics, no extra limbs, no warped fingers on the pianist.

Die Gliederung in Abschnitte hat zwei Vorteile: Erstens stellt sie sicher, dass Sie selbst keinen Abschnitt auslassen; zweitens bietet sie einen strukturierten Ansatzpunkt für die Analyse des Modells, anstatt einen zusammenhängenden Text von 500 Wörtern. In der gesamten Serie müssen lediglich die beiden Abschnitte „CHARACTERS“ und „SCENE“ geändert werden, um verschiedene Einstellungen derselben Werbung in großer Zahl zu erstellen.

Ein praktischer Tipp: Wenn ein Bild zu 80 % richtig gerendert wurde, aber ein bestimmtes Element nicht stimmt (z. B. wenn die Hauptfigur die falsche Farbe trägt), schreiben Sie nicht die gesamte Prompt-Zeile neu. Kopieren Sie die erfolgreiche Zeile, ändern Sie nur den entsprechenden Platzhalter und führen Sie den Vorgang erneut aus. Unsere internen Iterationsprotokolle zeigen: Mit strukturierten Prompts erhält man im Durchschnitt nach 2,8 Versuchen ein Bild auf Hauptbild-Niveau; bei freien, prosaischen Prompts sind es oft mehr als 6 Versuche. Bei einem Preis von 12 Credits pro Bild bedeutet das einen Unterschied von 2 $ zu 5 $ pro Hauptbild.

Möchten Sie den Workflow für strukturierte Prompts an einen Kollegen weitergeben? Lassen Sie ihn zunächst die Einführung lesen und kehren Sie dann zu diesem Artikel zurück.

Häufig gestellte Fragen

Was ist das Wichtigste bei den Prompts für GPT Image 2?

Licht und Objektiv – genau in dieser Reihenfolge. Wenn das Motiv und die Szene etwas unscharf dargestellt werden, lässt sich das noch retten, aber sobald die Lichtrichtung und die Wahl des Objektivs unklar sind, sieht das Ergebnis immer wie ein Stockfoto aus. Wenn Sie nur Zeit haben, zwei Aspekte genau zu bearbeiten, dann konzentrieren Sie sich auf diese beiden. Legen Sie klar fest, „aus welcher Richtung das Licht kommt, wie hart es ist und auf welcher Seite die Schatten liegen“, und legen Sie dann fest, „welches Objektiv (in Millimetern), welche Blende und welche Entfernung“. Damit ist die Grundlage für ein Bild gesichert.

Wie lang sollte eine GPT-Image-2-Prompt sein?

Für Porträts und einfache Szenen liegen 80–150 Wörter im optimalen Bereich. Für filmische Weitwinkelaufnahmen mit zeitlichen und stilistischen Bezügen sind 150–250 Wörter angemessen. Bei Szenen mit mehreren Personen oder Werbetexten sollten strukturierte Vorlagen mit 400–800 Wörtern verwendet werden. Die Obergrenze von 20.000 Zeichen ist für Ausnahmefälle vorgesehen – im Alltag werden selten mehr als 500 Wörter benötigt.

Kann man den Namen eines echten Künstlers in die Eingabeaufforderung schreiben?

Sie können einen Stil oder eine Epoche angeben – „Film Noir“, „Giallo der 1970er Jahre“, „malerischer Stil von Studio Ghibli“ – das Modell erkennt diese visuellen Sprachen. Die direkte Verwendung der Namen lebender Künstler als Stilbezeichnungen ist jedoch ethisch fragwürdig und wird von den Modellen zunehmend herausgefiltert. Es ist besser, Stil, Medium und Epoche zu beschreiben, anstatt einzelne Personen namentlich zu nennen.

Warum sind die Ergebnisse für denselben Suchbegriff jedes Mal unterschiedlich?

Diffusionsmodelle sind ihrem Wesen nach zufällig – sie beginnen mit einem Rauschbild und generieren daraus ein klares Bild. Wenn man dieselbe Eingabe zweimal durchläuft, erhält man zwangsläufig ähnliche, aber unterschiedliche Ergebnisse. Dies ist eine Eigenschaft und kein Fehler, sondern die Quelle der „Vielfalt“. Zur Reproduktion unterstützen die meisten Generierungssysteme einen Startwert-Parameter. Technische Hintergründe finden Sie im Blog von OpenAI zur Bildgenerierung ].

Hat die Länge des Suchbegriffs Einfluss auf den Preis?

Das spielt keine Rolle. GPT Image 2 verwendet eine Pauschalpreisgestaltung: 12 Credits pro Bild, egal ob Sie 20 oder 2.000 Wörter eingeben. Die Kosten hängen ausschließlich von der Anzahl der generierten Bilder ab.

Wie oft sollte man ein Konzept ausprobieren, bevor man es aufgibt?

Faustregel: Probiere denselben Stichwort-Satz dreimal aus, um natürliche Schwankungen zu berücksichtigen. Wenn es immer noch nicht passt, ändere nur einen Platz – fange nicht von vorne an. Meistens geht es nur um die Beleuchtung oder die Kameraposition. Wenn du nach dem 8. Durchlauf noch keine Fortschritte siehst, liegt das Problem bei der Struktur – kehre zur 8-Slot-Formel zurück und überprüfe, wie viele du tatsächlich ausgefüllt hast. Wir haben intern noch eine weitere Gewohnheit: Wir tragen jedes generierte Stichwort und den dazugehörigen Seed in eine Tabelle ein, sodass man bei der Nachbesprechung leicht erkennen kann, welches Wort wirklich funktioniert hat.

Dürfen die von GPT Image 2 generierten Bilder kommerziell genutzt werden?

Ja, das ist möglich. Gemäß den Standardbedingungen des Produkts gehören die von Ihnen erstellten Bilder Ihnen und dürfen kommerziell genutzt werden. Die genauen Lizenzbedingungen entnehmen Sie bitte der Fußzeile der Website. Bei risikoreichen Anwendungsfällen (z. B. Markenwerbung, Titelbilder von Publikationen usw.) empfehlen wir, einen Anwalt zu konsultieren. Betrachten Sie die in den Eingabeaufforderungen genannten realen Personen oder Markenzeichen zudem nicht als Freifahrtschein – dies betrifft Fragen des Rechts am eigenen Bild und des Markenrechts, die nicht unter die Bedingungen des KI-Produkts fallen.

Was ist der Unterschied zwischen den Prompts für „text-to-image“ und „image-to-image“?

Bei „Text-to-Image“ beginnt man mit einem Rauschen, wobei die Eingabeaufforderung die einzige Orientierung ist. Bei „Image-to-Image“ beginnt man mit dem von Ihnen hochgeladenen Referenzbild, wobei die Eingabeaufforderung lediglich dazu dient, dieses zu verändern. Die Eingabeaufforderung für „Image-to-Image“ sollte kürzer sein und sich darauf konzentrieren, „was verändert werden soll“ („in Ölmalerei-Stil umwandeln, dabei die Haltung und Kleidung des Motivs beibehalten“), anstatt die gesamte Szene noch einmal zu beschreiben – das Referenzbild liefert bereits den Großteil der Informationen.

Sind Sie bereit, loszulegen?

Du hast jetzt über 50 Prompts, eine Formel mit acht Slots, eine Checkliste zur Behebung von Fehlern sowie eine strukturierte Vorlage für lange Prompts. Der nächste Schritt besteht darin, das Tool zu öffnen und tatsächlich einen Prompt auszuführen. Wähle einfach einen beliebigen aus, füge ihn ein und schau, wie sehr sich das Ergebnis von der Vorstellung in deinem Kopf unterscheidet – dann korrigiere nur den Slot, der daneben liegt, und führe den Prompt erneut aus. Nach zwei oder drei Durchgängen wirst du in der Lage sein, zuverlässig Bilder zu erstellen, die „direkt zur Auslieferung bereit“ sind.

Speichere diesen Artikel in den Lesezeichen deines Browsers oder klebe die „Acht-Punkte-Formel“ an den Rand deines zweiten Bildschirms. Der eigentliche Fortschritt besteht nicht darin, sich diese Stichworte zu merken, sondern darin, die Formel in Muskelgedächtnis zu verwandeln – danach wirst du bei jedem Referenzbild ganz automatisch dessen Hauptmotiv, die Lichtverhältnisse, die Bildkomposition und den Stil herausarbeiten können.

GPT Image 2 kostenlos testen →

Weiterlesen:

Haben Sie Fragen zu einem bestimmten Stichwort? Hinterlassen Sie uns eine Nachricht auf der Website – wir lesen jede einzelne durch, und die am häufigsten gestellten Fragen werden oft in der nächsten Ausgabe des Leitfadens behandelt. Den theoretischen Hintergrund können Sie zusammen mit dem Wikipedia-Artikel über Modelle zur Text-zu-Bild-Generierung lesen; das dauert etwa 10 Minuten. Wenn Sie sich weiter verbessern möchten, können Sie als Nächstes das Tutorial aus derselben Reihe lesen, um Ihren Arbeitsablauf von „ein gutes Bild generieren“ auf „eine Reihe stilistisch einheitlicher Bilder konsistent produzieren“ zu erweitern.

Leitfaden für GPT Image 2-Prompts: Über 50 praxisorientierte Vorlagen (2026)

Inhaltsverzeichnis