Anleitung zu GPT Image 2: Ein umfassender Leitfaden von der Registrierung bis zur Bildgenerierung (2026)

Apr 22, 2026

Kurzzusammenfassung

GPT Image 2 ist ein browserbasiertes Tool zur Erzeugung von Bildern mittels KI, das nur zwei Modi bietet: Text-zu-Bild (text-to-image) und Bild-zu-Bild (image-to-image). Die Abrechnung erfolgt einheitlich mit 12 Punkten pro Bild, ohne zusätzliche Optionen wie Auflösung, Seitenverhältnis oder Qualitätsstufen. Dieser Artikel führt Sie Schritt für Schritt durch den gesamten Prozess – von der Registrierung über die erste Bildgenerierung und das Hochladen von Referenzfotos zur Bearbeitung bis hin zu den Prompt-Strategien, mit denen Sie tatsächlich brauchbare Bilder erstellen können. GPT Image 2 kostenlos testen →


Bevor es losgeht: Was du vorbereiten musst

Für die Nutzung von GPT Image 2 sind weder eine leistungsstarke Grafikkarte noch Photoshop oder Vorkenntnisse im Bereich KI erforderlich. Alle Berechnungen werden auf dem Server durchgeführt, während der Browser lediglich für die Eingabe und die Darstellung der Ergebnisse zuständig ist. Die einzigen Vorbereitungen, die Sie treffen müssen, sind ganz einfach:

  • Ein moderner Browser. Die aktuellen Versionen von Chrome, Edge, Safari, Firefox und Arc sind alle geeignet. Die Aktivierung der Hardwarebeschleunigung sorgt für eine flüssigere Vorschau, ist jedoch nicht zwingend erforderlich.
  • Ein E-Mail-Konto. Die Registrierung ist sowohl über E-Mail-Passwort als auch per Google-Ein-Klick-Anmeldung möglich. Sowohl Firmen-E-Mail-Adressen als auch Gmail sind zulässig; E-Mail-Adressen mit Wegwerf-Domains werden abgelehnt.
  • Ein geringes Guthaben an Punkten. Unabhängig davon, ob es sich um Text-zu-Bild oder Bild-zu-Bild handelt, wie lang die Eingabeaufforderung ist oder welches Ausgabeverhältnis gewählt wird, kostet jede Erzeugung einheitlich 12 Punkte. Neue Konten verfügen über kostenlose Testpunkte, die für die ersten paar Bilder in diesem Tutorial ausreichen.
  • Ein Referenzbild (optional). Wenn Sie Bilder aus Bildern generieren möchten, bereiten Sie ein bis zwei Ausgangsbilder im JPG-, PNG- oder WebP-Format vor; ein einzelnes Bild sollte möglichst nicht größer als 10 MB sein. Quadratische oder vertikale Bildkompositionen liefern am ehesten stabile Ergebnisse.
  • **Eine vage Idee reicht aus. ** Anfänger versuchen oft, auf Anhieb den „perfekten Prompt“ zu formulieren, und verzetteln sich dabei. Der wirklich effektive Ansatz ist, zunächst mit einem einfachen Prompt ein Bild zu erstellen, zu schauen, was das Modell liefert, und dann zu entscheiden, wie man es anpasst.

Bis April 2026 ist für die Nutzung von GPT Image 2 weder der Download eines Clients noch die Beantragung eines API-Schlüssels erforderlich, und es gibt keine Warteliste. Einfach die Startseite öffnen, sich anmelden und mit der Erstellung beginnen – das sind die einzigen drei Schritte.

Titelbild zum Tutorial für GPT Image 2: Der Autor nutzt einen KI-Bildgenerator vor seinem Laptop
Ein Tisch, ein Browser-Tab, eine Eingabeaufforderung – das ist die gesamte Arbeitsumgebung von GPT Image 2.

Dieser Artikel richtet sich an alle, die das Tool effektiv nutzen möchten. Die Bedienung des Tools ist in zwei Minuten erlernt; die eigentliche Herausforderung liegt in der Entscheidung, „was man eingibt, worauf man achtet und wann man Änderungen vornimmt“ – genau darum geht es in den folgenden Kapiteln. Wenn Sie es eilig haben, können Sie zunächst zu Methode 1 springen und erst dann, wenn Sie das erste unbefriedigende Ergebnis erhalten, auf die Abschnitte zu Suchbegriff-Tipps und häufigen Fehlern zurückkommen.


Methode 1: Text-zu-Bild – Das erste Bild von Grund auf erstellen

„Text-to-Image“ ist der Modus, den die meisten Nutzer als Erstes ausprobieren möchten, wenn sie GPT Image 2 nutzen: Man schreibt eine Beschreibung, klickt auf „Generieren“, und das Modell liefert ein fertiges Bild. Hier ist eine Schritt-für-Schritt-Anleitung.

Schritt 1: Öffnen Sie den Generator und melden Sie sich an

Öffnen Sie die GPT Image 2-Startseite. Das Generator-Panel befindet sich auf dem Desktop auf der Startseite und auf Mobilgeräten im ersten vollständigen Block. Wenn Sie nicht angemeldet sind, erscheint der Link „Nach der Anmeldung generieren“. Wählen Sie Ihre E-Mail-Adresse oder Google aus, um die Anmeldung abzuschließen – das dauert weniger als eine Minute.

Nach der Anmeldung wird oben rechts Ihr Punktestand angezeigt. Vergewissern Sie sich, dass Sie mindestens 12 Punkte haben – neue Konten verfügen über ein Testguthaben, sodass Sie das erste Beispiel in diesem Artikel auch ohne Verknüpfung einer Kreditkarte durchführen können.

Schritt 2: Wechseln Sie zur Registerkarte „Text to Image“

Oben im Generator befinden sich zwei Registerkarten: Text to Image und Image to Image. Beginnen Sie zunächst mit der Standardfunktion „Text to Image“. Das Eingabefeld befindet sich direkt unterhalb der Registerkartenleiste.

Es ist keine manuelle Modellauswahl erforderlich – im Hintergrund wird das KIE-Modell „gpt-image-2-text-to-image“ aufgerufen, ohne Dropdown-Menüs für Qualität, Seitenverhältnis oder Auflösung: ein Modell, ein Preis.

Schritt 3: Verfassen Sie zunächst einen bewusst kurzen Hinweis

Ein häufiger Fehler von Anfängern ist es, alle Adjektive, die ihnen einfallen, in den ersten Prompt zu packen. Tu das nicht. Verwende zunächst eine kurze, konkrete Beschreibung und schau dir an, wie sich das Modell im „Standardmodus“ verhält. Der folgende Prompt ist der, den ich bei der Vorbereitung dieses Artikels und beim ersten Test verwendet habe:

A golden retriever puppy sitting in a sunlit field of wildflowers, shallow depth of field,
warm afternoon light.

(Beschreibung: Ein Golden-Retriever-Welpe sitzt in einem Feld voller Wildblumen im Sonnenlicht, mit geringer Schärfentiefe und in warmem Nachmittagslicht.)

Fügen Sie den Text in das Eingabefeld ein und klicken Sie auf Generate. Die meisten Prompts liefern innerhalb von 20 bis 40 Sekunden ein Ergebnis, zu Stoßzeiten dauert es etwas länger.

Schritt 4: Die Ergebnisse ehrlich bewerten

Als ich den oben genannten Prompt zum ersten Mal ausführte, war das Ergebnis im Großen und Ganzen zufriedenstellend: warme Farbtöne, klare Augen, ein natürlich unscharfer Hintergrund – allerdings wirkten die Pfoten des Hundes etwas verschwommen, was eine typische Schwäche des aktuellen Bildmodells ist. Das ist ganz normal; dieser Schritt dient nicht der Bewertung, sondern dazu, ein Gefühl für die „Standardausgabe“ zu entwickeln.

Auf dem ersten Bild sollte man mindestens drei Dinge im Auge behalten:

  1. Ist das Motiv korrekt? Stimmt das Modell mit dem von Ihnen gewünschten Motiv überein? Oder weicht es davon ab (z. B. wurde ein Golden Retriever als Labrador gezeichnet)?
  2. **Lichtrichtung. ** Stimmt die tatsächliche Beleuchtung mit Ihrer Beschreibung überein? „Warmes Nachmittagslicht“ sollte ein weiches, gerichtetes Seitenlicht sein, kein Oberlicht.
  3. Komposition. Entspricht die Bildausschnittwahl des Motivs Ihrer Vorstellung? Oder ist es ungeschickt in der Bildmitte platziert?

Sollte bei einem dieser drei Aspekte etwas nicht stimmen, hast du einen klaren Grund, den Prompt zu ändern – anstatt ihn blindlings erneut zu generieren.

Schritt 5: Verfassen Sie einen optimierten Suchbegriff

Hier ist eine weiterentwickelte Version derselben Szene. Das Motiv und der Ansatz für die Beleuchtung sind dieselben, jedoch wurde eine Struktur gewählt, die besser zu GPT Image 2 passt:

A 3-month-old golden retriever puppy with fluffy fur and floppy ears, sitting upright in a
meadow of wild daisies and lavender. Warm late-afternoon sunlight streams from the left,
casting long gentle shadows and creating a soft golden rim light on the fur. Shallow depth
of field, background softly blurred with bokeh. Shot on an 85mm lens, eye level with the
puppy. Photorealistic, high detail, natural colors.

(Beschreibung: Ein drei Monate alter Golden-Retriever-Welpe mit flauschigem Fell und schlaffen Ohren sitzt aufrecht auf einer Wiese voller Wildgänseblümchen und Lavendel. Warmes Nachmittagslicht fällt von links ein, wirft sanfte, lange Schatten und bildet einen goldenen Lichtrand auf dem Fell. Geringe Schärfentiefe, weicher Hintergrund mit Bokeh. 85-mm-Objektiv, auf Augenhöhe mit dem Welpen. Realistischer Stil, hohe Detailgenauigkeit, natürliche Farben.)

Im Vergleich zur Erstausgabe wurden vier Punkte geändert:

  • Konkrete Details zum Motiv („drei Monate alt“, „flauschiges Fell“, „weiche Ohren“), damit das Modell das Bild vor Augen hat.
  • Klare Lichtverhältnisse („von links“, „Konturlicht auf dem Fell“), statt nur „warm“ zu schreiben.
  • Objektivangaben („85-mm-Objektiv“, „auf Augenhöhe mit dem Welpen“) geben dem Model eine konkrete Vorlage für die Bildkomposition.
  • Qualitätsbeschreibungen am Ende („realistisch, detailreich, natürliche Farben“) – kurz und unaufdringlich.

Klicken Sie erneut auf „Generate“. Das zweite Bild sollte nun näher an der Vorstellung liegen, die Sie im Kopf haben. Falls es immer noch nicht passt, schreiben Sie nicht den ganzen Abschnitt neu – ändern Sie jedes Mal nur eine Variable, generieren Sie das Bild und vergleichen Sie es, damit Sie herausfinden können, welches Wort den Ausschlag gibt.

Ein nützliches mentales Modell: Unterteile das Stichwort in vier „Felder“ – Motiv, Handlung, Umgebung und Stil. Ändere jedes Mal nur dasjenige Feld, das das Problem verursacht. Wenn das Motiv nicht passt, ändere das Motivfeld; wenn die Beleuchtung nicht stimmt, ändere das Umgebungsfeld; wenn es wie ein Cartoon aussieht, du aber ein Foto willst, ändere das Stilfeld.

Schritt 6: Speichern, Herunterladen oder Weiterarbeiten

Sobald du mit dem Ergebnis zufrieden bist, findest du unterhalb der Vorschau einen Download-Button. Jedes erzeugte Bild wird automatisch in deinem Account-Verlauf gespeichert. Dort kannst du frühere Versionen ansehen, alte Prompts kopieren und die Bearbeitung fortsetzen. Wenn du diesen Charakter später in „Bild generieren“ weiter bearbeiten möchtest, wähle dieses Bild einfach aus dem Verlauf als Ausgangsbild aus.

Mit GPT Image 2 erstellte Bilder in Kinoqualität: Eine Frau in einem weißen Seidenkleid am Strand zur goldenen Stunde
Eine Bildgenerierungs-Prompt-Ausgabe mit einer konkreten Beschreibung der Lichtverhältnisse. Durch die Angabe von „goldene Stunde“ und „Seide im Gegenlicht“ erhält das Modell klare visuelle Anhaltspunkte, auf die es zurückgreifen kann.

Der soeben von dir durchlaufene Zyklus „Öffnen – Text eingeben – Bewerten – Feinabstimmung – Neu generieren“ ist der gesamte Arbeitsablauf beim Erstellen von Bildern aus Text. Im weiteren Verlauf dieses Artikels erfährst du, wie du diesen Zyklus schneller und mit weniger Punkten durchlaufen kannst.

Wenn Sie GPT Image 2 über einen längeren Zeitraum nutzen, empfiehlt es sich, eine reine Textdatei anzulegen, in der Sie „wirksame Prompts“ festhalten. Es handelt sich dabei nicht um eine Vorlage, sondern um Ihr eigenes Protokoll – fügen Sie jedes Mal, wenn Sie mit dem Ergebnis zufrieden sind, den vollständigen Prompt als separate Zeile hinzu. Nach einem halben Jahr wird diese Sammlung Ihrem Geschmack besser entsprechen als jede allgemeine Vorlage aus dem Internet.


Methode 2: Bildgenerierung – Bearbeiten oder Stilübertragung auf vorhandene Fotos

Bei „Image-to-Image“ (kurz i2i) dient ein Ausgangsbild als Grundlage. Das Modell behält die Teile bei, die Sie beibehalten möchten, und gestaltet den Rest entsprechend der Eingabe neu. Wenn Sie beispielsweise „die gleiche Person in anderen Outfits“, „das gleiche Produkt vor einem anderen Hintergrund“ oder „die gleiche Bildkomposition in einem anderen Stil“ erstellen möchten, ist dieses Modell genau das Richtige für Sie.

Schritt 1: Wechseln Sie zur Registerkarte „Image to Image“

Kehren Sie zum Homepage-Generator zurück und klicken Sie auf Image to Image. Über dem Eingabefeld erscheint nun ein Bereich zum Hochladen von Dateien. Das Eingabefeld für Text bleibt bestehen und unterstützt weiterhin bis zu 20.000 Zeichen, arbeitet nun jedoch mit den hochgeladenen Bildern zusammen.

Im Hintergrund wird gpt-image-2-image-to-image aufgerufen; der Preis entspricht dem von Text-zu-Bild – 12 Punkte pro Bild. Es gibt keinen separaten Schieberegler für die „Intensität“; das Ausmaß der Veränderung hängt vollständig von der Formulierung Ihrer Eingabe ab.

Wenn Sie bereits andere InPainting-Tools (Maskenbearbeitung) verwendet haben, sollten Sie Ihre Herangehensweise anpassen: GPT Image 2 erfordert keine manuelle Erstellung einer Maske, sondern entscheidet erst nach der Analyse des gesamten Ausgangsbildes und der gesamten Eingabeaufforderung, welche Änderungen vorgenommen werden. Für 80 % der tatsächlichen Anwendungsfälle (Hintergrundwechsel, Kleiderwechsel, Umwandlung von Tag in Nacht) ist die Bearbeitung allein über die Eingabeaufforderung sogar einfacher.

Schritt 2: Quellbild hochladen

Zieh JPG-, PNG- oder WebP-Dateien in den Upload-Bereich oder klicke auf „Datei auswählen“. Für den ersten Versuch empfiehlt es sich, ein Foto mit klarer Beleuchtung und einfacher Bildkomposition zu wählen. Fotos mit Bewegungsunschärfe, schwachem Licht oder unruhigem Hintergrund lassen dem Modell mehr Spielraum für „freie Interpretationen“, was den Vorher-Nachher-Vergleich hingegen erschwert.

Das folgende Bild ist ein typisches Beispiel für das, was Anfänger bei ihrem ersten Versuch mit einem KI-Tool hochladen würden – ein ganz normales Selfie in einem Innenraum.

Ein gewöhnliches Selfie in Innenräumen als Beispiel für ein Ausgangsbild für die Bildgenerierung mit GPT Image 2
Originalbild: Ein leicht überbelichtetes Selfie, aufgenommen in einem gewöhnlichen Innenraum. Es handelt sich nicht um ein retuschiertes Foto, sondern genau um die Art von Bildmaterial, die sich am besten für die Bearbeitung durch Tusheng eignet.

Schritt 3: Zunächst entscheiden – handelt es sich um eine „kleine Reparatur“ oder eine „Umgestaltung“?

Bevor Sie die Prompt-Anweisungen verfassen, sollten Sie sich zunächst darüber im Klaren sein, welche Art von Änderungen Sie wünschen. Das Erstellen von Bildern und das Überschreiben von Bildern dienen zwei völlig unterschiedlichen Zwecken, weshalb auch die entsprechenden Prompt-Anweisungen unterschiedlich formuliert werden:

  • Kleine Änderung (Edit): Den Großteil beibehalten, nur ein Element austauschen. „Die Kleidung in Marineblau ändern.“ „Die Kaffeetasse entfernen.“ „Den Hintergrund durch ein Bücherregal ersetzen.“ "
  • Umgestaltung (Transform): Die Identität bleibt erhalten, die gesamte Szene wird neu gestaltet. „Dieselbe Person, nun in traditioneller chinesischer Kleidung auf der Terrasse des Palastes im Mondlicht.“ „Dasselbe Produkt, nun auf einer Marmorplatte mit Studiobeleuchtung.“

Je vollständiger die Beschreibung der neuen Szene im Prompt ist, desto mehr ändert das Modell; wird nur ein Merkmal genannt, bleiben die anderen Teile tendenziell unverändert. Das ist der Hebel, mit dem du das „Ausmaß der Änderung“ steuern kannst, wenn kein Schieberegler vorhanden ist.

Beispiel: „change the shirt to navy blue“ (das Hemd in Marineblau ändern) ist eine geringfügige Änderung; Gesicht, Frisur, Haltung, Hintergrund und Beleuchtung bleiben unverändert. Wechselt man zu „Sie trägt nun einen maßgeschneiderten marineblauen Anzug und steht in einem Büro mit Glasfassade zur goldenen Stunde“, handelt es sich um eine Verwandlung – Anzug, Umgebung und Lichtverhältnisse ändern sich vollständig, nur Gesicht und Körperform bleiben erhalten. Es ist derselbe Satz, doch der Umfang der Änderung hängt davon ab, wie viele neue Szenen Sie beschreiben.

Schritt 4: Verfassen Sie eine Anweisung, die dem Modell mitteilt, „was es beibehalten soll“

Hier sind die Stichwörter, die ich bei der „Verwandlung“ des oben gezeigten Ausgangsbildes verwendet habe:

Same woman — identical facial features and hair. Transform the scene: she now wears an
elaborate crimson-and-gold hanfu with intricate embroidery and a jeweled phoenix hairpin.
She stands on a moonlit palace terrace, red lanterns glowing softly in the background,
cherry blossom petals drifting in the air. Warm lantern light from the right, cool
moonlight fill from the left. Cinematic shallow depth of field, elegant composition, 4K
photorealistic.

(Bedeutung: Dieselbe Frau – Gesicht und Frisur bleiben unverändert. Überarbeitete Szene: Sie trägt nun ein prächtiges rot-goldenes Hanfu mit aufwendigen Stickereien und eine goldene Phönix-Haarnadel im Haarknoten. Sie steht auf der Terrasse des Palastes im Mondlicht, im Hintergrund leuchten sanfte rote Laternen, während Kirschblütenblätter herabfallen. Rechts warmes Laternenlicht, links kühles Mondlicht. Filmreife geringe Schärfentiefe, elegante Komposition, realistische 4K-Auflösung.)

An zwei Stellen wird dies ausdrücklich erwähnt:

  1. „Dieselbe Frau – identische Gesichtszüge und Haare.“ Dieser Satz erledigt fast die gesamte Arbeit zur Beibehaltung der Identität. Würde man ihn weglassen, würde das Modell willkürlich abweichen.
  2. Eine vollständige Beschreibung der neuen Szene. Kleidung, Ort, Requisiten und Lichtrichtung müssen klar angegeben werden. Das Modell baut gerade die gesamte Umgebung neu auf und benötigt dazu einen vollständigen Befehlssatz, nicht nur ein Etikett.

Schritt 5: Vorher-Nachher-Vergleich nach der Erstellung

Klicken Sie auf „Generate“ usw. Als ich das getestet habe, behielt das erzeugte Bild die erkennbaren Gesichtszüge und die Konturen der Frisur bei, während alles andere gemäß den Eingabeanweisungen neu generiert wurde.

GPT Image 2 – Bildgenerierung: Dieselbe Person wurde in eine Szene aus einem historischen Palastdrama umgewandelt
Bild-zu-Bild-Ausgabe: Die Identität der Figur bleibt unverändert, während Kleidung, Umgebung und Beleuchtung vollständig gemäß den Vorgaben neu gestaltet werden.

Betrachten Sie das Gesamtbild. Wenn sich das Gesicht zu sehr verändert hat, fügen Sie in den Anweisungen den Zusatz „same person“ hinzu (z. B. „preserve exact face shape, same eyes, same nose, same lip shape“ – Gesichtsform, Augen, Nase und Lippenform beibehalten); wenn sich die Szene nicht ausreichend verändert hat, fügen Sie weitere Umgebungsdetails hinzu. Das sind die Regler, die Ihnen zur Verfügung stehen.

Schritt 6: Verlassen Sie die Seite nicht, sondern verwenden Sie die Ausgabe direkt als nächste Eingabe

Das Beste an der Bild-zu-Bild-Funktion ist: Die gerade erstellte Ausgabe dient bereits als gültige Ausgangsvorlage für die nächste Bearbeitung. Klicken Sie einfach auf „Als neue Eingabe verwenden“ und geben Sie eine neue Beschreibung ein (zum Beispiel „Gleiche Szene, aber jetzt im Morgengrauen“ oder „Gleiche Pose, aber mit einem Faltfächer in der Hand“). Das Endergebnis, das durch kleine, aufeinanderfolgende Bearbeitungsschritte entsteht, ist fast immer klarer und prägnanter als eine überlange Beschreibung, die versucht, alles auf einmal zu erledigen.

„Kettenbearbeitung“ ist einer der wertvollsten Workflow-Tipps in diesem Artikel. Ein häufiges Fehlermuster bei Anfängern: Sie schreiben einen 300 Wörter langen, alles umfassenden Prompt und versuchen es acht Mal neu – ohne Erfolg. Die professionelle Vorgehensweise besteht darin, in Runden zu arbeiten: Zuerst die Figur festlegen, dann auf der Grundlage des Ergebnisses der vorherigen Runde die Kleidung, die Umgebung und die Beleuchtung festlegen. Jede Runde bringt 12 Punkte, vier Runden ergeben insgesamt 48 Punkte – das Ergebnis ist viel sauberer als bei zehnmaligem Neuladen auf einmal.

GPT Image 2 – Stilübertragung bei der Bildgenerierung: links ein echtes Strandfoto, rechts eine Neugestaltung im Cyberpunk-Neon-Stil
Ein weiterer Schritt in der Stilübertragung: Dieselbe Figur, dieselbe Pose – von einem echten Strand in eine neonbeleuchtete Cyberpunk-Dachterrasse umgewandelt. Sobald man in der Eingabeaufforderung „same pose“ festlegt, behält das Modell seine geometrische Struktur bei, während alles andere an die neue Szene angepasst wird.

Tipps und Tricks für Prompts, die die Bildqualität wirklich verbessern

Sie beherrschen nun den gesamten Arbeitsablauf. Der Unterschied zwischen neuen Nutzern am ersten Tag und erfahrenen Nutzern, die mit GPT Image 2 ein Portfolio erstellen können, liegt nicht in einem geheimnisvollen Prompt, sondern darin, zu wissen, welche Hebel wirklich funktionieren. Die folgenden neun Punkte bieten in der Praxis das beste Preis-Leistungs-Verhältnis.

Tipp 1: Das Hauptwort an den Anfang, das Qualitätswort an das Ende

Beginnen Sie die Beschreibung mit der Angabe „Wer/Was ist hier abgebildet?“ und verschieben Sie Begriffe zur Bildqualität wie photorealistic, cinematic, 4K und high detail an das Ende. Das Modell liest die Beschreibung von vorne nach hinten; das am Anfang stehende Hauptthema erhält die höchste Gewichtung, während das Thema, das hinter den sieben Qualitäts-Tags versteckt ist, an Bedeutung verliert.

Schwächer: Hyperrealistisches 4K-Meisterwerk – kinoreife, detailreiche Ultra-HD-Aufnahme einer Katze, die auf einer Fensterbank sitzt

Stark: Eine schwarz-weiße Tuxedo-Katze sitzt auf einem hölzernen Fensterbrett und blickt auf eine regnerische Straße vor dem Fenster. Sanftes, diffuses Licht fällt durch das Fenster, geringe Schärfentiefe. Fotorealistisch, filmisch.

Tipp 2: Beschreibe die „Lichtrichtung“, nicht die „Lichtstimmung“

„Schöne Beleuchtung“ sagt so gut wie nichts aus. Erst „warmes Sonnenuntergangslicht von links, lange Schatten nach rechts“ gibt dem Modell Auskunft darüber, wo genau die einzelnen Schatten fallen sollen. Lichtquellen mit einer bestimmten Richtung und einem Namen (z. B. „Fensterlicht“, „Randlicht“, „Softbox von oben“, „Neon-Fülllicht von hinten“) gehören zu den effektivsten Mitteln, um mit wenigen Worten die Bildqualität deutlich zu verbessern.

Tipp 3: Beschreiben Sie die Bildkomposition mit fotografischen Fachbegriffen, um den realistischen Eindruck sofort zu verstärken

Wenn du realistische Bilder erstellen möchtest, solltest du dir den Wortschatz der Fotografen zu eigen machen. Durch die Kombination von Brennweiten (35 mm, 50 mm, 85 mm, 135 mm), Hinweisen zur Schärfentiefe (shallow depth of field, deep focus) und Kamerapositionen (eye level, low angle, overhead) erhält das Model eine Reihe konkreter Vorlagen für die Bildkomposition. Der Eintrag „Camera lens](https://en.wikipedia.org/wiki/Camera_lens)“ in der englischen Wikipedia ist ein hervorragendes Material, das man in 10 Minuten durchlesen kann und das dir hilft, Brennweiten bewusst auszuwählen.

Tipp 4: Beschreiben Sie den Stil anhand des „Mediums“ und nicht anhand des „Namens des Künstlers“

Der Hinweis „im Stil von einem bestimmten Maler“ ist nicht nur unzuverlässig, sondern wirft auch Fragen hinsichtlich der Urheberschaft auf. Eine sicherere Vorgehensweise ist es, das Medium selbst zu beschreiben: „Ölgemälde mit sichtbarer Pinselführung“, „Bleistiftskizze mit Kreuzschraffur“, „Vintage-Kodachrome-Film-Look mit Körnung“, „klare Vektorillustration mit flachen Farben“. So wird eine ästhetische Richtung vorgegeben, ohne sich auf eine bestimmte Person zu beziehen.

Tipp 5: Ersetzen Sie „negative Einschränkungen“ durch „positive Formulierungen“

GPT Image 2 verfügt über kein separates Eingabefeld für negative Stichwörter. Um bestimmte Elemente zu vermeiden, ist es am besten, genau zu beschreiben, was Sie möchten. Anstatt „no people, no text, no clutter“ zu schreiben, sollten Sie lieber „an empty room with clean walls, minimalist composition, a single plant in the corner“ eingeben. Positive Beschreibungen sind wesentlich zuverlässiger als negative Formulierungen.

Tipp 6: Bei der Bildgenerierung sollte man zunächst die Identität festlegen und dann die Szene neu schreiben

Wenn man einen „Kostüm- oder Szenenwechsel“ vornimmt und das Gesicht unverändert lassen möchte, ist der erste Satz der Anweisung entscheidend. Ein Satz wie „Same person — preserve facial features, hair color, and skin tone“ (Dieselbe Person – Gesichtszüge, Haarfarbe und Hautfarbe beibehalten) am Anfang ist wirkungsvoller als jede noch so schöne Szenenbeschreibung im weiteren Verlauf. Wenn die Identität noch deutlicher hervorgehoben werden soll, füge „same eye shape, same nose, same lips“ hinzu. Eine klare Aussage ist wirkungsvoller als eine Andeutung.

Tipp 7: In kleinen Schritten iterieren, statt ganze Abschnitte neu zu schreiben

Ändere jedes Mal nur eine Variable. Wenn die Haltung stimmt, aber die Kleidung nicht, ändere nur den Abschnitt über die Kleidung; wenn die Beleuchtung nicht stimmt, aber alles andere in Ordnung ist, ändere nur den Abschnitt über die Beleuchtung. Nur so kannst du einen wirklich kontrollierbaren Regelkreis aufbauen und erkennen, welche Änderung was bewirkt hat. Das Umschreiben des gesamten Abschnitts zerstört diesen Regelkreis und verschwendet Punkte.

Tipp 8: Verfassen Sie die Stichworte in der Reihenfolge, in der sie für das Modell am wichtigsten sind

Stelle die wichtigsten Elemente an den Anfang: Motiv → Handlung → Umgebung → Stil. Wenn du schreibst: „Im Stil eines Ölgemäldes geht eine Frau in einem roten Kleid in der Abenddämmerung eine Kopfsteinpflasterstraße entlang“, teilst du dem Modell mit, dass es sich in erster Linie um ein Ölgemälde handelt, während alles andere nebensächlich ist. Ändern Sie dies in „Eine Frau in einem roten Kleid geht in der Abenddämmerung eine Kopfsteinpflasterstraße entlang, dargestellt als Ölgemälde“. So hört das Modell zuerst das Hauptthema und erst zuletzt das Medium. Die Informationsmenge ist dieselbe, doch das Ergebnis ist bei der zweiten Variante in der Regel deutlich präziser.

Tipp 9: Verwenden Sie die Begriffe, die Fotografen und Regisseure tatsächlich verwenden

Dutch angle (Holländischer Winkel), rack focus (Fokusverschiebung), golden hour (goldene Stunde), overcast daylight (Tageslicht bei bewölktem Himmel), Softbox, Gobo-Schatten, Hero-Shot, Two-Shot, Negativraum – diese Begriffe haben in der Fotografie und im Film eine klare Bedeutung, und in den Trainingsdaten sind zahlreiche Bilder mit diesen Begriffen versehen. Vage emotionale Begriffe (vibey, dreamy, epic) sind für das Modell als Signale weitaus schwächer. Der Eintrag Shot (filmmaking) in der englischen Wikipedia ist eine gute 15-minütige Schnellübersicht über das Vokabular.


Die häufigsten Fehler von Anfängern und wie man sie behebt

Um ehrlich zu sein, habe ich all diese Fehler schon einmal gemacht. Wahrscheinlich wirst du sie auch machen, aber zumindest wirst du sie schneller erkennen.

Fehler 1: Eine 400-Zeichen-Prompt verfassen und hoffen, dass das Endergebnis auf Anhieb gelingt. Bildmodelle sind besser darin, „kurze, iterative“ Prompts zu verarbeiten als „extrem lange, in einem Zug verfasste“ Prompts. Die Obergrenze von 20.000 Zeichen ist kein Ziel. Bei den Ergebnissen von GPT Image 2, mit denen ich am zufriedensten war, lagen die Prompts meist zwischen 40 und 120 Wörtern.

Fehler 2: Wiederholtes Neugenerieren bei unveränderter Eingabeaufforderung. Wenn man bei derselben Eingabeaufforderung zweimal auf „Generate“ klickt, lautet das Ergebnis „fast fertig“, und auch beim dritten Mal lautet es noch „fast fertig“. Die Zufälligkeit wird nur in einem kleinen Bereich erkundet; wenn die Richtung dieses Bereichs falsch ist, hilft auch kein noch so häufiges Neugenerieren – man muss die Eingabeaufforderung ändern.

Fehler 3: Widersprüche in der Beschreibung. In ein und demselben Text stehen sowohl „soft dreamy watercolor“ (sanfte, verträumte Aquarellmalerei) als auch „ultra-sharp photorealistic 4K“ (ultra-scharfe, fotorealistische 4K-Darstellung) – das ist ein Widerspruch. Das Modell wird sich für eine der beiden Optionen entscheiden oder, schlimmer noch, beide mittelmäßig umsetzen. Überlegen Sie sich das genau, bevor Sie schreiben.

Fehler 4: Zu hohe Erwartungen an den Text im Bild. Bis April 2026 ist die Darstellung langer Textabschnitte durch KI-Bildmodelle nach wie vor unzuverlässig, insbesondere bei nicht-lateinischen Zeichen. Kurze Textzeichenfolgen auf Schildern gelingen manchmal, Textabsätze hingegen nur selten. Wenn der Text die Kernbotschaft darstellt, fügen Sie ihn nach der Ausgabe einfach mit einem beliebigen Bildbearbeitungsprogramm als Ebene ein.

Fehler 5: Hochladen eines unscharfen Ausgangsbildes. Das Modell orientiert sich am Detailgrad des Ausgangsbildes. Bei einem unscharfen, lichtarmen Handyfoto bleibt dieser unscharfe Eindruck im Ergebnis erhalten, ganz gleich, wie sehr Sie in Ihrer Eingabeaufforderung betonen, dass das Bild „klar und scharf“ sein soll. Wählen Sie daher nach Möglichkeit ein scharfes Ausgangsbild aus.

Fehler 6: Halte die Hände nicht im Bild. Die Hände sind nach wie vor die häufigste Fehlerquelle bei der Bildgestaltung. Wenn die Hände in der Komposition unbedingt hervorgehoben werden müssen, musst du dich darauf einstellen, dass du mehrere Überarbeitungsrunden durchführen musst; wenn sie nicht im Mittelpunkt stehen, lass die Hände aus dem Bild herausragen oder natürlich herabhängen.

Fehler 7: Das Seitenverhältnis wird beim Hochladen von Bildern für die Bildgenerierung nicht beachtet. Die Ausgabe der Bildgenerierung folgt in der Regel dem Seitenverhältnis des Ausgangsbildes. Wenn Sie ein Banner wünschen, aber ein vertikales Selfie hochladen, ist das so, als würden Sie dem Modell ins Gehege laufen. Schneiden Sie das Ausgangsbild vor der Generierung auf das gewünschte Seitenverhältnis zu.

Fehler 8: Das „erste halbwegs brauchbare Bild“ als Endergebnis betrachten. Erfahrene Nutzer betrachten ein „ganz passables“ Ergebnis als Ausgangspunkt für die nächste Runde. Der Unterschied zwischen „ganz passabel“ und „Portfolio-Niveau“ zeigt sich meist erst beim dritten Versuch, nicht beim ersten.

Fehler 9: Vergessen, dass das Modell zwischen zwei Generierungen kein Gedächtnis hat. Sofern man nicht bei der Bildgenerierung das letzte Ergebnis als Ausgangsbild verwendet, ist jede Generierung völlig neu. Wenn man alte Charaktere wiederverwenden möchte, sollte man die ursprüngliche Eingabe speichern oder direkt das letzte Bild für eine fortlaufende Bearbeitung verwenden.


Wie funktioniert GPT Image 2 im Inneren (kurz gefasst)

Dieser Abschnitt ist für die Nutzung nicht zwingend erforderlich, hilft Ihnen jedoch dabei, realistische Erwartungen zu entwickeln. GPT Image 2 ist eine vereinfachte Benutzeroberfläche, die direkt die beiden KIE-Modelle gpt-image-2-text-to-image und gpt-image-2-image-to-image aufruft – diese gehören zur Familie der Diffusionsmodelle und wurden speziell für die Befehlsbefolgung und hochrealistische Darstellung optimiert. Bei jeder Anfrage erfolgt eine Authentifizierung, es werden 12 Punkte abgerechnet, die Anfrage wird in die Warteschlange gestellt und eine Bild-URL zurückgegeben.

Die wenigen Regler auf der Benutzeroberfläche sind bewusst so gestaltet: Die KIE-API selbst stellt diese Steuerelemente nicht zur Verfügung, und das Hinzufügen von „Scheinreglern“ auf der übergeordneten Ebene würde nur irreführend sein. Alles, was das Modell leisten kann, wird über die Prompts ausgedrückt. Wenn Sie mehr über die Funktionsweise erfahren möchten, lesen Sie den Wikipedia-Artikel Diffusion model und die Forschungsseite von OpenAI.


Auch GPT Image 2 hat seine Schwächen

Ein Tutorial, das nur die Vorteile hervorhebt und die Nachteile verschweigt, ist kein richtiges Tutorial. Im Folgenden sind die gemeinsamen Schwächen von GPT Image 2 – und damit eigentlich aller derzeit gängigen Bildmodelle – aufgeführt:

  • Präzise Wiedergabe von Markenelementen. Logos, lizenzierte Figuren und Produktverpackungen lassen sich nicht konsistent reproduzieren. Die richtige Vorgehensweise besteht darin, eine Komposition zu erstellen und das echte Logo anschließend einzufügen.
  • **Strenge Übereinstimmung mit den Vorlagen. ** Wenn eine Figur über Dutzende von Seiten hinweg (z. B. in einer Comic-Serie) vollkommen konsistent sein muss, ist die Identitätserhaltung bei der Bild-zu-Bild-Generierung zwar schon deutlich besser als bei der reinen Text-zu-Bild-Generierung, aber immer noch nicht so präzise wie bei der LoRA-Trainierung oder der 3D-Charakter-Binding, die jede einzelne Bildsequenz abdecken.
  • Anatomie in extremen Posen. Finger, Füße, Zähne, Ohren und gekreuzte Gliedmaßen sind die Bereiche, die am leichtesten verzerrt werden. Je näher die Kamera ist, desto deutlicher werden die Fehler.
  • Perfekte Komposition. Wie bereits erwähnt – das gilt nach wie vor.

Noch zwei weitere Fakten: Erstens weist das Diffusionsmodell von Natur aus eine gewisse Stichprobenzufälligkeit auf – ein und dieselbe Eingabe führt jedes Mal zu unterschiedlichen Ergebnissen. Diese Vielfalt ist ein Vorteil, die mangelnde Konsistenz hingegen ein Nachteil, wobei Letzteres durch eine verkettete Bearbeitung der Bilder gemildert werden kann. Zweitens spiegelt das Modell die Verteilung der Trainingsdaten wider, sodass es bei weniger bekannten kulturellen Kontexten schwieriger ist, auf Anhieb das richtige Ergebnis zu erzielen als bei populären Themen; hier sind daher mehrere Iterationen zu erwarten.

Ein wirklich guter Workflow für die KI-Bildgenerierung basiert nicht darauf, „alles mit einem einzigen Modell zu erledigen“, sondern darauf, dass „GPT Image 2 80 % der Kernbilder erstellt und ein einfacher Editor die restlichen 20 % manuell fertigstellt“.


Auf einen Blick: Der gesamte Ablauf

Für alle, die nur eine Kurzfassung suchen, die man auf einen Blick neben dem Bildschirm lesen kann:

  1. Öffnen Sie die GPT Image 2-Startseite und melden Sie sich an.
  2. Vergewissern Sie sich, dass Ihr Konto mindestens 12 Punkte aufweist.
  3. Wählen Sie das Tag: Text to Image oder Image to Image.
  4. Bild generieren: Laden Sie ein klares Ausgangsbild hoch.
  5. Verfassen Sie zunächst eine kurze, konkrete Eingabeaufforderung. Das Hauptmotiv kommt zuerst, Qualitätsmerkmale folgen danach.
  6. Erstellen. Bewerten Sie das Ergebnis objektiv anhand der drei Dimensionen: Hauptmotiv, Lichtverhältnisse, Bildkomposition.
  7. Ändern Sie nur eine Variable, erstellen Sie das Bild erneut und vergleichen Sie die Ergebnisse.
  8. Wiederholen Sie die Schritte 6–7, bis Sie mit dem Ergebnis zufrieden sind.
  9. Herunterladen.

Das war’s. Alle Abkürzungen, Tricks und Gewohnheiten von Profis in diesem Artikel sind Varianten dieser neun Schritte.

Noch ein kleiner Tipp: Schreibe deine Prompts zunächst im Texteditor und füge sie dann in den Generator ein. So kannst du den Verlauf speichern, die Wortreihenfolge ändern und feste Einleitungen wie „Same person — preserve facial features…“ wiederverwenden. Wenn du mit dem Ergebnis zufrieden bist, kopiere die endgültige Version zurück in dein Prompt-Protokoll. Diese kleine Hürde verhindert, dass deine besten Prompts beim Aktualisieren des Browsers verloren gehen.


Häufig gestellte Fragen

Wie viele Punkte gibt es pro Bild bei GPT Image 2?

Unabhängig davon, ob es sich um Text-zu-Bild- oder Bild-zu-Bild-Generierung handelt, gilt ein einheitlicher Preis von 12 Punkten pro Bild. Es fallen keine zusätzlichen Gebühren für „längere Prompts“, „größere Ausgabedateien“ oder „höhere Bildqualitätsstufen“ an – diese Optionen gibt es gar nicht. Die Punkte können im Rahmen von Paketen auf der Website erworben werden; neue Konten erhalten automatisch Testpunkte.

Was muss man installieren, um GPT Image 2 nutzen zu können?

Das ist nicht nötig. Alles läuft direkt im Browser ab. Es gibt keine Desktop-App, keine Browser-Erweiterung und für die Web-Benutzeroberfläche musst du auch keinen API-Schlüssel beantragen. Du brauchst lediglich einen modernen Browser und ein E-Mail-Konto.

Wie lang darf ein Prompt maximal sein?

Sowohl bei der Eingabe von Prompts für Text-zu-Bild- als auch für Bild-zu-Bild-Generatoren werden bis zu 20.000 Zeichen unterstützt. In der Praxis sind jedoch Prompts mit einer Länge zwischen 40 und 200 Wörtern meist am effektivsten. Zu lange Prompts verwässern leicht das Signal oder führen sogar zu Widersprüchen; gut strukturierte, kurze Prompts schneiden in der Regel besser ab.

Kann man mehrere Referenzbilder gleichzeitig hochladen?

Der „Bild-aus-Bild“-Modus unterstützt jeweils nur ein Ausgangsbild. Wenn Sie mehrere Referenzen kombinieren möchten (z. B. „diese Figur + der Stil dieses Kleidungsstücks“), können Sie eine verkettete Generierung durchführen: Erstellen Sie zunächst ein Zwischenbild und verwenden Sie dieses dann als Ausgangsbild für die nächste Runde, wobei Sie neue Prompts hinzufügen und die Bearbeitung fortsetzen. Eine verkettete Bearbeitung führt oft zu klareren Ergebnissen als die Verwendung eines einzigen komplexen Prompts.

Unterstützt GPT Image 2 bestimmte Auflösungen oder Seitenverhältnisse?

Derzeit gelten einheitliche Preise, und die KIE-API selbst bietet keine Regler für benutzerdefinierte Skalierungen oder Auflösungen. Die Ausgabe von Bildern, die aus anderen Bildern generiert werden, folgt in der Regel der Form des Quellbildes – wenn also eine bestimmte Skalierung erforderlich ist, muss das Quellbild zunächst zugeschnitten und dann neu generiert werden.

Dürfen die erstellten Grafiken kommerziell genutzt werden?

Die Nutzungsrechte richten sich nach den Nutzungsbedingungen im Fußbereich der Website; diese Bedingungen sind maßgebend. In der Praxis nutzen die meisten Nutzer die Bilder bis zum Jahr 2026 für Marketingkonzepte, Social-Media-Inhalte, Prototypen und persönliche kreative Projekte. Bevor Sie ein Bild für ein gewinnbringendes Produkt verwenden, lesen Sie bitte die jeweils geltenden Nutzungsbedingungen.

Wie kann man sicherstellen, dass ein Charakter auf mehreren Bildern einheitlich dargestellt wird?

Verwenden Sie Bild-zu-Bild und fügen Sie am Anfang der Eingabeanweisung ausdrücklich eine Klausel zur Beibehaltung der Identität ein („Same person — preserve facial features, hair color, and skin tone“). Verwenden Sie dann jede Ausgabe als Ausgangsbild für das nächste Bild und generieren Sie weitere Bilder mit einer neuen Szenenbeschreibung. Diese Methode ist zwar nicht so präzise wie speziell trainierte LoRA-Modelle, aber weitaus besser, als jedes Mal von vorne mit Text-zu-Bild zu beginnen.

Wie lernt man am schnellsten, mit GPT Image 2 umzugehen?

Verwenden Sie bei den ersten 12 bis 20 Generierungen einfache Prompts für die Text-zu-Bild-Erzeugung, um die Leistung des Modells im „Standardmodus“ genau zu verstehen; gehen Sie anschließend zur Bild-zu-Bild-Erzeugung über und beginnen Sie mit einem leeren Ausgangsbild. Wenn Sie die Anweisungen auf der vorherigen Seite befolgen, sollten die meisten Nutzer nach etwa einer Stunde intensiven Übens relativ sicher damit umgehen können.

Warum weichen meine Ergebnisse völlig von den Eingabebegriffen ab?

Es gibt drei häufige Ursachen: Erstens, die beschreibenden Begriffe stehen am Anfang, während der Hauptteil erst am Ende folgt – verschieben Sie den Hauptteil an den Anfang; Zweitens: Widersprüchliche Stichwörter (z. B. die Kombination von „Aquarell“ und „fotorealistisch“) – wählen Sie ein Medium; Drittens: Es werden nur emotionale Begriffe („schön“, „beeindruckend“) ohne konkrete Substantive verwendet – ergänzen Sie konkrete Objekte, die Lichtrichtung und die Bildsprache.


Sind Sie bereit, loszulegen?

Nun hast du den kompletten Arbeitsablauf, einsatzbereite Prompt-Vorlagen, Tipps, welche Fallstricke du vermeiden solltest, sowie eine Übersichtsseite. Jetzt bleibt nur noch eines zu tun: Starte den Generator und nutze deine ersten 100 Punkte, um herauszufinden, welche Art von Prompts dir am besten gefällt. Diesen Schritt kann niemand für dich übernehmen.

Öffne GPT Image 2 und erstelle dein erstes Bild →

Wenn Sie weiterlesen möchten:

Dieser Artikel wurde vom GPT Image 2 Team veröffentlicht. Ab April 2026 werden beide Modelle einheitlich mit 12 Punkten pro Bild berechnet. Sollten sich in Zukunft Änderungen ergeben, werden wir diesen Artikel aktualisieren und dies im Änderungsprotokoll vermerken.

Das GPT Image 2-Team

Das GPT Image 2-Team

KI-gestützte Bild- und Videogenerierung