TL;DR
GPT Image 2 is een AI-tool voor het genereren van afbeeldingen die in 2026 is uitgebracht. De tool is gebaseerd op de twee modellen gpt-image-2-text-to-image en gpt-image-2-image-to-image van het KIE-platform en kan tekstprompts of referentieafbeeldingen omzetten in afbeeldingen van fotografische kwaliteit. Het hanteert een vast tarief van 12 punten per afbeelding, met een maximale promptlengte van 20.000 tekens. Het is speciaal ontwikkeld voor makers die op zoek zijn naar professionele beeldkwaliteit, maar geen zin hebben in het gedoe met ComfyUI en hun budget niet willen laten opslokken door een abonnement. Probeer GPT Image 2 gratis uit →

Wat is GPT Image 2 eigenlijk?
GPT Image 2 is een AI-product voor het genereren van afbeeldingen dat beschrijvingen in natuurlijke taal, referentiefoto’s of een combinatie van beide omzet in bruikbare afbeeldingen. Achter het product staan twee modellen die door KIE worden gehost: gpt-image-2-text-to-image is verantwoordelijk voor de omzetting van pure tekst naar afbeeldingen, terwijl gpt-image-2-image-to-image wordt gebruikt voor scenario's waarbij een bestaande afbeelding als uitgangspunt dient voor aanpassingen. Beide modellen worden via dezelfde webpagina aangeboden en voorzien in de twee meest voorkomende behoeften van ontwerpers, marketeers en contentmakers: ideeën omzetten in afbeeldingen, of bestaande afbeeldingen op een gecontroleerde manier aanpassen.
Je kunt het zien als een directe opvolger van de "GPT-achtige beeldworkflow" die door DALL-E 3 en GPT-4o in het tijdperk van beeldgeneratie is geïntroduceerd, maar het richt zich op een heel specifiek probleem in 2026: kleine teams hebben behoefte aan afbeeldingen die eruitzien alsof ze in een professionele fotostudio zijn gemaakt, die binnen enkele seconden beschikbaar moeten zijn en die aan het einde van de maand binnen het budget passen. GPT Image 2 biedt in één keer een oplossing voor deze drie pijnpunten. Of het nu gaat om resolutie of beeldverhouding, de uniforme prijs van 12 punten per afbeelding maakt het berekenen van de kosten uiterst eenvoudig; de promptcapaciteit van 20.000 tekens betekent dat zelfs de langste en meest gestructureerde creatieve brief er ongewijzigd in past, zonder dat je belangrijke creatieve richtingen hoeft te schrappen om aan het aantal tekens te voldoen.
De naam zelf weerspiegelt ook het rijpingsproces van de hele categorie. De eerste generatie "GPT-achtige beeldgeneratoren" was nogal experimenteel van aard, waarbij de kwaliteit van de output schommelde tussen griezelig en verbluffend. GPT Image 2 vertegenwoordigt het basisniveau van 2026: stabiele beeldkwaliteit van fotografische kwaliteit, fatsoenlijke weergave van tekst in afbeeldingen, en een interactieve prompt-ervaring die aanvoelt als "communiceren met een medewerker" in plaats van "aan een gokautomaat draaien". Dit is geen previewversie, maar een generator die direct in productie kan worden genomen. Samen met onze volledige reeks AI-beeldtools – beeldpromptgenerator, zelfstandige tekst-naar-beeldpagina, beeld-naar-beeld-editor – vormt het een complete, gesloten kringloop, zodat u de meest geschikte toegang kunt kiezen op basis van de aard van de taak.
Wie heeft dit gemaakt, en waar staat het model?
Het generatieve model zelf wordt geleverd door KIE, een platform voor modelhosting dat de gpt-image-2-reeks via een gehoste API beschikbaar stelt voor extern gebruik. Wij hebben bovenop deze API's een webinterface, een puntenportemonnee, een geschiedenis van prompts en een accountsysteem gebouwd. Deze taakverdeling is cruciaal: de beeldkwaliteit en stijlkenmerken die u ziet, worden bepaald door de implementatie van KIE, terwijl de generatiesnelheid, de online beschikbaarheid en de productervaring onze verantwoordelijkheid zijn. Dus als iemand vraagt "Wat is GPT Image 2?", is het kortste antwoord: KIE levert de modellen, wij leveren het product.
Tot april 2026 zijn de twee hierboven genoemde eindpunten de enige generatiemodi die in de gebruikersinterface beschikbaar zijn. We hebben geen aparte knop voor "hoge resolutie", geen tabblad "bulkvarianten" en ook geen apart penseel voor "gedeeltelijke hertekening" – dat laatste is in feite al vervangen door de opdracht "afbeelding genereren met tekst". Het is bewust gekozen om de productinterface zo minimalistisch mogelijk te houden. Veel beeldbewerkingsprogramma's zitten vol met acht tot tien functieknoppen, waarvan de meeste bijna nooit worden gebruikt; door ze weg te laten, kunnen de echte sterke punten van het model – het begrip van prompts en de fotorealistische kwaliteit – de hele productervaring dragen.
Waarom zijn de twee modi "tekst-naar-afbeelding" en "afbeelding-naar-afbeelding" voldoende?
Elke creatieve opdracht komt uiteindelijk neer op een van deze twee vragen: ofwel "Maak een afbeelding van X voor mij", ofwel "Pas deze afbeelding aan in de richting van Y". Tekst-naar-afbeelding lost het eerste op: je beschrijft wat je wilt, klikt op 'Genereren' en krijgt een afbeelding die voorheen niet bestond. 'Afbeelding naar afbeelding' lost het tweede op: upload een afbeelding, vertel het model in tekst dat het de achtergrond moet vervangen, de belichting moet aanpassen, producten op het bureau moet toevoegen of de schets in een olieverfschilderij moet omzetten, en het levert een variant op die de structuur van de originele afbeelding respecteert. Deze twee modi, in combinatie met 20.000 tekens aan promptruimte, zijn voldoende om de overgrote meerderheid van de scenario's te dekken, van het bewerken van illustraties en marketingconcepten tot productvisualisaties, videocovers en conceptontwerpen. De rest is een kwestie van oefening.
Hoe GPT Image 2 werkt
Vanuit het perspectief van de gebruiker is het genereren van een afbeelding een kwestie van een prompt invoeren en op een knop klikken. Maar vanuit het perspectief van de engineer gebeurt er in die paar seconden tussen het indrukken van de knop en het verschijnen van de afbeelding eigenlijk heel wat. GPT Image 2 maakt gebruik van een modern diffusiemodel voor afbeeldingen – net als Midjourney, Stable Diffusion 3 en DALL-E 3 – maar de tekstencoder en trainingsstrategie zijn specifiek geoptimaliseerd voor lange en gedetailleerde prompts. Het verschil dat uiteindelijk het duidelijkst zichtbaar is in het beeld, is de mate waarin de instructies worden opgevolgd. Eerdere modellen zouden bij een prompt van 500 woorden de details gemiddeld nemen, terwijl gpt-image-2 de prompt beschouwt als een specificatie die moet worden uitgevoerd.
Het principe van het diffusiemodel is het leren van het "omgekeerde proces van ruis toevoegen". Tijdens het trainen wordt er herhaaldelijk willekeurige ruis aan echte afbeeldingen toegevoegd, totdat deze niet meer te onderscheiden zijn van pure ruis; het netwerk leert stap voor stap de ruis te verwijderen, op basis van een tekstuele beschrijving. Bij het genereren wordt het proces omgekeerd: er wordt begonnen met pure ruis, waarbij de prompt het proces van ruisverwijdering stuurt totdat er een plausibele afbeelding ontstaat die overeenkomt met de tekst. Voor wiskundige details kun je het artikel over diffusiemodellen op Wikipedia raadplegen. voor de technische achtergrond van tekstuitlijning kun je het officiële DALL-E 3-technisch rapport van OpenAI lezen; beide artikelen vormen de theoretische basis voor deze generatie beeldmodellen.
Het grootste verschil tussen gpt-image-2 en gewone diffusiemodellen is de prompt-encoder. Het oude systeem maakte gebruik van een eenvoudige CLIP-tekstencoder, die de algemene strekking weliswaar goed kon vastleggen, maar vaak tekortschoot bij details zoals volgorde, aantallen en ruimtelijke relaties. gpt-image-2 maakt gebruik van een encoder op het niveau van een taalmodel, die zinnen met ruimtelijke beperkingen kan begrijpen, zoals "aan de linkerkant van het beeld staan drie koffiekopjes, aan de rechterkant ligt een rood notitieboekje en door het raam achterin schijnt warm ochtendlicht". De daadwerkelijke output bevestigt dit: de nauwkeurigheid van de ruimtelijke indeling, het aantal objecten en de tekst die in de afbeelding is ingebed (zoals "op het bord staat 'OPEN'") is aanzienlijk hoger dan twee jaar geleden.

TuShengTu volgt een andere weg
Tekst-naar-afbeelding begint met pure ruis, terwijl afbeelding-naar-afbeelding begint met de foto die je uploadt. Het model voegt een deel ruis toe aan de originele afbeelding – meestal met een vernietigingsgraad van 30% tot 70% – en verwijdert deze vervolgens op basis van de prompt. De uitvoer wordt geregeld met twee knoppen: bij 'lage ruis' blijft de originele afbeelding vrijwel intact, wat geschikt is voor het bijwerken van portretten of het finetunen van de tinten; bij 'hoge ruis' wordt de originele afbeelding sterk aangetast en bepaalt de prompt de nieuwe structuur, wat geschikt is voor stijltransformatie of het 'omzetten van een schets in een olieverfschilderij'.
GPT Image 2 verwerkt deze twee instellingen in de prompt. Als je zegt: "Laat het gezicht ongewijzigd en verander alleen de achtergrond in een regenachtige straat in Tokio", dan wordt er gekozen voor een lage ruis; als je zegt: "Maak er een impressionistisch schilderij van", dan wordt er overgeschakeld naar een hoge ruis. Het vermogen van het model om de intentie te begrijpen, is de voorwaarde waardoor de gebruikersinterface zo overzichtelijk kan blijven – dezelfde API-interface voert totaal verschillende taken uit, afhankelijk van wat je zegt.
Waarom duurt het genereren zo lang?
Een afbeelding wordt doorgaans binnen 4 tot 15 seconden teruggestuurd. De inferentie van het diffuusmodel doorloopt 20 tot 50 stappen voor ruisonderdrukking, waarbij bij elke stap een voorwaartse propagatie door een netwerk met miljarden parameters plaatsvindt. Een enkele stap duurt op moderne versnellers slechts enkele milliseconden; de totale wall-clock-tijd wordt voornamelijk in beslag genomen door wachtrijen, netwerkrondgangen en de eerste propagatie door de tekstencoder. Op productniveau kan dit deel niet worden geoptimaliseerd, maar het verklaart wel waarom de generatie af en toe wat trager verloopt – dat valt bijna altijd samen met pieken in het gebruik van de KIE-inference-cluster en heeft niets met u te maken.
Kerncompetenties en echte onderscheidende factoren
De afgelopen maanden heb ik met gpt-image-2 duizenden afbeeldingen gegenereerd, variërend van materiaal voor presentaties en blogomslagen tot productprototypes en thumbnails voor sociale media. Er zijn drie functies die het duidelijk onderscheiden van de gangbare tools uit de generatie van 2024.
Het eerste punt is de uitvoeringskracht van lange briefs. Als je een creatieve brief van zeshonderd woorden invoert – met daarin de setting, het onderwerp, de kleding, de belichting, de camerahoeken en de sfeer – weet het model bij de eerste poging al de meeste belangrijke punten te reproduceren. 18 maanden geleden was dit nog onmogelijk. Bij briefs van die lengte kon DALL-E 3 de kern niet goed vastpakken, en begon Stable Diffusion 1.5 willekeurige dingen te verzinnen. GPT Image 2 behandelt de brief als een specificatiedocument; zelfs als er af en toe een detail ontbreekt, volstaat het meestal om dat detail iets eerder in de tekst te plaatsen of vetgedrukt te maken, zonder dat de hele tekst opnieuw hoeft te worden opgebouwd.
Het tweede punt is fotorealistische natuurgetrouwheid en zuivere hooglichten. Het kenmerk waarmee AI-afbeeldingen uit 2022 het gemakkelijkst te herkennen waren, was de plasticachtige huid en de verkeerd geplaatste spiegelende hooglichten. gpt-image-2 kan sub-surface scattering van de huid, de zachte vervaging van softboxen en de chromatische aberratie van objectieven met een groot diafragma correct verwerken – het resultaat is zo goed dat een leek het nauwelijks in één oogopslag als AI kan herkennen. Het is niet perfect. Van de vijftien foto's is er ongeveer één waarbij de handen niet helemaal kloppen, en bij extreme close-ups van mechanische horloges kan de rangschikking van de tandwielen soms vreemd overkomen. Maar de algehele basis is al van het kaliber "studio-kwaliteit".
Het derde punt is de weergave van tekst in afbeeldingen. Bij de eerste generatie diffusiemodellen was het bijna onmogelijk om begrijpelijke tekst in een afbeelding te krijgen. GPT Image 2 presteert behoorlijk betrouwbaar bij korte teksten: straatnaamborden, labels, boekomslagen, merknamen, datums, korte slogans en numerieke labels worden allemaal stabiel weergegeven. Lange alinea's vervallen nog steeds in een soort Latijns-achtige wartaal, dus gebruik het niet om volledige pagina's tekst te genereren, maar een titel van drie tot vier woorden op een poster is geen probleem meer.

Hoe breed is het stijlaanbod?
De meeste vergelijkende artikelen nemen niet de moeite om het bereik van de stijlen te testen, maar juist daar onderscheidt GPT Image 2 zich echt. Filmfotografie, redactionele illustraties, platte vectorillustraties, 3D-productrenderings, olieverfschilderijen, aquarellen, anime, pixelkunst, technische schetsen – dit model kan ze allemaal produceren zonder een opeenstapeling van stijltoken. Beschrijf het esthetische effect in gewone taal, bijvoorbeeld "aquarel op koudgeperst papier, met zichtbare potloodschetsen", en het model levert het bijbehorende beeld. In tegenstelling tot Midjourney, dat een hele subcultuur heeft opgebouwd rond het onthouden van referentiecodes, is de ervaring hier juist heel eenvoudig: zeg gewoon wat je wilt.
De voordelen van beeldverhouding, resolutie en een uniforme prijsstelling
Dit product maakt een heel bewuste keuze: GPT Image 2 rekent geen extra kosten als je voor 4K kiest, en ook geen toeslag als je voor een staand formaat kiest. Elke afbeelding kost 12 punten, zonder uitzondering. Dit klinkt misschien als marketingpraat, maar het zal je manier van werken daadwerkelijk veranderen. Je zult stoppen met het herhaaldelijk inkorten van je prompts om punten te besparen, je zult vrijuit genereren, 80% weggooien en die 20% behouden die je echt aanspreekt. Over de hele maand genomen levert deze mentaliteitsverandering een productiviteitsstijging op die tools die per variabele factureren je niet kunnen bieden.
Wat het niet doet
GPT Image 2 genereert alleen statische afbeeldingen; het is geen animatietool. Om de afbeelding te animeren, moet je gebruikmaken van modellen voor het genereren van video's op basis van tekst of afbeeldingen. Het is ook geen vector-generator; de uitvoer is rasterbestanden in WebP/PNG. Voor het maken van logo's moet je nog steeds Illustrator gebruiken. Het is ook geen editor met plaatshouders; je kunt niet zoals bij Photoshop Generative Fill een deel selecteren om dat afzonderlijk opnieuw te genereren. Het dichtstbijzijnde alternatief is het genereren van afbeeldingen op basis van beschrijvende prompts, wat in de meeste gevallen voldoende is.
Voor wie is GPT Image 2 het meest geschikt?
De snelste manier om te bepalen of een tool bij je past, is door te kijken of je jezelf hierin herkent. In het afgelopen kwartaal ben ik in gebruikersgegevens en interviews steeds weer de volgende vijf typen mensen tegengekomen.
One-man-marketing in SaaS-bedrijven met 5 tot 50 medewerkers. Deze persoon schrijft blogs, verstuurt nieuwsbrieven, selecteert originele afbeeldingen en ontwerpt elke afzonderlijke afbeelding voor sociale media. Het bedrijf heeft geen vaste ontwerper in dienst en er is ook geen tijd om voor één blogpost een freelancer in te schakelen. Hij heeft wekelijks 20 afbeeldingen nodig die qua stijl bij elkaar passen, die elk binnen 10 minuten klaar moeten zijn en die eruit moeten zien alsof ze uit hetzelfde redactionele universum komen. GPT Image 2 sluit hier bijna perfect op aan: dankzij de vaste prijs kan hij 200 afbeeldingen per maand genereren, waarvan hij er 50 als topkwaliteit selecteert, zonder dat de financiële afdeling ook maar met een wenkbrauw opkijkt.
Onafhankelijke gameontwikkelaars of app-ontwikkelaars. Deze mensen hebben tijdens de pre-productiefase concepttekeningen van helden, afbeeldingen voor kaarten, ontwerpen voor pictogrammen en referentiemateriaal nodig. Ze voegen AI-afbeeldingen meestal niet direct in de game in, maar gebruiken ze als visuele richtlijnen die vervolgens door menselijke ontwerpers worden uitgewerkt. Een prompt van 20.000 tekens is voor hem een uitkomst, omdat de briefing voor het gameontwerp sowieso al lang is – de wereldopvatting, de sfeer, het kleurenpalet: alles erin plakken, genereren, itereren.
Contentmakers op YouTube, TikTok en Substack. Zij hebben thumbnails nodig die de aandacht trekken en snel kunnen worden aangepast, omdat de feedbackloop bestaat uit de achtergrondgegevens van het platform. Een "coverfabriek" die binnen een half uur 30 verschillende thumbnailvarianten kan leveren waaruit ze er drie kunnen kiezen, is precies de taak waar tekst-naar-beeld-technologie het meest geschikt voor is.

Onderwijzers of schrijvers van technische documentatie. De opkomst van deze groep kwam enigszins onverwacht. Leraren, cursusontwikkelaars en documentatieschrijvers vormen een steeds groter deel van de gebruikers; zij hebben behoefte aan schematische weergaven, visualisaties van abstracte concepten en af en toe een illustratie voor hun presentaties. De controle die Model heeft over tekst in afbeeldingen en gestructureerde composities is hier bijzonder nuttig – een duidelijk gelabelde schematische weergave van de waterkringloop, een gestileerde illustratie van een neuraal netwerk, of een vrolijke afbeelding voor week drie van een Python-cursus. Omdat promptteksten erg lang kunnen zijn, kunnen ze de lesinhoud zelf in de prompttekst verwerken, waardoor het resultaat dichter bij de werkelijkheid ligt dan bij een algemeen 'technologisch gevoel'.
Voor freelance ontwerpers of creatieve teams bij reclamebureaus. Professionals gebruiken het als een moodboard-versneller: in plaats van een middag lang op Pinterest naar inspiratie te zoeken, kun je in dezelfde tijd 40 verschillende richtingen genereren, de drie sterkste als uitgangspunt kiezen en vervolgens handmatig het eindresultaat afwerken. Met een maximum van 12 punten per ontwerp kost de verkenningsfase van een project minder dan een etentje met de opdrachtgever.
Voor wie is het niet geschikt?
Als je pixelprecieze controle nodig hebt over specifieke delen van een afbeelding – zoals bij de generatieve vulfunctie in Photoshop, waarbij je met penselen en maskers nauwkeurig werkt – dan is GPT Image 2 niet de meest geschikte keuze. Ook als je vectorafbeeldingen op logo-niveau wilt, is dit niet de juiste oplossing. Als je de generator offline of op een lokaal intranet wilt gebruiken, hebben we vanaf april 2026 alleen de gehoste API-oplossing van KIE beschikbaar; er is geen optie voor zelfhosting. Als je workflow erop gericht is om eenzelfde personage consistent te houden in tientallen stripverhalen, zijn tools die specifiek zijn ontworpen voor personageconsistentie nog steeds beter dan algemene generators.
Prijzen, toegang en hoe u aan de slag kunt gaan
De prijsstelling is heel redelijk: 12 punten per afbeelding. Geen toeslag voor resolutie, geen extra kosten voor staand of liggend formaat, en geen 'premium'-knop die stiekem de rekening verdubbelt. Je koopt credits, je betaalt 12 credits per afbeelding, en je ziet in één oogopslag hoeveel er nog in je portemonnee zit. De vergelijking met traditionele beeldbanken is heel duidelijk: de licentiekosten voor één hoogwaardige afbeelding op een gangbare beeldbank komen ongeveer overeen met de kosten voor het genereren van 15 tot 80 afbeeldingen hier, terwijl je nog steeds geen echt exclusief auteursrecht krijgt.
Het kost nog geen twee minuten om aan de slag te gaan. Ga naar Startpagina om je te registreren; zodra je inlogt, kom je direct in de generator terecht. Typ een prompt in het invoerveld of upload eerst een referentieafbeelding om een afbeelding te genereren, en klik vervolgens op ‘Genereren’. Het resultaat wordt direct in de browser weergegeven en automatisch opgeslagen in je accountgeschiedenis. Het bestand wordt standaard in WebP-formaat gedownload; klik met de rechtermuisknop om de originele afbeelding in volledige resolutie te downloaden. U hoeft geen desktopversie te installeren, geen plug-ins te sideloaden en geen Discord-groep toe te treden. Een browser is voldoende, en uw apparaat hoeft alleen maar moderne GPU-compositie te ondersteunen (in principe is dit geen probleem voor apparaten van na 2019).
Als je meerdere generaties wilt combineren tot een groter creatief geheel – bijvoorbeeld een reeks illustraties in dezelfde stijl voor een blogserie – kun je het beste eerst een briefing over de personages of stijl opstellen in de Afbeeldingspromptgenerator en deze briefing vervolgens in de hoofdgenerator plakken om herhaaldelijk te itereren. We hebben deze workflow gedetailleerd uitgelegd in de GPT Image 2-handleiding en de GPT Image 2-promptgids. In de laatste gids ligt de nadruk op welke structuren en bijvoeglijke naamwoorden het model betrouwbaar in de door u gewenste richting sturen.
Hoe worden punten precies besteed?
De punten worden afgeschreven op het moment dat de tekst wordt gegenereerd, niet op het moment dat je de prompt indient. Als het genereren mislukt door een tijdelijke storing in de backend, worden de punten automatisch teruggestort; als het genereren wel lukt maar het resultaat niet naar wens is, telt dit als één gebruik – het model heeft zijn werk immers wel gedaan. In de praktijk is de kans op succes bij één poging hoog genoeg, zodat deze regel niet als oneerlijk wordt ervaren. Bij mijn dagelijkse marketingafbeeldingen moet ik ongeveer één op de vier prompts opnieuw verzenden, dus 12 punten per keer is absoluut geen bedrag waar je aan het einde van de maand je wenkbrauwen bij fronst.
Commercieel gebruik en auteursrecht
Tot april 2026 mogen afbeeldingen die door gebruikers van de betaalde versie zijn gegenereerd, commercieel worden gebruikt. De wetgeving inzake het auteursrecht op AI-afbeeldingen is in sommige rechtsgebieden echter nog niet volledig uitgekristalliseerd – volgens de huidige richtlijnen van het Amerikaanse Copyright Office worden puur door AI gegenereerde afbeeldingen beschouwd als ontbrekend aan menselijke creativiteit en vallen ze dus niet onder auteursrechtelijke bescherming. Voor de meeste marketing- en redactionele doeleinden is dit niet van belang, maar als u een logo of handelsmerk wilt laten ontwerpen, raadpleeg dan een advocaat en laat de uiteindelijke oplevering door een menselijke ontwerper uitvoeren. De AI-pagina van het Amerikaanse Copyright Office volgt de ontwikkeling van het huidige beleid en is het waard om aan uw favorieten toe te voegen.
Beperkingen en tekortkomingen: waar het niet goed in is
Lezers die tot hier zijn gekomen, verdienen een eerlijke uiteenzetting. Geen enkel beeldmodel is perfect, en doen alsof het wel zo is, is een tijdbom leggen voor de deadline over twee weken – als het model dan plotseling de stekker eruit trekt, mag jij de brokken opruimen. Hieronder staan enkele typische scenario’s waarin ik zie dat GPT Image 2 de mist in kan gaan.
Handen en kleine lichaamsdelen. Het model is aanzienlijk beter dan dat van de generatie uit 2024, maar bij close-ups van handen treden er nog steeds ongeveer één op de tien tot vijftien keer problemen op. Vingers kleven aan elkaar, er verschijnt een zesde vinger of de duim buigt de verkeerde kant op. Als de hand slechts een detail op de achtergrond is, valt het niemand op; maar als het een hoofdbeeld is waarbij de handpalm naar de camera is gericht, zul je het een paar keer opnieuw moeten genereren. Een heel handige manier om dit te voorkomen is door in de prompt direct te schrijven "geen handen in beeld" of "handen hangen natuurlijk naar beneden"; het model zal het probleem dan meestal elegant omzeilen.
Lange stukken tekst in de afbeelding. Korte zinnen zijn geen probleem; uithangborden, labels en tijdschriftcovers met slechts een paar woorden zijn prima. Maar hele alinea’s zijn nog lang niet mogelijk. Als u een „screenshot van een e-mail“ wilt, zet die tekst dan eerst in de ontwerptool en voeg hem daarna toe; verwacht niet dat het model de hoofdtekst voor u genereert.
De identiteit blijft volledig consistent bij gebruik van één referentiebeeld. Image-to-Image behoudt de algemene kenmerken van het onderwerp, maar het is geen gezichts-kloner. Als je wilt dat „precies dezelfde persoon“ op 20 afbeeldingen verschijnt, zal er vanaf de vijfde of zesde afbeelding een lichte afwijking in de identiteit optreden. De oplossing hiervoor is een workflow met meerdere referentiebeelden; dit gebied ontwikkelt zich snel en we zullen hier in een apart artikel uitgebreid op ingaan. Voor een kleinschalige campagne met één hoofdbeeld en enkele aanvullende afbeeldingen is 'beeld-naar-beeld' ruimschoots voldoende.

Inhoudsbeleid en veiligheidsfilters. Sommige categorieën weigeren: bekende personen die onder hun echte naam optreden, inhoud voor volwassenen en gevoelige scènes met kinderen. Het kan voorkomen dat de filter per ongeluk volkomen onschuldige prompts blokkeert, omdat bepaalde woorden een trefwoordmatch activeren. Probeer in dat geval een andere formulering. De meeste van deze valse positieven worden doorgelaten wanneer je dezelfde boodschap voor de derde keer in andere bewoordingen verwoordt.
Stijlconsistentie bij grote volumes. Als je 50 afbeeldingen genereert voor een stijlgids van een merk, kun je ervan uitgaan dat 45 daarvan er naadloos bij elkaar passen, terwijl 5 eruit springen alsof ze uit een ander model komen. De oplossing is om die 5 afbeeldingen opnieuw te genereren met strakkere prompts, of om een zekere mate van stijlvariatie te accepteren. Grote merken die zeer strenge stijlrichtlijnen hanteren, hebben nog steeds een menselijke art director nodig om het eindresultaat te beoordelen – iets wat voor elk serieus merk waarschijnlijk de norm is.
Vertragingen tijdens piekuren. Tussen 14:00 en 22:00 UTC neemt de generatietijd aanzienlijk toe, wat samenvalt met de overlappende kantooruren in de VS en Europa. Op een normale dag duurt het 4 tot 8 seconden om een afbeelding te genereren, maar tijdens piekuren kan dit oplopen tot 15 tot 30 seconden. In zeer zeldzame gevallen verloopt de eerste poging binnen de tijdslimiet, terwijl de tweede poging wel slaagt. Dit is de objectieve realiteit van GPU-gedeeld infereren in 2026.
"Het is geen magie" – een verklaring van vertrouwen
Dit soort tools is in wezen een kansverdeling die is gedefinieerd op basis van een enorme trainingsdataset. Het is zeer sterk in interpolatie – het genereert dingen die lijken op de verdeling van de trainingsdata. Het is echter relatief zwak in extrapolatie – het genereert dingen die werkelijk nog nooit hebben bestaan. Als je het vraagt om "een kat" te tekenen, doet het dat feilloos; als je het vraagt om "een biomachinaal buitenaards wezen te tekenen dat nog nooit in een sciencefictionverhaal is verschenen", krijg je vaak een "biomachinaal buitenaards wezen dat eruitziet alsof het in een sciencefictionverhaal is verschenen", omdat de trainingsset alleen dat bevat. Als je de verwachtingen goed afstemt, zal het je daar iets voor teruggeven.
Veelgestelde vragen
Wat is GPT Image 2 eigenlijk? In één zin uitgelegd
GPT Image 2 is een AI-beeldgenerator uit 2026, gebaseerd op de gpt-image-2-reeks modellen van KIE, die tekst en referentieafbeeldingen omzet in foto's van professionele kwaliteit, tegen een vast tarief van 12 punten per afbeelding. Het ondersteunt zowel tekst-naar-beeld als beeld-naar-beeld, met promptteksten van maximaal 20.000 tekens, en presteert bijzonder goed bij lange, gestructureerde opdrachten.
Is dit hetzelfde als DALL-E 3 en GPT-4o voor het genereren van afbeeldingen?
Nee. GPT Image 2 wordt aangestuurd door de gpt-image-2-modelfamilie die door KIE wordt gehost. Het sluit conceptueel aan bij de "GPT Image"-reeks, maar de codebasis is niet dezelfde. De naamgeving verwijst naar de verwantschap: het bouwt voort op de door DALL-E 3 geïntroduceerde methodologie van lange prompts en taal-native benadering, maar bestaat als een onafhankelijk ontwikkeld systeem dat op de infrastructuur van KIE wordt gehost.
Hoeveel kost GPT Image 2?
Elke afbeelding levert 12 punten op, ongeacht de resolutie, de beeldverhouding of de generatiemodus (tekst-naar-afbeelding of afbeelding-naar-afbeelding). Er zijn geen verborgen extra kosten voor "hoge resolutie" of "premium" — er is namelijk helemaal geen zogenaamde premiummodus; standaard worden afbeeldingen in de hoogste kwaliteit gegenereerd.
Mogen de gegenereerde afbeeldingen voor commerciële doeleinden worden gebruikt?
Dat kan. Afbeeldingen die door gebruikers van de betaalde versie worden gegenereerd, mogen commercieel worden gebruikt. Je bent zelf verantwoordelijk voor de inhoud van de prompt en het uiteindelijke gebruik – de tool verleent geen toestemming voor het gebruik van door handelsmerken beschermde personages. Wat logo’s en handelsmerken betreft, laat de uiteindelijke uitvoering door een menselijke ontwerper uitvoeren, aangezien de Amerikaanse auteursrechtwetgeving momenteel puur door AI gegenereerde output beschouwt als niet-beschermd wanneer er geen menselijke creativiteit aan te pas is gekomen.
Hoe lang mag een prompt maximaal zijn?
20.000 tekens komen ongeveer overeen met 3.000 Engelse woorden, wat langer is dan de meeste creatieve briefings. De daadwerkelijke lengte van "effectieve" prompts is veel korter, meestal tussen de 300 en 600 woorden – als ze langer zijn, gaan modellen gemiddelden berekenen in plaats van strikt te reageren. Deze limiet is ingesteld om te voorkomen dat lange, gestructureerde invoer (volledige scènebeschrijving + shotlist + stijlanwijzingen) wordt afgekapt.
Hoe gebruik je 'beeld genereren uit beeld'?
Upload een bronafbeelding en beschrijf in de prompt wat je wilt wijzigen. Bij prompts voor kleine aanpassingen, zoals "vervang de achtergrond door een gouden strand bij zonsondergang", blijft het hoofdonderwerp van de oorspronkelijke afbeelding grotendeels behouden. Bij prompts voor ingrijpende aanpassingen, zoals "herteken in de stijl van stripverhalen uit de jaren 60", wordt de oorspronkelijke afbeelding ingrijpend opnieuw geïnterpreteerd. Dezelfde API-interface bepaalt op basis van de intentie van je tekst of er een kleine of een ingrijpende aanpassing moet worden uitgevoerd.
In welk bestandsformaat worden de afbeeldingen gegenereerd?
Standaard WebP, met ondersteuning voor verliesloze compressie en goede browsercompatibiliteit. Als downstream-tools geen WebP ondersteunen, kun je het in één stap met een browser- of desktopconverter omzetten naar PNG of JPEG. De uiteindelijke resolutie hangt af van de beeldverhouding die in de prompt is opgegeven.
Is er een gratis tegoed?
Bij het aanmaken van een nieuw account ontvangt u startpunten, waarmee u een aantal afbeeldingen kunt genereren om uit te proberen, voordat u besluit of u wilt betalen. Als deze punten op zijn, kunt u op de accountpagina nieuwe punten kopen. Gebruikers die voor het eerst punten kopen of via de blog naar de site komen, krijgen soms extra promotiepunten te zien; de actuele actie op de startpagina is hierbij bepalend.
Ben je er klaar voor?
GPT Image 2 biedt een oplossing voor een heel concreet probleem in 2026: het snel, goedkoop en voorspelbaar genereren van hoogwaardige statische afbeeldingen, zonder gedoe met ingewikkelde tools. De twee ondersteunde modi – tekst-naar-afbeelding en afbeelding-naar-afbeelding – dekken de meeste creatieve workflows, en dankzij de uniforme prijs van 12 punten blijft de facturering eenvoudig.
Gebruik GPT Image 2 nu om afbeeldingen te genereren →
Als je je hier verder in wilt verdiepen, is onze praktische handleiding Hoe gebruik je GPT Image 2 het meest geschikt. Daarin worden prompttechnieken, veelvoorkomende valkuilen en een voorbeeldprocedure voor het samenstellen van een consistente afbeeldingencollectie behandeld. Als je het schrijven van prompts net als het schrijven van tekens wilt oefenen, kun je GPT Image 2 Prompt Guide lezen. Daarin worden de structuren en bijvoeglijke naamwoorden die het model stevig in de door jou gewenste richting sturen, stuk voor stuk uitgelegd.

