Co je GPT Image 2? Kompletní průvodce pro začátečníky pro rok 2026

Apr 22, 2026

TL;DR

GPT Image 2 je nástroj pro generování obrázků pomocí umělé inteligence, který byl uveden na trh v roce 2026. Je založen na dvou modelech platformy KIE, gpt-image-2-text-to-image a gpt-image-2-image-to-image, a dokáže převést textový popis nebo referenční obrázek na finální snímek ve fotografické kvalitě. Nabízí jednotnou cenu 12 bodů za jeden obrázek, přičemž délka textového zadání může být až 20 000 znaků. Je určený pro tvůrce, kteří chtějí dosáhnout profesionální kvality obrazu, ale nechtějí se zabývat ComfyUI ani si nechat vyčerpat rozpočet předplatným. Vyzkoušejte GPT Image 2 zdarma →


Portrét v neonovém světle vygenerovaný pomocí GPT Image 2, s přirozenou texturou pleti a detaily oděvu
Jedno vygenerování, žádná následná úprava: GPT Image 2 zpracovává současně texturu pleti, strukturu látek i konturové osvětlení.

Co je vlastně GPT Image 2?

GPT Image 2 je produkt pro generování obrázků pomocí umělé inteligence, který převádí popisy v přirozeném jazyce, referenční fotografie nebo jejich kombinaci na finální použitelné obrázky. Za produktem stojí dva modely hostované společností KIE: gpt-image-2-text-to-image se stará o převod čistého textu na obrázek, zatímco gpt-image-2-image-to-image se používá v situacích, kdy je třeba upravit existující obrázek. Oba režimy jsou dostupné přes stejný webový portál a pokrývají dvě nejčastější potřeby designérů, marketingových pracovníků a tvůrců obsahu: převést myšlenky do obrázků nebo provést kontrolované úpravy existujících obrázků.

Můžete jej považovat za přímého potomka „pracovního postupu typu GPT pro generování obrázků“, který nastolila éra DALL-E 3 a GPT-4o, avšak zaměřuje se na velmi konkrétní problém roku 2026: malé týmy potřebují obrázky, které vypadají jako výstupy z profesionálního fotoateliéru, potřebují je mít k dispozici během několika sekund a navíc je musí být možné na konci měsíce zaúčtovat. GPT Image 2 najednou řeší všechny tyto tři problémy. Ať už jde o rozlišení nebo poměr stran, jednotná cena 12 bodů za obrázek výrazně zjednodušuje kalkulaci nákladů; kapacita 20 000 znaků pro zadání znamená, že lze vložit i ty nejdelší a nejstrukturovanější kreativní briefy beze změn, aniž by bylo nutné vynechávat klíčové kreativní směry jen kvůli omezenému počtu znaků.

Samotný název odráží proces zrání celé této kategorie. Nástroje první generace „obrázků ve stylu GPT“ měly spíše experimentální charakter a kvalita jejich výstupů kolísala mezi podivnou a ohromující. GPT Image 2 představuje základní úroveň roku 2026: stabilní kvalitu obrazu na úrovni fotografie, slušné vykreslení textu v obrázku a dialogové prostředí, které připomíná „komunikaci s partnerem“ spíše než „táhnutí za páku hracího automatu“. Nejedná se o předběžnou verzi, ale o generátor, který lze přímo nasadit do produkce. Spolu s celou naší řadou nástrojů pro generování obrázků pomocí AI – generátorem obrazových promptů, samostatnou stránkou pro generování obrázků z textu a editorem pro generování obrázků z obrázků – tvoří ucelený uzavřený cyklus, který vám umožní vybrat si nejvhodnější vstupní bod podle povahy úkolu.

Kdo to vyrobil a kde je model umístěn?

Generativní model samotný poskytuje KIE, což je platforma pro hostování modelů, která prostřednictvím hostovaných API zpřístupňuje řadu modelů gpt-image-2 externím uživatelům. My jsme na tyto API navázali webové rozhraní, peněženku pro kredity, historii promptů a systém účtů. Toto rozdělení rolí je klíčové: kvalita obrazu a stylový otisk, které vidíte, jsou dány implementací KIE, zatímco rychlost generování, dostupnost a uživatelský zážitek jsou naším závazkem. Když se tedy někdo zeptá „Co je GPT Image 2?“, nejkratší odpověď zní: KIE dodává modely, my dodáváme produkt.

K dubnu 2026 jsou výše zmíněné dva body jedinými generativními režimy, které jsou v uživatelském rozhraní k dispozici. Nemáme samostatné tlačítko pro „zvýšení rozlišení“, záložku „hromadné varianty“ ani samostatný štětec pro „lokální překreslení“ – ten byl ve skutečnosti nahrazen příkazem pro generování obrázků s textem. Zachování tohoto minimalistického vzhledu produktu je záměrné. Mnoho grafických nástrojů je přeplněno osmi až deseti funkčními tlačítky, z nichž většinu téměř nikdo nepoužívá; jejich odstranění naopak umožňuje, aby skutečné přednosti modelu – schopnost porozumět zadávacím textům a realistický vzhled na úrovni fotografie – podpořily celý uživatelský zážitek.

Proč stačí dva režimy: „text na obrázek“ a „obrázek na obrázek“

Každý kreativní úkol lze nakonec shrnout do jedné ze dvou otázek: buď „vytvoř mi obrázek X“, nebo „uprav tento obrázek ve směru Y“. Generování obrázků z textu řeší první případ: popíšeš, co chceš, klikneš na „generovat“ a získáš obrázek, který předtím neexistoval. Funkce „obrázek generující obrázek“ řeší druhou situaci: nahrajete obrázek a textem řeknete modelu, aby vyměnil pozadí, upravil osvětlení, přidal produkty na stůl nebo přeměnil skicu na olejomalbu, a on vám vrátí variantu, která respektuje strukturu původního obrázku. Tyto dva režimy v kombinaci s prostorem pro popisky o délce 20 000 znaků pokrývají drtivou většinu scénářů, jako je úprava ilustrací, marketingové nápady, vizuály produktů, obaly videí a koncepční návrhy. Zbytek je už jen otázka praxe.

Jak funguje GPT Image 2

Z pohledu uživatele stačí k vytvoření obrázku zadat popis a kliknout na tlačítko. Z pohledu inženýra však systém během těch několika vteřin mezi stisknutím tlačítka a zobrazením obrázku ve skutečnosti vykoná celou řadu úkonů. GPT Image 2 využívá moderní difúzní obrazový model – stejně jako Midjourney, Stable Diffusion 3 a DALL-E 3 – ale jeho textový kodér a strategie trénování jsou speciálně optimalizovány pro dlouhé a konkrétní popisky. Nejviditelnější rozdíl na výsledném obrázku je „míra dodržování“ pokynů. Dřívější modely při 500slovním popisku detaily zplošťovaly, zatímco gpt-image-2 popisek bere jako specifikaci, kterou je nutné přesně splnit.

Princip difúzního modelu spočívá v učení se „inverznímu procesu přidávání šumu“. Během tréninku se do skutečných obrázků opakovaně přidává náhodný šum, dokud nejsou k nerozeznání od čistého šumu; síť se naučí postupně odšumovat na základě textového popisu. Při generování se postup obrátí: vychází se z čistého šumu a pomocí promptu se trajektorie odšumování směřuje k rozumnému obrázku, který odpovídá textu. Matematické detaily najdete v článku o difúzních modelech na Wikipedii, pokud vás zajímá technický přístup k textovému zarovnání, přečtěte si oficiální technickou zprávu OpenAI o DALL-E 3. Oba tyto články představují teoretický základ, z něhož vychází tato generace obrazových modelů.

Největší rozdíl mezi gpt-image-2 a běžnými difúzními modely spočívá v jeho kodéru pro popisky. Starší systémy používaly jednoduchý textový kodér CLIP, který sice bez problémů zachytil hlavní myšlenku, ale často selhával v detailech, jako je pořadí, počet nebo prostorové vztahy. gpt-image-2 využívá kodér na úrovni jazykového modelu, který dokáže porozumět větám s prostorovými omezeními, jako je například: „Na levé straně obrazu jsou tři šálky kávy, na pravé straně jeden červený zápisník a oknem za postavou proniká teplé ranní světlo.“ To potvrzují i skutečné výstupy: přesnost v oblasti prostorového uspořádání, počtu objektů a textu vloženého do obrázku (například „na ceduli je napsáno ‚OPEN‘“) je o poznání vyšší než před dvěma lety.

Schéma pracovního postupu GPT Image 2: Dlouhé podněty nejprve procházejí jazykovým kodérem a poté vstupují do sítě pro difúzní odšumování
Klíčová slova nejprve projdou kodérem jazykového modelu a poté se dostanou do difúzní sítě – právě v tom spočívá klíč k tomu, aby byl dlouhý brief plně realizován.

Projekt „Tushengtu“ se vydal jinou cestou

Generování obrázků z textu začíná čistým šumem, generování obrázků z obrázků začíná fotografií, kterou nahrajete. Model do původního obrázku vloží část šumu – obvykle s mírou poškození 30 % až 70 % – a poté podle zadaného popisu provede odšumění. Výstup se ovládá dvěma knoflíky: při nízkém šumu zůstane původní obrázek téměř zachován, což se hodí pro retušování portrétů nebo jemné úpravy barev; při vysokém šumu dojde k výraznému narušení původního obrázku a nová struktura se řídí zadaným popisem, což se hodí pro změnu stylu nebo „převedení skici na olejomalbu“.

GPT Image 2 skrývá tyto dva parametry do textu pokynu. Když řeknete „zachovat tvář a změnit pouze pozadí na deštivou noční ulici v Tokiu“, použije se nízký šum; když řeknete „překreslit jako impresionistický olejový obraz“, přepne se na vysoký šum. Právě schopnost modelu porozumět záměru je předpokladem pro to, aby uživatelské rozhraní mohlo zůstat tak přehledné – stejné API provede zcela odlišné úkony podle toho, co řeknete.

Proč je doba generování tak dlouhá?

Vrácení výsledku pro jeden obrázek obvykle trvá 4 až 15 sekund. Inference difúzního modelu vyžaduje 20 až 50 kroků odšumování, přičemž každý krok prochází přední propagací sítí s miliardami parametrů. Jeden krok trvá na moderních akcelerátorech jen několik milisekund, celkový čas měřený reálným časem je však z velké části zabraný čekáním ve frontě, síťovými přenosy a první propagací textového kodéru. Na úrovni produktu nelze tuto část optimalizovat, ale vysvětluje to, proč je generování občas pomalejší – to téměř vždy odpovídá špičkám v zatížení klastru KIE pro inferenci a nemá to nic společného s vámi.

Klíčové kompetence a skutečné odlišnosti

V uplynulých měsících jsem pomocí gpt-image-2 vygeneroval několik tisíc obrázků, od materiálů pro prezentace přes obálky blogů a makety produktů až po miniatury pro sociální sítě. Tři funkce jej odlišují od běžně používaných nástrojů generace 2024 nejvýrazněji.

Prvním bodem je schopnost zpracovat dlouhé zadání. Stačí vložit 600slovné kreativní zadání – scénu, hlavní objekt, oblečení, osvětlení, záběr, náladu – a již při prvním generování se podaří zachytit většinu klíčových bodů. Ještě před 18 měsíci to nebylo možné. Zadání takové délky by DALL-E 3 nedokázalo uchopit a Stable Diffusion 1.5 by začalo vymýšlet nesmysly. GPT Image 2 zpracovává brief jako technickou specifikaci; i když občas nějaký detail vynechá, běžná oprava spočívá v tom, že danou část přepíše tak, aby byla více v popředí, nebo ji zvýrazní tučným písmem, a v zásadě není třeba celý text přepisovat.

Druhým bodem je fotografická realističnost a čisté odlesky. Nejviditelnějším znakem, který v roce 2022 prozrazoval, že se jedná o obrázek vygenerovaný umělou inteligencí, byla plasticky vypadající pokožka a nesprávně umístěné zrcadlové odlesky. gpt-image-2 dokáže správně zpracovat subsurface scattering pokožky, měkké stínování softboxu i chromatickou aberaci objektivů s velkou clonou – výsledek je tak dobrý, že laický divák jen tak na první pohled nepozná, že jde o výtvor umělé inteligence. Není to dokonalé. Zhruba u jedné z patnácti fotografií se vyskytne problém s rukou a při extrémním detailním záběru mechanických hodinek se může objevit podivné uspořádání ozubených kol. Celkový dojem však již odpovídá kvalitě „fotografií z ateliéru“.

Třetím bodem je zobrazení textu v obrázcích. U první generace difúzních modelů bylo téměř nemožné dosáhnout toho, aby obrázek obsahoval srozumitelný text. GPT Image 2 si vede poměrně spolehlivě u krátkých textů: názvy ulic, štítky, obaly knih, názvy značek, data, krátké slogany i číselné označení se zobrazují stabilně. Delší odstavce se stále mění v nesrozumitelný text připomínající latinku, takže jej nepoužívejte k generování celostránkových textů, ale pro titulky o délce tří až čtyř slov na plakátech již není problém.

Tři obrázky vygenerované pomocí GPT Image 2 na základě různých zadání, které zachycují stejnou postavu, dokládají konzistenci zobrazení postavy
Chování stejného subjektu ve třech různých situacích: charakteristické rysy postavy zůstávají stejné ve studiu, na ulici i v interiéru.

Jaký je rozsah stylů?

Většina srovnávacích článků se neobtěžuje testovat šíři stylů, ale právě v tom spočívá skutečný náskok GPT Image 2. Filmová fotografie, redakční ilustrace, ploché vektorové grafiky, 3D renderování produktů, olejomalby, akvarely, anime, pixel art, technické schémata – všechny tyto styly dokáže model zvládnout, aniž by docházelo k hromadění stylových tokenů. Stačí popsat estetický efekt lidskou řečí, například „akvarel na papíře lisovaném za studena s viditelnými tužkovými podkresbami“, a model vygeneruje odpovídající obraz. Na rozdíl od Midjourney, které se opírá o zapamatování referenčních kódů a vytváří tak ekosystém celé subkultury, je zdejší zážitek kontrastně jednoduchý: stačí říct, co chcete.

Výhody poměru stran, rozlišení a jednotné ceny

Tento produkt se vyznačuje velmi jasným přístupem: GPT Image 2 si neúčtuje žádné příplatky za výběr rozlišení 4K ani za výběr vertikálního formátu. Každý obrázek stojí 12 bodů, bez výjimky. Zní to jako marketingový trik, ale ve skutečnosti to změní váš způsob práce. Přestanete opakovaně zkracovat popisky, abyste ušetřili body, a budete generovat obrázky bez omezení. 80 % z nich vyřadíte a ponecháte si těch 20 %, které vás skutečně zaujmou. Za celý měsíc vám tento rozdíl v přístupu přinese zvýšení produktivity, které vám nástroje s variabilním účtováním nemohou nabídnout.

Co nedělá

GPT Image 2 generuje pouze statické obrázky, nejedná se o nástroj pro tvorbu animací. Chcete-li obraz oživit, je třeba použít model pro generování videa z textu nebo obrázků. Nejedná se ani o generátor vektorů, výstupem jsou rastrové soubory WebP/PNG; k tvorbě loga je stále třeba použít Illustrator. Nejedná se ani o editor s prozatímními verzemi, nelze v něm vyznačit část obrázku a samostatně ji přetvořit, jako je tomu u funkce Generative Fill v Photoshopu – nejbližší alternativou je generování obrázků na základě popisných pokynů, což ve většině případů postačí.

Pro koho je GPT Image 2 nejvhodnější

Nejrychlejší způsob, jak zjistit, zda je daný nástroj pro vás vhodný, je zkontrolovat, zda se na vás vztahuje. V uplynulém čtvrtletí jsem v uživatelských datech a rozhovorech opakovaně narazil na následujících pět typů lidí.

Marketing v SaaS firmách s 5 až 50 zaměstnanci, kde vše zvládá jeden člověk. Tenhle člověk píše blog, rozesílá newslettery, vybírá originální obrázky a vytváří každý obrázek pro sociální sítě. Firma nemá stálého grafika a nemá čas shánět externího dodavatele kvůli jednomu blogovému příspěvku. Každý týden potřebuje 20 obrázků v jednotném stylu, každý musí být hotový do 10 minut a musí vypadat, jako by pocházely ze stejného redakčního vesmíru. GPT Image 2 se k tomuto profilu hodí téměř dokonale: díky jednotné ceně může za měsíc vygenerovat 200 obrázků, z nichž si vybere jen 50 nejlepších, a finanční oddělení se při kontrole účtů ani nepozastaví.

Nezávislý vývojář her nebo tvůrce aplikací. Tento člověk potřebuje v přípravné fázi návrhů hrdinů, obrázky karet, návrhy ikon a referenční materiály. Obvykle nevkládá obrázky vygenerované umělou inteligencí přímo do hry, ale používá je jako vizuální specifikace, které pak lidští grafici doladí. 20 000 znaků dlouhý prompt je pro něj spásou, protože brief k hernímu designu je už tak dost dlouhý – stačí tam vložit svět, atmosféru, paletu barev, nechat generovat a iterovat.

Tvůrci obsahu na YouTube, TikToku a Substacku. Potřebují miniatury, které zaujmou, a potřebují je rychle obměňovat, protože zpětnou vazbou jsou pro ně data z backendu platformy. „Továrna na obálky“, která jim dokáže během půl hodiny dodat 30 variant miniatur, z nichž si mohou vybrat tři, je přesně to, k čemu se generování obrázků z textu nejlépe hodí.

Čtyři typy uživatelů služby GPT Image 2: marketingoví pracovníci, nezávislí vývojáři, tvůrci obsahu a pedagogové
Čtyři nejčastější typy uživatelů v datech: marketingoví odborníci, nezávislí vývojáři, tvůrci obsahu a pedagogové.

Pedagogové nebo autoři technické dokumentace. Vznik této skupiny byl poněkud nečekaný. Učitelé, tvůrci kurzů a autoři dokumentace tvoří stále větší část uživatelů, kteří potřebují schémata, vizualizaci abstraktních pojmů a občasné úvodní obrázky do prezentací. Zde se obzvláště hodí schopnost modelu ovládat text v obrázcích a strukturovanou kompozici – jasně popsaný schéma koloběhu vody, stylizovaná ilustrace neuronové sítě, veselý úvodní obrázek pro třetí týden kurzu Pythonu. Jelikož mohou být zadávací texty velmi dlouhé, mohou do nich vložit samotný výukový obsah, a výsledek se tak bude blížit skutečnosti, nikoli jen obecné „technologické atmosféře“.

Pro nezávislé designéry nebo kreativní týmy v reklamních agenturách. Odborníci to využívají jako nástroj pro urychlení tvorby moodboardů: místo toho, aby celé odpoledne procházeli Pinterest a hledali inspiraci, mohou za stejné odpoledne vygenerovat 40 návrhů, vybrat tři nejlepší jako výchozí bod a ručně dokončit finální výstup. Strop 12 bodů na jeden návrh znamená, že rozpočet na fázi průzkumu projektu je levnější než pozvat klienta na oběd.

Pro koho není vhodný

Pokud potřebujete ovládat konkrétní oblasti obrázku na úrovni jednotlivých pixelů – tedy pracovní postup generativního vyplňování ve Photoshopu s jemným retušováním pomocí štětce a masek –, GPT Image 2 není nejvhodnější volbou. Není vhodný ani v případě, že potřebujete vektorový výstup na úrovni loga. Pokud potřebujete, aby generátor běžel offline nebo v lokální síti, k dubnu 2026 máme k dispozici pouze hostované API řešení od KIE, bez možnosti vlastního hostování. Pokud je vaším pracovním postupem zachování konzistence stejné postavy v desítkách komiksových panelů, nástroje specializované na konzistenci postav budou stále lepší volbou než univerzální generátory.

Ceny, přístup a jak začít

Ceny jsou velmi rozumné: 12 bodů za jeden obrázek. Žádné příplatky za rozlišení, žádné přirážky za orientaci na výšku či na šířku, žádné „prémiové“ tlačítko, které by vám potají zdvojnásobilo účet. Koupíte si body, utratíte 12 bodů za jeden obrázek a na první pohled vidíte, kolik vám v peněžence zbývá. Srovnání s tradičními fotobankami je velmi názorné: licenční poplatek za jeden kvalitní obrázek na mainstreamových fotobankách odpovídá přibližně nákladům na vygenerování 15 až 80 obrázků zde, a to aniž byste získali skutečně exkluzivní autorská práva.

Začátek vám nezabere ani dvě minuty. Přejděte na Domovská stránka, zaregistrujte se a po přihlášení se ocitnete přímo v generátoru. Do vstupního pole zadejte popis nebo nejprve nahrajte referenční obrázek, abyste mohli vytvořit nový, a poté klikněte na „Generovat“. Výsledek se zobrazí přímo na stránce a automaticky se uloží do historie vašeho účtu. Výchozí formát pro stažení je WebP, pravým tlačítkem myši získáte originální obrázek v plném rozlišení. Není třeba instalovat žádný desktopový program, žádné pluginy ani se připojovat k Discord skupině. Stačí vám prohlížeč a zařízení, které podporuje moderní GPU kompozici (v zásadě všechny stroje vyrobené po roce 2019).

Pokud chcete propojit více generovaných obrázků do většího kreativního celku – například připravit sadu ilustračních obrázků ve stejném stylu pro sérii blogových příspěvků – je nejbezpečnější postup nejprve napsat popis postav nebo stylu do Generátoru obrazových promptů a poté tento popis vložit do hlavního generátoru a opakovaně ho vylepšovat. Tento pracovní postup jsme podrobněji rozebrali v Návodu k použití GPT Image 2 a Průvodci prompty pro GPT Image 2, přičemž druhý z nich se zaměřuje na to, jaké struktury a modifikátory dokážou model spolehlivě nasměrovat tam, kam potřebujete.

Jak se vlastně body využívají?

Body se odečítají v okamžiku generování, nikoli v okamžiku odeslání zadání. Pokud dojde k selhání generování kvůli krátkodobé poruše na serveru, body se automaticky vrátí; pokud je generování úspěšné, ale výsledek vám nevyhovuje, počítá se to jako jedno použití – model svou práci skutečně dokončil. Při praktickém používání je pravděpodobnost, že se trefíte na první pokus, dost vysoká, takže toto pravidlo nikomu nepřipadá nespravedlivé. U mých běžných marketingových obrázků je „míra spokojenosti“ asi taková, že na každé čtyři zadání musím požádat o nové vygenerování, takže 12 bodů za jedno vygenerování rozhodně není částka, která by mi na konci měsíce způsobila vrásky na čele.

Komerční využití a autorská práva

Do dubna 2026 je komerční využití obrázků vytvořených uživateli placené verze povoleno. Právní úprava autorských práv k obrázkům generovaným umělou inteligencí však v některých jurisdikcích ještě není zcela vyjasněna – podle aktuálních pokynů Úřadu pro autorská práva USA se čistě AI generované výstupy považují za postrádající lidskou tvůrčí činnost, a proto nejsou chráněny. Pro většinu marketingových a redakčních účelů to není podstatné, ale pokud chcete vytvořit logo nebo ochrannou známku, poraďte se s právníkem a nechte finální návrh vyhotovit lidským designérem. Stránka Úřadu pro autorská práva USA věnovaná AI sleduje vývoj aktuální politiky a stojí za to si ji přidat do záložek.

Omezení a slabé stránky: V čem není dobrý

Čtenářům, kteří dočetli až sem, dlužím upřímné přiznání. Žádný obrazový model není dokonalý, a předstírat, že je, znamená nastražit past na termín o dva týdny později – model najednou přestane fungovat a vy budete muset uklízet nepořádek. Níže uvádím několik typických situací, ve kterých jsem zaznamenal, že GPT Image 2 selhává.

Struktura rukou a drobných částí těla. Model je o poznání lepší než generace z roku 2024, ale při detailních záběrech rukou se stále asi v každém desátém až patnáctém snímku vyskytnou problémy. Prsty se slepují, objeví se šestý prst nebo palec směřuje špatným směrem. Pokud jsou ruce pouze detailem v pozadí, nikdo si toho nevšimne; pokud se však jedná o hlavní snímek s dlaní směřující k objektivu, budete muset generovat několikrát. Velmi praktickým způsobem, jak se tomuto problému vyhnout, je přímo do promptu napsat „v záběru se neobjevují ruce“ nebo „ruce volně visí“, model se tomuto problému obvykle elegantně vyhne.

Dlouhé odstavce textu v obrázku. Krátké věty nejsou problém, stejně jako nápisy, štítky nebo obálky časopisů složené z několika slov. Celé odstavce textu však zatím neumí. Pokud potřebujete „e-mail na snímku obrazovky“, upravte si tento text v grafickém editoru a poté jej do obrázku vložte; nečekejte, že model za vás vygeneruje hlavní text.

Identita je při použití jediného referenčního obrázku zcela shodná. Funkce „Image-to-Image“ dokáže zachovat základní rysy subjektu, nejedná se však o klonovač obličejů. Pokud potřebujete, aby se „naprosto stejná osoba“ objevila na 20 obrázcích, u pátého či šestého obrázku dojde k mírnému posunu v identitě. Řešením je pracovní postup s více referenčními obrázky, který se velmi rychle vyvíjí a kterému se budeme podrobně věnovat v samostatném článku. Pro menší kampaně, které se skládají z jedné hlavní vizuální kompozice a několika doplňkových obrázků, je generování obrázků z obrázků zcela dostačující.

Porovnání GPT Image 2 s dalšími dvěma generátory obrázků s umělou inteligencí z roku 2026 na základě stejného zadání
Výkon stejného podnětu ve třech různých modelech: jejich silné a slabé stránky jsou na první pohled zřejmé.

Zásady obsahu a bezpečnostní filtrování. Některé kategorie modelů odmítají: skutečné veřejně známé osobnosti, obsah pro dospělé a citlivé scény související s dětmi. Filtr může občas omylem zablokovat zcela neškodné podněty, protože určitá slova spustí shodu s klíčovými slovy. V takovém případě zkuste použít jinou formulaci a zkusit to znovu. Většina omylem zablokovaných podnětů bude povolena při třetím pokusu, pokud stejný význam vyjádříte jinými slovy.

Stylová jednotnost při velkých objemech. Pokud pro stylový průvodce značky vygenerujete 50 obrázků, počítejte s tím, že 45 z nich bude vypadat jako z jednoho těsta, zatímco 5 bude vypadat jako z jiného světa. Řešením je buď tyto 5 obrázků znovu vygenerovat s přesnějšími pokyny, nebo se smířit s určitou stylovou rozmanitostí. U velkých značek s velmi přísnými stylovými pravidly je i tak zapotřebí, aby finální výstupy zkontroloval lidský umělecký vedoucí – to by asi měla dělat každá seriózní značka.

Zpoždění odezvy ve špičkách. V době od 14:00 do 22:00 UTC se doba generování výrazně prodlužuje, což odpovídá překrývání pracovní doby v USA a Evropě. Zatímco za běžných okolností trvá vygenerování grafu 4 až 8 sekund, ve špičkách se tato doba prodlouží na 15 až 30 sekund; ve velmi ojedinělých případech dojde k časovému limitu při prvním pokusu a k úspěšnému vygenerování při druhém pokusu. To je objektivní realita sdíleného inferenčního zpracování na GPU v roce 2026.

„Není to žádná magie“ – prohlášení o důvěře

Tento typ nástroje je v podstatě pravděpodobnostní funkcí definovanou na rozsáhlém distribučním prostoru. Je velmi silný v interpolaci – generuje výstupy, které vypadají jako rozložení trénovacích dat. V extrapolaci je však poměrně slabý – generuje věci, které ve skutečnosti nikdy neexistovaly. Když ho necháte nakreslit „kočku“, zvládne to na jedničku; když ho necháte nakreslit „biomechanického mimozemšťana, který se nikdy neobjevil v žádném sci-fi díle“, dostanete často „biomechanického mimozemšťana, který vypadá jako ten ze sci-fi“, protože v trénovacím souboru jsou jen takové. Když správně nastavíte očekávání, vrátí vám to.

Často kladené otázky

Co je vlastně GPT Image 2? Vysvětlení v jedné větě

GPT Image 2 je generátor obrázků s umělou inteligencí z roku 2026, který vychází z modelů řady gpt-image-2 od KIE. Převádí text a referenční obrázky na snímky ve fotografické kvalitě, přičemž cena za jeden obrázek je jednotná a činí 12 bodů. Podporuje generování obrázků na základě textu i obrázků na základě obrázků, přičemž délka zadání může činit až 20 000 znaků. Vyniká zejména při zpracování dlouhých strukturovaných zadání.

Je to totéž jako generování obrázků pomocí DALL-E 3 a GPT-4o?

Ne. GPT Image 2 je založen na rodině modelů gpt-image-2 hostovaných v KIE a koncepčně navazuje na linii „GPT Image“, avšak kódová základna je odlišná. Název vyjadřuje příbuznost: systém přebírá metodiku dlouhých promptů a nativní jazykové zpracování, kterou zavedl DALL-E 3, ale existuje jako samostatně vyvinutý systém hostovaný v infrastruktuře KIE.

Jaké jsou poplatky za službu GPT Image 2?

Každý obrázek má hodnotu 12 bodů, a to bez ohledu na rozlišení, poměr stran nebo režim generování (text-na-obrázek nebo obrázek-na-obrázek). Neexistují žádné skryté příplatky za „vysoké rozlišení“ nebo „prémiové“ služby – protože žádný prémiový režim vůbec neexistuje a výchozí nastavení je generování obrázků v plné kvalitě.

Lze vygenerované obrázky použít pro komerční účely?

Ano, obrázky vytvořené uživateli placené verze mají licenci pro komerční použití. Za obsah zadávacích pokynů a následné použití však nesete odpovědnost vy – nástroj za vás neudělí licenci k použití postav chráněných ochrannou známkou. Pokud jde konkrétně o loga a ochranné známky, nechte finální výstup vytvořit lidským designérem, protože americké autorské právo v současné době považuje výstupy vytvořené čistě umělou inteligencí za nechráněné, pokud v nich chybí lidský tvůrčí vklad.

Jak dlouhý může být zadávací text?

20 000 znaků odpovídá přibližně 3 000 anglických slov, což je více, než má většina kreativních zadání. Skutečná „účinná“ délka zadání je mnohem kratší, obvykle 300 až 600 slov – při delším textu začne model generovat průměrné výsledky namísto přesných odpovědí. Tento limit slouží k tomu, aby se dlouhé strukturované vstupy (kompletní popis scény + seznam záběrů + poznámky ke stylu) nezkracovaly.

Jak se používá generování obrázků z obrázků?

Nahrajte zdrojový obrázek a v popisu uveďte, co chcete změnit. Pokyny pro drobné úpravy, například „změnit pozadí na zlatou pláž za soumraku“, zachovají hlavní motiv původního obrázku. Pokyny pro zásadní úpravy, například „přepracovat ve stylu komiksů z 60. let“, původní obrázek výrazně přetvoří. Stejné API rozliší na základě vašeho jazykového záměru, zda provést drobnou, či zásadní úpravu.

V jakém formátu jsou vygenerované obrázky?

Výchozí formát je WebP, který podporuje bezztrátovou kompresi a nabízí dobrou kompatibilitu s prohlížeči. Pokud vaše nástroje WebP nepodporují, můžete jej pomocí libovolného prohlížeče nebo desktopového konvertoru v jediném kroku převést na formát PNG nebo JPEG. Konečné rozlišení závisí na poměru stran zadaném v pokynech.

Je k dispozici nějaký bezplatný limit?

Při registraci nového účtu získáte úvodní kredity, které vám vystačí na vytvoření několika obrázků, abyste si mohli službu vyzkoušet a teprve poté se rozhodnout, zda si ji zakoupíte. Po vyčerpání kreditů si je můžete dokoupit na stránce svého účtu. Uživatelé, kteří nakupují poprvé nebo přicházejí na web z blogu, mohou občas získat bonusové kredity v rámci propagační akce; konkrétní podmínky se řídí aktuálními akcemi zobrazenými na úvodní stránce.

Jste připraveni začít?

GPT Image 2 řeší konkrétní problém roku 2026: rychlé, levné a předvídatelné generování vysoce kvalitních statických obrázků bez nutnosti složitého nastavování nástrojů. Dva podporované režimy – generování obrázků z textu a generování obrázků z obrázků – pokrývají většinu tvůrčích pracovních postupů, a jednotná cena 12 bodů zjednodušuje vyúčtování.

Vyzkoušejte GPT Image 2 hned teď →

Pokud se chcete ponořit hlouběji do tématu, nejvhodnějším dalším zdrojem je náš praktický manuál Jak používat GPT Image 2, který popisuje osvědčené postupy pro psaní promptů, časté úskalí a příkladový postup pro vytvoření souboru obrázků se jednotným stylem. Pokud chcete procvičovat psaní promptů stejně jako psaní rukou, přečtěte si Průvodce prompty pro GPT Image 2, který podrobně rozebírá struktury a modifikátory, které model spolehlivě nasměrují tam, kam chcete.

Tým GPT Image 2

Tým GPT Image 2

Generování obrázků a videí pomocí umělé inteligence