Tutorial do GPT Image 2: Guia completo desde o registo até à geração de imagens (2026)

Resumo rápido

O GPT Image 2 é uma ferramenta de geração de imagens por IA que funciona no navegador e dispõe apenas de dois modos: texto para imagem (text-to-image) e imagem para imagem (image-to-image). A tarifação é uniforme, sendo cobrados 12 pontos por imagem, sem opções adicionais como resolução, proporção ou níveis de qualidade. Este artigo guia-o passo a passo, desde o registo, a primeira geração de imagens e o upload de fotos de referência para edição, até às estratégias de prompts que permitem produzir imagens realmente utilizáveis. Experimente o GPT Image 2 gratuitamente →

Antes de começar: o que precisa de preparar

Para utilizar o GPT Image 2, não é necessário ter uma placa gráfica de gama alta, o Photoshop ou qualquer experiência em IA; todos os cálculos são realizados no servidor, e o navegador limita-se a receber os dados introduzidos e a apresentar os resultados. O que realmente é preciso preparar é muito simples:

Um navegador moderno. As versões atuais do Chrome, Edge, Safari, Firefox e Arc são compatíveis. Ativar a aceleração por hardware torna a pré-visualização mais fluida, mas não é obrigatório.
Uma conta de e-mail. É possível registar-se com a palavra-passe do e-mail ou através do login rápido do Google. Podem ser contas de e-mail corporativas ou Gmail; domínios de e-mail descartáveis serão rejeitados.
Um pequeno saldo de pontos. Seja para gerar imagens a partir de texto ou de imagens, independentemente do comprimento da descrição ou da proporção da imagem, o custo é de 12 pontos por imagem. As novas contas incluem pontos de teste gratuitos, suficientes para completar as primeiras imagens deste tutorial.
Uma imagem de referência (opcional). Se pretender usar a função de gerar imagens a partir de imagens, prepare uma ou duas imagens de origem nos formatos JPG / PNG / WebP; recomenda-se que cada uma não exceda 10 MB. Composições quadradas ou verticais são as que mais facilmente proporcionam resultados consistentes.
**Basta uma ideia vaga. ** Os principiantes costumam querer escrever a «prompt perfeita» de uma só vez, mas acabam por ficar presos na indecisão. O método realmente eficaz é começar por gerar uma imagem com uma prompt simples, ver o que o modelo lhe dá e só depois decidir como a alterar.

Até abril de 2026, para utilizar o GPT Image 2 não é necessário descarregar qualquer cliente, solicitar uma chave API nem ficar em lista de espera. Basta abrir a página inicial, iniciar sessão e começar a gerar: são apenas estes três passos.

Capa do tutorial do GPT Image 2: o criador a utilizar um gerador de imagens com IA em frente ao seu portátil — Uma mesa, uma aba do navegador, uma descrição — é tudo o que o GPT Image 2 precisa para funcionar.

Este artigo destina-se a quem deseja utilizar bem esta ferramenta. A operação da ferramenta pode ser aprendida em dois minutos; o que realmente exige esforço são as decisões sobre «o que escrever, o que observar e quando alterar», e é precisamente disso que tratam os capítulos seguintes. Se estiver com pressa, pode avançar diretamente para o Método 1 e, quando obtiver o primeiro resultado insatisfatório, voltar atrás para consultar as secções sobre dicas de palavras-chave e erros comuns.

Método 1: Texto para imagem — Criar a primeira imagem a partir do zero

A geração de imagens a partir de texto é a funcionalidade que a maioria das pessoas deseja experimentar ao aceder ao GPT Image 2: basta escrever uma descrição, clicar em «Gerar» e o modelo apresenta uma imagem completa. Seguem-se as instruções passo a passo.

Passo 1: Abra o gerador e inicie sessão

Aceda à Página inicial do GPT Image 2. O painel do gerador encontra-se na primeira página da versão para computador e no primeiro bloco completo da versão móvel. Se não estiver registado, aparecerá a opção «Gerar após iniciar sessão»; selecione o seu e-mail ou a sua conta Google para concluir o registo, o que demora menos de um minuto.

Após iniciar sessão, o saldo de pontos será exibido no canto superior direito. Certifique-se de que tem pelo menos 12 pontos — as novas contas incluem um crédito de teste, pelo que não é necessário associar um cartão para concluir o primeiro exemplo deste artigo.

Passo 2: Selecione o separador «Text to Image»

Na parte superior do gerador, existem duas guias: Texto para Imagem e Imagem para Imagem. Comece por utilizar a opção padrão «Texto para Imagem». A caixa de entrada encontra-se logo abaixo da barra de guias.

Não é necessário selecionar manualmente o modelo — o sistema recorre ao gpt-image-2-text-to-image do KIE, sem menus suspensos para qualidade, proporção ou resolução: um modelo, um preço.

Passo 3: Comece por escrever uma frase-chave propositadamente curta

Um erro comum entre os principiantes é colocar todos os adjetivos que conhecem na primeira sugestão. Não faça isso. Comece por usar uma descrição curta e concreta para ver como o modelo se comporta no seu «estado padrão». A sugestão abaixo foi a que utilizei na primeira vez que testei, enquanto preparava este artigo:

A golden retriever puppy sitting in a sunlit field of wildflowers, shallow depth of field,
warm afternoon light.

(Significado em português: Um cachorro da raça Golden Retriever sentado entre flores silvestres ao sol, com pouca profundidade de campo e a luz quente do final da tarde.)

Cole no campo de entrada e clique em Generate. A maioria das sugestões apresenta resultados entre 20 e 40 segundos; nos horários de ponta, o processo pode demorar um pouco mais.

Passo 4: Avaliar honestamente os resultados

Quando executei a frase de comando acima pela primeira vez, o resultado foi bastante satisfatório: tons quentes, olhos nítidos, fundo desfocado de forma natural — mas as patas do cão ficaram ligeiramente desfocadas, o que é uma fraqueza típica dos modelos de imagem atuais. Isso é normal; esta etapa não serve para atribuir uma pontuação, mas sim para criar uma noção do que é a «saída padrão».

Na primeira imagem, é preciso prestar atenção, pelo menos, a três coisas:

O tema está correto? O modelo representa o tema que pretendia? Ou está errado (por exemplo, desenhou um labrador em vez de um golden retriever)?
**Direção da luz. ** A luz real corresponde à sua descrição? A «luz quente do meio-dia» deve ser uma luz lateral suave e direcionada, e não uma luz de cima.
Composição. O enquadramento do tema corresponde à imagem que tinha em mente? Ou está estranhamente centrado?

Se algum destes três aspetos não estiver correto, tem motivos claros para alterar a frase-chave — em vez de a reescrever cegamente.

Passo 5: Escreva uma versão otimizada da frase de prompt

Segue-se uma versão avançada da mesma cena. O tema e a abordagem à iluminação são os mesmos, mas foi adotada uma estrutura mais adequada ao GPT Image 2:

A 3-month-old golden retriever puppy with fluffy fur and floppy ears, sitting upright in a
meadow of wild daisies and lavender. Warm late-afternoon sunlight streams from the left,
casting long gentle shadows and creating a soft golden rim light on the fur. Shallow depth
of field, background softly blurred with bokeh. Shot on an 85mm lens, eye level with the
puppy. Photorealistic, high detail, natural colors.

(Significado em português: Um cachorro Golden Retriever de três meses, com pêlo fofo e orelhas caídas, sentado numa relva repleta de margaridas silvestres e lavanda. A luz quente do sol da tarde incide pela esquerda, projetando uma sombra longa e suave e formando um contorno dourado no pelo. Profundidade de campo reduzida, com o fundo desfocado e efeito bokeh. Lente de 85 mm, ao nível dos olhos do cachorro. Estilo realista, alto nível de detalhe, cores naturais.)

Em comparação com a primeira edição, foram introduzidas quatro alterações:

Detalhes mais específicos sobre o objeto («três meses de idade», «pelo fofo», «orelhas macias»), para que o modelo consiga visualizar a imagem.
Direção da luz bem definida («vinda da esquerda», «luz de contorno incidindo sobre o pelo»), em vez de se limitar a escrever «quente».
A linguagem fotográfica («objetiva de 85 mm», «ao nível dos olhos do cachorro») fornece ao modelo um modelo de composição concreto.
Os adjetivos de qualidade colocados no final («realista, altamente detalhado, cores naturais») — curtos, sem roubarem a cena.

Clique novamente em «Generate». A segunda imagem deverá estar mais próxima da imagem que tem em mente. Se ainda não estiver correta, não reescreva todo o texto — altere apenas uma variável de cada vez, gere e compare, para saber qual é a palavra que está a fazer a diferença.

Um modelo mental útil: dividir a palavra-chave em quatro «compartimentos» — tema, ação, ambiente e estilo. Modifique apenas o compartimento que está a causar o problema de cada vez. Se o tema não estiver correto, altere o compartimento «tema»; se a iluminação não estiver correta, altere o compartimento «ambiente»; se o resultado parecer um desenho animado, mas o que pretende é uma fotografia, altere o compartimento «estilo».

Passo 6: Guardar, descarregar ou continuar a iterar

Depois de ficar satisfeito com a imagem gerada, encontrará um botão de download abaixo da pré-visualização. Cada imagem gerada é automaticamente guardada no histórico da sua conta, permitindo-lhe rever versões anteriores, copiar prompts antigos e continuar a iterar. Se mais tarde quiser continuar a editar esta personagem na funcionalidade «Gerar a partir de imagem», basta selecionar esta imagem no histórico como imagem de origem.

Imagem com qualidade cinematográfica gerada pelo GPT Image 2: uma mulher com um vestido longo de seda branca numa praia ao pôr-do-sol — Uma saída de prompt de geração de imagens com uma descrição específica da iluminação. Ao especificar «hora dourada» e «seda em contraluz», o modelo obtém pistas visuais claras para trabalhar.

O ciclo de trabalho «Abrir — Escrever — Avaliar — Ajustar — Regenerar», que acabou de percorrer, constitui todo o ciclo de trabalho da geração de imagens a partir de texto. Todo o conteúdo que se segue neste artigo tem como objetivo ensinar-lhe como executar esse ciclo de forma mais rápida e com menor consumo de pontos.

Se utilizar o GPT Image 2 a longo prazo, recomenda-se que crie um ficheiro de texto simples para registar as «prompt» eficazes. Não se trata de um modelo, mas sim do seu próprio registo: sempre que ficar satisfeito com a imagem gerada, adicione uma linha com a prompt completa como nota. Passados seis meses, este registo irá refletir o seu gosto pessoal melhor do que qualquer modelo genérico disponível na Internet.

Método 2: Imagem a partir de imagem — Editar ou aplicar um novo estilo a uma fotografia existente

A geração de imagem a partir de imagem (image-to-image, abreviado como i2i) parte de uma imagem de origem; o modelo mantém as partes que pretende conservar e reescreve o restante com base nas palavras-chave fornecidas. Se pretender realizar tarefas como «mudar a roupa da mesma pessoa», «mudar o fundo do mesmo produto» ou «mudar o estilo da mesma composição», utilize este modo.

Passo 1: Selecione o separador «Image to Image»

Volte ao gerador da página inicial e clique em Image to Image. Aparecerá uma área de upload de ficheiros acima da área de entrada; a caixa de texto continua presente e continua a suportar até 20 000 caracteres, mas agora funciona em conjunto com a imagem carregada.

Chama o gpt-image-2-image-to-image em segundo plano, com um preço idêntico ao da geração de imagens a partir de texto — 12 pontos por imagem. Não existe um controlo deslizante independente para a «intensidade»; a variação depende inteiramente da formulação da sua instrução.

Se já utilizou outras ferramentas de InPainting (correção com máscara), tenha em atenção que é necessário mudar de mentalidade: o GPT Image 2 não requer a criação de uma máscara, mas sim a análise conjunta da imagem original e do prompt na íntegra para decidir o que alterar. Para 80% das necessidades reais (mudar o fundo, trocar de roupa, transformar o dia em noite), a edição apenas do prompt acaba por ser mais prática.

Passo 2: Carregar a imagem original

Arraste ficheiros JPG, PNG ou WebP para a área de upload ou clique em «Selecionar ficheiro». Para a sua primeira tentativa, recomendamos que escolha uma fotografia com iluminação clara e composição simples. Fotografias com desfoque de movimento, iluminação fraca ou fundo desorganizado dão ao modelo mais margem para «interpretações livres», o que, por sua vez, torna a comparação entre as imagens mais difícil de perceber.

A imagem abaixo é o típico «tipo de foto que um principiante costuma enviar na sua primeira tentativa com uma ferramenta de IA» — uma selfie comum tirada em ambiente interior.

Uma selfie normal tirada em ambiente interior, servindo de exemplo de imagem de referência para a geração de imagens pelo GPT Image 2 — Imagem original: uma selfie caseira ligeiramente sobre-exposta. Não é uma foto retocada; é exatamente o tipo de imagem que o TuShengTuSheng mais se destaca a transformar.

Passo 3: Primeiro, avalie — trata-se de uma «pequena reparação» ou de uma «transformação»?

Antes de escrever a instrução, pense bem no nível de alteração que pretende. A geração de imagens e a substituição de imagens correspondem a duas intenções totalmente diferentes, pelo que a forma de escrever as instruções também difere:

Pequenas alterações (Edit): Manter a maior parte, substituir apenas um elemento. «Mudar a roupa para azul-marinho.» «Retirar a chávena de café.» «Substituir o fundo por uma estante.» "
Transformação (Transform): Manter a identidade, reescrever toda a cena. "A mesma pessoa, agora vestida com trajes tradicionais chineses, em pé no terraço do palácio ao luar." "O mesmo produto, agora com uma mesa de mármore e iluminação de estúdio."

Quanto mais completa for a descrição do novo cenário fornecida pela palavra-chave, mais alterações o modelo irá introduzir; se apenas for mencionada uma característica, as restantes tendem a ser mantidas. Esta é a forma de controlar a «amplitude das alterações» quando não há controlos deslizantes disponíveis.

Exemplo: «change the shirt to navy blue» (mudar a camisa para azul-marinho) é uma edição restrita, em que o rosto, o penteado, a postura, o fundo e a iluminação permanecem inalterados. Por outro lado, Ela está agora a usar um fato azul-marinho à medida, em pé num escritório corporativo com paredes de vidro, na hora dourada (She is now wearing a tailored navy suit, standing in a glass-walled corporate office at golden hour) é uma transformação — o fato, o ambiente e a iluminação mudam completamente, mantendo-se apenas o rosto e a silhueta. São ambas frases de uma só linha, mas a amplitude da alteração depende da quantidade de novos cenários que descrever.

Passo 4: Escreva uma instrução que indique ao modelo «o que deve manter»

Aqui estão as palavras-chave que utilizei para criar a "transformação" a partir da imagem original acima:

Same woman — identical facial features and hair. Transform the scene: she now wears an
elaborate crimson-and-gold hanfu with intricate embroidery and a jeweled phoenix hairpin.
She stands on a moonlit palace terrace, red lanterns glowing softly in the background,
cherry blossom petals drifting in the air. Warm lantern light from the right, cool
moonlight fill from the left. Cinematic shallow depth of field, elegant composition, 4K
photorealistic.

(Significado em chinês: A mesma mulher — o rosto e o penteado permanecem inalterados. Reescrita da cena: Ela veste agora um magnífico traje tradicional chinês em tons de vermelho e dourado, com bordados intricados, e um pino de fênix dourado preso no coque. Encontra-se na varanda do palácio, banhada pelo luar, tendo como pano de fundo lanternas vermelhas de luz suave e pétalas de cerejeira a flutuar. À direita, a luz quente dos lanternes; à esquerda, a luz fria do luar. Profundidade de campo reduzida ao estilo cinematográfico, composição elegante, realista em 4K.)

Há dois pontos que foram explicitamente mencionados:

"A mesma mulher — traços faciais e cabelo idênticos." Esta frase praticamente garante toda a preservação da identidade. Se não for incluída, a modelo poderá desviar-se aleatoriamente.
Descrição completa do novo cenário. Especifique claramente o vestuário, o local, os adereços e a direção da luz. A modelo está a reconstruir todo o ambiente e necessita de um conjunto completo de instruções, em vez de apenas uma etiqueta.

Passo 5: Comparar o resultado final com o original

Clique em «Generate» para ver os resultados. Na vez em que fiz o teste, a imagem gerada manteve os contornos do rosto e do penteado do sujeito, sendo que tudo o resto foi reconstruído de acordo com a descrição fornecida.

Saída do GPT Image 2: a mesma pessoa transformada numa cena de uma série de época sobre a corte imperial — Geração de imagens: a identidade deve permanecer consistente, enquanto o vestuário, o cenário e a iluminação devem ser totalmente reescritos de acordo com as instruções.

Analise o antes e o depois em conjunto. Se o rosto tiver mudado demasiado, acrescente a cláusula «same person» (por exemplo, adicione «preserve exact face shape, same eyes, same nose, same lip shape» — preserve o formato exato do rosto, os mesmos olhos, o mesmo nariz e o mesmo formato dos lábios); se a alteração do cenário não for suficiente, acrescente mais detalhes do ambiente. Esses são os botões de ajuste que tem à sua disposição.

Passo 6: Sem sair da página, utilize diretamente o resultado como a próxima entrada

A melhor característica do TuShengTu é que a imagem gerada acaba por ser, por si só, a imagem de partida válida para a próxima edição. Basta clicar em «Usar como nova entrada» e escrever uma nova descrição (por exemplo, «A mesma cena, mas ao amanhecer» ou «A mesma pose, mas com um leque na mão»). A imagem final resultante de pequenas edições sucessivas é quase sempre mais nítida do que uma descrição excessivamente longa que tenta abranger tudo de uma só vez.

A «edição em cadeia» é uma das técnicas de fluxo de trabalho mais valiosas deste artigo. Um erro comum entre os principiantes: escrever uma descrição de 300 palavras que pretenda abranger tudo, e mesmo depois de repetir o processo oito vezes, o resultado continua a não ser o desejado. A abordagem profissional consiste em trabalhar por etapas: primeiro definir a personagem e, em seguida, utilizar o resultado da etapa anterior como imagem de referência para definir o vestuário, o ambiente e a iluminação. Cada ronda vale 12 pontos, num total de 48 pontos para as quatro rondas — o resultado final é muito mais limpo do que se fizesse dez tentativas de uma só vez.

GPT Image 2: Transferência de estilos em imagens geradas por computador: foto real de uma praia à esquerda, versão redesenhada em estilo cyberpunk com luzes de néon à direita — Um passo além na transposição de estilos: a mesma personagem, na mesma pose, transformada de uma praia real num terraço cyberpunk com luzes de néon. Basta incluir a indicação «same pose» na descrição para que o modelo mantenha a sua estrutura geométrica, enquanto tudo o resto é adaptado ao novo cenário.

Dicas e técnicas para melhorar realmente os resultados das imagens

Já domina todo o processo de utilização. A diferença entre um utilizador novo no primeiro dia e um utilizador experiente capaz de criar um portfólio com o GPT Image 2 não reside numa determinada palavra-chave misteriosa, mas sim no conhecimento de quais são as estratégias que realmente funcionam. As nove dicas a seguir são as que apresentam a melhor relação custo-benefício na prática.

Dica 1: Coloque o tema no início e os termos de qualidade no final

Comece a descrição com «Quem/O que está a ser retratado» e coloque os termos relacionados com a qualidade da imagem, como photorealistic, cinematic, 4K e high detail, no final. O modelo lê a descrição da esquerda para a direita; o tema apresentado no início recebe maior peso, enquanto o tema que fica enterrado por trás das sete etiquetas de qualidade terá o seu impacto diluído.

Mais fraco: Fotografia cinematográfica hiperrrealista em 4K, com detalhes ultra-HD, de um gato sentado no parapeito de uma janela

Intensidade elevada: Um gato preto e branco com pelagem em tons de preto e branco, sentado no parapeito de uma janela de madeira, a observar a rua chuvosa da cidade lá fora. Luz suave e difusa proveniente da janela, profundidade de campo reduzida. Fotorrealista, cinematográfico.

Dica 2: Descreva a «direção da luz», não o «ambiente da luz»

"Iluminação bonita" é quase como não dizer nada. "Luz quente do pôr-do-sol vinda da esquerda, com sombras longas a cair para a direita" é que indica à modelo onde cada sombra deve cair. Fontes de luz com direção e nome (window light, rim light, softbox from above, neon fill from behind) são uma das formas mais económicas de descrever e, ao mesmo tempo, melhorar significativamente a qualidade da imagem.

Dica 3: Descreva a composição utilizando termos fotográficos para melhorar imediatamente o realismo

Para obter imagens com grande realismo, adote o vocabulário dos fotógrafos. Ao combinar distâncias focais (35 mm, 50 mm, 85 mm, 135 mm), conceitos de profundidade de campo (shallow depth of field, deep focus) e ângulos de filmagem (eye level, low angle, overhead), o modelo terá à sua disposição um conjunto de modelos de composição concretos. A entrada Camera lens da Wikipédia em inglês é um excelente recurso que se lê em 10 minutos e o ajuda a escolher a distância focal de forma consciente.

Dica 4: Descreva o estilo com base no «meio» e não no «nome do artista»

A expressão «ao estilo de um determinado pintor» é frágil e suscita controvérsias quanto à autoria. Uma abordagem mais segura consiste em descrever o próprio meio: «pintura a óleo com pinceladas visíveis», «esboço a lápis com hachuras cruzadas», «aspecto de filme Kodachrome vintage com granulação», «ilustração vetorial limpa com cores planas». Isto fornece uma orientação estética sem depender de um indivíduo específico.

Dica 5: Substitua as «restrições negativas» por «descrições positivas»

O GPT Image 2 não possui um campo de entrada específico para palavras-chave negativas. A melhor forma de evitar determinados elementos é descrever claramente o que pretende. Em vez de escrever «sem pessoas, sem texto, sem desordem», escreva «uma sala vazia com paredes limpas, composição minimalista, uma única planta num canto». As descrições positivas são muito mais fiáveis do que as formulações negativas.

Dica 6: Ao criar imagens a partir de imagens, defina primeiro a identidade e, em seguida, reescreva o cenário

Ao fazer uma «mudança de roupa/cenário», se quiser que o rosto se mantenha consistente, a primeira frase da descrição é fundamental. Colocar no início algo como «A mesma pessoa — preservar as características faciais, a cor do cabelo e o tom de pele» é mais eficaz do que qualquer descrição bonita do cenário que venha a seguir. Se for necessário reforçar ainda mais a identidade, acrescente «mesmo formato dos olhos, mesmo nariz, mesmos lábios». Ser explícito é mais eficaz do que sugerir.

Dica 7: Faça pequenas iterações, em vez de reescrever tudo de uma vez

Altere apenas uma variável de cada vez. Se a postura estiver correta, mas a roupa não, altere apenas a parte relativa à roupa; se a iluminação estiver errada, mas tudo o resto estiver bem, altere apenas a parte relativa à iluminação. Só assim poderá criar um ciclo de feedback verdadeiramente controlável e saber qual a palavra que alterou o que. Reescrever o parágrafo inteiro irá destruir esse sinal e desperdiçar pontos.

Dica 8: Escreva as palavras-chave seguindo a ordem de "prioridades do modelo"

Coloque os elementos-chave no início: tema → ação → ambiente → estilo. Ao escrever «no estilo de uma pintura a óleo, há uma mulher de vestido vermelho a caminhar por uma rua de calçada ao entardecer», está a dizer ao modelo «isto é, antes de mais, uma pintura a óleo», sendo que o resto é secundário. Se mudar para «Uma mulher de vestido vermelho caminha por uma rua de calçada ao entardecer, representada como uma pintura a óleo», o modelo ouve primeiro o tema principal e só por último o meio de representação. A quantidade de informação é a mesma, mas o resultado final costuma ser significativamente mais preciso na segunda opção.

Dica 9: Use os termos que os fotógrafos e os realizadores realmente utilizam

Dutch angle (ângulo holandês), rack focus (foco em movimento), golden hour (hora dourada), overcast daylight (luz do dia em dia nublado), softbox (caixa de luz difusa), gobo shadow (sombra de gobo), hero shot (plano de destaque), two-shot (plano a dois), negative space (espaço negativo) — estes termos têm significados claros na fotografia e no cinema, e muitas das imagens nos dados de treino estão associadas a estes termos. Termos emocionais vagos (vibey, dreamy, epic) são sinais muito mais fracos para o modelo. A entrada da Wikipédia em inglês Shot (filmmaking) é um bom guia rápido de vocabulário de 15 minutos.

Os erros mais comuns dos principiantes e como corrigi-los

Para ser sincero, já cometi todos estes erros. É muito provável que você também os cometa, mas pelo menos poderá identificá-los mais rapidamente.

Erro 1: Escrever uma descrição de 400 caracteres e esperar obter o resultado final de uma só vez. Os modelos de imagem são mais eficazes no tratamento de descrições «concisas e iterativas» do que de descrições «extremamente longas e definitivas». O limite máximo de 20 000 caracteres não deve ser o objetivo. Nas respostas do GPT Image 2 com as quais fiquei mais satisfeito, a maioria das descrições tinha entre 40 e 120 palavras.

Erro 2: Repetir o processo sem alterar a descrição. Ao clicar duas vezes em «Gerar» com a mesma descrição, o resultado fica «quase quase pronto»; ao clicar uma terceira vez, continua «quase quase pronto». A aleatoriedade apenas explora uma pequena área; se a direção dessa área estiver errada, por mais vezes que repita o processo, não vai conseguir corrigir a situação — é preciso alterar a descrição.

Erro 3: Contradições na descrição. Não se pode escrever «soft dreamy watercolor» (aquarela suave e onírica) e «ultra-sharp photorealistic 4K» (4K fotorrealista e ultra-nítido) na mesma descrição, pois isso é contraditório. O modelo irá escolher uma das opções ou, pior ainda, fazer uma média entre as duas. Pense bem antes de escrever.

Erro 4: Ter expectativas demasiado elevadas em relação ao texto na imagem. Até abril de 2026, os modelos de imagem com IA ainda apresentavam instabilidade na renderização de textos longos, especialmente quando estes incluíam caracteres não latinos. Símbolos curtos, como os utilizados em letreiros, podem por vezes funcionar, mas textos com a extensão de um parágrafo raramente o fazem. Quando o texto constituir a informação principal, basta sobrepor uma camada com texto utilizando qualquer editor de imagens após a geração da imagem.

Erro 5: Carregar uma imagem de origem desfocada. O modelo utiliza o nível de detalhe da imagem de origem como referência. Uma fotografia tirada com um telemóvel, que seja desfocada e com pouca luz, manterá essa sensação de desfocagem na imagem final, independentemente de como redigir a instrução, mesmo que indique «nítida e nítida». Se for possível escolher uma imagem de origem nítida, opte por essa.

Erro 6: Não coloque as mãos em destaque. As mãos continuam a ser a fonte mais comum de imperfeições na geração de imagens. Se a composição exigir que as mãos sejam destacadas, aceite que terá de fazer várias iterações; se não forem o elemento central, deixe-as fora do enquadramento ou deixe-as cair naturalmente.

Erro 7: Ignorar as proporções na fase de upload da imagem gerada. A imagem gerada segue normalmente as proporções da imagem original. Se pretender uma imagem horizontal, mas carregar uma selfie vertical, é como se estivesse a ir contra o sistema. Antes de iniciar a geração, recorte a imagem original para as proporções pretendidas.

Erro 8: Considerar a «primeira imagem aceitável» como a versão final. Os utilizadores experientes consideram o «razoável» como o ponto de partida para a próxima iteração. A diferença entre o «razoável» e o «nível de portfólio» surge normalmente na terceira iteração, e não na primeira.

Erro 9: Esquecer-se de que o modelo não tem memória entre duas gerações. A menos que se utilize a função «imagem a partir de imagem» para usar a saída anterior como imagem de origem, cada geração é totalmente nova. Para reutilizar personagens antigas, guarde o prompt original ou faça uma edição em cadeia diretamente a partir da imagem anterior.

Como funciona internamente o GPT Image 2 (resumo)

Esta secção não é obrigatória, mas pode ajudá-lo a ter expectativas realistas. O GPT Image 2 é uma interface de utilizador simplificada que invoca diretamente os dois modelos do KIE, gpt-image-2-text-to-image e gpt-image-2-image-to-image — estes pertencem à família dos modelos de difusão e foram otimizados para seguir instruções e produzir imagens realistas de alta fidelidade. Cada pedido passa por autenticação, é cobrado 12 pontos, é colocado em fila e devolve um URL da imagem.

A presença de botões na interface é, na maioria das vezes, intencional: a API KIE, por si só, não expõe esses controlos, e adicionar «botões falsos» na camada superior apenas induziria em erro. Tudo o que o modelo é capaz de fazer é expresso através das palavras-chave. Para compreender melhor os princípios, consulte a Wikipédia Modelo de difusão e a página de investigação da OpenAI.

O GPT Image 2 também tem as suas limitações

Se só falarmos dos pontos positivos e ignorarmos os negativos, isso já não é um tutorial. Aqui estão as deficiências comuns do GPT Image 2 — que, na verdade, se aplicam a todos os modelos de imagem mais populares atualmente:

Reprodução precisa dos elementos da marca. O logótipo, as personagens licenciadas e a embalagem dos produtos não são reproduzidos de forma consistente. A abordagem correta consiste em gerar a composição e, em seguida, sobrepor o logótipo real.
**Consistência rigorosa com as referências. ** Quando é necessário que uma personagem seja totalmente consistente ao longo de dezenas de imagens (por exemplo, numa série de banda desenhada), a manutenção da identidade da imagem gerada a partir de outra imagem já é muito melhor do que a geração de imagens a partir de texto, mas ainda não é tão precisa em cada fotograma como o treino de LoRA ou a ligação de personagens 3D.
Anatomia em poses extremas. Dedos, pés, dentes, orelhas e membros cruzados são as partes mais propensas a distorções. Quanto mais próximo o plano, mais evidentes são os erros.
Composição perfeita. Já mencionado acima — continua a ser verdade.

Mais duas observações: em primeiro lugar, os modelos de geração de conteúdo apresentam, por natureza, uma aleatoriedade na amostragem — o mesmo prompt produz resultados diferentes em cada execução; a diversidade é uma vantagem, enquanto a consistência é uma desvantagem, sendo que esta última pode ser atenuada através da edição em cadeia, gerando imagens a partir de imagens. Em segundo lugar, o modelo reflete a distribuição dos dados de treino; contextos culturais menos conhecidos são mais difíceis de reproduzir com precisão à primeira tentativa do que temas populares, pelo que é de esperar que sejam necessárias várias iterações.

Um fluxo de trabalho de geração de imagens com IA realmente eficaz não consiste em «usar um único modelo para tudo», mas sim em «deixar que o GPT Image 2 resolva 80% das imagens principais e que um editor básico trate dos 20% restantes de retoques manuais».

Resumo de uma página: Processo completo

Se quiser apenas uma versão para colar ao lado do ecrã e ler de uma só vez:

Abra a página inicial do GPT Image 2 e inicie sessão.
Verifique se a sua conta tem, pelo menos, 12 pontos.
Selecione a etiqueta: Text to Image ou Image to Image.
Imagem a partir de imagem: carregue uma imagem de origem nítida.
Comece por escrever uma descrição curta e específica. O tema principal deve vir primeiro, seguido dos termos de qualidade.
Gerar. Avalie com rigor os três aspetos: tema principal, iluminação e composição.
Altere apenas uma variável, gere novamente e compare.
Repita os passos 6–7 até ficar satisfeito com o resultado.
Descarregue.

É tudo. Todos os atalhos, dicas e hábitos dos utilizadores experientes mencionados neste artigo são variações destes nove passos.

Mais um pequeno hábito: escreva primeiro o prompt no editor de texto e, depois, cole-o no gerador. É prático para manter um histórico, reorganizar a ordem das palavras e reutilizar introduções fixas como «Same person — preserve facial features…». Quando estiver satisfeito com a imagem, volte a escrever a versão final no registo de prompts. Esta pequena barreira evita que os seus melhores prompts se percam ao atualizar o navegador.

Perguntas frequentes

Quantos pontos vale cada imagem no GPT Image 2?

Quer se trate de gerar imagens a partir de texto ou de gerar imagens a partir de imagens, o preço é sempre de 12 pontos por imagem. Não há cobranças adicionais por «prompt mais longo», «resultado maior» ou «nível de qualidade superior» — essas opções simplesmente não existem. Os pontos são adquiridos em pacotes disponíveis no site, e as novas contas recebem automaticamente pontos de teste.

É necessário instalar alguma coisa para utilizar o GPT Image 2?

Não é necessário. Tudo é feito no navegador. Não há aplicação para computador, nem extensões para o navegador, e a interface web também não requer que solicite uma chave API. Basta um navegador moderno e uma conta de e-mail.

Qual é o comprimento máximo da palavra-chave?

Tanto na geração de imagens a partir de texto como na geração de imagens a partir de imagens, a introdução de prompts suporta um máximo de 20 000 caracteres. Dito isto, na prática, os prompts mais eficazes têm geralmente entre 40 e 200 palavras. Prompts demasiado longos tendem a diluir o sinal e podem até criar contradições; os prompts curtos e bem estruturados costumam ter melhores resultados.

É possível carregar várias imagens de referência ao mesmo tempo?

O modo «Imagem gera imagem» suporta apenas uma imagem de origem de cada vez. Se pretender combinar várias referências (por exemplo, «esta personagem + o estilo desta roupa»), pode utilizar a geração em cadeia: primeiro crie uma imagem intermédia e, em seguida, utilize-a como imagem de origem para a próxima iteração, acompanhada de uma nova descrição, para continuar a editar. A edição em cadeia resulta frequentemente em imagens mais nítidas do que a utilização de uma única descrição complexa.

O GPT Image 2 suporta resoluções ou proporções específicas?

Atualmente, a definição de tamanho é uniforme, e a própria API do KIE não disponibiliza controlos de escala ou resolução que o utilizador possa ajustar. A imagem gerada segue normalmente a forma da imagem original; por isso, se for necessária uma escala específica, deve-se primeiro recortar a imagem original e, em seguida, gerar a nova imagem.

As imagens geradas podem ser utilizadas para fins comerciais?

Os direitos de utilização regem-se pelos Termos de Serviço apresentados no rodapé do site, devendo estes constituir a referência definitiva. Na prática, até 2026, a maioria dos utilizadores recorre a este recurso para criações de marketing, conteúdos sociais, protótipos e trabalhos pessoais. Antes de utilizar uma imagem num produto gerador de receitas, consulte os termos em vigor na altura.

Como manter a consistência de uma mesma personagem em várias imagens?

Utilize a técnica imagem a partir de imagem e inclua explicitamente, no início da descrição, uma cláusula de preservação de identidade («A mesma pessoa — preservar as características faciais, a cor do cabelo e o tom de pele»). Em seguida, utilize cada resultado como imagem de origem para a imagem seguinte e continue a gerar imagens com uma nova descrição do cenário. Este método não é tão preciso quanto o LoRA treinado especificamente para personagens, mas é muito mais eficaz do que recomeçar sempre a partir da técnica «texto a imagem».

Qual é a forma mais rápida de aprender a usar o GPT Image 2?

Nas primeiras 12 a 20 gerações, utilize prompts simples de «texto para imagem» para compreender bem o desempenho do modelo no seu «estado padrão»; depois, passe para a geração de imagem a partir de imagem, começando com uma imagem de referência limpa. Siga as instruções da página de referência acima e, na maioria dos casos, basta praticar com dedicação durante cerca de uma hora para se sentir relativamente à vontade.

Por que é que os meus resultados não se parecem nada com a palavra-chave?

Existem três tipos de motivos comuns: primeiro, os adjetivos de qualidade estão no início e o objeto principal fica no final — coloque o objeto principal no início; Segundo, as palavras-chave são contraditórias (por exemplo, «aquarela» e «fotorrealista» colocadas lado a lado) — escolha um único meio; Terceiro, utilizam-se apenas palavras que descrevem emoções («beleza», «impressionante») sem substantivos concretos — acrescente objetos específicos, a direção da luz e a linguagem cinematográfica.

Está pronto para começar?

Chegados a este ponto, já tens um fluxo de trabalho completo, um conjunto de prompts úteis, os erros a evitar e uma página de referência rápida. Só te resta uma coisa a fazer: abrir o gerador e usar os teus primeiros 100 pontos para descobrir «que tipo de prompts preferes». Esta etapa ninguém pode fazer por ti.

Abra o GPT Image 2 e crie a sua primeira imagem →

Se quiser aprofundar o assunto:

O que é o GPT Image 2? Funcionalidades, preços e casos de utilização
Guia de prompts do GPT Image 2: Escreva prompts realmente úteis
GPT Image 2 vs Sora: comparação de capacidades de geração de imagens
Experimente primeiro o gerador de prompts de imagem integrado, que expande automaticamente uma ideia simples numa prompt completa.
Também pode aceder diretamente às páginas exclusivas dos modos Text to Image ou Image to Image.

Este artigo foi publicado pela equipa do GPT Image 2. Até abril de 2026, ambos os modelos têm um custo uniforme de 12 pontos por imagem. Caso haja alterações no futuro, atualizaremos este artigo e indicaremos essas alterações no registo de atualizações.

Tutorial do GPT Image 2: Guia completo desde o registo até à geração de imagens (2026)

Índice