Tutorial de GPT Image 2: guía completa desde el registro hasta la generación de imágenes (2026)

Resumen rápido

GPT Image 2 es una herramienta de generación de imágenes con IA que funciona en el navegador y cuenta con solo dos modos: «texto a imagen» (text-to-image) e «imagen a imagen» (image-to-image). La tarifa es de 12 puntos por imagen, sin opciones adicionales como resolución, proporciones o niveles de calidad. En este artículo te guiaremos paso a paso, desde el registro, la primera generación de imágenes y la subida de fotos de referencia para la edición, hasta las fórmulas de prompts que realmente permiten generar imágenes útiles. Prueba gratuita de GPT Image 2 →

Antes de empezar: qué necesitas preparar

Para utilizar GPT Image 2 no se necesita una tarjeta gráfica de gama alta, Photoshop ni experiencia previa en IA; todos los cálculos se realizan en el servidor, y el navegador solo se encarga de introducir los datos y mostrar los resultados. Lo único que hay que preparar es muy sencillo:

Un navegador moderno. Se admiten las versiones actuales de Chrome, Edge, Safari, Firefox y Arc. Activar la aceleración por hardware mejora la fluidez de la vista previa, pero no es imprescindible.
Una cuenta de correo electrónico. Se admite el registro con contraseña de correo electrónico, así como el inicio de sesión con Google. Se aceptan tanto cuentas de correo corporativas como de Gmail; se rechazarán los dominios de correo electrónico de un solo uso.
Un pequeño saldo de puntos. Tanto si se trata de generar imágenes a partir de texto como de generar imágenes a partir de imágenes, independientemente de la longitud de la descripción o de la proporción de salida, el coste es de 12 puntos por imagen. Las cuentas nuevas incluyen puntos de prueba gratuitos, suficientes para completar las primeras imágenes de este tutorial.
Una imagen de referencia (opcional). Si piensas usar la función de «imagen a imagen», prepara una o dos imágenes de origen en formato JPG, PNG o WebP; se recomienda que cada una no supere los 10 MB. Las composiciones cuadradas o verticales son las que suelen dar resultados más estables.
**Basta con una idea vaga. ** Los principiantes suelen querer escribir la «prompt perfecta» de una sola vez, lo que les lleva a quedarse atascados en sus dudas. El método realmente eficaz es generar primero una imagen con una prompt sencilla, ver qué te ofrece el modelo y luego decidir cómo modificarla.

Hasta abril de 2026, para utilizar GPT Image 2 no es necesario descargar ningún programa, solicitar una clave API ni esperar en lista de espera. Basta con abrir la página de inicio, iniciar sesión y empezar a generar: solo tres pasos.

Portada del tutorial de GPT Image 2: el creador utiliza un generador de imágenes con IA frente a su portátil — Una mesa, una pestaña del navegador, una serie de instrucciones: ese es todo el entorno de trabajo de GPT Image 2.

Este artículo está dirigido a quienes desean sacar el máximo partido a esta herramienta. El manejo técnico se aprende en dos minutos; lo que realmente requiere esfuerzo son las decisiones sobre «qué escribir, qué revisar y cuándo modificar», y de eso tratan los siguientes capítulos. Si tienes prisa, puedes pasar directamente al método uno y, cuando obtengas el primer resultado que no te satisfaga, volver atrás para consultar las secciones sobre técnicas de palabras clave y errores comunes.

Método 1: Generación de imágenes a partir de texto: crear la primera imagen desde cero

La generación de imágenes a partir de texto es la función que la mayoría de los usuarios quiere probar al acceder a GPT Image 2: basta con escribir una descripción, hacer clic en «Generar» y el modelo devuelve una imagen completa. A continuación se detallan los pasos a seguir.

Paso 1: Abre el generador e inicia sesión

Abre la página de inicio de GPT Image 2. El panel del generador aparece en la primera pantalla en la versión de escritorio y en el primer bloque completo en la versión móvil. Si no has iniciado sesión, aparecerá el enlace «Generar tras iniciar sesión»; selecciona tu correo electrónico o tu cuenta de Google para iniciar sesión; no tardarás ni un minuto.

Una vez que hayas iniciado sesión, aparecerá tu saldo de puntos en la esquina superior derecha; comprueba que tengas al menos 12 puntos: las cuentas nuevas incluyen un saldo de prueba, por lo que no es necesario vincular una tarjeta para completar el primer ejemplo de este artículo.

Paso 2: Ve a la pestaña «Texto a imagen»

En la parte superior del generador hay dos pestañas: Texto a imagen e Imagen a imagen. La primera vez, utiliza la opción predeterminada «Texto a imagen». El cuadro de entrada se encuentra justo debajo de la barra de pestañas.

No es necesario seleccionar manualmente el modelo: se utiliza el modelo gpt-image-2-text-to-image de KIE en segundo plano, sin menús desplegables para elegir resolución, proporciones o calidad: un solo modelo, un solo precio.

Paso 3: Empieza escribiendo una frase clave deliberadamente breve

Un error común entre los principiantes es incluir todos los adjetivos que conocen en la primera indicación. No lo hagas. Empieza con una descripción breve y concreta para ver cómo responde el modelo en su «estado predeterminado». La siguiente es la indicación que utilicé la primera vez que probé el modelo mientras preparaba este artículo:

A golden retriever puppy sitting in a sunlit field of wildflowers, shallow depth of field,
warm afternoon light.

(Descripción: un cachorro de labrador retriever sentado entre flores silvestres bajo el sol, con poca profundidad de campo y la cálida luz de una tarde.)

Pégalo en el cuadro de entrada y haz clic en Generate. La mayoría de las palabras clave devuelven resultados en un plazo de entre 20 y 40 segundos, aunque en horas punta el proceso puede ser algo más lento.

Paso 4: Evalúa con sinceridad los resultados

La primera vez que ejecuté la frase de prompt anterior, el resultado fue bastante acertado: tonos cálidos, ojos nítidos y un desenfoque natural del fondo; sin embargo, las patas del perro se veían ligeramente borrosas, lo cual es un punto débil típico de los modelos de imágenes actuales. Es algo normal; este paso no sirve para puntuar, sino para que te hagas una idea de lo que es una «salida predeterminada».

En la primera imagen hay que fijarse al menos en tres cosas:

¿Es correcto el sujeto? ¿El modelo representa el sujeto que querías? ¿O se ha desviado (por ejemplo, ha dibujado un labrador en lugar de un golden retriever)?
**Dirección de la luz. ** ¿Coincide la luz real con la que has descrito? La «luz cálida de la tarde» debería ser una luz lateral suave y direccional, no una luz cenital.
Composición. ¿El encuadre del sujeto se ajusta a la imagen que tenías en mente? ¿O está torpemente centrado?

Si alguno de estos tres aspectos no es correcto, tienes motivos claros para modificar la frase de búsqueda, en lugar de volver a buscar a ciegas.

Paso 5: Escribe una frase de prompt optimizada

A continuación se muestra una versión mejorada de la misma escena. El motivo y el enfoque de la iluminación son los mismos, pero se ha adoptado una estructura más adecuada para GPT Image 2:

A 3-month-old golden retriever puppy with fluffy fur and floppy ears, sitting upright in a
meadow of wild daisies and lavender. Warm late-afternoon sunlight streams from the left,
casting long gentle shadows and creating a soft golden rim light on the fur. Shallow depth
of field, background softly blurred with bokeh. Shot on an 85mm lens, eye level with the
puppy. Photorealistic, high detail, natural colors.

(Descripción: un cachorro de golden retriever de tres meses, con el pelaje esponjoso y las orejas caídas, sentado en un prado de margaritas silvestres y lavanda. La cálida luz de la tarde incide desde la izquierda, proyectando una sombra larga y suave y creando un halo dorado sobre el pelaje. Profundidad de campo reducida, fondo desenfocado con bokeh. Objetivo de 85 mm, a la altura del cachorro. Estilo realista, gran detalle, colores naturales.)

En comparación con la primera edición, se han modificado cuatro puntos:

Detalles más concretos del sujeto («de tres meses», «pelaje esponjoso», «orejas suaves»), para que el modelo pueda visualizar la imagen.
Dirección de la luz bien definida («desde la izquierda», «luz de contorno sobre el pelaje»), en lugar de limitarse a escribir «cálida».
El lenguaje fotográfico («objetivo de 85 mm», «a la altura del cachorro») proporciona al modelo una plantilla de composición concreta.
Los adjetivos que describen la calidad se colocan al final («realista, gran detalle, colores naturales»): son breves y no restan protagonismo.

Vuelve a hacer clic en «Generate». La segunda imagen debería parecerse más a lo que tienes en mente. Si aún no es lo que buscas, no reescribas todo el fragmento: cambia solo una variable cada vez, genera la imagen y compárala; así sabrás qué palabra es la que influye.

Un modelo mental muy útil: divide la palabra clave en cuatro «compartimentos»: sujeto, acción, entorno y estilo. Modifica cada vez solo el compartimento que presente el problema. Si el tipo de imagen no es el adecuado, cambia el compartimento del sujeto; si la iluminación no es la correcta, cambia el del entorno; si parece un dibujo animado pero tú quieres una fotografía, cambia el del estilo.

Paso 6: Guardar, descargar o seguir iterando

Una vez que estés satisfecho con la imagen, encontrarás un botón de descarga debajo de la vista previa. Cada vez que se genera una imagen, esta se guarda automáticamente en el historial de tu cuenta, donde podrás revisar versiones anteriores, copiar las indicaciones utilizadas y seguir iterando. Si más adelante deseas seguir retocando este personaje en la función de «generar a partir de una imagen», solo tienes que seleccionar esta imagen del historial como imagen de origen.

Imagen de calidad cinematográfica generada con GPT Image 2 a partir de texto: una mujer con un vestido largo de seda blanca en una playa a la hora dorada — Una prompt de generación de imágenes que incluya una descripción concreta de la iluminación. Al especificar «hora dorada» y «seda a contraluz», el modelo dispone de pistas visuales claras sobre las que basarse.

El proceso que acabas de completar («abrir — redactar — evaluar — ajustar — volver a generar») constituye el ciclo de trabajo completo de la generación de imágenes a partir de texto. Todo el contenido restante de este artículo te enseñará cómo acelerar este ciclo y ahorrar puntos.

Si vas a utilizar GPT Image 2 a largo plazo, te recomiendo que guardes las «instrucciones eficaces» en un archivo de texto sin formato. No se trata de una plantilla, sino de tu propio diario: cada vez que obtengas una imagen que te guste, añade una línea con la instrucción completa como nota. Al cabo de seis meses, este archivo se ajustará mucho mejor a tu gusto personal que cualquier plantilla genérica que puedas encontrar en Internet.

Método 2: Generar imágenes a partir de imágenes: modificar o aplicar un cambio de estilo a una foto ya existente

La generación de imágenes a partir de imágenes (image-to-image, abreviado i2i) parte de una imagen de origen; el modelo conserva las partes que deseas mantener y reescribe el resto según las indicaciones proporcionadas. Este modelo es ideal para necesidades como «cambiar el atuendo de la misma persona», «cambiar el fondo de un mismo producto» o «cambiar el estilo de una misma composición».

Paso 1: Ve a la pestaña «Image to Image»

Vuelve al generador de la página de inicio y haz clic en Image to Image. Aparecerá un área de carga de archivos encima del campo de entrada; el cuadro de texto sigue ahí y sigue admitiendo un máximo de 20 000 caracteres, pero ahora funciona en combinación con la imagen cargada.

En segundo plano se utiliza gpt-image-2-image-to-image, cuyo precio es el mismo que el de la generación de imágenes a partir de texto: 12 puntos por imagen. No hay un control deslizante independiente de «intensidad», por lo que el grado de variación depende totalmente de la redacción de tu prompt.

Si has utilizado otras herramientas de InPainting (retoque con máscara), ten en cuenta que debes cambiar de mentalidad: GPT Image 2 no requiere dibujar una máscara, sino que lee la imagen original completa junto con el texto de la indicación al completo antes de decidir qué modificar. Para el 80 % de las necesidades reales (cambiar el fondo, cambiar la ropa, pasar del día a la noche), la edición basada únicamente en el texto de la indicación resulta, de hecho, más sencilla.

Paso 2: Subir la imagen original

Arrastra archivos JPG, PNG o WebP al área de carga, o haz clic en «Seleccionar archivo». Para tu primer ejercicio, te recomendamos que elijas una foto con una iluminación clara y una composición sencilla. Las fotos con desenfoque de movimiento, poca luz o fondos desordenados dan al modelo más margen para «interpretar libremente», lo que dificulta la lectura de las diferencias entre la imagen original y la procesada.

La siguiente imagen es el típico «tipo de foto que sube un principiante la primera vez que prueba una herramienta de IA»: una simple selfie tomada en interiores.

Una selfie normal tomada en interiores, como ejemplo de imagen de referencia para la generación de imágenes con GPT Image 2 — Imagen original: una selfie cotidiana tomada en interiores, ligeramente sobreexpuesta. No es una foto retocada, sino precisamente el tipo de imagen que «TuShengTu» sabe transformar mejor.

Paso 3: Decide primero: ¿se trata de un «retoque» o de una «transformación»?

Antes de escribir la prompt, piensa bien qué tipo de modificación quieres. La generación de imágenes y la sustitución de imágenes tienen dos intenciones totalmente diferentes, por lo que la forma de redactar la prompt también varía:

Pequeña modificación (Edit): Mantener la mayor parte y cambiar solo un elemento. «Cambiar la ropa a azul marino». «Quitar la taza de café». «Cambiar el fondo por una estantería». »
Transformación (Transform): Mantener la identidad, reescribir toda la escena. «La misma persona, pero vestida con ropa tradicional china y de pie en la terraza del palacio bajo la luna». «El mismo producto, pero con una mesa de mármol y luz de estudio».

Cuanto más completa sea la descripción del nuevo escenario que proporciones, más cambios realizará el modelo; si solo mencionas una característica, el modelo tenderá a mantener el resto. Esta es la forma de controlar el «grado de modificación» sin necesidad de utilizar controles deslizantes.

Por ejemplo: «change the shirt to navy blue» (cambiar la camisa por una azul marino) es una edición mínima, en la que ni el rostro, ni el peinado, ni la postura, ni el fondo, ni la iluminación cambian. Si lo cambiamos por «Ahora lleva un traje azul marino a medida y está de pie en una oficina corporativa con paredes de cristal a la hora dorada», se trata de una transformación: el traje, el entorno y la iluminación cambian por completo, y solo se conservan el rostro y la silueta. Aunque se trate de una sola frase, el alcance de los cambios depende de cuántas escenas nuevas describas.

Paso 4: Escribe una indicación que le diga al modelo «qué debe conservar»

A continuación, te muestro las palabras clave que utilicé para «transformar» la imagen original anterior:

Same woman — identical facial features and hair. Transform the scene: she now wears an
elaborate crimson-and-gold hanfu with intricate embroidery and a jeweled phoenix hairpin.
She stands on a moonlit palace terrace, red lanterns glowing softly in the background,
cherry blossom petals drifting in the air. Warm lantern light from the right, cool
moonlight fill from the left. Cinematic shallow depth of field, elegant composition, 4K
photorealistic.

(Significado en chino: La misma mujer —con el rostro y el peinado totalmente intactos—. Reescritura de la escena: Ahora lleva un magnífico traje tradicional chino en tonos rojos y dorados, con intrincados bordados, y un pasador de oro con forma de fénix en el moño. Se encuentra de pie en la terraza del palacio, bajo la luz de la luna, con un fondo de farolillos rojos que emiten una luz suave y pétalos de cerezo flotando en el aire. A la derecha, la luz cálida de los farolillos; a la izquierda, la luz fría de la luna. Profundidad de campo cinematográfica, composición elegante, realismo en 4K.)

Hay dos puntos que se han especificado expresamente:

«La misma mujer: rasgos faciales y cabello idénticos». Esta frase prácticamente garantiza la conservación de la identidad. Si no se incluye, el modelo se desviará aleatoriamente.
Descripción completa de la nueva escena. Especifica claramente la vestimenta, el lugar, los accesorios y la dirección de la luz. El modelo está reconstruyendo todo el entorno, por lo que necesita un conjunto completo de instrucciones, no solo una etiqueta.

Paso 5: Comparar el resultado con la imagen original

Al hacer clic en «Generar», se obtienen resultados como este. En la prueba que realicé, la imagen resultante conservaba los rasgos faciales y el contorno del peinado del sujeto, mientras que todo lo demás se reconstruyó según las instrucciones.

Salida de GPT Image 2: la misma persona transformada en una escena de una serie de época ambientada en la corte — Generación de imágenes: la identidad se mantiene constante, mientras que la vestimenta, el escenario y la iluminación se reescriben totalmente según las indicaciones.

Analiza el antes y el después en su conjunto. Si el rostro ha cambiado demasiado, añade la cláusula «same person» a las instrucciones (por ejemplo, añade «preserve exact face shape, same eyes, same nose, same lip shape» —conserva la forma exacta del rostro, los mismos ojos, la misma nariz y la misma forma de los labios—); si el cambio de escenario no es suficiente, añade más detalles del entorno. Esas son las opciones que tienes a tu disposición.

Paso 6: Sin salir de la página, utiliza directamente el resultado como la siguiente entrada

Lo mejor de Generate Images es que el resultado anterior sirve directamente como imagen de partida válida para la siguiente edición. Basta con hacer clic en «Usar como nueva entrada» y escribir una nueva descripción (por ejemplo, «la misma escena, pero al amanecer» o «la misma postura, pero con un abanico en la mano»). La imagen final obtenida tras una serie de pequeñas modificaciones sucesivas suele quedar casi siempre más limpia que la resultante de una descripción excesivamente larga que intente abarcarlo todo.

La «edición en cadena» es uno de los trucos de flujo de trabajo más útiles de este artículo. Un error habitual entre los principiantes es escribir una descripción de 300 palabras que lo abarque todo y volver a generar la imagen ocho veces sin obtener el resultado deseado. La técnica profesional consiste en trabajar por rondas: primero definir los personajes y, a continuación, utilizar el resultado de la ronda anterior como imagen de referencia para definir el vestuario, el entorno y la iluminación. Cada ronda vale 12 puntos; cuatro rondas suman un total de 48 puntos, lo que da como resultado una imagen mucho más limpia que la que se obtendría tras diez reintentos de una sola vez.

GPT Image 2: transferencia de estilos en la generación de imágenes: a la izquierda, una foto real de una playa; a la derecha, una versión redibujada al estilo cyberpunk con luces de neón — Un paso más allá en la transferencia de estilos: el mismo personaje, la misma pose, pero transformados de una playa real a una azotea cyberpunk iluminada con neones. Basta con especificar «same pose» en la indicación para que el modelo conserve su estructura geométrica, mientras que todo lo demás se adapta al nuevo escenario.

Consejos y trucos para mejorar realmente las imágenes generadas

Ahora ya dominas todo el proceso. La diferencia entre un usuario nuevo que empieza el primer día y uno experimentado capaz de crear un portafolio con GPT Image 2 no radica en una frase clave misteriosa, sino en saber qué estrategias funcionan de verdad. Las nueve siguientes son las que ofrecen la mejor relación coste-beneficio en la práctica.

Consejo n.º 1: Coloca el tema principal al principio y las palabras clave al final

Empieza la descripción con «¿Quién o qué se representa?», y deja los términos relacionados con la calidad de imagen, como «fotorrealista», «cinemático», «4K» y «alto detalle», para el final. El modelo lee la descripción de principio a fin, por lo que el elemento principal que aparece al principio recibe la mayor ponderación, mientras que los elementos que quedan ocultos tras las siete etiquetas de calidad pierden relevancia.

Más débil: Fotografía hiperrealista en 4K, una obra maestra cinematográfica con gran detalle en ultra-HD de un gato sentado en el alféizar de una ventana

Intenso: Un gato atigrado sentado en el alféizar de una ventana de madera, contemplando una calle lluviosa de la ciudad. Luz suave y difusa que entra por la ventana, poca profundidad de campo. Fotorrealista, cinematográfico.

Consejo n.º 2: Describe la «dirección de la luz», no la «atmósfera de la luz»

Decir «iluminación bonita» es casi como no decir nada. En cambio, «luz cálida del atardecer desde la izquierda, con sombras alargadas hacia la derecha» sí que indica a la modelo dónde debe caer cada sombra. Las fuentes de luz con dirección y nombre («luz de ventana», «luz de contorno», «softbox desde arriba», «luz de relleno de neón desde atrás») son uno de los recursos más eficaces para mejorar la calidad de la imagen con el mínimo esfuerzo.

Consejo 3: Describe la composición utilizando términos fotográficos y conseguirás que la imagen resulte más realista al instante

Si quieres conseguir imágenes con gran realismo, adopta el vocabulario de los fotógrafos. Si combinas los términos de distancia focal (35 mm, 50 mm, 85 mm, 135 mm), las referencias de profundidad de campo (shallow depth of field, deep focus) y los ángulos de toma (eye level, low angle, overhead), obtendrás una serie de plantillas de composición concretas para tus modelos. El artículo de la Wikipedia en inglés Camera lens es un recurso excelente que se lee en 10 minutos y te ayudará a elegir conscientemente la distancia focal.

Consejo 4: Describe el estilo por el «medio» y no por el «nombre del artista»

La expresión «al estilo de tal pintor» es delicada y puede dar lugar a controversias sobre la autoría. Una forma más segura es describir el medio en sí: «pintura al óleo con pinceladas visibles», «boceto a lápiz con sombreado cruzado», «aspecto de película Kodachrome vintage con grano», «ilustración vectorial limpia con colores planos». De este modo, se ofrece una orientación estética sin depender de una persona concreta.

Consejo n.º 5: Sustituye las «restricciones negativas» por «descripciones positivas»

GPT Image 2 no cuenta con un campo de entrada específico para indicaciones negativas. La mejor forma de evitar ciertos elementos es describir claramente lo que quieres. En lugar de escribir «sin personas, sin texto, sin desorden», escribe «una habitación vacía con paredes limpias, una composición minimalista y una sola planta en la esquina». Las descripciones positivas son mucho más fiables que las formulaciones negativas.

Consejo 6: Para crear imágenes a partir de imágenes, primero hay que definir la identidad y luego reescribir la escena

Cuando se realiza un «cambio de atuendo o de escenario» y se desea que el rostro se mantenga coherente, la primera frase de la indicación es clave. Una frase del tipo «Same person — preserve facial features, hair color, and skin tone» (La misma persona: conserva los rasgos faciales, el color del pelo y el tono de piel) al principio es más eficaz que cualquier descripción detallada del escenario que se incluya después. Si se necesita que la identidad sea aún más consistente, se puede añadir «same eye shape, same nose, same lips» (misma forma de ojos, misma nariz, mismos labios). Ser explícito es más eficaz que insinuar.

Consejo 7: Haz pequeñas modificaciones en lugar de reescribir todo el texto

Modifica solo una variable cada vez. Si la postura es correcta pero la ropa no, cambia solo la parte de la ropa; si la iluminación no es la adecuada pero todo lo demás está bien, cambia solo la parte de la iluminación. Solo así podrás crear un bucle de retroalimentación verdaderamente controlable y saber qué cambia al modificar cada elemento. Reescribir todo el párrafo arruinará esta señal y te hará perder puntos.

Consejo 8: Escribe las palabras clave siguiendo el orden de «lo que el modelo debe tener en cuenta en primer lugar»

Coloca los elementos clave al principio: sujeto → acción → entorno → estilo. Si escribes «en el estilo de una pintura al óleo, hay una mujer con un vestido rojo caminando por una calle empedrada al atardecer», le estás diciendo al modelo que «esto es, ante todo, una pintura al óleo», y que todo lo demás es secundario. Si lo cambias por «Una mujer con un vestido rojo camina por una calle empedrada al atardecer, representada como un óleo», el modelo oye primero el sujeto y solo al final el medio. La cantidad de información es la misma, pero con la segunda opción el resultado suele ser mucho más preciso.

Consejo 9: Utiliza los términos que realmente emplean los fotógrafos y los directores

Dutch angle (ángulo holandés), rack focus (cambio de enfoque), golden hour (hora dorada), overcast daylight (luz diurna en días nublados), «softbox» (caja de luz), «gobo shadow» (sombra de gobo), «hero shot» (plano de protagonista), «two-shot» (plano de dos personas) y «negative space» (espacio negativo): estos términos tienen un significado claro tanto en fotografía como en cine, y en los datos de entrenamiento hay una gran cantidad de imágenes acompañadas de ellos. Los términos emocionales vagos (vibey, dreamy, epic) son señales mucho más débiles para el modelo. La entrada de Wikipedia en inglés Shot (filmmaking) es un buen recurso para consultar vocabulario en 15 minutos.

Los errores más comunes de los principiantes y cómo evitarlos

Sinceramente, yo he cometido todos los errores que se mencionan a continuación. Es muy probable que tú también los cometas, pero al menos podrás identificarlos más rápidamente.

Error 1: Escribir una descripción de 400 caracteres con la esperanza de obtener el resultado definitivo de una sola vez. Los modelos de imágenes se desenvuelven mejor con descripciones «concisas y iterables», en lugar de descripciones «enormes y definitivas». El límite de 20 000 caracteres no es el objetivo. En los resultados de GPT Image 2 con los que estoy más satisfecho, la mayoría de las descripciones tienen entre 40 y 120 palabras.

Error 2: Volver a generar repetidamente sin cambiar la prompt. Si pulsas «Generate» dos veces con la misma prompt, el resultado es «casi perfecto»; si lo pulsas una tercera vez, sigue siendo «casi perfecto». La aleatoriedad solo explora un pequeño entorno; si la dirección de ese entorno es errónea, por mucho que vuelvas a generar no se podrá arreglar: hay que modificar la prompt.

Error 3: Contradicciones en la descripción. En la misma línea se menciona tanto «soft dreamy watercolor» (acuarela suave y onírica) como «ultra-sharp photorealistic 4K» (4K fotorrealista y ultra nítido), lo cual es contradictorio. El modelo elegirá una de las dos opciones o, lo que es peor, las promediará. Piensa bien lo que quieres antes de escribirlo.

Error 4: Esperar demasiado del texto en la imagen. A fecha de abril de 2026, los modelos de imágenes generadas por IA siguen sin ofrecer resultados fiables con textos largos, especialmente con caracteres no latinos. A veces funcionan bien con etiquetas cortas de rótulos, pero rara vez con párrafos completos. Cuando el texto sea la información principal, basta con superponerlo tras la generación del resultado utilizando cualquier editor de imágenes.

Error 5: Subir una imagen de origen borrosa. El modelo toma el nivel de detalle de la imagen de origen como referencia. Una foto tomada con el móvil que sea borrosa y tenga poca luz conservará ese aspecto borroso en el resultado, por mucho que indiques en la descripción que la imagen debe ser «nítida y definida». Si puedes elegir una imagen de origen nítida, hazlo.

Error 6: No pongas el énfasis en las manos. Las manos siguen siendo la fuente más habitual de imperfecciones en la generación de imágenes. Si la composición requiere destacar las manos, acepta que tendrás que retocarlas varias veces; si no son el elemento central, deja que las manos queden fuera del encuadre o que cuelguen de forma natural.

Error 7: No tener en cuenta las proporciones al subir la imagen original para la generación de imágenes. La imagen generada suele mantener las proporciones de la imagen original. Si quieres un banner pero subes una selfie vertical, es como ir en contra de la lógica. Recorta la imagen original a las proporciones deseadas antes de generarla.

Error 8: Considerar el «primer boceto aceptable» como el trabajo definitivo. Los usuarios experimentados toman lo «aceptable» como punto de partida para la siguiente ronda. La diferencia entre lo «aceptable» y el «nivel de un portafolio» suele aparecer en la tercera versión, no en la primera.

Error 9: Olvidar que el modelo no tiene memoria entre dos generaciones. A menos que se utilice la función «generar imagen a partir de imagen» y se utilice la salida anterior como imagen de origen, cada generación es completamente nueva. Si quieres reutilizar personajes anteriores, guarda la prompt original o realiza una edición en cadena directamente a partir de la imagen anterior.

Cómo funciona internamente GPT Image 2 (resumen)

Esta sección no es imprescindible, pero te ayudará a tener unas expectativas realistas. GPT Image 2 es una interfaz de usuario simplificada que invoca directamente los dos modelos de KIE: gpt-image-2-text-to-image y gpt-image-2-image-to-image. Estos pertenecen a la familia de modelos de difusión y están optimizados para el seguimiento de instrucciones y la representación realista de alta fidelidad. Cada solicitud pasa por un proceso de autenticación, se le cobran 12 créditos, se pone en cola y devuelve la URL de la imagen.

La escasa presencia de controles en la interfaz es intencionada: la API de KIE no expone estos controles, y añadir «control deslizante ficticio» en la interfaz superior solo serviría para confundir. Todo lo que el modelo puede hacer se expresa a través de las indicaciones. Si desea profundizar en los principios, puede consultar la entrada de Wikipedia Modelo de difusión y la página de investigación de OpenAI.

GPT Image 2 también tiene sus puntos débiles

Si solo se destacan las ventajas y se ocultan las desventajas, ya no es un tutorial. A continuación, se enumeran las deficiencias comunes de GPT Image 2 —que, en realidad, son las de todos los modelos de imágenes principales actuales—:

Reproducción fiel de los elementos de marca. El logotipo, los personajes con licencia y el embalaje de los productos no se reproducen de forma consistente. Lo correcto es generar la composición y luego superponer el logotipo real.
**Coherencia estricta con las referencias. ** Cuando se necesita que un personaje sea totalmente idéntico en decenas de imágenes (por ejemplo, en un cómic serializado), la conservación de la identidad de la generación de imágenes a partir de imágenes ya es mucho mejor que la de la generación de imágenes a partir de texto, pero sigue sin ser tan precisa como el entrenamiento de LoRA o el binding de personajes en 3D, que ofrecen precisión fotograma a fotograma.
Anatomía en posturas extremas. Los dedos, los pies, los dientes, las orejas y las extremidades entrecruzadas son las partes que más se deforman. Cuanto más cercano es el plano, más evidentes son los errores.
Composición perfecta. Ya se ha mencionado anteriormente, y sigue siendo cierto.

Hay otras dos cosas que hay que tener en cuenta: en primer lugar, los modelos de generación de contenido tienen una aleatoriedad inherente en el muestreo; es decir, un mismo prompt puede dar resultados diferentes cada vez. La diversidad es una ventaja, mientras que la falta de coherencia es un inconveniente, aunque esto último se puede mitigar mediante la edición en cadena de imágenes generadas. En segundo lugar, los modelos reflejan la distribución de los datos de entrenamiento, por lo que es más difícil que los contextos culturales menos conocidos den en el clavo a la primera que los temas más populares; hay que contar con que se necesitarán más iteraciones.

Un flujo de trabajo de generación de imágenes con IA realmente eficaz no consiste en «utilizar un único modelo para todo», sino en «dejar que GPT Image 2 se encargue del 80 % de la imagen principal y que un editor básico se ocupe del 20 % restante mediante retoques manuales».

Resumen de una página: proceso completo

Si solo quieres una versión para leer de un vistazo junto a la pantalla:

Abre la página de inicio de GPT Image 2] e inicia sesión.
Comprueba que tu cuenta tenga al menos 12 puntos.
Selecciona la etiqueta: Text to Image o Image to Image.
Generar imagen a partir de imagen: sube una imagen de origen nítida.
Escribe primero una indicación breve y concreta. El tema principal primero, los términos de calidad después.
Generar. Evalúa con objetividad según tres criterios: tema principal, iluminación y composición.
Cambia solo una variable, vuelve a generar y compara.
Repite los pasos 6 y 7 hasta que el resultado sea satisfactorio.
Descargar.

Eso es todo. Todos los atajos, trucos y hábitos de los expertos que se mencionan en este artículo son variaciones de estos nueve pasos.

Aquí va otro pequeño consejo: escribe primero la descripción en un editor de texto y luego pégala en el generador. Así podrás guardar el historial, reorganizar el orden de las frases y reutilizar introducciones fijas como «Same person — preserve facial features…». Cuando estés satisfecho con el resultado, vuelve a copiar la versión final en el registro de descripciones. Esta pequeña medida te evitará perder tus mejores descripciones al actualizar el navegador.

Preguntas frecuentes

¿Cuántos puntos vale cada imagen en GPT Image 2?

Tanto si se trata de generar imágenes a partir de texto como de generar imágenes a partir de otras imágenes, el precio es el mismo: 12 puntos por imagen. No hay cargos adicionales por «prompt más largo», «salida más grande» o «calidad de imagen superior», ya que esas opciones ni siquiera existen. Los puntos se adquieren en paquetes a través de la página web, y las cuentas nuevas reciben automáticamente puntos de prueba.

¿Hay que instalar algo para usar GPT Image 2?

No es necesario. Todo se realiza desde el navegador. No hay ninguna aplicación de escritorio, ni extensiones para el navegador, ni es necesario solicitar una clave API para la interfaz web. Solo necesitas un navegador moderno y una cuenta de correo electrónico.

¿Cuál es la longitud máxima de una palabra clave?

Tanto en la generación de imágenes a partir de texto como en la generación de imágenes a partir de imágenes, las instrucciones admiten un máximo de 20 000 caracteres. Dicho esto, en la práctica, las instrucciones más eficaces suelen tener entre 40 y 200 palabras. Las instrucciones demasiado largas tienden a diluir el mensaje e incluso a generar contradicciones; por lo general, las instrucciones breves y bien estructuradas dan mejores resultados.

¿Se pueden subir varias imágenes de referencia a la vez?

El modo «generar imagen a partir de imagen» admite una sola imagen de origen por vez. Si deseas combinar varias referencias (por ejemplo, «este personaje + el estilo de esta prenda»), puedes realizar una generación en cadena: primero genera una imagen intermedia y, a continuación, utiliza esa imagen como origen para la siguiente ronda, añadiendo nuevas instrucciones y continuando con las modificaciones. La edición en cadena suele dar resultados más limpios que generar una imagen a partir de una sola instrucción compleja.

¿GPT Image 2 admite resoluciones o proporciones específicas?

Actualmente, el tamaño se establece de forma uniforme, y la propia API de KIE no ofrece opciones de escala o resolución que el usuario pueda ajustar. La imagen generada suele seguir la forma de la imagen original; por lo tanto, si se necesita un tamaño concreto, primero hay que recortar la imagen original y luego volver a generarla.

¿Se pueden utilizar las imágenes generadas con fines comerciales?

El uso de los recursos se rige por las condiciones de servicio que figuran en el pie de página del sitio web; dichas condiciones constituyen la referencia definitiva. En la práctica, hasta 2026, la mayoría de los usuarios los han utilizado para creatividades de marketing, contenido para redes sociales, prototipos y creaciones personales. Antes de utilizar una imagen en un producto con fines lucrativos, consulte las condiciones vigentes en ese momento.

¿Cómo se consigue que un mismo personaje mantenga la coherencia en varias imágenes?

Utiliza imagen a imagen e incluye al principio de la prompt una cláusula de conservación de la identidad («Same person — preserve facial features, hair color, and skin tone»). A continuación, utiliza cada resultado como imagen de partida para la siguiente, añadiendo una nueva descripción de la escena y continuando con la generación. Este método no es tan preciso como el de los modelos LoRA entrenados específicamente para personajes, pero es mucho más eficaz que empezar cada vez desde cero con la generación de imagen a partir de texto.

¿Cuál es la forma más rápida de aprender a usar GPT Image 2?

En las primeras 12 a 20 generaciones, utiliza indicaciones sencillas de «texto a imagen» para familiarizarte con el comportamiento del modelo en su «estado predeterminado»; después, pasa a la generación de imágenes a partir de imágenes, comenzando con una imagen de partida limpia. Sigue las instrucciones de la página anterior y, si la mayoría de los usuarios practican con dedicación durante aproximadamente una hora, podrán hacerlo con bastante soltura.

¿Por qué mi resultado no se parece en nada a la frase de referencia?

Hay tres tipos de motivos habituales: en primer lugar, los adjetivos de calidad se acumulan al principio y el sujeto queda relegado al final; hay que colocar el sujeto al principio; En segundo lugar, las palabras clave son contradictorias (por ejemplo, la yuxtaposición de «acuarela» y «fotorrealista»): elige un medio; en tercer lugar, solo se utilizan palabras que describen emociones («bello», «impactante») sin nombres concretos: añade objetos específicos, la dirección de la luz y el lenguaje cinematográfico.

¿Estás listo para empezar?

Llegados a este punto, ya tienes el flujo de trabajo completo, una serie de plantillas de prompts que funcionan, los errores que debes evitar y una guía de consulta rápida. Solo te queda una cosa por hacer: abrir el generador y usar tus primeros 100 puntos para descubrir «qué tipo de prompts te gustan». Este paso nadie puede hacerlo por ti.

Abre GPT Image 2 y genera tu primera imagen →

Si quieres seguir leyendo:

¿Qué es GPT Image 2? Funciones, precios y casos de uso
Guía de prompts para GPT Image 2: Cómo redactar indicaciones realmente útiles
GPT Image 2 vs Sora: comparación de capacidades de generación de imágenes
Prueba primero el generador de indicaciones de imágenes integrado, que amplía automáticamente una idea simple hasta convertirla en una indicación completa.
También puedes acceder directamente a las páginas exclusivas de los modos individuales Text to Image o Image to Image.

Este artículo ha sido publicado por el equipo de GPT Image 2. A fecha de abril de 2026, ambos modelos tienen un precio uniforme de 12 puntos por imagen. Si se produjeran cambios en el futuro, actualizaremos este artículo y lo indicaremos en el registro de cambios.

Tutorial de GPT Image 2: guía completa desde el registro hasta la generación de imágenes (2026)

Índice