요약
GPT Image 2는 브라우저 내에서 실행되는 AI 이미지 생성 도구로, 텍스트-이미지(text-to-image)와 이미지-이미지(image-to-image) 두 가지 모드만 제공하며, 장당 12 포인트로 통일된 요금이 적용됩니다. 해상도, 비율 또는 화질 단계와 같은 추가 옵션은 없습니다. 이 글에서는 가입, 첫 이미지 생성, 참고 사진 업로드 및 편집부터 실제로 활용 가능한 이미지를 생성할 수 있는 프롬프트 활용법까지 한 번에 알아보겠습니다. GPT Image 2 무료 체험 →
시작하기 전에: 준비물
GPT Image 2를 사용하기 위해 고성능 그래픽 카드나 포토샵, 또는 AI 관련 경험이 전혀 필요하지 않습니다. 모든 연산은 서버에서 처리되며, 브라우저는 입력 및 결과 표시만 담당합니다. 실제로 준비해야 할 것은 매우 간단합니다:
- 최신 웹 브라우저. Chrome, Edge, Safari, Firefox, Arc의 최신 버전을 모두 사용할 수 있습니다. 하드웨어 가속을 활성화하면 미리보기가 더 부드럽게 표시되지만, 필수 사항은 아닙니다.
- 이메일 계정. 이메일과 비밀번호로 가입하거나 Google 원클릭 로그인을 사용할 수 있습니다. 회사 이메일이나 Gmail 모두 사용 가능하며, 일회용 이메일 도메인은 거부됩니다.
- 소량의 포인트 잔액. 텍스트에서 이미지 생성이나 이미지에서 이미지 생성에 상관없이, 프롬프트 길이나 출력 비율에 관계없이 모두 12포인트/장입니다. 신규 계정에는 무료 체험 포인트가 제공되며, 이 튜토리얼의 초기 몇 번의 이미지 생성을 완료하기에 충분합니다.
- 참고 이미지 1장 (선택 사항). 이미지 생성 기능을 사용할 계획이라면 JPG / PNG / WebP 형식의 원본 이미지 1~2장을 준비하세요. 한 장당 10MB를 넘지 않는 것이 좋습니다. 정사각형이나 세로 구도가 가장 안정적인 결과를 얻기 쉽습니다.
- **대략적인 아이디어만 있어도 충분합니다. ** 초보자들은 종종 한 번에 "완벽한 프롬프트"를 작성하려다 오히려 고민에 빠지곤 합니다. 진정으로 효과적인 방법은 먼저 간단한 프롬프트로 이미지를 하나 생성해 보고, 모델이 어떤 결과를 내놓는지 확인한 뒤 수정할 방향을 결정하는 것입니다.
2026년 4월 현재, GPT Image 2를 사용하기 위해 별도의 클라이언트를 다운로드하거나 API 키를 신청할 필요가 없으며, 대기열에 등록할 필요도 없습니다. 홈페이지를 열고, 로그인하고, 생성을 시작하기만 하면 됩니다. 단 세 단계뿐입니다.

이 글은 도구를 제대로 활용하고 싶은 분들을 위해 작성되었습니다. 기계적인 조작은 2분 만에 익힐 수 있지만, 진짜로 공들여야 할 부분은 “무엇을 작성할지, 무엇을 확인할지, 언제 수정할지”에 대한 판단입니다. 이후 장에서는 바로 이 부분들을 다루고 있습니다. 시간이 부족하다면 먼저 ‘방법 1’로 건너뛰었다가, 첫 번째 결과가 만족스럽지 않을 때 다시 돌아와 ‘키워드 활용 요령’과 ‘흔히 저지르는 실수’ 두 절을 살펴보시기 바랍니다.
방법 1: 텍스트에서 이미지 생성 — 처음부터 첫 번째 이미지 만들기
‘텍스트에서 이미지 생성’은 대부분의 사용자가 GPT Image 2를 이용할 때 가장 먼저 시도해 보고 싶어 하는 기능입니다. 설명을 입력하고 ‘생성’을 클릭하기만 하면 모델이 완성된 이미지를 반환해 줍니다. 다음은 단계별 사용 방법입니다.
1단계: 생성기를 열고 로그인하기
GPT Image 2 홈페이지를 엽니다. 생성기 패널은 데스크톱 버전의 첫 화면, 모바일 버전의 첫 번째 전체 블록에 위치합니다. 로그인하지 않은 상태에서는 "로그인 후 생성" 버튼이 표시되며, 이메일 또는 Google 계정으로 로그인하면 1분도 채 걸리지 않습니다.
로그인하면 우측 상단에 포인트 잔액이 표시됩니다. 포인트가 12점 이상인지 확인하세요. 신규 계정에는 기본 체험 한도가 제공되므로, 카드를 등록하지 않아도 이 글의 첫 번째 예제를 완료할 수 있습니다.
2단계: ‘Text to Image’ 탭으로 이동
생성기 상단에는 Text to Image와 Image to Image라는 두 개의 탭이 있습니다. 처음에는 기본 설정인 ‘텍스트에서 이미지’ 기능을 사용해 보세요. 입력란은 탭 바로 아래에 있습니다.
모델을 수동으로 선택할 필요가 없습니다. 백엔드에서 KIE의 gpt-image-2-text-to-image를 호출하며, 품질, 비율, 해상도 선택 항목이 없습니다. 모델은 하나뿐이고 가격도 단일합니다.
3단계: 먼저 일부러 짧게 작성된 프롬프트를 하나 작성하세요
초보자들이 흔히 저지르는 실수는 자신이 아는 형용사를 전부 첫 번째 프롬프트에 쏟아붓는 것입니다. 그러지 마세요. 먼저 짧고 구체적인 설명을 한 번 넣어보고, 모델의 '기본 상태'에서 어떤 결과를 보여주는지 확인해 보세요. 아래는 제가 이 글을 준비하며 처음 테스트할 때 사용한 프롬프트입니다:
A golden retriever puppy sitting in a sunlit field of wildflowers, shallow depth of field,
warm afternoon light.(설명: 햇살이 내리쬐는 들꽃밭에 앉아 있는 골든 리트리버 강아지 한 마리. 얕은 피사계 심도와 따뜻한 오후 햇살이 어우러진 장면.)
입력창에 붙여넣고 Generate를 클릭하세요. 대부분의 프롬프트는 20~40초 이내에 결과가 반환되며, 이용자가 많은 시간대에는 다소 느릴 수 있습니다.
4단계: 결과물을 솔직하게 평가하기
위에서 언급한 프롬프트를 처음 실행했을 때, 결과는 대체로 기대에 부응했습니다. 색조는 따뜻한 편이었고, 눈은 선명했으며, 배경은 자연스럽게 흐릿하게 처리되었죠. 다만 강아지 발이 약간 흐릿하게 나온 점은 현재 이미지 모델의 전형적인 약점입니다. 이는 정상적인 현상이며, 이 단계는 점수를 매기기 위한 것이 아니라 ‘기본 출력’에 대한 여러분의 인식을 형성하기 위한 것입니다.
첫 번째 그림에서는 최소한 다음 세 가지를 유심히 살펴봐야 합니다:
- 주제가 정확한지. 모델이 당신이 원하는 주제를 제대로 표현하고 있나요? 아니면 빗나갔나요(예: 골든 리트리버를 래브라도로 그렸다면)?
- **광선 방향. ** 실제 빛의 방향이 설명하신 내용과 일치하나요? "따뜻한 오후 햇살"은 상단 조명이 아닌, 부드럽고 방향성이 있는 측면 조명이어야 합니다.
- 구도. 피사체의 구도가 머릿속에 그린 장면과 일치하나요? 아니면 어색하게 중앙에 배치되어 있나요?
이 세 가지 요소 중 하나라도 문제가 있다면, 무작정 다시 생성하는 대신 프롬프트를 수정해야 할 분명한 이유가 있는 것입니다.
5단계: 최적화된 프롬프트 작성하기
다음은 동일한 장면의 발전된 버전입니다. 주제는 같고 조명 구상도 동일하지만, GPT Image 2에 더 적합한 구성을 채택했습니다:
A 3-month-old golden retriever puppy with fluffy fur and floppy ears, sitting upright in a
meadow of wild daisies and lavender. Warm late-afternoon sunlight streams from the left,
casting long gentle shadows and creating a soft golden rim light on the fur. Shallow depth
of field, background softly blurred with bokeh. Shot on an 85mm lens, eye level with the
puppy. Photorealistic, high detail, natural colors.(설명: 털이 풍성하고 귀가 축 처진 생후 3개월 된 골든 리트리버 강아지가 야생 데이지와 라벤더가 피어 있는 초원에 단정하게 앉아 있다. 왼쪽에서 비치는 따뜻한 오후 햇살이 부드럽고 긴 그림자를 드리우며, 털 위에 황금빛 윤곽광을 만들어 냅니다. 얕은 피사계 심도로 배경은 부드럽게 흐려져 보케 효과를 냅니다. 85mm 렌즈로 강아지와 눈높이를 맞췄습니다. 사실적인 스타일, 높은 디테일, 자연스러운 색감.)
초판에 비해 네 가지가 변경되었습니다:
- 주체의 세부 묘사를 더 구체적으로 ("생후 3개월", "부드러운 털", "말랑말랑한 귀") 하여 모델이 이미지를 명확히 파악할 수 있게 합니다.
- 광선 방향을 명확히 ("왼쪽에서", "윤곽광이 털에 비치는") 하고, 단순히 "따뜻한"이라고만 쓰지 않습니다.
- 렌즈 사양("85mm 렌즈", "강아지와 눈높이를 맞춘")을 명시하여 모델에게 구체적인 구도 템플릿을 제공합니다.
- 품질 수식어는 문장 끝에 배치("사실적, 디테일 강조, 자연스러운 색감")——짧고, 주의를 분산시키지 않습니다.
‘Generate’를 한 번 더 클릭하세요. 두 번째 이미지는 여러분이 머릿속에 그리는 모습에 더 가까워질 것입니다. 만약 여전히 마음에 들지 않는다면, 문장 전체를 다시 쓰지 마세요. 매번 변수 하나씩만 변경하고, 생성한 결과를 비교해 봐야 어떤 단어가 영향을 미치는지 알 수 있습니다.
유용한 심리 모델 하나: 프롬프트를 네 가지 ‘슬롯’으로 나누세요. 즉, 주제, 동작, 환경, 스타일입니다. 매번 문제가 있는 슬롯만 수정하세요. 결과물이 원하는 것과 다르면 주제 슬롯을 수정하고, 조명이 맞지 않으면 환경 슬롯을 수정하며, 만화 같은 느낌인데 사진 같은 결과를 원한다면 스타일 슬롯을 수정하세요.
6단계: 저장, 다운로드 또는 계속 반복
이미지 결과물이 마음에 들면, 미리보기 하단에 다운로드 버튼이 있습니다. 이미지가 생성될 때마다 자동으로 계정 기록에 저장되므로, 이전 버전을 확인하거나 이전 프롬프트를 복사하여 작업을 계속할 수 있습니다. 나중에 ‘이미지 생성’ 기능에서 이 캐릭터를 수정하고 싶다면, 기록에서 해당 이미지를 원본으로 선택하기만 하면 됩니다.

방금 거친 "열기—문구 작성—평가—미세 조정—재생성" 과정이 바로 텍스트-이미지 생성 작업의 전체 사이클입니다. 이 글의 나머지 내용은 이 사이클을 더 빠르고 효율적으로 돌리는 방법을 알려드립니다.
GPT Image 2를 장기간 사용할 계획이라면, "효과적인 프롬프트"를 텍스트 파일 하나로 정리해 두는 것을 추천합니다. 이는 단순한 템플릿이 아니라 여러분만의 기록입니다. 이미지가 마음에 들 때마다 해당 프롬프트를 한 줄씩 메모로 추가해 두세요. 반년이 지나면, 이 자료집은 인터넷상의 어떤 범용 템플릿보다도 여러분의 취향에 더 잘 맞을 것입니다.
방법 2: 이미지 생성 — 기존 사진 수정 또는 스타일 변환
이미지-투-이미지(image-to-image, 약칭 i2i)는 하나의 원본 이미지를 출발점으로 삼아, 모델이 사용자가 유지하고 싶은 부분을 보존하고 프롬프트에 따라 나머지 부분을 재구성합니다. "같은 인물의 의상 변경", "동일 제품의 배경 변경", "같은 구도의 스타일 변경"과 같은 작업을 원한다면 이 방식을 사용하면 됩니다.
1단계: ‘Image to Image’ 탭으로 이동
홈페이지 생성기로 돌아가서 Image to Image를 클릭하세요. 입력 영역 위에 파일 업로드 영역이 하나 더 나타나며, 프롬프트 입력란은 그대로 유지됩니다. 여전히 최대 20,000자까지 입력할 수 있지만, 이제는 업로드한 이미지와 연동되어 작동합니다.
배경에서 gpt-image-2-image-to-image를 호출하며, 가격은 텍스트-이미지 변환과 동일합니다——이미지당 12 포인트입니다. 별도의 "강도" 조절 바는 없으며, 결과의 변화 정도는 전적으로 프롬프트의 표현에 따라 결정됩니다.
다른 도구의 InPainting(마스크 보정) 기능을 사용해 본 적이 있다면 사고방식을 전환해야 합니다. GPT Image 2는 마스크를 그릴 필요가 없으며, 원본 이미지 전체와 프롬프트 전체를 읽어본 후 수정할 부분을 결정합니다. 실제 요구 사항의 80%(배경 변경, 의상 변경, 낮을 밤으로 바꾸기 등)의 경우, 프롬프트만 편집하는 것이 오히려 더 간편합니다.
2단계: 원본 이미지 업로드
JPG / PNG / WebP 파일을 업로드 영역으로 드래그하거나 ‘파일 선택’을 클릭하세요. 처음 연습할 때는 빛이 고르고 구도가 단순한 사진을 선택하는 것이 좋습니다. 모션 블러가 있거나, 조명이 어두우거나, 배경이 복잡한 사진은 모델이 사진을 ‘자유롭게 해석’할 여지를 더 많이 주어, 오히려 전후 비교를 파악하기 어렵게 만들 수 있습니다.
아래 사진은 전형적인 "초보자가 AI 도구를 처음 사용해 올릴 법한 사진"입니다. 평범한 실내 셀카 한 장이죠.

3단계: 먼저 판단하기——"소수리"인가, "대수리"인가?
프롬프트를 작성하기 전에, 어떤 수준의 수정을 원하는지 먼저 명확히 정하세요. 이미지 생성(image generation)과 이미지 덮어쓰기(image overwriting)는 완전히 다른 목적을 지니며, 이에 따라 프롬프트 작성 방식도 달라집니다:
- 소수정(Edit): 대부분을 유지하고 요소 하나만 변경한다. "옷을 네이비 블루로 바꾼다." "커피잔을 없앤다." "배경을 책장으로 바꾼다. "
- 변신(Transform): 정체성은 유지하되 전체 장면을 다시 작성한다. "같은 인물이지만 한복을 입고 달빛 아래 궁전 테라스에 서 있다." "같은 제품이지만 대리석 테이블 위에 스튜디오 조명을 비춘다."
프롬프트가 새로운 상황을 더 상세하게 묘사할수록 모델은 더 많은 부분을 수정합니다. 단 하나의 속성만 언급하면 나머지 부분은 그대로 유지되는 경향이 있습니다. 이것이 바로 슬라이더 없이도 "수정 정도"를 조절할 수 있는 방법입니다.
예시: change the shirt to navy blue(셔츠를 네이비 블루로 바꾼다)는 좁은 편집으로, 얼굴, 헤어스타일, 자세, 배경, 조명은 모두 그대로 유지된다. 이를 She is now wearing a tailored navy suit, standing in a glass-walled corporate office at golden hour(그녀는 몸에 딱 맞는 네이비색 정장을 입고, 황금 시간대의 유리벽으로 된 기업 사무실에 서 있다)로 바꾸면 이는 한 번의 변신이다. 정장, 환경, 조명이 모두 바뀌고 얼굴과 체형만 유지된다. 같은 한 문장이지만, 변경의 폭은 얼마나 많은 새로운 장면을 묘사하느냐에 따라 결정된다.
4단계: 모델에게 "무엇을 유지해야 하는지" 알려주는 프롬프트 작성하기
다음은 위의 원본 이미지를 바탕으로 "변신"을 만들 때 사용한 프롬프트입니다:
Same woman — identical facial features and hair. Transform the scene: she now wears an
elaborate crimson-and-gold hanfu with intricate embroidery and a jeweled phoenix hairpin.
She stands on a moonlit palace terrace, red lanterns glowing softly in the background,
cherry blossom petals drifting in the air. Warm lantern light from the right, cool
moonlight fill from the left. Cinematic shallow depth of field, elegant composition, 4K
photorealistic.(의미: 동일한 여성—얼굴과 헤어스타일은 그대로 유지. 장면 재구성: 그녀는 이제 화려한 적금색 한복을 입고 있으며, 자수 장식이 정교하고, 머리 묶음에는 금빛 봉황 비녀를 꽂고 있다. 그녀는 달빛이 비치는 궁전 테라스에 서 있고, 배경에는 은은한 붉은 등불이 걸려 있으며 벚꽃 꽃잎이 흩날리고 있다. 오른쪽에는 따뜻한 색조의 등불 빛, 왼쪽에는 차가운 색조의 달빛이 채워져 있다. 영화 같은 얕은 심도, 우아한 구도, 4K 리얼리즘.)
두 군데는 의도적으로 명시되어 있습니다:
- "같은 여성 — 똑같은 얼굴 특징과 머리카락." 이 문장 하나만으로도 신원 유지 작업이 거의 완료됩니다. 이 내용을 적지 않으면 모델이 제멋대로 움직일 수 있습니다.
- 완전한 새로운 장면 설명. 의상, 장소, 소품, 빛의 방향 등을 모두 명확히 기술해야 합니다. 모델이 전체 환경을 재구성하고 있으므로, 단순한 태그 하나가 아닌 일련의 지침이 필요합니다.
5단계: 생성 후 전후 비교하기
'Generate'를 클릭하면 결과가 표시됩니다. 제가 테스트했을 때, 생성된 이미지는 주제의 얼굴과 헤어스타일 윤곽은 그대로 유지한 채, 그 외 모든 부분이 프롬프트에 따라 재구성되었습니다.

전후 사진을 함께 살펴보세요. 얼굴 형태가 너무 달라졌다면 프롬프트에 "same person"이라는 문구를 추가하세요(예: "preserve exact face shape, same eyes, same nose, same lip shape"—정확한 얼굴 형태, 눈, 코, 입 모양을 유지). 배경이 충분히 바뀌지 않았다면 환경적 세부 사항을 더 추가하세요. 이것이 바로 여러분이 조절할 수 있는 요소입니다.
6단계: 페이지를 떠나지 않고, 출력값을 바로 다음 입력값으로 사용하기
TuShengTu의 가장 큰 장점은 방금 생성된 이미지가 그 자체로 다음 편집의 유효한 소스 이미지가 된다는 점입니다. "새 입력으로 사용"을 클릭한 뒤 새로운 프롬프트를 입력하기만 하면 됩니다(예: "같은 장면, 새벽 시간대로 변경" 또는 "같은 자세, 손에 부채 하나 추가"). 작은 단계를 거쳐 연속적으로 편집하여 얻은 최종 이미지는, 모든 것을 한 번에 해결하려는 지나치게 긴 프롬프트로 생성된 결과물보다 거의 항상 더 깔끔합니다.
"연쇄 편집"은 이 글에서 꼭 배워가야 할 워크플로우 기법 중 하나입니다. 초보자들이 흔히 범하는 실수는 300자 분량의 포괄적인 프롬프트를 작성한 뒤, 여덟 번이나 다시 생성해도 원하는 결과가 나오지 않는 경우입니다. 전문가의 방식은 단계별로 진행하는 것입니다. 먼저 캐릭터를 완성한 다음, 그 결과를 바탕으로 의상, 배경, 조명을 차례로 완성해 나가는 것입니다. 각 단계마다 12점씩, 총 48점입니다. 이는 한 번에 10번이나 다시 생성하는 것보다 훨씬 깔끔한 결과물을 얻을 수 있습니다.

사진 품질을 실제로 향상시켜 주는 프롬프트 작성법
이제 여러분은 전체 작업 과정을 완전히 숙지하셨습니다. 첫날의 신규 사용자와 GPT Image 2를 활용해 포트폴리오를 제작할 수 있는 기존 사용자의 차이는 어떤 신비로운 프롬프트에 있는 것이 아니라, 어떤 요소가 실제로 효과적인지 아는 데 있습니다. 아래의 아홉 가지가 실제 사용 시 가장 높은 투자 대비 효과를 보이는 요소들입니다.
팁 1: 핵심어를 맨 앞에, 수식어를 맨 뒤에 배치하세요
프롬프트의 맨 처음에 "누구를/무엇을 그리는지"를 적고, photorealistic, cinematic, 4K, high detail과 같은 화질 관련 단어는 맨 뒤로 옮겨주세요. 모델은 프롬프트를 앞쪽에서 뒤쪽으로 읽기 때문에, 맨 처음에 나오는 주제가 가장 높은 가중치를 받게 되며, 일곱 개의 품질 태그 뒤에 묻혀 있는 주제는 그 중요도가 희석될 수 있습니다.
약함: 창턱에 앉아 있는 고양이의 초현실적인 4K 걸작, 영화 같은 디테일을 자랑하는 초고화질 사진
강조: 나무 창턱에 앉아 밖의 비 내리는 도시 거리를 바라보고 있는 흑백 턱시도 고양이. 창문에서 새어 들어오는 부드럽고 은은한 빛, 얕은 피사계 심도. 사실적이고 영화 같은 분위기.
팁 2: “빛의 분위기”가 아니라 “빛의 방향”을 묘사하라
"아름다운 조명"이라는 표현은 거의 아무 말도 하지 않은 것과 다름없습니다. "왼쪽에서 비치는 따뜻한 석양 빛, 오른쪽으로 길게 드리워지는 그림자"라고 해야만 모델에게 각 그림자가 어디에 떨어져야 하는지 알려줄 수 있습니다. 방향과 이름이 명확한 광원(window light, rim light, softbox from above, neon fill from behind)은 가장 간결하면서도 화질을 가장 크게 끌어올릴 수 있는 요소 중 하나다.
팁 3: 사진 용어로 구도를 설명하면 사실감이 한층 살아납니다
현실감 넘치는 사진을 찍고 싶다면 사진작가들이 쓰는 용어를 참고하세요. 초점 거리(35mm, 50mm, 85mm, 135mm), 피사계 심도(shallow depth of field, deep focus), 촬영 각도(eye level, low angle, overhead)를 조합하면 모델에게 구체적인 구도 템플릿을 제공할 수 있습니다. 영어 위키백과의 Camera lens 항목은 10분이면 읽을 수 있는 훌륭한 자료로, 초점 거리를 의식적으로 선택하는 데 도움이 됩니다.
팁 4: “아티스트 이름”이 아닌 “장르”로 스타일을 설명하세요
"~ 화가의 스타일"과 같은 표현은 모호할 뿐만 아니라 저작권 문제와도 관련이 있습니다. 더 안정적인 방법은 매체 자체를 묘사하는 것이다: 붓 터치가 드러나는 유화, 크로스 해칭 기법이 적용된 연필 스케치, 입자가 느껴지는 빈티지 코다크롬 필름 느낌, 플랫 컬러가 적용된 깔끔한 벡터 일러스트레이션. 미적 방향을 제시하면서도 특정 개인에 의존하지 않게 됩니다.
팁 5: "부정적인 제한" 대신 "긍정적인 표현"을 사용하세요
GPT Image 2에는 별도의 부정 프롬프트 입력란이 없습니다. 특정 요소를 배제하고 싶다면, 원하는 내용을 명확하게 설명하는 것이 가장 좋은 방법입니다. 사람 없음, 텍스트 없음, 어수선함 없음이라고 적는 것보다, 벽이 깔끔한 빈 방, 미니멀한 구도, 구석에 식물 한 그루라고 적는 것이 더 낫습니다. 긍정적인 설명이 부정적인 표현보다 훨씬 더 신뢰할 수 있습니다.
팁 6: 이미지 생성 시 먼저 인물을 정한 다음, 장면을 재구성하세요
“의상/배경 변경” 작업을 할 때 얼굴 특징을 일관되게 유지하려면, 프롬프트의 첫 문장이 핵심입니다. Same person — preserve facial features, hair color, and skin tone(동일 인물 — 얼굴 특징, 머리 색, 피부 톤 유지)과 같은 문구를 맨 앞에 배치하는 것이, 뒤따르는 어떤 멋진 배경 묘사보다 효과적입니다. 정체성을 더욱 명확히 하고 싶다면 same eye shape, same nose, same lips를 추가하세요. 암시보다 직접적으로 명시하는 것이 더 효과적입니다.
팁 7: 전체를 다시 작성하기보다는 작은 단위로 반복적으로 개선하기
한 번에 하나의 변수만 수정하세요. 자세는 맞는데 옷이 어색하다면, 옷에 관한 부분만 수정하세요. 조명은 어색하지만 나머지는 괜찮다면, 조명에 관한 부분만 수정하세요. 그래야만 진정한 제어 가능한 피드백 루프를 형성할 수 있고, 어떤 단어가 무엇을 바꾸는지 파악할 수 있습니다. 전체 문단을 다시 쓰면 이 신호가 흐트러지고, 점수도 낭비하게 됩니다.
팁 8: “모델이 우선적으로 고려해야 할 사항”의 순서대로 프롬프트를 작성하세요
핵심 요소를 앞쪽에 배치하세요: 주제 → 동작 → 배경 → 스타일. "in the style of oil painting, there is a woman in a red dress walking down a cobblestone street at dusk"라고 작성하면, 모델에게 "이것은 우선 유화이다"라고 알려주는 것이며, 나머지는 부수적인 정보로 남게 됩니다. 이를 "A woman in a red dress walks down a cobblestone street at dusk, rendered as an oil painting"로 바꾸면, 모델은 먼저 주제를 듣고 마지막에야 매체를 듣게 됩니다. 정보량은 같지만, 후자의 경우 결과물이 일반적으로 훨씬 더 정확합니다.
팁 9: 사진작가와 감독이 실제로 사용하는 용어
Dutch angle(네덜란드 앵글), rack focus(랙 포커스), golden hour(황금 시간대), overcast daylight(흐린 날의 햇빛), 소프트박스, 고보 섀도우, 히어로 샷, 투 샷, 네거티브 스페이스와 같은 용어들은 사진과 영화 분야에서 명확한 의미를 지니며, 훈련 데이터에는 이러한 용어가 붙은 사진이 대량으로 포함되어 있습니다. 모호한 감정 표현어(vibey, dreamy, epic)는 모델에게 훨씬 약한 신호로 작용합니다. 영어 위키백과의 Shot (filmmaking) 항목은 15분 만에 빠르게 용어를 익힐 수 있는 좋은 자료입니다.
초보자가 가장 자주 저지르는 실수와 해결 방법
솔직히 말해서, 아래에 나열된 실수들은 제가 다 저질러 본 것들입니다. 여러분도 아마 저지를 가능성이 높겠지만, 적어도 더 빨리 알아차릴 수는 있을 겁니다.
오류 1: 400자 분량의 프롬프트를 작성하고 단 한 번에 완성된 결과물을 기대하는 것. 이미지 모델은 "매우 길고 한 번에 모든 것을 해결하려는" 프롬프트보다는 "좁고 반복적으로 다듬을 수 있는" 프롬프트를 처리하는 데 더 능숙합니다. 2만 자라는 제한은 목표가 아닙니다. 제가 GPT Image 2에서 가장 만족스러웠던 결과물들의 프롬프트는 대부분 40~120단어 사이였습니다.
오류 2: 프롬프트를 변경하지 않은 채 반복적으로 다시 생성하기. 같은 프롬프트로 두 번 ‘Generate’를 누르면 “거의 다 됐어요”라는 결과가 나오고, 세 번째로 눌러도 여전히 “거의 다 됐어요”라는 결과가 나옵니다. 무작위성은 아주 좁은 영역 내에서만 탐색됩니다. 만약 탐색 방향이 잘못되었다면, 아무리 많이 다시 생성해도 상황을 만회할 수 없습니다. 프롬프트를 수정해야 합니다.
오류 3: 프롬프트 내 모순. 같은 문장에 "soft dreamy watercolor"(부드럽고 몽환적인 수채화)와 "ultra-sharp photorealistic 4K"(초선명한 4K 사실주의)를 동시에 적는 것은 모순입니다. 모델은 둘 중 하나를 선택하거나, 더 나쁜 경우 두 가지를 평균화해 버릴 수 있습니다. 먼저 명확히 생각한 후 작성하세요.
오류 4: 이미지에 포함된 텍스트에 대한 기대치가 너무 높다. 2026년 4월 현재, AI 이미지 모델은 긴 텍스트, 특히 비라틴 문자를 렌더링하는 데 여전히 불안정하다. 간판이나 짧은 텍스트는 때때로 잘 나오지만, 문단 단위의 텍스트는 거의 제대로 출력되지 않는다. 텍스트가 핵심 정보인 경우, 출력된 이미지에 임의의 이미지 편집기를 사용해 텍스트 레이어를 덧씌우면 된다.
오류 5: 흐릿한 원본 이미지를 업로드하는 것. 모델은 원본 이미지의 디테일 수준을 기준으로 삼습니다. 흐릿하고 어두운 휴대폰 사진의 경우, 프롬프트에 아무리 "선명하고 또렷하게"라고 입력해도 출력 결과에는 여전히 그 흐릿함이 그대로 반영됩니다. 가능하다면 선명한 원본 이미지를 선택하세요.
실수 6: 손을 강조하지 마세요. 손은 여전히 이미지 생성 시 가장 흔한 결함의 원인이 됩니다. 구도상 손을 강조해야 한다면, 몇 번 더 수정해야 한다는 점을 받아들여야 합니다. 핵심이 아니라면, 손을 화면 밖으로 빼거나 자연스럽게 늘어뜨리세요.
오류 7: 이미지 생성 시 업로드 단계에서 비율을 간과하는 것. 이미지 생성 결과물은 일반적으로 원본 이미지의 비율을 따릅니다. 배너 이미지를 원하는데 세로 방향의 셀카를 업로드한다면, 이는 마치 모델과 정면으로 맞서는 것과 같습니다. 이미지를 생성하기 전에 먼저 원본 이미지를 원하는 비율로 자르세요.
실수 8: "대충 만든 첫 번째 이미지"를 최종 결과물로 여기는 것. 숙련된 사용자는 "괜찮은" 결과물을 다음 단계의 출발점으로 삼습니다. "괜찮은" 수준과 "포트폴리오 수준"의 차이는 대개 첫 번째가 아니라 세 번째 시도에서 나타납니다.
오류 9: 모델이 두 번의 생성 사이에 기억을 유지하지 않는다는 점을 잊는 것. ‘이미지로 이미지 생성’ 기능을 사용하여 이전 출력을 소스 이미지로 지정하지 않는 한, 매번 생성은 완전히 새로운 과정입니다. 기존 캐릭터를 재사용하려면 원래 프롬프트를 저장해 두거나, 직접 이전 이미지를 기반으로 연쇄 편집을 진행하세요.
GPT Image 2의 내부 작동 원리 (간략히)
이 섹션은 필수는 아니지만, 상황을 합리적으로 예측하는 데 도움이 될 것입니다. GPT Image 2는 간소화된 UI 레이어로, KIE의 gpt-image-2-text-to-image 및 gpt-image-2-image-to-image 두 모델을 직접 호출합니다. 이 모델들은 확산 모델 계열에 속하며, 명령어 준수 및 고화질 사실적 렌더링에 최적화되어 있습니다. 각 요청마다 인증이 이루어지며, 12 크레딧이 차감되고, 대기열에 등록된 후 이미지 URL이 반환됩니다.
인터페이스에 슬라이더가 거의 없는 것은 의도된 것입니다: KIE API 자체는 이러한 제어 항목을 노출하지 않으며, 상위 레이어에 '가짜 슬라이더'를 추가하면 오해를 불러일으킬 뿐입니다. 모델이 수행할 수 있는 모든 작업은 프롬프트를 통해 표현됩니다. 원리를 더 깊이 이해하고 싶다면 위키백과 Diffusion model과 OpenAI의 연구 페이지를 참고하세요.
GPT Image 2에도 단점이 있다
장점만 강조하고 단점은 언급하지 않는다면, 그것은 튜토리얼이 아닙니다. 다음은 GPT Image 2—사실은 현재 모든 주류 이미지 모델—의 공통적인 단점입니다:
- 브랜드 요소를 정확하게 재현합니다. 로고, 라이선스 캐릭터, 제품 포장을 안정적으로 재현할 수 없습니다. 올바른 방법은 구도를 생성한 다음 실제 로고를 합성하는 것입니다.
- **엄격한 참조 일관성. ** 한 캐릭터가 수십 장(예: 연재 만화)에 걸쳐 완전히 일관되어야 할 때, 이미지 생성 방식의 정체성 유지 능력은 순수 텍스트 생성 방식보다 훨씬 낫지만, 여전히 LoRA 훈련이나 3D 캐릭터 바인딩처럼 프레임 단위로 정밀한 수준에는 미치지 못합니다.
- 극단적인 자세에서의 해부학적 정확성. 손가락, 발, 치아, 귀, 교차된 사지는 가장 쉽게 왜곡되는 부위입니다. 줌이 가까울수록 오류가 더 두드러집니다.
- 완벽한 레이아웃. 앞서 언급했듯이——여전히 사실입니다.
또 두 가지 솔직한 사실을 말씀드리자면, 첫째, 확산 모델 자체에는 샘플링의 무작위성이 내재되어 있습니다. 즉, 동일한 프롬프트를 입력해도 매번 결과가 달라지며, 다양성은 장점이지만 일관성은 단점입니다. 후자의 경우, 이미지 생성 및 연쇄 편집을 통해 완화할 수 있습니다. 둘째, 모델은 훈련 데이터의 분포를 반영하기 때문에, 대중적인 주제보다 생소한 문화적 맥락의 경우 한 번에 정확한 결과를 도출하기가 더 어려우며, 여러 번의 반복 작업이 필요할 것으로 예상됩니다.
진정으로 훌륭한 AI 이미지 생성 워크플로는 “단일 모델로 모든 것을 해결하는 것”이 아니라, “GPT Image 2로 핵심 이미지의 80%를 처리하고, 기본 편집기로 나머지 20%를 수작업으로 마무리하는 것”입니다.
한눈에 보는 전체 절차
화면 옆에 붙여두고 한눈에 훑어볼 수 있는 버전을 원하신다면:
- GPT Image 2 홈페이지]를 열고 로그인합니다.
- 계정에 최소 12포인트가 있는지 확인합니다.
- 태그를 선택합니다: Text to Image 또는 Image to Image.
- 이미지 생성: 깨끗한 원본 이미지를 업로드합니다.
- 먼저 짧고 구체적인 프롬프트를 작성합니다. 주제를 먼저, 품질 관련 단어를 나중에 적으세요.
- 생성하세요. 주제, 조명, 구도라는 세 가지 측면에서 사실에 입각해 평가하세요.
- 변수 하나만 변경하고 다시 생성하여 비교하세요.
- 결과가 만족스러울 때까지 6–7단계를 반복하세요.
- 다운로드하세요.
이게 전부입니다. 이 글에 소개된 모든 단축키, 요령, 숙련자의 습관은 이 아홉 단계를 중심으로 한 변형들입니다.
한 가지 작은 습관을 더 소개합니다. 프롬프트를 먼저 텍스트 편집기에 작성한 다음 생성기에 붙여넣으세요. 이렇게 하면 기록을 남기거나 문장 순서를 조정하기 편리할 뿐만 아니라, "Same person — preserve facial features…"와 같은 고정된 서두를 재사용할 수 있습니다. 결과물이 만족스러우면 최종 버전을 프롬프트 로그에 다시 기록해 두세요. 이 작은 번거로움이 브라우저를 새로 고칠 때 최고의 프롬프트가 사라지는 것을 막아줄 것입니다.
자주 묻는 질문
GPT Image 2는 사진 한 장당 몇 포인트인가요?
텍스트에서 이미지 생성이나 이미지 간 변환 모두 12 포인트/장으로 통일되어 있습니다. "더 긴 프롬프트", "더 큰 출력 크기", "더 높은 화질"과 같은 추가 요금은 없으며, 해당 옵션 자체가 존재하지 않습니다. 포인트는 웹사이트의 패키지를 통해 구매할 수 있으며, 신규 계정에는 자동으로 체험용 포인트가 지급됩니다.
GPT Image 2를 사용하려면 무엇을 설치해야 하나요?
필요 없습니다. 모든 작업은 브라우저 내에서 이루어집니다. 데스크톱 앱도, 브라우저 확장 프로그램도 필요 없으며, 웹 UI를 사용하기 위해 별도로 API 키를 신청할 필요도 없습니다. 최신 브라우저와 이메일 계정 하나만 있으면 됩니다.
프롬프트는 최대 몇 자까지 입력할 수 있나요?
텍스트에서 이미지 생성 및 이미지에서 이미지 생성의 프롬프트 입력은 모두 최대 20,000자까지 지원합니다. 그렇긴 하지만, 실제 사용 시 가장 효과적인 프롬프트는 대부분 40~200단어 사이입니다. 지나치게 긴 프롬프트는 신호를 희석시키거나 심지어 모순을 초래하기 쉬우며, 구조가 잘 짜인 짧은 프롬프트가 대개 더 좋은 결과를 냅니다.
여러 장의 참고 이미지를 한 번에 업로드할 수 있나요?
‘이미지 생성 모드’는 한 번에 하나의 원본 이미지를 지원합니다. 여러 참조 요소(예: “이 인물 + 이 옷의 스타일”)를 결합하고 싶다면, 연쇄 생성 방식을 사용할 수 있습니다. 먼저 중간 이미지를 생성한 다음, 그 이미지를 다음 단계의 원본 이미지로 삼아 새로운 프롬프트를 입력하여 계속 수정해 나가는 방식입니다. 연쇄 편집은 복잡한 단일 프롬프트로 이미지를 생성하는 것보다 결과물이 더 깔끔한 경우가 많습니다.
GPT Image 2는 지정된 해상도나 비율을 지원하나요?
현재 가격은 통일되어 있으며, KIE API 자체에는 사용자가 선택할 수 있는 비율이나 해상도 조절 기능이 제공되지 않습니다. 이미지 생성 결과물은 일반적으로 원본 이미지의 형태를 따르므로, 특정 비율이 필요한 경우 먼저 원본 이미지를 자른 다음 생성해야 합니다.
생성된 이미지는 상업적으로 사용할 수 있나요?
콘텐츠 사용 권한은 사이트 하단의 서비스 약관에 따르며, 해당 약관을 최종 기준으로 삼아 주시기 바랍니다. 실제 사용 현황을 보면, 2026년 기준 대다수의 사용자가 마케팅 아이디어, 소셜 미디어 콘텐츠, 프로토타입 디자인 및 개인 창작 활동에 이를 활용하고 있습니다. 수익 창출이 가능한 제품에 이미지를 사용하기 전에, 당시 유효한 약관을 먼저 확인해 주시기 바랍니다.
여러 장의 그림에서 같은 캐릭터의 일관성을 유지하려면 어떻게 해야 할까요?
이미지 기반 이미지 생성을 사용하고, 프롬프트의 맨 앞에 신원 유지 조건("Same person — preserve facial features, hair color, and skin tone")을 명확히 명시합니다. 그런 다음 매번 생성된 이미지를 다음 이미지의 소스 이미지로 삼아, 새로운 장면 설명을 추가하여 생성을 계속합니다. 이 방법은 전용으로 훈련된 캐릭터 LoRA만큼 정확하지는 않지만, 매번 텍스트 기반 이미지 생성을 처음부터 다시 시작하는 것보다는 훨씬 효과적입니다.
GPT Image 2를 가장 빨리 익히는 방법은 무엇인가요?
처음 12~20회 생성에는 간단한 텍스트-이미지 프롬프트를 사용하여 모델의 "기본 상태"에서 보여주는 결과를 파악하고, 그 후에 이미지-이미지 생성 단계로 넘어가 깨끗한 원본 이미지를 바탕으로 작업을 시작하세요. 위 페이지의 빠른 참조 가이드를 따라 진행하면, 대부분의 사용자는 약 1시간 정도 성실히 연습하면 비교적 수월하게 해낼 수 있습니다.
왜 내 결과가 프롬프트와 전혀 다른가요?
흔히 볼 수 있는 세 가지 원인: 첫째, 형용사가 앞부분에 몰려 있고 핵심 내용이 뒷부분에 묻혀 있는 경우 — 핵심 내용을 맨 앞으로 옮기세요; 둘째, 키워드 간에 모순이 있는 경우(예: "watercolor"와 "photorealistic"이 나란히 사용됨) — 한 가지 매체를 선택하십시오; 셋째, 감정어("아름답다", "감동적" 등)만 있고 구체적인 명사가 없는 경우 — 구체적인 사물, 빛의 방향, 촬영 기법을 추가하십시오.
시작할 준비가 되셨나요?
이제 여러분은 완성된 워크플로우, 실제로 활용 가능한 프롬프트 패턴, 피해야 할 함정, 그리고 한 페이지 분량의 참고 자료를 모두 갖추게 되었습니다. 남은 일은 단 하나뿐입니다. 생성기를 실행하고, 처음 받은 100포인트를 활용해 "자신이 선호하는 프롬프트 유형"을 찾아보는 것입니다. 이 단계는 누구도 대신해 줄 수 없습니다.
GPT Image 2를 열고 첫 번째 이미지를 생성해 보세요 →
더 자세히 읽어보고 싶다면:
- GPT Image 2란? 기능, 가격 및 활용 사례
- GPT Image 2 프롬프트 가이드: 실제로 쓸 수 있는 프롬프트 작성하기
- GPT Image 2 vs Sora: 이미지 생성 능력 비교
- 먼저 내장된 이미지 프롬프트 생성기를 사용해 보세요, 간단한 아이디어 한 줄에서 완전한 프롬프트를 자동으로 확장해 줍니다.
- Text to Image 또는 Image to Image 단일 모드 전용 페이지로 바로 이동할 수도 있습니다.
이 글은 GPT Image 2 Team에서 게시했습니다. 2026년 4월 현재, 두 모드 모두 이미지 1장당 12포인트로 통일되어 청구됩니다. 향후 변경 사항이 있을 경우, 본문을 업데이트하고 변경 내역에 명시할 예정입니다.

