GPT Image 2 使用教程:从注册到出图完整指南(2026)

Apr 22, 2026

快速摘要

GPT Image 2 是一款在浏览器内运行的 AI 图像生成工具,只有两种模式——文生图(text-to-image)与图生图(image-to-image),统一按 12 积分/张 计费,没有分辨率、比例或质量档位等附加选项。本文带你从注册、第一次出图、上传参考照片做编辑,到真正能产出可用图的提示词套路,一次看完。免费试用 GPT Image 2 →


开始之前:你需要准备什么

使用 GPT Image 2 不需要高端显卡、Photoshop 或任何 AI 经验,所有计算都在服务器上完成,浏览器只负责输入和展示结果。真正要准备的东西很简单:

  • 一个现代浏览器。 Chrome、Edge、Safari、Firefox、Arc 当前版本都可以。开启硬件加速会让预览更流畅,但不是必需的。
  • 一个邮箱账号。 支持邮箱密码注册,也支持 Google 一键登录。公司邮箱、Gmail 都可以,一次性邮箱域名会被拒绝。
  • 少量积分余额。 不论是文生图还是图生图,不论提示词长短、不论输出比例,都是统一 12 积分/张。新账号自带免费试用积分,足够完成本教程的前几次出图。
  • 一张参考图(可选)。 如果打算使用图生图,准备一到两张 JPG / PNG / WebP 格式的源图,单张建议不超过 10 MB。正方形或竖版构图最容易得到稳定结果。
  • 一个模糊的想法即可。 新手经常想一次性写出"完美提示词",反而陷在纠结里。真正有效的方法是先用简单提示词出一张图,看看模型给你什么,再决定怎么改。

截至 2026 年 4 月,使用 GPT Image 2 不需要下载任何客户端,不需要申请 API key,也没有排队候补。打开主页、登录、开始生成,就这三步。

GPT Image 2 使用教程封面:创作者在笔记本前使用 AI 图像生成器
一张桌子、一个浏览器标签页、一段提示词——这就是 GPT Image 2 的全部工作环境。

本文写给想把工具用好的人。机械操作两分钟就能学会,真正吃功夫的是"写什么、看什么、何时改"这些判断,后面的章节就是讲这些。急的话可以先跳到方法一,遇到第一个不满意的结果再回来看提示词技巧与常见错误两节。


方法一:文生图——从零开始出第一张图

文生图是大部分人来到 GPT Image 2 时最想尝试的模式:写一段描述,点一下生成,模型就返回一张完整的图片。下面是分步操作。

第 1 步:打开生成器并登录

打开 GPT Image 2 主页。生成器面板在桌面端首屏、移动端是第一个完整区块。未登录时会出现"登录后生成"入口,选邮箱或 Google 完成登录,不到一分钟。

登录后右上角会显示积分余额,确认至少 12 积分——新账号自带试用额度,不需要绑卡就能完成本文第一个示例。

第 2 步:切到 Text to Image 标签

生成器顶部有两个标签:Text to ImageImage to Image。第一次先用默认的文生图。输入框就在标签栏下方。

不需要手动选模型——背后调用 KIE 的 gpt-image-2-text-to-image,没有档位、比例、分辨率下拉:一个模型、一个价格。

第 3 步:先写一条故意简短的提示词

新手常见误区是把自己会的形容词全堆到第一条提示词里。别这么做。先用一段简短、具体的描述,看看模型"默认状态"的表现。下面这条就是我在准备这篇文章、第一次测试时用的提示词:

A golden retriever puppy sitting in a sunlit field of wildflowers, shallow depth of field,
warm afternoon light.

(中文含义:一只金毛幼犬坐在阳光下的野花丛中,浅景深,温暖的午后光线。)

粘进输入框,点 Generate。大部分提示词在 20 到 40 秒之间返回结果,高峰时段略慢。

第 4 步:诚实地评估输出

我第一次运行上面那条提示词时,结果基本到位:色调偏暖、眼睛清晰、背景虚化自然——但狗爪子略有模糊感,这是当前图像模型的典型弱点。这很正常,这一步不是用来打分的,而是用来建立你对"默认输出"的感知。

第一张图至少要盯着三件事看:

  1. 主体是否准确。 模型给出的是你要的主体吗?还是偏离了(比如把金毛画成了拉布拉多)?
  2. 光线方向。 实际光线和你描述的是否匹配?"温暖午后光"应该是柔和有方向的侧光,而不是顶光。
  3. 构图。 主体的取景符合你心里的画面吗?还是尴尬地居中?

这三个维度如果有任何一项不对,你就有明确的理由去改提示词——而不是盲目重刷。

第 5 步:写一条优化版提示词

下面是同一场景的进阶版本。主体一样、光线思路一样,但采用了更适合 GPT Image 2 的结构:

A 3-month-old golden retriever puppy with fluffy fur and floppy ears, sitting upright in a
meadow of wild daisies and lavender. Warm late-afternoon sunlight streams from the left,
casting long gentle shadows and creating a soft golden rim light on the fur. Shallow depth
of field, background softly blurred with bokeh. Shot on an 85mm lens, eye level with the
puppy. Photorealistic, high detail, natural colors.

(中文含义:一只三个月大的金毛幼犬,毛发蓬松、耳朵软塌,在野雏菊和薰衣草草地上端坐。温暖的下午阳光从左侧照射,投出柔和的长影,并在皮毛上形成金色轮廓光。浅景深,背景柔焦带散景。85mm 镜头、与幼犬平视。写实风格、高细节、自然色彩。)

相比初版改了四点:

  • 主体细节更具体("三个月大""蓬松的毛""软耳"),让模型锁定形象。
  • 光线方向明确("从左侧"、"轮廓光打在毛上"),而不是只写"温暖"。
  • 镜头语言("85mm 镜头"、"与幼犬平视")给了模型一个具体的构图模板。
  • 质量修饰词放在末尾("写实、高细节、自然色彩")——短、不抢戏。

再点一次 Generate。第二张图应该更接近你脑海里的画面。如果还不对,不要整段重写——每次只改一个变量,生成、对比,才能知道是哪个词在起作用。

一个好用的心理模型:把提示词拆成四个"槽位"——主体、动作、环境、风格。每次只改出问题的那个槽位。品种不对就改主体槽,光线不对就改环境槽,像卡通但你想要照片就改风格槽。

第 6 步:保存、下载或继续迭代

出图满意后,预览下方有下载按钮。每次生成都会自动保存到账号历史里,你可以回看旧版本、复制旧提示词、继续迭代。如果后面想在图生图里继续修这个角色,就从历史里把这张图作为源图即可。

使用 GPT Image 2 文生图生成的电影级画面:金色时刻海滩上穿白色丝绸长裙的女性
一条带具体光线描述的文生图提示词输出。指明"黄金时刻"与"背光丝绸",模型就有了明确的视觉线索可以发挥。

你刚刚走完的"打开—写词—评估—微调—再生成"就是整个文生图的工作循环。本文后续所有内容,都是在教你怎么把这个循环跑得更快、更省积分。

长期使用 GPT Image 2 的话,建议用一份纯文本文件记录"有效的提示词"。不是模板,是你自己的日志——每次出图满意就把完整提示词加一行备注粘进去。半年后,这份库比任何网上的通用模板都更贴合你的审美。


方法二:图生图——在已有照片上做修改或风格迁移

图生图(image-to-image,简称 i2i)以一张源图为起点,模型保留你想保留的部分,根据提示词重写其余部分。想做"同一个人换装"、"同一款产品换背景"、"同样构图换风格"这类需求,就用这个模式。

第 1 步:切换到 Image to Image 标签

回到主页生成器,点 Image to Image。输入区域上方会多出一个文件上传区,提示词框仍在,仍然支持最多 20,000 字符,但现在与上传的图片协同工作。

背后调用 gpt-image-2-image-to-image,价格与文生图一致——12 积分/张。没有独立的"强度"滑块,变化多少完全由你的提示词措辞决定。

用过其他工具的 InPainting(蒙版修补)的话注意切换心态:GPT Image 2 不要求画蒙版,而是整张源图 + 整条提示词一起读后再决定改什么。对 80% 的真实需求(换背景、换服饰、白天变夜晚),纯提示词编辑反而更省事。

第 2 步:上传源图

把 JPG / PNG / WebP 拖到上传区,或点击选择文件。第一次练手建议挑一张光线干净、构图简单的照片。动感模糊、光线昏暗、背景杂乱的照片会给模型更多"自由解释"的空间,反而让前后对比不好读。

下面这张图就是典型的"新手第一次尝试 AI 工具会上传的那种图"——一张普通的室内自拍。

一张普通室内自拍,作为 GPT Image 2 图生图的源图示例
源图:一张略微过曝的日常室内自拍。不是精修照,正好是图生图最擅长改造的那种输入。

第 3 步:先判断——是"小修"还是"变身"?

写提示词之前,先想清楚你想要什么级别的改动。图生图覆盖两种截然不同的意图,对应的提示词写法也不同:

  • 小修(Edit):保留大部分,只换一个元素。"衣服改海军蓝。""去掉咖啡杯。""背景换成书架。"
  • 变身(Transform):保留身份,整个场景重写。"同一个人,改穿汉服站在月下宫殿露台。""同一产品,改为大理石桌面配影棚光。"

提示词对新场景描述得越完整,模型就改得越多;只提一个属性,其他部分就倾向于保留。这就是你在没有滑块的情况下控制"改动幅度"的杠杆。

举例:change the shirt to navy blue(把衬衫改成海军蓝)是窄编辑,脸、发型、姿势、背景、光线都不动。换成 She is now wearing a tailored navy suit, standing in a glass-walled corporate office at golden hour(她穿着合身海军蓝西装,站在玻璃幕墙办公室,黄金时刻)则是一次变身——西装、环境、光线全变,只保留脸部和身形。都是一句话,改动幅度由你描述多少新场景决定。

第 4 步:写一句告诉模型"保留什么"的提示词

下面是我基于上面那张源图做"变身"时用的提示词:

Same woman — identical facial features and hair. Transform the scene: she now wears an
elaborate crimson-and-gold hanfu with intricate embroidery and a jeweled phoenix hairpin.
She stands on a moonlit palace terrace, red lanterns glowing softly in the background,
cherry blossom petals drifting in the air. Warm lantern light from the right, cool
moonlight fill from the left. Cinematic shallow depth of field, elegant composition, 4K
photorealistic.

(中文含义:同一个女性——面部与发型完全保留。场景重写:她现在穿着华丽的红金色汉服,绣工繁复,发髻上别金凤簪。她站在月光下的宫殿露台上,背景是柔光红灯笼,樱花花瓣飘散。右侧暖色灯笼光,左侧冷色月光填充。电影级浅景深,构图优雅,4K 写实。)

有两处是刻意写明的:

  1. "Same woman — identical facial features and hair." 这一句几乎完成了全部身份保留的工作。不写的话,模型会随意漂移。
  2. 完整的新场景描述。 服饰、地点、道具、光线方向都讲清楚。模型正在重建整个环境,需要一整套指令,而不是一个标签。

第 5 步:生成后做前后对比

点 Generate 等结果。我测试那次,出来的图保留了主体可识别的面部与发型轮廓,其他一切都被按提示词重建了。

GPT Image 2 图生图输出:同一人物被改造为古风宫廷剧场景
图生图输出:身份在前后保持一致,服饰、场景、光线则完全按提示词重写。

把前后放在一起看。脸部走样太多,就在提示词里加码"same person"子句(例如补上 "preserve exact face shape, same eyes, same nose, same lip shape"——保留脸型、眼睛、鼻子、嘴型);场景改得不够,就补充更多环境细节。那就是你手里的旋钮。

第 6 步:无需离开页面,直接把输出当下一次输入

图生图最好用的一点是:刚刚的输出,本身就是下一次编辑的合法源图。点一下"用作新输入",再写一条新提示词(比如"同一场景,改为黎明时分"或"同一姿势,手上多一把折扇")。小步连续编辑产出的最终图,几乎总比一条试图做完所有事的超长提示词更干净。

"链式编辑"是本文最值得拿走的工作流技巧之一。新手常见的失败模式:写一条 300 字囊括一切的提示词,重刷八次依然不对。专业做法是分轮:先搞定角色,再以上一轮输出为源图搞定服饰、环境、光线。每轮 12 积分,四轮合计 48 积分——比一次性重刷十次得到的成图干净得多。

GPT Image 2 图生图风格迁移:左侧真实海滩照片,右侧赛博朋克霓虹重绘
风格迁移再推一步:同一个人物、同一姿势,由真实海滩重建为霓虹赛博朋克天台。只要在提示词里锁定 "same pose",模型就会保留几何结构,其他一切按新场景改写。

真正能让出图变好的提示词技巧

你现在已经掌握了完整操作流程。第一天的新用户和能靠 GPT Image 2 产出作品集的老用户之间,差别不是某条神秘提示词,而是知道哪些杠杆真正管用。下面这九条是在实际使用中投入产出比最高的。

技巧 1:主体写在最前,质量词放在最后

提示词开头就写"画的是谁/是什么",把 photorealisticcinematic4Khigh detail 这些画质词挪到末尾。模型阅读提示词是从前往后的,开头的主体得到的权重最高,被七个质量标签埋在后面的主体会被稀释。

较弱Hyperrealistic 4K masterpiece cinematic detailed ultra-HD photo of a cat sitting on a windowsill

较强A black-and-white tuxedo cat sitting on a wooden windowsill, watching a rainy city street outside. Soft diffused light from the window, shallow depth of field. Photorealistic, cinematic.

技巧 2:写出"光线方向",不是"光线氛围"

"beautiful lighting"(漂亮的光线)几乎等于没说。"warm sunset light from the left, long shadows falling to the right"(左侧暖色夕阳光,长影向右)才告诉模型每道影子该落在哪。有方向、有名字的光源(window lightrim lightsoftbox from aboveneon fill from behind)是最省词又最能拉开画质的杠杆之一。

技巧 3:用摄影术语描述构图,写实感立刻提升

想要真实感强的出图,就抄摄影师的词汇。焦段(35mm50mm85mm135mm)、景深线索(shallow depth of fielddeep focus)、机位(eye levellow angleoverhead)组合起来,模型就拿到一套具体的构图模板。英文维基百科的 Camera lens 条目是 10 分钟就能读完的好素材,帮你有意识地选择焦段。

技巧 4:按"媒介"而非"艺术家名字"描述风格

"in the style of 某位画家" 这种提示词既脆弱、也涉及归属争议。更稳的做法是描述媒介本身:oil painting with visible brushwork(带笔触的油画)、pencil sketch with cross-hatching(带交叉阴影的铅笔素描)、vintage Kodachrome film look with grain(带颗粒的复古柯达胶片)、clean vector illustration with flat colors(扁平色彩的矢量插画)。既给了审美方向,又不依赖特定个人。

技巧 5:用"正面描述"代替"负面约束"

GPT Image 2 没有单独的负面提示词输入框。想避免某些元素,最好的方式是清楚描述你要什么。与其写 no people, no text, no clutter,不如写 an empty room with clean walls, minimalist composition, a single plant in the corner。正面描述比否定措辞可靠得多。

技巧 6:图生图要先锁定身份,再重写场景

做"换装/换场景"时,想让脸保持一致,提示词第一句就是关键。类似 Same person — preserve facial features, hair color, and skin tone(同一人——保留面部特征、发色与肤色)放在开头,比后面任何漂亮的场景描写都管用。身份需要更紧,再补 same eye shape, same nose, same lips。明说比暗示有效。

技巧 7:小步迭代,而不是整段重写

每次只改一个变量。姿势对、衣服不对,就只改衣服那一段;光线不对、其他都好,就只改光线那一段。这样你才能形成一个真正可控的反馈回路,知道哪个词改变了什么。整段重写会毁掉这条信号,并烧积分。

技巧 8:按"模型应该优先在意"的顺序写提示词

把关键槽位放在前面:主体 → 动作 → 环境 → 风格。写成 "in the style of oil painting, there is a woman in a red dress walking down a cobblestone street at dusk",你是在告诉模型"这首先是一幅油画",其他都是附带。换成 "A woman in a red dress walks down a cobblestone street at dusk, rendered as an oil painting",模型先听见主体,最后才听见媒介。信息量一样,后者出图通常明显更准。

技巧 9:用摄影师和导演真正用的词

Dutch angle(荷兰角)、rack focus(拉焦)、golden hour(黄金时刻)、overcast daylight(阴天日光)、softbox(柔光箱)、gobo shadow(造型遮光投影)、hero shot(英雄镜头)、two-shot(双人镜头)、negative space(留白)这些词在摄影和电影里都有明确含义,训练数据中大量图片配了这些词。含糊的情绪词(vibeydreamyepic)对模型来说信号弱得多。英文维基百科的 Shot (filmmaking) 条目是一份不错的 15 分钟词汇速查。


新手最常犯的错,以及怎么改

诚实地讲,下面这些错误我全犯过。你大概率也会犯,但至少能更快识别出来。

错误 1:写一条 400 字的提示词,指望一次出终稿。 图像模型更擅长处理"窄、可迭代"的提示词,而不是"巨长、一次到位"的提示词。2 万字符上限不是目标。我在 GPT Image 2 上最满意的那些输出,提示词大多在 40 到 120 个单词之间。

错误 2:提示词不变的情况下反复重刷。 同一条提示词按两次 Generate 都"几乎成了",按第三次也还是"几乎成了"。随机性只会在一个小邻域里探索;如果邻域方向错了,重刷再多次也救不回来——得动提示词。

错误 3:提示词里自相矛盾。 同一条里既写 "soft dreamy watercolor"(柔梦水彩),又写 "ultra-sharp photorealistic 4K"(超锐利 4K 写实),这是矛盾的。模型会二选一,或者更糟:把两者平均掉。先想清楚再写。

错误 4:对画面里的文字期望太高。 截至 2026 年 4 月,AI 图像模型对长段文字、尤其是非拉丁字符的渲染仍然不稳定。招牌短标签有时能成,段落级文字很少能成。文字是核心信息的时候,输出后用任意图像编辑器叠一层上去就好。

错误 5:图生图上传一张模糊的源图。 模型会把源图的细节水平当作基准。一张柔糊、低光的手机照片,不论你提示词怎么写"清晰锐利",输出都会保留那种柔糊感。能挑清晰的源图就挑清晰的。

错误 6:别把关键放在手上。 手依然是图像生成最常见的瑕疵来源。构图如果必须突出手,就接受你需要多刷几轮;如果不是核心,就让手部分出画面或自然垂放。

错误 7:图生图上传阶段忽视比例。 图生图的输出通常跟随源图的比例。如果你想要横幅但上传了竖版自拍,等于和模型对着干。生成前先把源图裁到目标比例。

错误 8:把"第一张凑合的图"当成终稿。 成熟用户会把"还行"当作下一轮起点。"还行"与"作品集水准"的差距,通常出现在第三次生成,而不是第一次。

错误 9:忘记模型在两次生成之间没有记忆。 除非用图生图把上次输出当源图,否则每次生成都是全新的。想复用旧角色,就把原始提示词存好,或直接以上次的图做链式编辑。


GPT Image 2 内部是如何工作的(简要)

这一节对使用不是必须,但能帮你合理预期。GPT Image 2 是一层精简 UI,直接调用 KIE 的 gpt-image-2-text-to-imagegpt-image-2-image-to-image 两个模型——它们属于扩散模型家族,针对指令跟随和高保真写实做了调优。每次请求都会鉴权、计费 12 积分、排队、返回图像 URL。

界面上旋钮极少是刻意的:KIE API 本身不暴露这些控制项,上层加"假滑块"只会误导。模型能做的一切都通过提示词表达。想深入了解原理,可看维基百科 Diffusion model 与 OpenAI 的 研究页面


GPT Image 2 也有短板

只吹好不讲坏就不是教程了。以下是 GPT Image 2——其实是当前所有主流图像模型——的共性短板:

  • 精确还原品牌元素。 Logo、授权角色、产品包装不能稳定复现。正确做法是生成构图,然后把真实 logo 合成上去。
  • 严格的参考一致性。 需要一个角色在几十张(比如连载漫画)里完全一致时,图生图的身份保持已经比纯文生图好很多,但仍然不如训练 LoRA 或 3D 角色绑定那样精确到每一帧。
  • 极端姿势下的解剖学。 手指、脚、牙齿、耳朵、交叉的肢体是最易崩的部位。镜头越近,错处越明显。
  • 完美排版。 上文已提过——依然是事实。

还有两条实话:第一,扩散模型本身就有采样随机性——同一条提示词每次结果都会不同,多样性是优点、一致性是缺点,后者靠图生图链式编辑来缓解。第二,模型反映训练数据分布,冷门文化情境比大众题材更难一次出准,预期要多迭代。

真正好的 AI 出图工作流不是"一模型打天下",而是"GPT Image 2 解决 80% 的核心画面,基础编辑器做 20% 的手工收尾"。


一页速查:完整流程

如果只想贴在屏幕旁边一眼看完的版本:

  1. 打开 GPT Image 2 主页 并登录。
  2. 确认账户至少有 12 积分。
  3. 选标签:Text to ImageImage to Image
  4. 图生图:上传一张干净的源图。
  5. 先写一条短、具体的提示词。主体在前,质量词在后。
  6. 生成。按三个维度如实评估:主体、光线、构图。
  7. 只改一个变量,再生成,对比。
  8. 重复 6–7 直到结果满意。
  9. 下载。

就这些。本文里所有快捷方式、技巧、老手习惯,都是围绕这九步的变体。

再补一个小习惯:提示词先在文本编辑器里写好,再粘到生成器。方便留历史、拖语序、复用 "Same person — preserve facial features…" 之类固定开头。出图满意后把最终版回写到提示词日志。这点微小阻力能防止你最好的提示词在刷新浏览器时丢失。


常见问题

GPT Image 2 每张图多少积分?

不论是文生图还是图生图,都是统一 12 积分/张。没有"更长提示词""更大输出""更高画质档位"之类的额外收费——那些选项本身就不存在。积分在网站上的套餐里打包购买,新账号会自动发放试用积分。

使用 GPT Image 2 需要安装什么吗?

不需要。一切都在浏览器里完成。没有桌面端 App、没有浏览器插件、Web UI 也不需要自己申请 API key。你只需要一个现代浏览器和一个邮箱账号。

提示词最长可以多长?

文生图与图生图的提示词输入都支持最多 20,000 字符。话虽如此,实战中最有效的提示词大多在 40 到 200 个单词之间。过长的提示词容易稀释信号、甚至出现矛盾;结构良好的短提示词通常胜出。

可以同时上传多张参考图吗?

图生图模式一次支持一张源图。如果你想融合多个参考(例如"这个人物 + 这件衣服风格"),可以做链式生成:先出一张中间图,再用那张作为下一次的源图配新提示词继续改。链式编辑往往比一条复杂提示词出图更干净。

GPT Image 2 支持指定的分辨率或比例吗?

当前定价是统一的,KIE API 本身也不暴露用户可选的比例或分辨率旋钮。图生图的输出通常跟随源图形状——因此需要特定比例时,先裁源图再生成。

生成的图可以商用吗?

输出使用权以站点页脚的服务条款为准,请以条款为最终依据。实际使用中,截至 2026 年,大多数用户用它做营销创意、社交内容、原型设计与个人创作。在把一张图用于有营收的产品之前,请先查看当时生效的条款。

怎么让同一个角色在多张图里保持一致?

使用图生图,并且在提示词开头明确写身份保留子句("Same person — preserve facial features, hair color, and skin tone")。然后把每次输出作为下一张的源图,配新的场景描述继续生成。这种方法不如专门训练的角色 LoRA 精确,但远远强于每次都从文生图重新开始。

最快学会使用 GPT Image 2 的办法是什么?

前 12 到 20 次生成都用简单的文生图提示词,把模型"默认状态"的表现摸透;之后再进入图生图、从一张干净的源图开始。按上面那一页速查执行,大部分用户认真练一个小时左右就能比较从容。

为什么我的结果跟提示词完全不像?

常见三类原因:其一,质量词堆在前面、主体埋在后面——把主体挪到最前;其二,提示词自相矛盾(例如 "watercolor" 与 "photorealistic" 并置)——选一种媒介;其三,只写情绪词("美"、"震撼")没有具体名词——补上具体物体、光线方向、镜头语言。


准备好开始了吗?

到这里,你已经拿到了完整的工作流、能用的提示词套路、要避开的坑,以及一页速查。剩下能做的只有一件事:打开生成器,用前 100 积分去找到"你自己喜欢哪种提示词"。这一步没人能替你写。

打开 GPT Image 2,生成你的第一张图 →

如果想继续深入阅读:

本文由 GPT Image 2 Team 发布。截至 2026 年 4 月,两种模式均统一按 12 积分/张计费。若未来调整,我们会更新本文并在更新日志中注明。

GPT Image 2 Team

GPT Image 2 Team

AI Image & Video Generation