คู่มือการใช้งาน GPT Image 2: คู่มือฉบับสมบูรณ์ตั้งแต่การลงทะเบียนจนถึงการสร้างภาพ (2026)

สรุปอย่างรวดเร็ว

GPT Image 2 เป็นเครื่องมือสร้างภาพด้วยปัญญาประดิษฐ์ที่สามารถใช้งานได้โดยตรงผ่านเว็บเบราว์เซอร์ของคุณ มีเพียงสองโหมดให้เลือก—สร้างภาพจากข้อความและสร้างภาพจากภาพ—ทั้งสองโหมดคิดค่าบริการในอัตราคงที่ 12 เครดิตต่อภาพ โดยไม่มีตัวเลือกเพิ่มเติมสำหรับความละเอียด อัตราส่วน หรือตั้งค่าคุณภาพ บทความนี้จะพาคุณผ่านทุกขั้นตอนตั้งแต่การลงทะเบียน การสร้างภาพแรกของคุณ การอัปโหลดรูปภาพอ้างอิงสำหรับการแก้ไข ไปจนถึงกลยุทธ์การใช้คำสั่ง (prompt) ที่จำเป็นในการสร้างภาพที่ใช้งานได้จริง—ทั้งหมดนี้ในครั้งเดียว ทดลองใช้ GPT Image 2 ฟรี →

ก่อนเริ่มต้น: สิ่งที่คุณต้องเตรียม

การใช้ GPT Image 2 ไม่จำเป็นต้องใช้การ์ดจอระดับสูง, Photoshop หรือประสบการณ์กับ AI ใด ๆ; การประมวลผลทั้งหมดทำบนเซิร์ฟเวอร์, โดยเบราว์เซอร์เพียงแค่จัดการกับข้อมูลนำเข้าและแสดงผลลัพธ์. สิ่งที่คุณต้องทำจริง ๆ คือ:

เว็บเบราว์เซอร์ที่ทันสมัย เวอร์ชันปัจจุบันของ Chrome, Edge, Safari, Firefox หรือ Arc จะใช้งานได้ การเปิดใช้งานการเร่งฮาร์ดแวร์จะทำให้การพรีวิวราบรื่นขึ้น แต่ไม่จำเป็น
บัญชีอีเมล คุณสามารถลงทะเบียนโดยใช้อีเมลและรหัสผ่านของคุณ หรือลงชื่อเข้าใช้ด้วย Google ทั้งที่อยู่อีเมลของบริษัทและ Gmail สามารถใช้ได้; โดเมนอีเมลแบบใช้ครั้งเดียวจะถูกปฏิเสธ
ยอดเครดิตคงเหลือเล็กน้อย ไม่ว่าจะสร้างภาพจากข้อความหรือจากภาพก็ตาม โดยไม่คำนึงถึงความยาวของคำสั่งหรืออัตราส่วนของผลลัพธ์ ค่าใช้จ่ายจะเป็นอัตราคงที่ 12 เครดิตต่อภาพ บัญชีใหม่จะได้รับเครดิตทดลองใช้ฟรี ซึ่งเพียงพอสำหรับการสร้างภาพแรกๆ ในบทแนะนำนี้
ภาพอ้างอิง (ไม่บังคับ). หากคุณวางแผนที่จะใช้การสร้างภาพจากภาพ ให้เตรียมภาพต้นฉบับหนึ่งหรือสองภาพในรูปแบบ JPG, PNG หรือ WebP; แต่ละไฟล์ควรมีขนาดไม่เกิน 10 MB. การจัดองค์ประกอบภาพเป็นสี่เหลี่ยมจัตุรัสหรือแนวตั้งจะให้ผลลัพธ์ที่สม่ำเสมอที่สุด.
**แนวคิดคร่าวๆ ก็เพียงพอแล้ว. ** ผู้เริ่มต้นมักติดขัดเมื่อพยายามเขียน 'คำสั่งที่สมบูรณ์แบบ' ในครั้งเดียว วิธีที่มีประสิทธิภาพที่สุดคือการสร้างภาพโดยใช้คำสั่งที่ง่ายก่อน ดูว่าโมเดลสร้างอะไรออกมา แล้วจึงตัดสินใจว่าจะปรับปรุงอย่างไรต่อไป

ณ เดือนเมษายน 2026 การใช้ GPT Image 2 ไม่จำเป็นต้องดาวน์โหลดไคลเอนต์ ไม่จำเป็นต้องสมัครใช้งาน API key และไม่ต้องรอคิว เพียงแค่เข้าชมหน้าแรก ล็อกอิน และเริ่มสร้างผลงานได้เลย ง่ายเพียงเท่านี้

GPT Image 2 คู่มือการใช้งาน: ผู้สร้างผลงานกำลังใช้โปรแกรมสร้างภาพด้วย AI บนแล็ปท็อป — ตาราง, แท็บเบราว์เซอร์, และคำสั่ง—นั่นคือสภาพแวดล้อมการทำงานทั้งหมดสำหรับ GPT Image 2

บทความนี้เขียนขึ้นสำหรับผู้ที่ต้องการใช้ประโยชน์จากเครื่องมือนี้อย่างเต็มที่ แม้ว่าการใช้งานทางเทคนิคสามารถเรียนรู้ได้ภายในสองนาที แต่ความท้าทายที่แท้จริงอยู่ที่การตัดสินใจว่า 'จะเขียนอะไร จะมองหาอะไร และเมื่อใดควรเปลี่ยนแปลง'—และนั่นคือสิ่งที่บทต่อไปนี้ครอบคลุม หากคุณกำลังรีบ คุณสามารถข้ามไปยังวิธีแรกได้ เมื่อคุณพบผลลัพธ์ที่ไม่เป็นที่น่าพอใจครั้งแรก ให้กลับมาอ่านส่วนเกี่ยวกับเทคนิคการเขียนข้อความและข้อผิดพลาดที่พบบ่อย

วิธีที่ 1: ข้อความเป็นภาพ – สร้างภาพแรกของคุณจากศูนย์

การสร้างภาพจากข้อความเป็นฟีเจอร์ที่คนส่วนใหญ่ต้องการลองใช้เมื่อพวกเขาใช้ GPT Image 2 เป็นครั้งแรก: เขียนคำอธิบาย คลิก 'สร้าง' และโมเดลจะส่งคืนภาพที่สมบูรณ์ นี่คือคำแนะนำทีละขั้นตอน

ขั้นตอนที่ 1: เปิดเครื่องกำเนิดและเข้าสู่ระบบ

เปิด หน้าแรก GPT Image 2 แผงควบคุมเครื่องกำเนิดจะปรากฏบนหน้าจอแรกในเวอร์ชันเดสก์ท็อปและเป็นส่วนแรกที่เต็มรูปแบบในเวอร์ชันมือถือ หากคุณยังไม่ได้เข้าสู่ระบบ คุณจะเห็นตัวเลือก 'สร้างหลังจากเข้าสู่ระบบ' ให้เลือกที่อยู่อีเมลหรือบัญชี Google ของคุณเพื่อเข้าสู่ระบบ—ใช้เวลาไม่ถึงหนึ่งนาที

เมื่อคุณเข้าสู่ระบบแล้ว ยอดคะแนนของคุณจะแสดงอยู่ที่มุมขวาบน กรุณาตรวจสอบให้แน่ใจว่าคุณมีคะแนนอย่างน้อย 12 คะแนน—บัญชีใหม่จะได้รับเครดิตทดลองใช้ คุณสามารถทำตัวอย่างแรกในบทความนี้ได้โดยไม่ต้องเชื่อมต่อบัตร

ขั้นตอนที่ 2: เปลี่ยนไปที่แท็บ 'ข้อความเป็นภาพ'

ที่ด้านบนของตัวสร้างมีแท็บสองแท็บ: ข้อความเป็นภาพ และ ภาพเป็นภาพ เริ่มต้นโดยใช้ตัวเลือก 'ข้อความเป็นภาพ' เริ่มต้น กล่องป้อนข้อมูลจะอยู่ด้านล่างแถบแท็บ

ไม่จำเป็นต้องเลือกโมเดลด้วยตนเอง—ระบบใช้ gpt-image-2-text-to-image ของ KIE ในเบื้องหลัง ไม่มีเมนูแบบเลื่อนลงสำหรับเลือกระดับคุณภาพ อัตราส่วน หรือความละเอียด: โมเดลเดียว ราคาเดียว

ขั้นตอนที่ 3: เริ่มต้นด้วยการเขียนคำแนะนำที่สั้นอย่างตั้งใจ

ข้อผิดพลาดที่พบบ่อยในหมู่ผู้เริ่มต้นคือการยัดคำคุณศัพท์ทั้งหมดที่พวกเขารู้เข้าไปในคำสั่งแรก อย่าทำเช่นนี้ เริ่มต้นด้วยคำอธิบายสั้น ๆ และเฉพาะเจาะจงเพื่อดูว่าระบบทำงานอย่างไรใน 'สถานะเริ่มต้น' ของมัน นี่คือคำสั่งที่ผมใช้เมื่อทดสอบครั้งแรกในระหว่างเตรียมบทความนี้:

A golden retriever puppy sitting in a sunlit field of wildflowers, shallow depth of field,
warm afternoon light.

(คำอธิบาย: ลูกสุนัขพันธุ์โกลเด้นรีทรีฟเวอร์นั่งอยู่ท่ามกลางดอกไม้ป่าในแสงแดดยามบ่าย โดยมีระยะชัดตื้นและแสงอุ่นยามบ่าย)

วางข้อความลงในช่องป้อนข้อมูลแล้วคลิก สร้าง ส่วนใหญ่แล้วระบบจะแสดงผลลัพธ์ภายใน 20 ถึง 40 วินาที อย่างไรก็ตาม อาจใช้เวลานานกว่าเล็กน้อยในช่วงเวลาที่มีการใช้งานสูง

ขั้นตอนที่ 4: ประเมินผลลัพธ์อย่างตรงไปตรงมา

เมื่อฉันรันคำสั่งข้างต้นเป็นครั้งแรก ผลลัพธ์ที่ได้ค่อนข้างตรงตามที่ต้องการ: โทนสีอบอุ่น ดวงตาคมชัด และฉากหลังเบลออย่างเป็นธรรมชาติ—แม้ว่าอุ้งเท้าของสุนัขจะเบลอเล็กน้อย ซึ่งเป็นจุดอ่อนทั่วไปของโมเดลภาพในปัจจุบัน นี่เป็นสิ่งที่ปกติมาก ขั้นตอนนี้ไม่ได้มีไว้สำหรับการให้คะแนน แต่เพื่อช่วยให้คุณเข้าใจว่า 'ผลลัพธ์เริ่มต้น' มีลักษณะอย่างไร

ในภาพแรก คุณต้องให้ความสนใจอย่างน้อยสามสิ่ง:

หัวข้อถูกต้องหรือไม่? แบบจำลองแสดงหัวข้อที่คุณร้องขอหรือไม่? หรือไม่ถูกต้อง (เช่น มีการวาดโกลเด้น รีทรีฟเวอร์เป็นลาบราดอร์)?
**ทิศทางของแสง. ** แสงจริงตรงกับคำอธิบายของคุณหรือไม่? 'แสงอุ่นยามบ่าย' ควรเป็นแสงนุ่มนวลจากด้านข้างที่มีทิศทาง ไม่ใช่แสงจากด้านบน
องค์ประกอบ การจัดวางของวัตถุตรงกับภาพที่คุณนึกไว้หรือไม่? หรือมันดูวางอยู่ตรงกลางอย่างไม่เหมาะสม?

หากมีข้อใดข้อหนึ่งในสามข้อนี้ไม่ถูกต้อง คุณมีเหตุผลที่ชัดเจนในการปรับคำแนะนำ แทนที่จะรันโมเดลใหม่อีกครั้งโดยไม่พิจารณา

ขั้นตอนที่ 5: เขียนข้อความกระตุ้นที่เหมาะสม

ด้านล่างนี้เป็นเวอร์ชันขั้นสูงของฉากเดียวกัน หัวข้อและวิธีการจัดแสงยังคงเหมือนเดิม แต่การจัดองค์ประกอบเหมาะสมกับ GPT Image 2 มากขึ้น:

A 3-month-old golden retriever puppy with fluffy fur and floppy ears, sitting upright in a
meadow of wild daisies and lavender. Warm late-afternoon sunlight streams from the left,
casting long gentle shadows and creating a soft golden rim light on the fur. Shallow depth
of field, background softly blurred with bokeh. Shot on an 85mm lens, eye level with the
puppy. Photorealistic, high detail, natural colors.

(คำอธิบาย: ลูกสุนัขพันธุ์โกลเด้น รีทรีฟเวอร์อายุสามเดือน มีขนฟูฟ่องและหูตก นั่งตัวตรงอยู่บนทุ่งหญ้าที่ประดับประดาไปด้วยดอกเดซี่ป่าและดอกลาเวนเดอร์) แสงแดดยามบ่ายที่อบอุ่นส่องเข้ามาจากทางซ้าย ทอดเงาที่ยาวและนุ่มนวล สร้างรัศมีสีทองรอบขนของมัน ความชัดลึกตื้นพร้อมพื้นหลังที่เบลออย่างนุ่มนวลและมีโบเก้ ถ่ายด้วยเลนส์ 85 มม. ในระดับสายตาเดียวกับลูกสุนัข สไตล์สมจริง รายละเอียดสูง สีสันเป็นธรรมชาติ)

เมื่อเปรียบเทียบกับฉบับแรก มีการเปลี่ยนแปลงสี่ประการ:

รายละเอียดที่เฉพาะเจาะจงเกี่ยวกับหัวข้อ ("อายุสามเดือน", "ขนฟู", "หูอ่อนนุ่ม") ช่วยให้โมเดลสามารถจินตนาการภาพได้ชัดเจนขึ้น
ทิศทางของแสงที่ชัดเจน ("จากทางซ้าย", "แสงส่องตามเส้นขน"), แทนที่จะอธิบายเพียงว่า "อบอุ่น"
ข้อมูลจำเพาะของกล้อง (เช่น "เลนส์ 85 มม.", "ระดับสายตาเท่ากับลูกสุนัข") ให้แม่แบบการจัดองค์ประกอบที่ชัดเจนแก่โมเดล
คำอธิบายคุณภาพที่วางไว้ท้าย (เช่น "สมจริง, รายละเอียดสูง, สีธรรมชาติ") – สั้นและไม่รบกวน

คลิก 'สร้าง' อีกครั้ง ภาพที่สองควรจะใกล้เคียงกับสิ่งที่คุณนึกไว้มากขึ้น หากยังไม่ตรงตามที่ต้องการ อย่าเขียนใหม่ทั้งส่วน ให้เปลี่ยนตัวแปรทีละตัว สร้างภาพใหม่และเปรียบเทียบผลลัพธ์ วิธีนี้เป็นวิธีเดียวที่จะช่วยให้คุณทราบว่าคำไหนมีผลตามที่ต้องการ

แบบจำลองทางความคิดที่มีประโยชน์: แบ่งคำสั่งออกเป็นสี่ 'ช่อง'—หัวข้อ, การกระทำ, สถานที่, และสไตล์ ทุกครั้งให้แก้ไขเฉพาะช่องที่กำลังมีปัญหาเท่านั้น หากหัวข้อไม่ถูกต้อง ให้เปลี่ยนช่องหัวข้อ; หากแสงไม่เหมาะสม ให้เปลี่ยนช่องสถานที่; หากดูเหมือนการ์ตูนแต่คุณต้องการภาพถ่าย ให้เปลี่ยนช่องสไตล์

ขั้นตอนที่ 6: บันทึก, ดาวน์โหลด หรือดำเนินการซ้ำต่อไป

เมื่อคุณพอใจกับภาพแล้ว คุณจะพบปุ่มดาวน์โหลดอยู่ด้านล่างของภาพตัวอย่าง ระบบจะบันทึกการสร้างสรรค์แต่ละครั้งไว้ในประวัติบัญชีของคุณโดยอัตโนมัติ คุณสามารถตรวจสอบเวอร์ชันก่อนหน้า คัดลอกคำสั่งที่ใช้ และปรับปรุงการออกแบบของคุณต่อไปได้ หากคุณต้องการแก้ไขตัวละครนี้เพิ่มเติมในภายหลังผ่านเครื่องมือสร้างภาพ คุณสามารถเลือกภาพนี้จากประวัติของคุณเป็นภาพต้นฉบับได้

ภาพภาพยนตร์ที่สร้างขึ้นโดยใช้โมเดลแปลงข้อความเป็นภาพของ GPT-Image 2: ผู้หญิงในชุดเดรสยาวผ้าไหมสีขาวบนชายหาดในช่วงเวลาทอง — คำสั่งสร้างภาพที่รวมคำอธิบายเฉพาะเกี่ยวกับแสง โดยระบุ 'golden hour' และ 'silk in backlight' ทำให้โมเดลได้รับสัญญาณภาพที่ชัดเจนในการทำงาน

กระบวนการ 'เปิด—เขียน—ประเมินผล—ปรับแต่ง—สร้างใหม่' ที่คุณเพิ่งผ่านมานั้นคือขั้นตอนทั้งหมดของการสร้างภาพจากข้อความ บทความส่วนที่เหลือนี้จะแสดงให้คุณเห็นวิธีการดำเนินวงจรนี้ให้เร็วและมีประสิทธิภาพยิ่งขึ้น

หากคุณวางแผนที่จะใช้ GPT Image 2 ในระยะยาว ฉันขอแนะนำให้เก็บไฟล์ข้อความธรรมดาเพื่อบันทึก 'คำสั่งที่มีประสิทธิภาพ' นี่ไม่ใช่แม่แบบ แต่เป็นบันทึกส่วนตัวของคุณเอง—ทุกครั้งที่คุณพอใจกับภาพใด ให้เพิ่มคำสั่งเต็มรูปแบบลงในบรรทัดใหม่เป็นหมายเหตุ หลังจากหกเดือน คอลเลกชันนี้จะสะท้อนถึงความชอบด้านสุนทรียภาพของคุณได้ดีกว่าแม่แบบออนไลน์ทั่วไปใดๆ

วิธีที่ 2: จากภาพสู่ภาพ – การแก้ไขหรือปรับสไตล์ภาพถ่ายที่มีอยู่

การแปลงภาพต่อภาพ (i2i) เริ่มต้นด้วยภาพต้นฉบับ; โมเดลจะเก็บส่วนที่คุณต้องการไว้ และสร้างสรรค์ส่วนที่เหลือใหม่ตามคำแนะนำ (prompt) ให้ตรงกับสิ่งที่คุณต้องการ ใช้โหมดนี้สำหรับงานเช่น 'เปลี่ยนชุดของบุคคลเดียวกัน', 'เปลี่ยนฉากหลังของสินค้าเดียวกัน', หรือ 'เปลี่ยนสไตล์ขององค์ประกอบเดียวกัน'

ขั้นตอนที่ 1: เปลี่ยนไปที่แท็บ 'ภาพเป็นภาพ'

กลับไปที่ตัวสร้างหน้าแรกและคลิก จากภาพเป็นภาพ พื้นที่อัปโหลดไฟล์จะปรากฏขึ้นเหนือช่องป้อนข้อมูล กล่องข้อความคำแนะนำยังคงอยู่ รองรับได้สูงสุด 20,000 ตัวอักษร แต่ตอนนี้ทำงานร่วมกับภาพที่อัปโหลดแล้ว

มันใช้ gpt-image-2-image-to-image อยู่เบื้องหลัง และราคาจะเท่ากับสำหรับการสร้างภาพจากข้อความ—12 เครดิตต่อภาพ ไม่มีแถบเลื่อน 'ความเข้ม' แยกต่างหาก; ระดับของการเปลี่ยนแปลงขึ้นอยู่กับคำที่คุณใช้ในคำสั่งของคุณทั้งหมด

หากคุณเคยใช้เครื่องมืออื่นสำหรับการเติมภาพ (InPainting) แบบใช้มาสก์มาก่อน โปรดทราบว่าจำเป็นต้องปรับวิธีการใช้งานใหม่: GPT Image 2 ไม่จำเป็นต้องวาดมาสก์ แต่จะวิเคราะห์ภาพต้นฉบับทั้งหมดร่วมกับข้อความคำสั่ง (prompt) อย่างครบถ้วนก่อนตัดสินใจว่าจะเปลี่ยนแปลงอะไร สำหรับความต้องการในชีวิตจริงถึง 80% เช่น การเปลี่ยนพื้นหลัง สลับชุด หรือเปลี่ยนจากกลางวันเป็นกลางคืน การแก้ไขเฉพาะข้อความคำสั่งมักจะให้ผลลัพธ์ที่มีประสิทธิภาพมากกว่า

ขั้นตอนที่ 2: อัปโหลดภาพต้นฉบับ

ลากไฟล์ JPG, PNG หรือ WebP ไปยังพื้นที่อัปโหลด หรือคลิกเพื่อเลือกไฟล์ สำหรับการลองครั้งแรก เราขอแนะนำให้เลือกรูปถ่ายที่มีแสงสว่างเพียงพอและองค์ประกอบเรียบง่าย รูปถ่ายที่มีภาพเบลอจากการเคลื่อนไหว แสงสลัว หรือพื้นหลังรกรุงรัง จะทำให้โมเดลมีพื้นที่ในการ 'ตีความ' มากขึ้น ซึ่งอาจทำให้เห็นความแตกต่างระหว่างภาพก่อนและหลังได้ยากขึ้น

ภาพด้านล่างนี้เป็นตัวอย่างคลาสสิกของภาพถ่ายประเภทที่ผู้เริ่มต้นอาจอัปโหลดเมื่อลองใช้เครื่องมือ AI เป็นครั้งแรก—เซลฟี่ในร่มแบบเรียบง่าย

เซลฟี่ในร่มธรรมดา ใช้เป็นตัวอย่างภาพต้นทางสำหรับการสร้างภาพของ GPT Image 2 — ภาพต้นฉบับ: ภาพเซลฟี่ในร่มที่ถ่ายในชีวิตประจำวันซึ่งมีการเปิดรับแสงมากเกินไปเล็กน้อย ไม่ใช่ภาพที่ผ่านการตกแต่งอย่างหนัก แต่เป็นประเภทของวัตถุดิบต้นทางที่ TuShengTu เชี่ยวชาญในการเปลี่ยนแปลง

ขั้นตอนที่ 3: ก่อนอื่น ตัดสินใจว่า—นี่คือ 'การซ่อมแซมเล็กน้อย' หรือ 'การปรับปรุงครั้งใหญ่'?

ก่อนที่คุณจะเขียนคำแนะนำของคุณ คิดให้ดีเกี่ยวกับระดับของการปรับเปลี่ยนที่คุณต้องการ การสร้างภาพใหม่และการเขียนทับภาพที่มีอยู่มีวัตถุประสงค์ที่แตกต่างกันอย่างสิ้นเชิง และคำแนะนำสำหรับแต่ละอย่างนั้นเขียนแตกต่างกัน:

แก้ไขเล็กน้อย (แก้ไข): คงไว้ซึ่งองค์ประกอบส่วนใหญ่ เปลี่ยนเพียงหนึ่งอย่าง "เปลี่ยนเสื้อผ้าเป็นสีน้ำเงินเข้ม" "ลบแก้วกาแฟออก" "เปลี่ยนพื้นหลังเป็นชั้นหนังสือ" "
เปลี่ยนแปลง: รักษาเนื้อหาเดิมไว้ แต่เขียนฉากใหม่ทั้งหมด "คนเดิม ตอนนี้สวมชุดฮั่นฟู่และยืนอยู่บนระเบียงของพระราชวังใต้แสงจันทร์" "สินค้าเดิม ตอนนี้วางอยู่บนโต๊ะหินอ่อนพร้อมแสงสตูดิโอ"

ยิ่งคำแนะนำอธิบายสถานการณ์ใหม่ได้ครอบคลุมมากเท่าไร โมเดลก็จะยิ่งเปลี่ยนแปลงมากขึ้นเท่านั้น หากระบุเพียงคุณลักษณะเดียว โมเดลจะมีแนวโน้มที่จะคงส่วนที่เหลือไว้ นี่คือการควบคุม 'ระดับของการเปลี่ยนแปลง' ของคุณเมื่อไม่มีแถบเลื่อน

ตัวอย่างเช่น: 'เปลี่ยนเสื้อเป็นสีน้ำเงินเข้ม' เป็นการแก้ไขที่แคบ ซึ่งใบหน้า ทรงผม ท่าทาง ฉากหลัง และแสงยังคงไม่เปลี่ยนแปลง ในทางตรงกันข้าม, 'เธอสวมชุดสูทสีน้ำเงินเข้มที่ตัดเย็บอย่างประณีต ยืนอยู่ในสำนักงานของบริษัทที่มีผนังกระจกในยามโกลเด้นอาวร์' เป็นการเปลี่ยนแปลงอย่างสิ้นเชิง—ชุดสูท, ฉากหลัง, และแสงสว่างล้วนเปลี่ยนแปลงไป ขณะที่ใบหน้าและรูปร่างยังคงเหมือนเดิม ทั้งสองประโยคเป็นประโยคเดียว แต่ขอบเขตของการเปลี่ยนแปลงขึ้นอยู่กับจำนวนขององค์ประกอบใหม่ที่คุณอธิบาย

ขั้นตอนที่ 4: เขียนข้อความบอกโมเดลว่า "อะไรที่ควรเก็บไว้"

นี่คือคำสั่งที่ฉันใช้เพื่อ 'แปลง' ภาพตามภาพต้นฉบับด้านบน:

Same woman — identical facial features and hair. Transform the scene: she now wears an
elaborate crimson-and-gold hanfu with intricate embroidery and a jeweled phoenix hairpin.
She stands on a moonlit palace terrace, red lanterns glowing softly in the background,
cherry blossom petals drifting in the air. Warm lantern light from the right, cool
moonlight fill from the left. Cinematic shallow depth of field, elegant composition, 4K
photorealistic.

(คำอธิบายภาษาจีน: ผู้หญิงคนเดิม—ใบหน้าและทรงผมยังคงไม่เปลี่ยนแปลง ฉากที่เขียนใหม่: ตอนนี้เธอสวมชุดฮั่นฟู่สีแดงและทองอันงดงาม ประดับด้วยงานปักที่ซับซ้อน มีกิ๊บปักผมรูปนกฟีนิกซ์ทองประดับมวยผมของเธอ เธอยืนอยู่บนระเบียงพระราชวังที่อาบไปด้วยแสงจันทร์ โดยมีโคมไฟสีแดงที่ส่องแสงนุ่มนวลและกลีบดอกซากุระที่ลอยล่องเป็นฉากหลัง) แสงโคมไฟอุ่นทางขวา แสงจันทร์เย็นทางซ้าย ความลึกของภาพแบบภาพยนตร์ที่ตื้น การจัดองค์ประกอบที่สง่างาม ความสมจริงระดับ 4K

มีการระบุไว้อย่างชัดเจนสองประเด็น:

"ผู้หญิงคนเดียวกัน — ใบหน้าและทรงผมเหมือนกันทุกประการ" ประโยคนี้ทำหน้าที่หลักในการรักษาเอกลักษณ์ของตัวละคร หากละเว้น โมเดลจะเบี่ยงเบนไปแบบสุ่ม
คำอธิบายฉากใหม่โดยละเอียด ระบุเสื้อผ้า สถานที่ อุปกรณ์ประกอบ และทิศทางของแสงอย่างชัดเจน โมเดลกำลังสร้างสภาพแวดล้อมทั้งหมดขึ้นมาใหม่และต้องการคำแนะนำที่ครบถ้วน ไม่ใช่แค่คำบรรยายสั้นๆ เพียงอย่างเดียว

ขั้นตอนที่ 5: เปรียบเทียบผลลัพธ์ก่อนและหลัง

คลิก 'สร้าง' เพื่อดูผลลัพธ์ เมื่อฉันทดสอบ ภาพที่สร้างขึ้นยังคงรักษาลักษณะใบหน้าและทรงผมที่จำได้ของบุคคลนั้นไว้ ในขณะที่ส่วนอื่นๆ ทั้งหมดถูกสร้างขึ้นใหม่ตามคำแนะนำ

GPT Image 2 image-to-image output: บุคคลเดียวกันถูกแปลงเป็นฉากจากละครศาลยุคสมัย — การสร้างภาพจากภาพ: อัตลักษณ์ของบุคคลยังคงสอดคล้องกันตลอดทั้งภาพ ในขณะที่เสื้อผ้า ฉาก และแสงสว่างถูกเขียนขึ้นใหม่ทั้งหมดตามคำแนะนำ

ดูภาพก่อนและหลังพร้อมกัน หากลักษณะใบหน้าเปลี่ยนแปลงมากเกินไป ให้เพิ่มวลีว่า 'คนเดียวกัน' ลงในคำสั่ง (เช่น เพิ่ม 'คงรูปหน้าเดิม ดวงตาเดิม จมูกเดิม รูปปากเดิม'—โดยคงรูปหน้า ดวงตา จมูก และรูปปากไว้) หากฉากยังไม่เปลี่ยนแปลงมากพอ ให้เพิ่มรายละเอียดสภาพแวดล้อมมากขึ้น นั่นคือตัวควบคุมที่คุณสามารถใช้ได้

ขั้นตอนที่ 6: โดยไม่ต้องออกจากหน้า ให้ใช้ผลลัพธ์ที่ได้เป็นข้อมูลนำเข้าถัดไป

สิ่งที่ดีที่สุดเกี่ยวกับการสร้างภาพจากภาพที่มีอยู่แล้วคือผลลัพธ์ที่คุณเพิ่งสร้างขึ้นสามารถทำหน้าที่เป็นภาพต้นฉบับที่ถูกต้องสำหรับการแก้ไขครั้งต่อไปของคุณได้ เพียงแค่คลิก 'ใช้เป็นอินพุตใหม่' และป้อนคำสั่งใหม่ (เช่น 'ฉากเดิม แต่ตอนรุ่งสาง' หรือ 'ท่าเดิม แต่ถือพัดพับในมือ') ภาพสุดท้ายที่สร้างขึ้นผ่านการแก้ไขทีละเล็กทีละน้อยมักจะดูสะอาดกว่าภาพที่สร้างจากคำสั่งเดียวที่ยาวเกินไปซึ่งพยายามทำทุกอย่างในครั้งเดียว

"การแก้ไขแบบต่อเนื่อง" เป็นหนึ่งในเทคนิคการทำงานที่มีคุณค่ามากที่สุดที่คุณควรนำไปใช้จากบทความนี้ ข้อผิดพลาดที่พบบ่อยสำหรับผู้เริ่มต้นคือการเขียนคำสั่งเพียง 300 คำที่พยายามครอบคลุมทุกอย่าง แต่สุดท้ายแม้จะลองถึงแปดครั้ง ผลลัพธ์ก็ยังไม่ได้ตรงตามที่ต้องการ วิธีการแบบมืออาชีพคือการทำงานเป็นขั้นตอน: ขั้นแรกให้สร้างตัวละครก่อน จากนั้นใช้ผลลัพธ์จากขั้นตอนก่อนหน้าเป็นข้อมูลอ้างอิงเพื่อปรับแต่งชุดแต่งกาย ฉาก และแสงให้สมบูรณ์ แต่ละรอบมีค่า 12 คะแนน รวมทั้งหมด 48 คะแนนในสี่รอบ – ส่งผลให้ได้ภาพสุดท้ายที่สะอาดกว่ามากเมื่อเทียบกับภาพที่สร้างจากการลองใหม่ทีละครั้งสิบครั้ง

การถ่ายโอนสไตล์ภาพต่อภาพด้วย GPT-Image 2: ภาพถ่ายชายหาดในชีวิตจริงทางซ้าย และภาพจินตนาการใหม่ในสไตล์ไซเบอร์พังค์นีออนทางขวา — ยกระดับการถ่ายโอนสไตล์ไปอีกขั้น: ตัวละครเดียวกันในท่าทางเดียวกัน ถูกสร้างขึ้นใหม่จากชายหาดจริงสู่ดาดฟ้าสไตล์ไซเบอร์พังค์นีออน เพียงแค่ระบุ "ท่าทางเดิม" ในคำสั่ง โมเดลจะคงโครงสร้างเรขาคณิตไว้ในขณะที่จินตนาการทุกอย่างใหม่ให้เข้ากับฉากใหม่

เคล็ดลับและเทคนิคการเขียนข้อความที่ช่วยปรับปรุงภาพของคุณได้จริง

ตอนนี้คุณมีความเข้าใจอย่างถ่องแท้เกี่ยวกับกระบวนการทำงานทั้งหมดแล้ว ความแตกต่างระหว่างผู้ใช้ใหม่ในวันแรกกับผู้ใช้ที่มีประสบการณ์ซึ่งสามารถสร้างผลงานพอร์ตโฟลิโอโดยใช้ GPT-Image 2 ได้นั้น ไม่ได้ขึ้นอยู่กับคำสั่งที่ลึกลับอะไร แต่ขึ้นอยู่กับการรู้ว่าเทคนิคใดที่ได้ผลจริง 9 ข้อด้านล่างนี้คือสิ่งที่ให้ผลตอบแทนคุ้มค่าที่สุดในการนำไปใช้จริง

เคล็ดลับที่ 1: วางเนื้อหาหลักไว้ตอนต้น และคำค้นหาไว้ตอนท้าย

เริ่มต้นข้อความโดยระบุว่า "ใคร/อะไรที่ถูกแสดง" และย้ายคำที่เกี่ยวข้องกับคุณภาพของภาพ เช่น เหมือนจริง, ภาพยนตร์, 4K และ รายละเอียดสูง ไปไว้ที่ท้ายข้อความ โมเดลจะอ่านข้อความตั้งแต่ต้นจนจบ; หัวข้อที่กล่าวถึงในตอนต้นจะได้รับการให้ความสำคัญสูงสุด ในขณะที่หัวข้อที่ซ่อนอยู่ท้ายข้อความภายใต้แท็กคุณภาพเจ็ดตัวจะถูกทำให้เจือจางลง

อ่อนแอ: ผลงานชิ้นเอก 4K ที่สมจริงเกินจริง: ภาพถ่ายระดับภาพยนตร์ที่มีความละเอียดสูงเป็นพิเศษของแมวนั่งอยู่บนขอบหน้าต่าง

แข็งแกร่ง: แมวสีดำและขาวในชุดทักซิโด้ นั่งอยู่บนขอบหน้าต่างไม้ มองออกไปยังถนนในเมืองที่ฝนตก ไฟอ่อน ๆ ส่องผ่านหน้าต่างเข้ามาอย่างนุ่มนวล; ความลึกของภาพตื้น ภาพเหมือนจริงราวกับภาพยนตร์

เคล็ดลับที่ 2: อธิบาย 'ทิศทางของแสง' ไม่ใช่ 'บรรยากาศของแสง'

การพูดว่า 'แสงสวย' นั้นแทบจะเหมือนกับการไม่พูดอะไรเลย การบรรยายเช่น 'แสงอาทิตย์ยามเย็นที่อบอุ่นจากทางซ้าย พร้อมเงายาวทอดไปทางขวา' จะบอกให้แบบทราบได้อย่างชัดเจนว่าเงาแต่ละจุดควรตกอยู่ที่ใด แหล่งกำเนิดแสงที่มีทิศทางเฉพาะและชื่อเฉพาะ เช่น แสงจากหน้าต่าง, แสงขอบ, ซอฟต์บ็อกซ์จากด้านบน, หรือ แสงนีออนเติมจากด้านหลัง เป็นหนึ่งในวิธีที่ประหยัดที่สุดในการปรับปรุงคุณภาพของภาพอย่างมีนัยสำคัญ

เคล็ดลับที่ 3: อธิบายองค์ประกอบของคุณโดยใช้คำศัพท์ทางถ่ายภาพเพื่อเพิ่มความสมจริงได้ทันที

หากคุณต้องการให้ภาพของคุณดูสมจริง ให้ยืมคำศัพท์จากช่างภาพมืออาชีพ โดยผสมผสานความยาวโฟกัส (35mm, 50mm, 85mm, 135mm), สัญญาณความลึกของสนาม (ความลึกของสนามตื้น, โฟกัสลึก) และมุมกล้อง (ระดับสายตา, มุมต่ำ, มุมสูง) นางแบบจะมีชุดของเทมเพลตการจัดองค์ประกอบที่เป็นรูปธรรมไว้ใช้ บทความในวิกิพีเดียภาษาอังกฤษเกี่ยวกับ Camera lenses เป็นแหล่งข้อมูลที่ยอดเยี่ยม ใช้เวลาอ่านเพียง 10 นาที ช่วยให้คุณตัดสินใจเลือกความยาวโฟกัสได้อย่างมีข้อมูล

เคล็ดลับที่ 4: อธิบายสไตล์โดยใช้ 'สื่อ' แทน 'ชื่อศิลปิน'

วลี "ในสไตล์ของศิลปินคนใดคนหนึ่ง" นั้นทั้งคลุมเครือและมักเกิดข้อโต้แย้งเกี่ยวกับการอ้างอิงถึงผู้สร้างสรรค์ผลงาน แนวทางที่น่าเชื่อถือกว่าคือการอธิบายสื่อที่ใช้เอง: ภาพวาดสีน้ำมันที่มีลายแปรงเห็นได้ชัด, ภาพร่างด้วยดินสอที่มีลายเส้นไขว้, ฟิล์ม Kodachrome ยุคเก่าที่มีเกรน, ภาพวาดเวกเตอร์ที่สะอาดด้วยสีแบน. สิ่งนี้มอบทิศทางด้านสุนทรียภาพโดยไม่จำเป็นต้องพึ่งพาบุคคลใดบุคคลหนึ่งโดยเฉพาะ

เคล็ดลับที่ 5: ใช้ 'การพูดเชิงบวก' แทน 'ข้อจำกัดเชิงลบ'

GPT Image 2 ไม่มีช่องป้อนข้อมูลแยกสำหรับคำสั่งเชิงลบ วิธีที่ดีที่สุดในการหลีกเลี่ยงองค์ประกอบบางอย่างคือการอธิบายอย่างชัดเจนว่าคุณต้องการอะไร แทนที่จะเขียนว่า ไม่มีคน ไม่มีข้อความ ไม่มีสิ่งรกรุงรัง ให้ลองเขียนว่า ห้องว่างเปล่าที่มีผนังสะอาด การจัดวางแบบมินิมอล และมีต้นไม้หนึ่งต้นอยู่ที่มุมห้อง คำอธิบายเชิงบวกเชื่อถือได้มากกว่าการใช้ถ้อยคำเชิงลบ

เคล็ดลับที่ 6: เมื่อสร้างภาพจากภาพ ให้กำหนดอัตลักษณ์ของวัตถุหลักก่อน แล้วจึงจินตนาการฉากใหม่

เมื่อทำการ 'เปลี่ยนชุด' หรือ 'เปลี่ยนฉาก' บรรทัดแรกของคำแนะนำเป็นสิ่งสำคัญในการทำให้ใบหน้าคงความสม่ำเสมอ การวางข้อความเช่น คนเดิม — รักษาลักษณะใบหน้า สีผม และสีผิว ไว้ที่จุดเริ่มต้นจะมีประสิทธิภาพมากกว่าการบรรยายฉากที่ซับซ้อนใดๆ ที่ตามมา หากคุณต้องการเน้นย้ำถึงตัวตนให้ชัดเจนยิ่งขึ้น ให้เพิ่ม รูปทรงตาเดิม จมูกเดิม ริมฝีปากเดิม การระบุอย่างชัดเจนจะมีประสิทธิภาพมากกว่าการบอกเป็นนัย

เคล็ดลับที่ 7: ปรับปรุงทีละขั้นตอนเล็ก ๆ แทนการเขียนใหม่ทั้งส่วน

เปลี่ยนตัวแปรเพียงหนึ่งตัวในแต่ละครั้ง หากท่าทางถูกต้องแต่เสื้อผ้าไม่เหมาะสม ให้เปลี่ยนเฉพาะส่วนที่เกี่ยวข้องกับเสื้อผ้าเท่านั้น หากแสงไม่เหมาะสมแต่ส่วนอื่น ๆ ถูกต้อง ให้เปลี่ยนเฉพาะส่วนที่เกี่ยวข้องกับแสงเท่านั้น นี่คือวิธีเดียวที่จะสร้างวงจรป้อนกลับที่สามารถควบคุมได้อย่างแท้จริง คุณจึงจะทราบได้อย่างชัดเจนว่าคำใดทำให้เกิดการเปลี่ยนแปลงใด การเขียนใหม่ทั้งส่วนจะรบกวนวงจรป้อนกลับนี้และทำให้คะแนนของคุณสูญเปล่า

เคล็ดลับที่ 8: เขียนคำสั่งตามลำดับ 'สิ่งที่โมเดลควรให้ความสำคัญ'

วางองค์ประกอบสำคัญไว้ที่จุดเริ่มต้น: หัวข้อ → การกระทำ → ฉาก → สไตล์ หากคุณเขียนว่า 'ในสไตล์ของภาพวาดสีน้ำมัน มีผู้หญิงในชุดสีแดงกำลังเดินลงถนนที่ปูด้วยหินกรวดในยามพลบค่ำ' คุณกำลังบอกโมเดลว่า 'นี่คือภาพวาดสีน้ำมันก่อนสิ่งอื่นใด' ส่วนที่เหลือเป็นเพียงองค์ประกอบรอง เปลี่ยนเป็น "ผู้หญิงในชุดสีแดงเดินลงถนนที่ปูด้วยหินกรวดในยามพลบค่ำ ถ่ายทอดเป็นภาพวาดสีน้ำมัน" และโมเดลจะรับรู้หัวข้อเป็นอันดับแรก ตามด้วยสื่อที่ใช้ ข้อมูลที่ได้รับยังคงเหมือนเดิม แต่ผลลัพธ์ในกรณีหลังมักจะให้ภาพที่แม่นยำกว่าอย่างมีนัยสำคัญ

เคล็ดลับที่ 9: ใช้คำศัพท์ที่ช่างภาพและผู้กำกับใช้จริง

มุมดัตช์, โฟกัสแบบเลื่อน, ชั่วโมงทอง, แสงกลางวันที่มีเมฆ, ซอฟต์บ็อกซ์, โกโบเงา, ฮีโร่ช็อต, ทูช็อต, พื้นที่ว่างเชิงลบ – คำเหล่านี้มีความหมายชัดเจนทั้งในด้านการถ่ายภาพและภาพยนตร์ และมีภาพจำนวนมากในข้อมูลฝึกอบรมที่ถูกติดแท็กด้วยคำเหล่านี้ คำอธิบายอารมณ์ที่คลุมเครือ (vibey, dreamy, epic) ให้สัญญาณที่อ่อนกว่ามากสำหรับโมเดล บทความในวิกิพีเดียภาษาอังกฤษเกี่ยวกับ Shot (filmmaking) เป็นแหล่งอ้างอิงคำศัพท์ที่มีประโยชน์ใช้เวลาประมาณ 15 นาที

ข้อผิดพลาดที่พบบ่อยที่สุดที่มือใหม่ทำ และวิธีหลีกเลี่ยง

พูดตามตรง ฉันเคยทำผิดพลาดทั้งหมดที่กล่าวมาเอง คุณก็อาจจะทำผิดพลาดเช่นกัน แต่อย่างน้อยคุณก็จะสามารถสังเกตเห็นมันได้เร็วขึ้น

ข้อผิดพลาดที่ 1: เขียนคำกระตุ้น 400 คำและคาดหวังว่าจะได้ร่างสุดท้ายในครั้งเดียว โมเดลภาพจะจัดการกับคำกระตุ้นที่ 'แคบและทำซ้ำ' ได้ดีกว่าคำกระตุ้นที่ 'ยาวมากและครอบคลุมทุกอย่าง' ข้อจำกัด 20,000 ตัวอักษรไม่ใช่เป้าหมาย คำกระตุ้นสำหรับผลลัพธ์ที่ฉันพอใจมากที่สุดใน GPT Image 2 ส่วนใหญ่อยู่ระหว่าง 40 ถึง 120 คำ

ข้อผิดพลาดที่ 2: สร้างข้อความใหม่ซ้ำๆ โดยไม่เปลี่ยนข้อความที่ป้อน หากคุณคลิก 'สร้าง' สองครั้งสำหรับข้อความเดียวกันและผลลัพธ์คือ 'เกือบถูกต้อง' การคลิกครั้งที่สามก็จะได้ผลลัพธ์เป็น 'เกือบถูกต้อง' เช่นกัน อัลกอริทึมจะสำรวจเฉพาะบริเวณใกล้เคียงเล็กๆ เท่านั้น หากทิศทางของบริเวณนั้นผิด การสร้างใหม่ซ้ำๆ จะไม่สามารถแก้ไขได้—คุณจำเป็นต้องปรับข้อความที่ป้อนใหม่

ข้อผิดพลาดที่ 3: ความขัดแย้งในข้อความคำสั่ง การใช้ทั้ง "สีน้ำที่นุ่มนวลเหมือนฝัน" และ "ภาพที่คมชัดระดับ 4K" ในข้อความคำสั่งเดียวกันนั้นขัดแย้งกัน โมเดลจะเลือกอย่างใดอย่างหนึ่ง หรือแย่กว่านั้นคือเฉลี่ยทั้งสองอย่างเข้าด้วยกัน คิดให้รอบคอบก่อนเขียน

ข้อผิดพลาดที่ 4: ตั้งความคาดหวังกับข้อความในภาพไว้สูงเกินไป ณ เดือนเมษายน 2026 โมเดลภาพ AI ยังคงมีปัญหาในการแสดงผลข้อความยาว ๆ ได้อย่างน่าเชื่อถือ โดยเฉพาะเมื่อมีอักขระที่ไม่ใช่ตัวอักษรละตินประกอบอยู่ ข้อความสั้น ๆ บนป้ายหรือสัญลักษณ์อาจแสดงผลได้บ้าง แต่ข้อความในระดับย่อหน้าแทบจะไม่ทำงานเลย หากข้อความเป็นสาระสำคัญหลักของภาพ ให้ใช้วิธีซ้อนข้อความทับภาพหลังจากโมเดลสร้างภาพเสร็จแล้ว โดยใช้โปรแกรมแก้ไขภาพใดก็ได้

ข้อผิดพลาดที่ 5: อัปโหลดภาพต้นฉบับที่เบลอ โมเดลจะใช้ระดับของรายละเอียดในภาพต้นฉบับเป็นเกณฑ์มาตรฐาน ภาพถ่ายจากมือถือที่เบลอหรือแสงน้อยจะยังคงรักษาคุณภาพที่เบลอไว้ในผลลัพธ์ ไม่ว่าคุณจะระบุในคำสั่งว่า "ชัดเจนและคมชัด" มากเพียงใดก็ตาม หากคุณสามารถเลือกภาพต้นฉบับที่ชัดเจนได้ ควรเลือกภาพนั้น

ข้อผิดพลาดที่ 6: อย่าทำให้มือเป็นจุดสนใจหลัก มือยังคงเป็นแหล่งที่มาของข้อบกพร่องที่พบบ่อยที่สุดในการสร้างภาพ หากองค์ประกอบต้องการให้มือโดดเด่น ยอมรับว่าคุณจะต้องทำการแก้ไขอีกสองสามครั้ง แต่ถ้ามือไม่ใช่ส่วนสำคัญของภาพ ให้ตัดออกจากเฟรมหรือปล่อยให้มือห้อยอย่างเป็นธรรมชาติ

ข้อผิดพลาดที่ 7: การละเลยอัตราส่วนภาพในขั้นตอนการอัปโหลดภาพต่อภาพ ผลลัพธ์ของการสร้างภาพต่อภาพมักจะยึดตามอัตราส่วนภาพของภาพต้นฉบับ หากคุณต้องการแบนเนอร์แต่กลับอัปโหลดภาพเซลฟี่แนวตั้ง ก็เหมือนกับการทำงานสวนทางกับระบบ ก่อนสร้างภาพ ให้ครอบตัดภาพต้นฉบับให้มีอัตราส่วนภาพตามที่ต้องการ

ข้อผิดพลาดที่ 8: การถือว่า 'รอบแรก' เป็นเวอร์ชันสุดท้าย ผู้ใช้ที่มีประสบการณ์จะถือว่า 'ผ่านได้' เป็นจุดเริ่มต้นสำหรับการปรับปรุงครั้งถัดไป ช่องว่างระหว่าง 'ผ่านได้' กับ 'เหมาะสมสำหรับผลงาน' มักจะปรากฏขึ้นในรอบที่สาม ไม่ใช่รอบแรก

ข้อผิดพลาดที่ 9: ลืมว่ารุ่นโมเดลไม่มีหน่วยความจำระหว่างรุ่น เว้นแต่คุณจะใช้วิธีการสร้างแบบ 'ภาพต่อภาพ' เพื่อใช้ผลลัพธ์ก่อนหน้าเป็นภาพต้นฉบับ แต่ละรุ่นจะเป็นภาพใหม่ทั้งหมด หากคุณต้องการใช้ตัวละครเก่าซ้ำ ให้บันทึกคำสั่งเดิมหรือใช้ภาพก่อนหน้าสำหรับการแก้ไขต่อเนื่อง

GPT Image 2 ทำงานภายในอย่างไร (ภาพรวมโดยย่อ)

ส่วนนี้ไม่จำเป็น แต่จะช่วยให้คุณตั้งความคาดหวังที่เป็นจริงได้ GPT Image 2 เป็น UI ที่ถูกออกแบบมาให้ใช้งานง่าย ซึ่งเรียกใช้โมเดล KIE สองตัวโดยตรง: gpt-image-2-text-to-image และ gpt-image-2-image-to-image โมเดลเหล่านี้อยู่ในตระกูล diffusion model และได้รับการปรับแต่งให้เหมาะสมสำหรับการปฏิบัติตามคำสั่งและความสมจริงในระดับสูง การร้องขอแต่ละครั้งจะต้องมีการยืนยันตัวตน คิดค่าใช้จ่าย 12 เครดิต ถูกจัดคิว และจะส่งคืน URL ของภาพ

การขาดแคลนสไลเดอร์บนอินเทอร์เฟซนั้นเป็นการตั้งใจ: KIE API ไม่ได้เปิดเผยการควบคุมเหล่านี้ และการเพิ่ม 'สไลเดอร์จำลอง' ที่ระดับอินเทอร์เฟซผู้ใช้จะเป็นการทำให้เข้าใจผิดเท่านั้น ทุกสิ่งที่โมเดลสามารถทำได้จะถูกแสดงผ่านคำสั่ง เพื่อความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับหลักการเบื้องหลังนี้ โปรดดูที่บทความในวิกิพีเดียเกี่ยวกับ แบบจำลองการแพร่ และหน้าวิจัยของ OpenAI](https://openai.com/research/).

GPT Image 2 ก็มีข้อบกพร่องเช่นกัน

บทเรียนที่เน้นแต่ข้อดีโดยไม่กล่าวถึงข้อเสียนั้นไม่ใช่บทเรียนที่แท้จริง ด้านล่างนี้คือข้อบกพร่องทั่วไปของ GPT Image 2—และที่จริงแล้ว เป็นข้อบกพร่องของโมเดลภาพกระแสหลักทั้งหมดในปัจจุบัน:

การจำลององค์ประกอบของแบรนด์อย่างแม่นยำ โลโก้ ตัวละครที่ได้รับอนุญาต และบรรจุภัณฑ์ของผลิตภัณฑ์ไม่สามารถจำลองได้อย่างน่าเชื่อถือ วิธีที่ถูกต้องคือการสร้างองค์ประกอบขึ้นมาก่อนแล้วจึงนำโลโก้จริงมาประกอบในภายหลัง
ความสอดคล้องอย่างเคร่งครัดกับภาพอ้างอิง ** เมื่อตัวละครจำเป็นต้องคงความสม่ำเสมออย่างสมบูรณ์ในภาพหลายสิบภาพ (เช่นในการ์ตูนต่อเนื่อง) การสร้างภาพจากภาพหนึ่งไปยังอีกภาพหนึ่งจะมีประสิทธิภาพดีกว่าการสร้างภาพจากข้อความอย่างมากในการรักษาเอกลักษณ์ของตัวละคร แต่ยังคงขาดความแม่นยำในระดับเฟรมต่อเฟรมที่ได้จากการฝึก LoRA หรือการติดตั้งตัวละคร 3 มิติ
กายวิภาคในท่าทางสุดขั้ว นิ้วมือ นิ้วเท้า ฟัน หู และแขนขาที่ไขว้กันเป็นบริเวณที่มักเกิดการบิดเบือนมากที่สุด ยิ่งถ่ายภาพใกล้เท่าไร ข้อบกพร่องก็จะยิ่งเห็นได้ชัดเจนมากขึ้นเท่านั้น
องค์ประกอบสมบูรณ์แบบ ดังที่กล่าวไว้ก่อนหน้านี้—ข้อนี้ยังคงเป็นจริง

นี่คือสองประเด็นเพิ่มเติมที่ควรคำนึงถึง: ประการแรก แบบจำลองการแพร่กระจาย (diffusion models) มีลักษณะของการสุ่มในตัว—คำสั่งเดียวกันจะให้ผลลัพธ์ที่แตกต่างกันในแต่ละครั้ง ความหลากหลายถือเป็นข้อได้เปรียบ ในขณะที่ความสม่ำเสมอเป็นข้อเสีย ซึ่งสามารถบรรเทาได้ด้วยการแก้ไขภาพแบบต่อเนื่อง (image-to-image chained editing) ประการที่สอง แบบจำลองสะท้อนการกระจายตัวของข้อมูลที่ใช้ฝึกฝน ดังนั้นจึงยากกว่าที่จะถ่ายทอดบริบททางวัฒนธรรมเฉพาะกลุ่มให้ถูกต้องในครั้งแรกเมื่อเทียบกับหัวข้อที่เป็นกระแสหลัก ดังนั้นควรคาดหวังว่าจะต้องมีการปรับแก้หลายครั้ง

กระบวนการสร้างภาพด้วย AI ที่มีประสิทธิภาพอย่างแท้จริงไม่ได้ขึ้นอยู่กับการพึ่งพารูปแบบเดียวในการทำทุกอย่าง แต่เป็นการใช้ GPT Image 2 เพื่อจัดการกับภาพหลัก 80% ในขณะที่โปรแกรมแก้ไขพื้นฐานจะดูแลการปรับแต่งด้วยมืออีก 20% ที่เหลือ

คู่มือหนึ่งหน้า: กระบวนการทั้งหมด

หากคุณต้องการเพียงเวอร์ชันที่จะติดไว้ข้างหน้าจอและอ่านได้อย่างรวดเร็ว:

เปิด หน้าแรก GPT Image 2 และเข้าสู่ระบบ
ตรวจสอบให้แน่ใจว่าบัญชีของคุณมีเครดิตอย่างน้อย 12 เครดิต
เลือกแท็ก: ข้อความเป็นภาพ หรือ ภาพเป็นภาพ
การสร้างภาพ: อัปโหลดภาพต้นฉบับที่สะอาด
เริ่มต้นด้วยการเขียนคำแนะนำสั้น ๆ และเฉพาะเจาะจง วางหัวข้อไว้ก่อน ตามด้วยรายละเอียดที่อธิบาย
สร้างผลงาน ประเมินผลลัพธ์อย่างตรงไปตรงมาในสามมิติ: หัวข้อ แสง และการจัดองค์ประกอบ
เปลี่ยนตัวแปรเพียงหนึ่งตัว สร้างผลงานใหม่และเปรียบเทียบ
ทำซ้ำขั้นตอนที่ 6–7 จนกว่าคุณจะพอใจกับผลลัพธ์
ดาวน์โหลด

นั่นคือทั้งหมดที่มี. ทุกทางลัด, คำแนะนำ และนิสัยของผู้ใช้ที่มีประสบการณ์ที่กล่าวไว้ในบทความนี้ล้วนแต่เป็นการปรับเปลี่ยนของขั้นตอนทั้งเก้าขั้นตอนนี้.

นี่คือเคล็ดลับเล็กๆ อีกข้อหนึ่ง: เขียนข้อความที่คุณต้องการใช้เป็น prompt ลงในโปรแกรมแก้ไขข้อความก่อน จากนั้นค่อยคัดลอกไปวางในเครื่องมือสร้าง prompt วิธีนี้จะช่วยให้คุณเก็บบันทึกประวัติได้ง่ายขึ้น จัดลำดับคำใหม่ หรือนำส่วนเปิดที่ใช้บ่อย เช่น 'คนเดิม — รักษาลักษณะใบหน้า…' กลับมาใช้ซ้ำได้ เมื่อคุณพอใจกับภาพที่ได้แล้ว ให้คัดลอกเวอร์ชันสุดท้ายกลับไปยังบันทึก prompt ของคุณ ขั้นตอนเล็กๆ นี้จะช่วยป้องกันไม่ให้ prompt ที่ดีที่สุดของคุณสูญหายเมื่อรีเฟรชหน้าเว็บ

คำถามที่พบบ่อย

ใน GPT Image 2 จะได้รับคะแนนกี่คะแนนต่อภาพ?

ไม่ว่าจะเป็นข้อความเป็นภาพหรือภาพเป็นภาพ อัตราค่าบริการคือ 12 คะแนนต่อภาพ ไม่มีค่าใช้จ่ายเพิ่มเติมสำหรับ 'ข้อความยาว' 'ผลลัพธ์ขนาดใหญ่' หรือ 'การตั้งค่าคุณภาพสูง' — ตัวเลือกเหล่านี้ไม่มีอยู่จริง คะแนนจะถูกซื้อเป็นส่วนหนึ่งของแพ็กเกจบนเว็บไซต์ และบัญชีใหม่จะได้รับคะแนนทดลองใช้โดยอัตโนมัติ

ฉันจำเป็นต้องติดตั้งอะไรเพื่อใช้ GPT Image 2 หรือไม่?

ไม่จำเป็นครับ ทุกอย่างทำผ่านเบราว์เซอร์ได้เลย ไม่มีแอปพลิเคชันสำหรับเดสก์ท็อป ไม่มีส่วนขยายเบราว์เซอร์ และหน้าเว็บก็ไม่ต้องสมัคร API key อะไรทั้งนั้น สิ่งที่คุณต้องมีคือเบราว์เซอร์ที่ทันสมัยและบัญชีอีเมลเท่านั้น

ความยาวสูงสุดของคำสั่งคืออะไร?

ข้อความสำหรับทั้งการสร้างภาพจากข้อความและการสร้างภาพจากภาพรองรับได้สูงสุด 20,000 ตัวอักษร อย่างไรก็ตาม ในทางปฏิบัติ ข้อความที่มีประสิทธิภาพมากที่สุดมักมีความยาวระหว่าง 40 ถึง 200 คำ ข้อความที่ยาวเกินไปมักจะลดทอนสัญญาณหรือแม้กระทั่งทำให้เกิดความขัดแย้ง ข้อความที่มีโครงสร้างดีและกระชับมักจะให้ผลลัพธ์ที่ดีกว่า

ฉันสามารถอัปโหลดรูปภาพอ้างอิงหลายรูปพร้อมกันได้หรือไม่?

โหมด 'ภาพต่อภาพ' รองรับภาพต้นทางเพียงภาพเดียวในแต่ละครั้ง หากคุณต้องการรวมข้อมูลอ้างอิงหลายรายการ (เช่น 'ตัวละครนี้ + สไตล์ของชุดนี้') คุณสามารถใช้การสร้างแบบต่อเนื่องได้: เริ่มต้นด้วยการสร้างภาพขั้นกลาง จากนั้นใช้ภาพนั้นเป็นภาพต้นทางสำหรับการสร้างครั้งถัดไป โดยเพิ่มคำสั่งใหม่เพื่อปรับปรุงรายละเอียดต่อไป การแก้ไขแบบต่อเนื่องมักให้ผลลัพธ์ที่ชัดเจนกว่าการสร้างภาพจากคำสั่งเดียวที่ซับซ้อน

GPT Image 2 รองรับความละเอียดหรืออัตราส่วนภาพที่กำหนดไว้หรือไม่?

ราคาปัจจุบันเป็นมาตรฐานเดียวกัน และ KIE API เองไม่ได้มีการควบคุมใด ๆ ที่อนุญาตให้ผู้ใช้เลือกอัตราส่วนภาพหรือความละเอียดเฉพาะได้ ผลลัพธ์จากการสร้างภาพจากภาพโดยทั่วไปจะยึดตามรูปร่างของภาพต้นฉบับ ดังนั้น หากต้องการอัตราส่วนภาพที่เฉพาะเจาะจง คุณควรครอบตัดภาพต้นฉบับก่อน แล้วจึงสร้างภาพใหม่

สามารถนำภาพที่สร้างไปใช้ในเชิงพาณิชย์ได้หรือไม่?

ข้อกำหนดการใช้งานสำหรับผลลัพธ์อยู่ภายใต้ข้อกำหนดการให้บริการที่ระบุไว้ในส่วนท้ายของเว็บไซต์ กรุณาอ้างอิงข้อกำหนดเหล่านี้เป็นแนวทางที่ชัดเจนที่สุด ในทางปฏิบัติ ตั้งแต่ปี 2026 เป็นต้นไป ผู้ใช้ส่วนใหญ่ใช้เพื่อแนวคิดทางการตลาด เนื้อหาโซเชียลมีเดีย การสร้างต้นแบบ และโครงการสร้างสรรค์ส่วนบุคคล ก่อนใช้ภาพในผลิตภัณฑ์ที่สร้างรายได้ กรุณาตรวจสอบข้อกำหนดที่มีผลบังคับใช้ในขณะนั้น

ฉันจะมั่นใจได้อย่างไรว่าตัวละครเดียวกันจะดูสม่ำเสมอในหลายภาพ?

ใช้ การสร้างภาพจากภาพ และระบุข้อกำหนดการคงลักษณะเฉพาะตัวไว้อย่างชัดเจนที่จุดเริ่มต้นของคำสั่ง (เช่น "คนเดิม — คงลักษณะใบหน้า สีผม และสีผิว") จากนั้นใช้ผลลัพธ์แต่ละภาพเป็นภาพต้นฉบับสำหรับการสร้างภาพถัดไป โดยดำเนินการต่อด้วยคำอธิบายฉากใหม่ แม้ว่าวิธีนี้จะไม่ได้แม่นยำเท่ากับโมเดล LoRA ที่เฉพาะเจาะจงกับตัวละคร แต่ก็ยังดีกว่าการสร้างภาพใหม่จากข้อความทุกครั้งอย่างมาก

วิธีที่เร็วที่สุดในการเรียนรู้การใช้ GPT Image 2 คืออะไร?

สำหรับ 12 ถึง 20 รุ่นแรก ให้ใช้คำสั่งข้อความเพื่อสร้างภาพแบบง่าย ๆ เพื่อให้เข้าใจถึงพฤติกรรมมาตรฐานของโมเดลอย่างถ่องแท้ จากนั้นให้เปลี่ยนไปใช้การสร้างภาพจากภาพ โดยเริ่มต้นจากผืนผ้าใบเปล่า ให้ทำตามคู่มืออ้างอิงอย่างรวดเร็วในหน้า ก่อนหน้า และผู้ใช้ส่วนใหญ่จะสามารถทำได้ไม่ยากนักหลังจากฝึกฝนอย่างขยันขันแข็งประมาณหนึ่งชั่วโมง

ทำไมผลลัพธ์ของฉันถึงไม่เหมือนกับคำแนะนำที่ให้ไว้?

มีสามเหตุผลทั่วไป: ประการแรก คำคุณศัพท์ถูกสะสมไว้ที่ต้นประโยคในขณะที่หัวข้อหลักถูกซ่อนไว้ที่ท้ายประโยค—ให้ย้ายหัวข้อหลักไปไว้ที่ต้นประโยค; สอง, คำค้นหาที่ขัดแย้งกัน (เช่น 'สีน้ำ' และ 'เหมือนจริง' ปรากฏอยู่ข้างกัน) — ให้เลือกสื่อเพียงอย่างเดียว; สาม, การใช้คำที่สื่อถึงอารมณ์อย่างเดียว ('สวยงาม', 'น่าทึ่ง') โดยไม่มีคำนามเฉพาะ — ให้เพิ่มวัตถุเฉพาะ, ทิศทางของแสงสว่าง และภาษาภาพยนตร์;

พร้อมที่จะเริ่มต้นหรือยัง?

ณ จุดนี้ คุณมีขั้นตอนการทำงานที่สมบูรณ์แล้ว ชุดของเทมเพลตคำสั่งที่ใช้งานได้จริง รายการข้อควรระวังที่ควรหลีกเลี่ยง และแผ่นโกงหนึ่งหน้าที่สะดวก มีเพียงสิ่งเดียวที่เหลือให้ทำ: เปิดตัวสร้างและใช้เครดิต 100 ครั้งแรกของคุณเพื่อค้นหาว่า 'คำสั่งใดที่คุณชอบ' ไม่มีใครสามารถทำขั้นตอนนี้แทนคุณได้

เปิด GPT Image 2 และสร้างภาพแรกของคุณ →

หากคุณต้องการอ่านเพิ่มเติม:

GPT Image 2 คืออะไร? คุณสมบัติ, ราคา และกรณีการใช้งาน
คู่มือการใช้ GPT Image 2: เขียนข้อความกระตุ้นที่ใช้งานได้จริง
GPT Image 2 เทียบกับ Sora: การเปรียบเทียบความสามารถในการสร้างภาพ
ลองใช้ตัวสร้างข้อความกระตุ้นในตัวก่อน ซึ่งจะขยายแนวคิดง่ายๆ ให้เป็นข้อความกระตุ้นที่สมบูรณ์โดยอัตโนมัติ
คุณยังสามารถไปที่หน้าเฉพาะสำหรับ ข้อความเป็นรูปภาพ หรือ รูปภาพเป็นรูปภาพ ได้โดยตรง

บทความนี้เผยแพร่โดยทีม GPT Image 2 ณ เดือนเมษายน 2026 ทั้งสองโหมดจะคิดค่าบริการในอัตราคงที่ 12 เครดิตต่อภาพ หากมีการเปลี่ยนแปลงในอนาคต เราจะอัปเดตบทความนี้และแจ้งการเปลี่ยนแปลงในบันทึกการเปลี่ยนแปลง

คู่มือการใช้งาน GPT Image 2: คู่มือฉบับสมบูรณ์ตั้งแต่การลงทะเบียนจนถึงการสร้างภาพ (2026)

สารบัญ