Ringkasan Singkat
GPT Image 2 adalah alat pembuat gambar berbasis AI yang berjalan di dalam browser, dengan hanya dua mode—text-to-image dan image-to-image—yang dikenakan biaya 12 poin per gambar, tanpa opsi tambahan seperti resolusi, rasio, atau tingkat kualitas. Artikel ini akan memandu Anda mulai dari pendaftaran, pembuatan gambar pertama, mengunggah foto referensi untuk diedit, hingga strategi prompt yang benar-benar dapat menghasilkan gambar yang dapat digunakan, semuanya dalam satu panduan. Coba Gratis GPT Image 2 →
Sebelum Memulai: Apa yang Perlu Anda Siapkan
Untuk menggunakan GPT Image 2, Anda tidak memerlukan kartu grafis kelas atas, Photoshop, atau pengalaman apa pun dalam bidang AI; semua proses komputasi dilakukan di server, sedangkan browser hanya bertugas untuk menerima masukan dan menampilkan hasilnya. Yang perlu Anda siapkan sebenarnya sangat sederhana:
- Sebuah browser modern. Versi terbaru Chrome, Edge, Safari, Firefox, dan Arc dapat digunakan. Mengaktifkan akselerasi perangkat keras akan membuat pratinjau lebih lancar, tetapi tidak wajib.
- Sebuah akun email. Mendukung pendaftaran dengan kata sandi email, serta login satu klik Google. Akun email perusahaan atau Gmail dapat digunakan, namun domain email sekali pakai akan ditolak.
- Saldo poin yang cukup. Baik untuk teks ke gambar maupun gambar ke gambar, terlepas dari panjang prompt atau rasio output, tarifnya tetap 12 poin per gambar. Akun baru dilengkapi dengan poin uji coba gratis yang cukup untuk menyelesaikan beberapa gambar pertama dalam tutorial ini.
- Satu gambar referensi (opsional). Jika berencana menggunakan fitur gambar ke gambar, siapkan satu atau dua gambar sumber berformat JPG / PNG / WebP, disarankan ukuran per gambar tidak melebihi 10 MB. Komposisi persegi atau vertikal paling mudah menghasilkan hasil yang stabil.
- **Cukup dengan ide yang samar-samar. ** Pemula sering kali ingin menulis "prompt yang sempurna" sekaligus, sehingga malah terjebak dalam kebingungan. Cara yang benar-benar efektif adalah membuat satu gambar terlebih dahulu dengan prompt sederhana, melihat apa yang diberikan model, lalu memutuskan bagaimana memperbaikinya.
Hingga April 2026, untuk menggunakan GPT Image 2, Anda tidak perlu mengunduh aplikasi apa pun, tidak perlu mengajukan permohonan kunci API, dan tidak perlu mengantri. Cukup buka halaman utama, masuk, dan mulai membuat gambar—hanya tiga langkah saja.

Artikel ini ditujukan bagi mereka yang ingin menguasai penggunaan alat ini dengan baik. Pengoperasian alatnya sendiri dapat dipelajari dalam dua menit, namun yang benar-benar membutuhkan usaha adalah kemampuan untuk memutuskan "apa yang harus ditulis, apa yang harus diperhatikan, dan kapan harus melakukan perubahan"; bab-bab selanjutnya akan membahas hal-hal tersebut. Jika Anda terburu-buru, Anda dapat langsung melompat ke Metode 1, dan kembali membaca bagian tentang teknik kata kunci serta kesalahan umum setelah mendapatkan hasil pertama yang tidak memuaskan.
Metode Pertama: Teks ke Gambar — Membuat Gambar Pertama dari Nol
Fitur "Teks ke Gambar" adalah mode yang paling ingin dicoba oleh kebanyakan orang saat menggunakan GPT Image 2: cukup tulis deskripsi, klik tombol "Buat", dan model akan menghasilkan sebuah gambar yang lengkap. Berikut adalah langkah-langkahnya.
Langkah 1: Buka generator dan masuk
Buka Halaman Utama GPT Image 2. Panel pembuat konten terletak di layar pertama pada versi desktop, sedangkan pada versi seluler berada di blok pertama. Jika belum masuk, akan muncul opsi "Buat setelah masuk"; pilih alamat email atau akun Google untuk menyelesaikan proses masuk, yang hanya membutuhkan waktu kurang dari satu menit.
Setelah masuk, saldo poin akan ditampilkan di pojok kanan atas. Pastikan Anda memiliki setidaknya 12 poin—akun baru sudah dilengkapi dengan kuota uji coba, sehingga Anda tidak perlu menghubungkan kartu untuk menyelesaikan contoh pertama dalam artikel ini.
Langkah 2: Beralih ke tab Text to Image
Di bagian atas generator terdapat dua tab: Text to Image dan Image to Image. Pertama-tama, gunakan fitur teks ke gambar yang sudah menjadi pengaturan default. Kotak input terletak tepat di bawah bilah tab.
Tidak perlu memilih model secara manual—sistem ini menggunakan gpt-image-2-text-to-image dari KIE di balik layar, tanpa menu tarik-turun untuk resolusi, rasio, atau pengaturan lainnya: satu model, satu harga.
Langkah 3: Tulis terlebih dahulu sebuah prompt yang sengaja dibuat singkat
Kesalahan umum yang sering dilakukan pemula adalah mencantumkan semua kata sifat yang mereka ketahui ke dalam prompt pertama. Jangan lakukan itu. Gunakanlah terlebih dahulu deskripsi singkat dan spesifik untuk melihat bagaimana model bekerja dalam "mode default". Berikut ini adalah prompt yang saya gunakan saat mempersiapkan artikel ini dan melakukan pengujian pertama kali:
A golden retriever puppy sitting in a sunlit field of wildflowers, shallow depth of field,
warm afternoon light.(Arti dalam bahasa Mandarin: Seekor anak anjing Golden Retriever duduk di tengah hamparan bunga liar di bawah sinar matahari, dengan kedalaman bidang yang dangkal, serta cahaya sore yang hangat.)
Salin ke kotak input, lalu klik Generate. Sebagian besar prompt akan menampilkan hasilnya dalam waktu 20 hingga 40 detik, meskipun pada jam-jam sibuk prosesnya sedikit lebih lambat.
Langkah ke-4: Menilai hasil dengan jujur
Saat pertama kali saya menjalankan prompt di atas, hasilnya sudah cukup memuaskan: nuansa warnanya cenderung hangat, mata terlihat jelas, dan latar belakangnya buram secara alami—namun cakar anjingnya sedikit kabur, yang merupakan kelemahan umum dari model gambar saat ini. Hal ini wajar, karena langkah ini bukan untuk penilaian, melainkan untuk membangun pemahaman Anda tentang "hasil default".
Pada gambar pertama, perhatikan setidaknya tiga hal berikut:
- Apakah subjeknya tepat? Apakah model yang diberikan sesuai dengan subjek yang Anda inginkan? Atau apakah ada penyimpangan (misalnya, menggambar anjing Golden Retriever sebagai Labrador)?
- **Arah cahaya. ** Apakah pencahayaan yang sebenarnya sesuai dengan deskripsi Anda? "Cahaya sore yang hangat" seharusnya merupakan cahaya samping yang lembut dan berarah, bukan cahaya dari atas.
- Komposisi. Apakah pemotretan subjek sesuai dengan gambaran yang ada di benak Anda? Atau justru ditempatkan di tengah secara canggung?
Jika salah satu dari ketiga dimensi ini tidak sesuai, Anda memiliki alasan yang jelas untuk mengubah kata kunci—bukan sekadar mengulanginya tanpa pertimbangan.
Langkah ke-5: Tulis kalimat petunjuk yang telah dioptimalkan
Berikut ini adalah versi lanjutan dari adegan yang sama. Subjeknya sama, pendekatan pencahayaannya juga sama, tetapi menggunakan komposisi yang lebih sesuai untuk GPT Image 2:
A 3-month-old golden retriever puppy with fluffy fur and floppy ears, sitting upright in a
meadow of wild daisies and lavender. Warm late-afternoon sunlight streams from the left,
casting long gentle shadows and creating a soft golden rim light on the fur. Shallow depth
of field, background softly blurred with bokeh. Shot on an 85mm lens, eye level with the
puppy. Photorealistic, high detail, natural colors.(Arti dalam bahasa Mandarin: Seekor anak anjing Golden Retriever berusia tiga bulan, dengan bulu yang lebat dan telinga yang menggantung, duduk tegak di atas hamparan bunga aster liar dan lavender. Sinar matahari sore yang hangat menyinari dari sisi kiri, menghasilkan bayangan panjang yang lembut, dan menciptakan sorotan cahaya keemasan pada bulunya. Kedalaman bidang dangkal, latar belakang buram dengan efek bokeh. Lensa 85mm, sejajar dengan mata anjing. Gaya realistis, detail tinggi, warna alami.)
Dibandingkan dengan edisi pertama, ada empat perubahan:
- Detail subjek yang lebih spesifik ("berusia tiga bulan", "bulu yang lebat", "telinga yang lembut"), agar model dapat membayangkan gambaran yang jelas.
- Arah cahaya yang jelas ("dari sisi kiri", "cahaya kontur menyinari bulu"), bukan hanya menulis "hangat".
- Bahasa lensa ("lensa 85mm", "sejajar dengan mata anjing kecil") memberikan model template komposisi yang konkret.
- Kata sifat yang menggambarkan kualitas ditempatkan di akhir ("realistis, detail tinggi, warna alami") — singkat, tidak mendominasi.
Klik Generate sekali lagi. Gambar kedua seharusnya lebih mendekati gambaran yang ada di benak Anda. Jika masih belum tepat, jangan menulis ulang seluruh teks—ubah satu variabel saja setiap kali, lalu buat dan bandingkan hasilnya, agar Anda tahu kata mana yang berpengaruh.
Model psikologis yang berguna: bagi kata kunci menjadi empat "komponen" — subjek, aksi, latar, dan gaya. Setiap kali, ubah hanya komponen yang bermasalah. Jika jenisnya tidak sesuai, ubah komponen subjek; jika pencahayaannya tidak tepat, ubah komponen latar; jika hasilnya seperti kartun padahal Anda menginginkan foto, ubah komponen gaya.
Langkah ke-6: Simpan, unduh, atau lanjutkan iterasi
Setelah puas dengan hasilnya, Anda akan melihat tombol unduh di bawah pratinjau. Setiap hasil yang dihasilkan akan disimpan secara otomatis di riwayat akun Anda; Anda dapat melihat kembali versi lama, menyalin prompt lama, atau melanjutkan proses iterasi. Jika nanti ingin mengedit karakter ini lebih lanjut di fitur "Generate from Image", cukup pilih gambar ini dari riwayat sebagai gambar sumber.

Proses "membuka—menulis teks—mengevaluasi—menyesuaikan—menghasilkan kembali" yang baru saja Anda lalui itulah siklus kerja keseluruhan dari proses pembuatan gambar dari teks. Seluruh isi artikel ini selanjutnya akan mengajarkan Anda cara menjalankan siklus tersebut dengan lebih cepat dan lebih hemat poin.
Jika Anda menggunakan GPT Image 2 dalam jangka panjang, disarankan untuk membuat file teks biasa yang berisi "prompt yang efektif". Ini bukan sekadar templat, melainkan catatan pribadi Anda—setiap kali hasilnya memuaskan, tambahkan prompt lengkap tersebut ke dalam file tersebut dengan menyisipkan satu baris catatan. Setelah enam bulan, kumpulan prompt ini akan lebih sesuai dengan selera estetika Anda daripada templat umum apa pun yang ada di internet.
Metode Kedua: Mengubah Gambar Menjadi Gambar — Mengedit atau Mengubah Gaya pada Foto yang Sudah Ada
Model image-to-image (i2i) menggunakan satu gambar sumber sebagai titik awal; model ini mempertahankan bagian yang ingin Anda pertahankan, lalu mengubah bagian lainnya sesuai dengan prompt yang diberikan. Gunakan mode ini untuk kebutuhan seperti "mengganti pakaian pada orang yang sama", "mengganti latar belakang pada produk yang sama", atau "mengganti gaya pada komposisi yang sama".
Langkah 1: Beralih ke tab Image to Image
Kembali ke pembuat halaman utama, klik Image to Image. Di atas area input akan muncul area unggah file; kotak petunjuk tetap ada dan masih mendukung hingga 20.000 karakter, tetapi kini berfungsi bersamaan dengan gambar yang diunggah.
Fitur ini menggunakan gpt-image-2-image-to-image di balik layar, dengan harga yang sama dengan fitur teks-ke-gambar—12 poin per gambar. Tidak ada penggeser "intensitas" tersendiri; seberapa besar perubahannya sepenuhnya bergantung pada cara Anda merumuskan prompt.
Bagi yang pernah menggunakan alat InPainting (perbaikan dengan masker) lainnya, perhatikan perubahan pendekatan ini: GPT Image 2 tidak mengharuskan Anda menggambar masker, melainkan membaca seluruh gambar sumber + seluruh teks petunjuk secara bersamaan sebelum memutuskan bagian mana yang akan diubah. Untuk 80% kebutuhan nyata (mengganti latar belakang, mengganti pakaian, mengubah siang menjadi malam), mengedit teks petunjuk saja justru lebih praktis.
Langkah 2: Unggah gambar asli
Seret file JPG / PNG / WebP ke area unggah, atau klik untuk memilih file. Untuk latihan pertama, disarankan memilih foto dengan pencahayaan yang jelas dan komposisi yang sederhana. Foto yang buram karena gerakan, pencahayaan redup, atau latar belakang yang berantakan akan memberi model lebih banyak ruang untuk "menafsirkan" secara bebas, sehingga justru membuat perbandingan sebelum dan sesudah menjadi sulit dipahami.
Gambar di bawah ini adalah contoh klasik dari "jenis gambar yang biasanya diunggah oleh pemula saat pertama kali mencoba alat AI" — sebuah foto selfie biasa di dalam ruangan.

Langkah 3: Tentukan dulu — apakah ini "perbaikan kecil" atau "perubahan total"?
Sebelum menulis prompt, pikirkan terlebih dahulu tingkat perubahan seperti apa yang Anda inginkan. Pembuatan gambar dari nol dan penggantian gambar memiliki tujuan yang sangat berbeda, sehingga cara penulisan promptnya pun berbeda:
- Perbaikan Kecil (Edit): Pertahankan sebagian besar, hanya ganti satu elemen. "Ganti warna baju menjadi biru laut." "Hapus cangkir kopi." "Ganti latar belakang menjadi rak buku. "
- Transformasi (Transform): Pertahankan identitas, tulis ulang seluruh adegan. "Orang yang sama, ganti pakaian menjadi hanfu dan berdiri di teras istana di bawah sinar bulan." "Produk yang sama, ganti menjadi meja marmer dengan pencahayaan studio."
Semakin lengkap deskripsi yang diberikan pada prompt untuk skenario baru, semakin banyak perubahan yang dilakukan model; jika hanya menyebutkan satu atribut, bagian lainnya cenderung dipertahankan. Inilah cara Anda mengontrol "tingkat perubahan" tanpa menggunakan penggeser.
Contoh: change the shirt to navy blue (mengganti kemeja menjadi biru laut) adalah pengeditan terbatas, di mana wajah, gaya rambut, pose, latar belakang, dan pencahayaan tetap tidak berubah. Jika diganti menjadi She is now wearing a tailored navy suit, standing in a glass-walled corporate office at golden hour (Dia kini mengenakan setelan biru navy yang pas, berdiri di kantor berkaca pada saat golden hour), ini merupakan transformasi—setelan, lingkungan, dan pencahayaan semuanya berubah, hanya wajah dan bentuk tubuh yang tetap sama. Meskipun hanya satu kalimat, tingkat perubahan ditentukan oleh seberapa banyak adegan baru yang Anda gambarkan.
Langkah ke-4: Tuliskan prompt yang memberi tahu model "apa yang harus dipertahankan"
Berikut adalah kata kunci yang saya gunakan saat melakukan "transformasi" berdasarkan gambar sumber di atas:
Same woman — identical facial features and hair. Transform the scene: she now wears an
elaborate crimson-and-gold hanfu with intricate embroidery and a jeweled phoenix hairpin.
She stands on a moonlit palace terrace, red lanterns glowing softly in the background,
cherry blossom petals drifting in the air. Warm lantern light from the right, cool
moonlight fill from the left. Cinematic shallow depth of field, elegant composition, 4K
photorealistic.(Arti dalam bahasa Mandarin: Wanita yang sama—wajah dan gaya rambutnya tetap sama. Penulisan ulang adegan: Kini ia mengenakan pakaian tradisional Tiongkok berwarna merah keemasan yang mewah, dengan sulaman yang rumit, serta jepit rambut berbentuk burung phoenix emas di sanggulnya. Ia berdiri di teras istana di bawah sinar bulan, dengan latar belakang lentera merah yang memancarkan cahaya lembut dan kelopak bunga sakura yang beterbangan. Sisi kanan diterangi cahaya lentera berwarna hangat, sisi kiri dipenuhi cahaya bulan yang dingin. Kedalaman bidang yang dangkal layaknya film, komposisi yang elegan, realistis dalam resolusi 4K.)
Ada dua hal yang secara khusus disebutkan:
- "Wanita yang sama — ciri wajah dan rambut yang identik." Kalimat ini hampir menyelesaikan seluruh proses pemeliharaan identitas. Jika tidak ditulis, model akan bergeser secara acak.
- Deskripsi lengkap tentang adegan baru. Pakaian, lokasi, properti, dan arah cahaya harus dijelaskan dengan jelas. Model sedang merekonstruksi seluruh lingkungan, sehingga membutuhkan serangkaian instruksi lengkap, bukan hanya satu label.
Langkah ke-5: Bandingkan hasil sebelum dan sesudah
Klik "Generate" dan lihat hasilnya. Saat saya mengujinya, gambar yang dihasilkan tetap mempertahankan kontur wajah dan gaya rambut subjek yang dapat dikenali, sementara semua elemen lainnya direkonstruksi sesuai dengan petunjuk yang diberikan.

Lihatlah gambar sebelum dan sesudahnya secara bersamaan. Jika bentuk wajah berubah terlalu banyak, tambahkan frasa "same person" ke dalam prompt (misalnya, tambahkan "pertahankan bentuk wajah yang persis sama, mata yang sama, hidung yang sama, bentuk bibir yang sama" — pertahankan bentuk wajah, mata, hidung, dan bentuk bibir); jika perubahan latar belakangnya kurang, tambahkan lebih banyak detail lingkungan. Itulah "knob" yang ada di tangan Anda.
Langkah ke-6: Tanpa perlu meninggalkan halaman, gunakan hasil keluaran sebagai masukan berikutnya
Keunggulan utama dari fitur "Generate from Image" adalah: hasil gambar yang baru saja dihasilkan dapat langsung digunakan sebagai gambar sumber yang sah untuk pengeditan berikutnya. Cukup klik "Gunakan sebagai Masukan Baru", lalu tulis prompt baru (misalnya, "Adegan yang sama, ubah menjadi saat fajar" atau "Pose yang sama, tambahkan kipas lipat di tangan"). Gambar akhir yang dihasilkan melalui serangkaian pengeditan bertahap hampir selalu lebih rapi daripada gambar yang dihasilkan dari prompt sangat panjang yang mencoba mencakup segalanya sekaligus.
"Pengeditan Berurutan" adalah salah satu teknik alur kerja paling berguna yang dapat Anda terapkan dari artikel ini. Kesalahan umum yang sering dilakukan pemula: menulis prompt sepanjang 300 kata yang mencoba mencakup segalanya, lalu mencoba ulang delapan kali namun hasilnya tetap tidak sesuai. Cara profesionalnya adalah dengan membagi proses menjadi beberapa tahap: selesaikan karakter terlebih dahulu, lalu gunakan hasil tahap sebelumnya sebagai gambar dasar untuk menyempurnakan pakaian, lingkungan, dan pencahayaan. Setiap putaran bernilai 12 poin, total empat putaran adalah 48 poin—hasilnya jauh lebih rapi daripada jika melakukan pengulangan sepuluh kali sekaligus.

Tips dan trik kata kunci yang benar-benar dapat meningkatkan kualitas gambar
Kini Anda telah menguasai alur kerja secara menyeluruh. Perbedaan antara pengguna baru di hari pertama dan pengguna lama yang mampu menghasilkan portofolio menggunakan GPT Image 2 bukanlah terletak pada kata kunci misterius tertentu, melainkan pada pemahaman tentang strategi mana yang benar-benar efektif. Sembilan poin berikut ini adalah yang memberikan hasil terbaik dalam praktiknya.
Tips 1: Letakkan kata kunci utama di awal, dan kata kunci pendukung di akhir
Tuliskan "siapa/apa yang digambar" di awal prompt, lalu pindahkan kata-kata yang berkaitan dengan kualitas gambar seperti photorealistic, cinematic, 4K, dan high detail ke bagian akhir. Model membaca prompt dari awal ke akhir; subjek yang disebutkan di awal akan mendapat bobot tertinggi, sedangkan subjek yang tersembunyi di balik tujuh label kualitas tersebut akan kehilangan bobotnya.
Kurang bagus: Foto ultra-HD bergaya sinematik yang sangat detail dan hiperrealistis dalam resolusi 4K, menampilkan seekor kucing yang sedang duduk di ambang jendela
Cukup kuat: Seekor kucing tuxedo hitam-putih duduk di ambang jendela kayu, memandangi jalanan kota yang basah oleh hujan di luar. Cahaya lembut yang menyebar dari jendela, kedalaman bidang yang dangkal. Fotorealistik, sinematik.
Tips 2: Gambarkan "arah cahaya", bukan "suasana cahaya"
"beautiful lighting" (pencahayaan yang indah) hampir sama saja dengan tidak mengatakan apa-apa. "warm sunset light from the left, long shadows falling to the right" (cahaya senja hangat dari kiri, bayangan panjang menjulur ke kanan) barulah memberi tahu model di mana setiap bayangan harus jatuh. Sumber cahaya yang memiliki arah dan nama (window light, rim light, softbox from above, neon fill from behind) adalah salah satu cara paling efisien dan paling efektif untuk meningkatkan kualitas gambar.
Tips 3: Gunakan istilah fotografi untuk mendeskripsikan komposisi, dan kesan realistisnya langsung meningkat
Jika ingin menghasilkan foto yang terlihat realistis, gunakan istilah-istilah yang biasa digunakan fotografer. Dengan menggabungkan rentang fokus (35mm, 50mm, 85mm, 135mm), petunjuk kedalaman bidang (shallow depth of field, deep focus), dan sudut pengambilan gambar (eye level, low angle, overhead), model akan mendapatkan serangkaian templat komposisi yang konkret. Artikel Camera lens di Wikipedia bahasa Inggris adalah sumber yang bagus dan dapat dibaca dalam 10 menit, yang akan membantu Anda memilih panjang fokus secara sadar.
Tips 4: Jelaskan gaya berdasarkan "media" alih-alih "nama seniman"
"Dalam gaya seniman tertentu" adalah frasa yang rentan dan dapat menimbulkan perdebatan mengenai kepemilikan. Pendekatan yang lebih aman adalah mendeskripsikan media itu sendiri: lukisan minyak dengan jejak kuas yang terlihat, sketsa pensil dengan teknik cross-hatching, tampilan film Kodachrome vintage dengan butiran, ilustrasi vektor bersih dengan warna datar. Hal ini memberikan arahan estetika tanpa bergantung pada individu tertentu.
Tips 5: Gunakan "deskripsi positif" sebagai pengganti "pembatasan negatif"
GPT Image 2 tidak memiliki kotak masukan khusus untuk kata kunci negatif. Cara terbaik untuk menghindari elemen tertentu adalah dengan mendeskripsikan secara jelas apa yang Anda inginkan. Daripada menulis no people, no text, no clutter, lebih baik tulis sebuah ruangan kosong dengan dinding yang bersih, komposisi minimalis, dan satu tanaman di sudut. Deskripsi positif jauh lebih dapat diandalkan daripada kalimat negatif.
Tips 6: Dalam membuat gambar berdasarkan gambar, tentukan dulu identitasnya, lalu ubah latar belakangnya
Saat melakukan "pergantian pakaian/latar", jika ingin wajah tetap konsisten, kalimat pertama dalam prompt sangatlah penting. Menempatkan kalimat seperti Same person — preserve facial features, hair color, and skin tone (Orang yang sama — pertahankan fitur wajah, warna rambut, dan warna kulit) di awal lebih efektif daripada deskripsi latar yang indah apa pun di bagian selanjutnya. Jika identitasnya perlu lebih ditekankan, tambahkan same eye shape, same nose, same lips. Menyebutkannya secara eksplisit lebih efektif daripada menyiratkannya.
Tips 7: Lakukan perbaikan bertahap, bukan menulis ulang seluruh bagian
Ubah hanya satu variabel setiap kali. Jika pose sudah benar tapi pakaiannya tidak, ubah hanya bagian yang berkaitan dengan pakaian; jika pencahayaannya tidak tepat tapi yang lain sudah baik, ubah hanya bagian yang berkaitan dengan pencahayaan. Dengan cara ini, Anda dapat membentuk siklus umpan balik yang benar-benar terkendali, sehingga tahu kata mana yang mengubah apa. Menulis ulang seluruh paragraf akan merusak sinyal ini dan menghabiskan poin.
Tips 8: Tulis kata kunci sesuai urutan "hal-hal yang harus diprioritaskan oleh model"
Letakkan elemen kunci di bagian depan: subjek → aksi → lingkungan → gaya. Jika ditulis sebagai "dalam gaya lukisan minyak, ada seorang wanita bergaun merah yang sedang berjalan di jalan berbatu saat senja", Anda memberi tahu model bahwa "ini pertama-tama adalah sebuah lukisan minyak", sedangkan yang lain hanyalah pelengkap. Ganti dengan "Seorang wanita bergaun merah berjalan di jalan berbatu saat senja, digambarkan sebagai lukisan minyak", model akan mendengarkan subjek terlebih dahulu, baru kemudian media. Jumlah informasinya sama, namun hasil gambar dari yang kedua biasanya jauh lebih akurat.
Tips 9: Gunakan istilah yang benar-benar digunakan oleh fotografer dan sutradara
Dutch angle (sudut Belanda), rack focus (pergeseran fokus), golden hour (jam emas), overcast daylight (cahaya siang hari saat mendung), softbox (kotak cahaya lembut), gobo shadow (bayangan gobo), hero shot (bidikan utama), two-shot (bidikan dua orang), negative space (ruang kosong) — istilah-istilah ini memiliki makna yang jelas dalam fotografi dan sinematografi, dan banyak gambar dalam data pelatihan dilengkapi dengan istilah-istilah tersebut. Kata-kata emosional yang samar (vibey, dreamy, epic) memiliki sinyal yang jauh lebih lemah bagi model. Entri Wikipedia bahasa Inggris Shot (filmmaking) merupakan panduan cepat kosakata yang bagus selama 15 menit.
Kesalahan yang Paling Sering Dilakukan Pemula, dan Cara Mengatasinya
Sejujurnya, saya pernah melakukan semua kesalahan di bawah ini. Kemungkinan besar Anda juga akan melakukannya, tetapi setidaknya Anda bisa lebih cepat menyadarinya.
Kesalahan 1: Menulis prompt sepanjang 400 karakter dengan harapan langsung menghasilkan hasil akhir. Model gambar lebih unggul dalam memproses prompt yang "singkat dan dapat diiterasi", bukan prompt yang "sangat panjang dan harus sempurna dalam sekali coba". Batas 20.000 karakter bukanlah tujuan utama. Hasil yang paling memuaskan yang saya peroleh dari GPT Image 2 umumnya berasal dari prompt yang terdiri dari 40 hingga 120 kata.
Kesalahan 2: Mengulangi proses pembangkitan berulang kali tanpa mengubah prompt. Jika prompt yang sama di-Generate dua kali, hasilnya "hampir sempurna"; namun, saat di-Generate untuk ketiga kalinya, hasilnya tetap "hampir sempurna". Proses pembangkitan hanya akan menjelajahi wilayah kecil; jika arah wilayahnya salah, mengulangi proses berulang kali pun tidak akan memperbaikinya—Anda harus mengubah prompt.
Kesalahan 3: Kata kunci yang saling bertentangan. Dalam deskripsi yang sama, Anda menulis "soft dreamy watercolor" (cat air yang lembut dan melamun) sekaligus "ultra-sharp photorealistic 4K" (4K fotorealistik yang sangat tajam). Hal ini bertentangan. Model akan memilih salah satu dari keduanya, atau yang lebih buruk lagi: menggabungkan keduanya secara rata-rata. Pikirkan dengan matang sebelum menulis.
Kesalahan 4: Terlalu berharap pada teks dalam gambar. Hingga April 2026, model gambar AI masih belum stabil dalam menampilkan teks panjang, terutama yang menggunakan karakter non-Latin. Teks dengan label pendek pada papan nama terkadang berhasil, namun teks berformat paragraf jarang berhasil. Jika teks merupakan informasi inti, cukup tambahkan lapisan teks tersebut menggunakan editor gambar apa pun setelah hasil gambar dihasilkan.
Kesalahan 5: Mengunggah gambar sumber yang buram. Model akan menggunakan tingkat detail gambar sumber sebagai acuan. Foto ponsel yang buram dan minim cahaya, meskipun Anda menuliskan prompt "jelas dan tajam", hasilnya tetap akan mempertahankan kesan buram tersebut. Pilihlah gambar sumber yang jelas jika memungkinkan.
Kesalahan 6: Jangan letakkan elemen kunci di tangan. Tangan tetap menjadi sumber kesalahan paling umum dalam pembuatan gambar. Jika komposisi memang harus menonjolkan tangan, bersiaplah untuk melakukan beberapa putaran pengeditan; jika bukan elemen inti, biarkan bagian tangan keluar dari bingkai atau biarkan menggantung secara alami.
Kesalahan 7: Mengabaikan rasio aspek saat mengunggah gambar untuk proses pembuatan gambar. Hasil gambar yang dihasilkan biasanya mengikuti rasio aspek gambar aslinya. Jika Anda ingin membuat spanduk tetapi mengunggah foto selfie vertikal, itu sama saja dengan melawan sistem. Potonglah gambar aslinya sesuai rasio aspek yang diinginkan sebelum proses pembuatan gambar dimulai.
Kesalahan 8: Menganggap "gambar pertama yang lumayan" sebagai hasil akhir. Pengguna yang berpengalaman akan menganggap "lumayan" sebagai titik awal untuk tahap berikutnya. Perbedaan antara "lumayan" dan "standar portofolio" biasanya terlihat pada hasil ketiga, bukan yang pertama.
Kesalahan 9: Lupa bahwa model tidak memiliki memori antara dua proses pembangkitan. Kecuali jika Anda menggunakan metode "generate-from-image" dengan menggunakan output sebelumnya sebagai gambar sumber, setiap proses pembangkitan adalah proses yang sepenuhnya baru. Jika ingin menggunakan kembali karakter lama, simpan prompt aslinya, atau langsung lakukan pengeditan berantai menggunakan gambar sebelumnya.
Bagaimana Cara Kerja GPT Image 2 dari Dalam (Ringkasan)
Bagian ini tidak wajib dibaca, tetapi dapat membantu Anda memahami apa yang diharapkan. GPT Image 2 adalah antarmuka pengguna (UI) yang disederhanakan, yang secara langsung memanggil dua model KIE, yaitu gpt-image-2-text-to-image dan gpt-image-2-image-to-image—kedua model ini termasuk dalam keluarga model difusi dan telah dioptimalkan untuk mengikuti instruksi serta menghasilkan gambar realistis dengan kualitas tinggi. Setiap permintaan akan melalui proses otentikasi, dikenakan biaya 12 poin, dimasukkan ke dalam antrian, dan menghasilkan URL gambar.
Sangat jarang terdapat tombol putar di antarmuka, dan hal ini memang disengaja: API KIE sendiri tidak menampilkan elemen kontrol tersebut, dan menambahkan "slider palsu" di tingkat atas hanya akan membingungkan. Segala hal yang dapat dilakukan oleh model diekspresikan melalui prompt. Untuk memahami prinsip kerjanya lebih dalam, silakan baca artikel Wikipedia Diffusion model dan halaman penelitian OpenAI Research page.
GPT Image 2 juga memiliki kelemahan
Jika hanya membahas kelebihannya tanpa menyinggung kekurangannya, itu bukanlah panduan yang baik. Berikut ini adalah kelemahan umum yang dimiliki oleh GPT Image 2—yang sebenarnya juga dimiliki oleh semua model gambar utama saat ini:
- Reproduksi elemen merek yang akurat. Logo, karakter berlisensi, dan kemasan produk tidak dapat direproduksi secara konsisten. Cara yang benar adalah membuat komposisi gambar, lalu menyisipkan logo asli ke dalamnya.
- **Konsistensi referensi yang ketat. ** Ketika sebuah karakter harus konsisten sepenuhnya di puluhan halaman (seperti komik serial), pemeliharaan identitas dalam gambar yang dihasilkan sudah jauh lebih baik daripada teks-ke-gambar murni, tetapi tetap tidak seakurat melatih LoRA atau pengikatan karakter 3D yang presisi hingga setiap frame.
- Anatomi pada pose ekstrem. Jari, kaki, gigi, telinga, dan anggota tubuh yang saling bersilangan adalah bagian yang paling rentan rusak. Semakin dekat sudut pandang kamera, semakin jelas kesalahannya.
- Tata letak yang sempurna. Seperti yang telah disebutkan sebelumnya—hal ini tetap berlaku.
Ada dua hal yang perlu diperhatikan: Pertama, model difusi pada dasarnya memiliki unsur acak dalam pengambilan sampel—hasil yang dihasilkan dari prompt yang sama akan berbeda setiap kali; keragaman merupakan kelebihannya, sedangkan konsistensi merupakan kekurangannya, yang terakhir ini dapat diatasi dengan pengeditan berantai gambar-ke-gambar. Kedua, model mencerminkan distribusi data pelatihan; konteks budaya yang kurang populer lebih sulit untuk dihasilkan dengan akurat dalam sekali coba dibandingkan dengan topik yang populer, sehingga diperlukan lebih banyak iterasi.
Alur kerja pembuatan gambar AI yang benar-benar baik bukanlah "mengandalkan satu model saja", melainkan "GPT Image 2 menangani 80% gambar inti, sementara editor dasar melakukan 20% penyempurnaan manual".
Panduan Singkat Satu Halaman: Alur Proses Lengkap
Jika Anda hanya ingin versi yang dapat dibaca sekilas di samping layar:
- Buka Halaman Utama GPT Image 2 dan masuk.
- Pastikan akun Anda memiliki setidaknya 12 poin.
- Pilih label: Text to Image atau Image to Image.
- Gambar ke gambar: unggah gambar sumber yang bersih.
- Tulis terlebih dahulu prompt yang singkat dan spesifik. Subjek di depan, kata-kata kualitas di belakang.
- Generate. Evaluasi secara jujur berdasarkan tiga dimensi: subjek, pencahayaan, dan komposisi.
- Ubah hanya satu variabel, generate ulang, dan bandingkan.
- Ulangi langkah 6–7 hingga hasilnya memuaskan.
- Unduh.
Itu saja. Semua pintasan, trik, dan kebiasaan para ahli yang disebutkan dalam artikel ini merupakan variasi dari sembilan langkah tersebut.
Satu kebiasaan kecil lagi: tulis prompt terlebih dahulu di editor teks, lalu tempelkan ke generator. Hal ini memudahkan untuk menyimpan riwayat, mengubah urutan kata, dan menggunakan kembali pembuka standar seperti "Same person — preserve facial features…". Setelah gambar yang dihasilkan memuaskan, salin kembali versi finalnya ke log prompt. Hambatan kecil ini dapat mencegah prompt terbaik Anda hilang saat menyegarkan browser.
Pertanyaan yang Sering Diajukan
Berapa poin yang diperoleh untuk setiap gambar di GPT Image 2?
Baik untuk pembuatan gambar dari teks maupun gambar ke gambar, tarifnya sama, yaitu 12 poin per gambar. Tidak ada biaya tambahan untuk "prompt yang lebih panjang", "hasil yang lebih besar", atau "tingkatan kualitas gambar yang lebih tinggi"—opsi-opsi tersebut memang tidak tersedia. Poin dapat dibeli dalam paket yang tersedia di situs web, dan akun baru akan secara otomatis mendapatkan poin uji coba.
Apakah perlu menginstal sesuatu untuk menggunakan GPT Image 2?
Tidak perlu. Semuanya dilakukan langsung di browser. Tidak ada aplikasi desktop, tidak ada ekstensi browser, dan antarmuka webnya juga tidak memerlukan pengajuan kunci API secara terpisah. Anda hanya memerlukan browser modern dan akun email.
Berapa panjang maksimal kata kunci?
Baik untuk model "teks ke gambar" maupun "gambar ke gambar", masukan prompt didukung hingga 20.000 karakter. Meskipun demikian, dalam praktiknya, prompt yang paling efektif umumnya terdiri dari 40 hingga 200 kata. Prompt yang terlalu panjang cenderung melemahkan sinyal, bahkan menimbulkan kontradiksi; prompt pendek dengan struktur yang baik biasanya lebih unggul.
Apakah bisa mengunggah beberapa gambar referensi sekaligus?
Mode "Gambar dari Gambar" hanya mendukung satu gambar sumber dalam satu kali proses. Jika Anda ingin menggabungkan beberapa referensi (misalnya, "karakter ini + gaya pakaian ini"), Anda dapat menggunakan metode pengeditan berantai: buatlah terlebih dahulu gambar perantara, lalu gunakan gambar tersebut sebagai gambar sumber untuk proses berikutnya dengan prompt baru dan lanjutkan pengeditannya. Pengeditan berantai biasanya menghasilkan gambar yang lebih rapi daripada menggunakan prompt yang rumit dalam satu kali proses.
Apakah GPT Image 2 mendukung resolusi atau rasio aspek tertentu?
Harga saat ini bersifat seragam, dan KIE API sendiri tidak menyediakan opsi pengaturan skala atau resolusi yang dapat dipilih pengguna. Hasil gambar yang dihasilkan biasanya mengikuti bentuk gambar aslinya—oleh karena itu, jika diperlukan skala tertentu, potong terlebih dahulu gambar aslinya sebelum menghasilkan gambar baru.
Apakah gambar yang dihasilkan dapat digunakan untuk tujuan komersial?
Hak penggunaan konten ini tunduk pada Ketentuan Layanan yang tercantum di bagian kaki halaman situs; Ketentuan Layanan tersebut berlaku sebagai acuan akhir. Dalam praktiknya, hingga tahun 2026, sebagian besar pengguna menggunakannya untuk ide pemasaran, konten media sosial, desain prototipe, dan karya pribadi. Sebelum menggunakan gambar untuk produk yang menghasilkan pendapatan, harap periksa Ketentuan Layanan yang berlaku pada saat itu.
Bagaimana cara memastikan konsistensi karakter yang sama di beberapa gambar?
Gunakan generasi gambar dari gambar, dan cantumkan klausul pelestarian identitas secara jelas di awal prompt (misalnya, "Orang yang sama — pertahankan fitur wajah, warna rambut, dan warna kulit"). Kemudian, gunakan setiap hasil keluaran sebagai gambar sumber untuk gambar berikutnya, dan lanjutkan proses generasi dengan deskripsi adegan baru. Metode ini memang tidak seakurat model LoRA yang dilatih khusus untuk karakter tertentu, tetapi jauh lebih baik daripada harus memulai dari awal setiap kali menggunakan model teks-ke-gambar.
Apa cara tercepat untuk mempelajari cara menggunakan GPT Image 2?
Pada 12 hingga 20 kali pembangkitan pertama, gunakan prompt teks-ke-gambar yang sederhana untuk memahami performa model dalam "mode default"; setelah itu, lanjutkan ke pembangkitan gambar-ke-gambar, dimulai dari gambar sumber yang kosong. Ikuti panduan cepat di halaman sebelumnya, dan sebagian besar pengguna yang berlatih dengan tekun selama sekitar satu jam akan dapat melakukannya dengan lancar.
Mengapa hasil saya sama sekali tidak mirip dengan kata kunci yang diberikan?
Ada tiga jenis penyebab umum: Pertama, kata-kata deskriptif ditumpuk di awal, sedangkan subjek tersembunyi di bagian akhir—pindahkan subjek ke bagian paling depan; Kedua, kata kunci yang saling bertentangan (misalnya "watercolor" dan "photorealistic" disandingkan) — pilih satu media; Ketiga, hanya menggunakan kata-kata emosional ("indah", "menggetarkan") tanpa kata benda konkret — tambahkan objek konkret, arah cahaya, dan bahasa sinematik.
Sudah siap untuk memulai?
Sekarang, Anda sudah memiliki alur kerja yang lengkap, pola prompt yang bisa digunakan, hal-hal yang harus dihindari, serta panduan cepat satu halaman. Satu-satunya hal yang tersisa untuk dilakukan adalah: buka generatornya, dan gunakan 100 poin pertama Anda untuk menemukan "jenis prompt mana yang Anda sukai". Langkah ini tidak bisa dilakukan oleh orang lain untuk Anda.
Buka GPT Image 2, buat gambar pertamamu →
Jika Anda ingin membaca lebih lanjut:
- Apa itu GPT Image 2? Fitur, harga, dan contoh penggunaannya
- Panduan Prompt GPT Image 2: Menulis Prompt yang Benar-Benar Berguna
- GPT Image 2 vs Sora: Perbandingan Kemampuan Generasi Gambar
- Coba dulu pembuat prompt gambar bawaan, yang secara otomatis mengembangkan prompt lengkap dari satu ide sederhana.
- Anda juga dapat langsung masuk ke halaman khusus mode tunggal Text to Image atau Image to Image.
Artikel ini diterbitkan oleh Tim GPT Image 2. Per April 2026, kedua mode tersebut dikenakan biaya sebesar 12 poin per gambar. Jika ada perubahan di masa mendatang, kami akan memperbarui artikel ini dan mencantumkannya dalam catatan pembaruan.

