Hướng dẫn viết lời nhắc cho GPT Image 2: Hơn 50 mẫu thực tế (2026)

Apr 22, 2026

TL;DR

Một lời nhắc GPT Image 2 hiệu quả không chỉ là một câu nói, mà là một chuỗi các quyết định: chủ thể, bối cảnh, phong cách, góc máy, ánh sáng và cảm xúc. Hướng dẫn này cung cấp cho bạn hơn 50 mẫu lời nhắc có thể sao chép ngay, bao quát năm thể loại chính: phong cách điện ảnh, chân dung, hành động, thiên nhiên và kỳ ảo, kèm theo danh sách khắc phục các trường hợp thất bại và quy trình làm việc lặp lại hiệu quả. Tất cả các hình ảnh mẫu trong bài viết đều sử dụng cùng một mô hình KIE gpt-image-2-text-to-image, mỗi hình ảnh tiêu tốn 12 credits và giới hạn tối đa 20.000 ký tự cho lời nhắc. Dùng thử GPT Image 2 miễn phí →


Cấu trúc của một từ khóa hiệu quả

Hầu hết mọi người thường bắt đầu bằng cách viết thẳng thừng: "Tôi muốn gì". Trong khi đó, những người chụp được những bức ảnh thực sự xuất sắc lại viết: "Ống kính đã ghi lại được gì". Đó chính là bí quyết duy nhất.

Sau khi thực hiện hàng nghìn lần thử nghiệm trên giao diện KIE gpt-image-2-text-to-image, chúng tôi đã đúc kết được một bộ công thức 8 ô, gần như bao quát mọi tình huống. Chỉ cần điền đầy đủ 6 trong 8 ô là đã vượt qua mức trung bình, còn nếu điền đầy đủ tất cả thì chất lượng hình ảnh sẽ đạt chuẩn phim thương mại.

Công thức:

[Chủ thể] + [Hành động/Tư thế] + [Bối cảnh] + [Phong cách/Tham khảo] + [Góc quay/Bố cục] + [Ánh sáng] + [Cảm xúc/Tông màu] + [Chỉnh sửa chất lượng hình ảnh]

Mỗi ô trống đều giúp mô hình loại bỏ một giả thuyết mà nó vốn phải "đoán" ra:

  • Đối tượng chính — Ai hoặc cái gì xuất hiện trong khung hình. "Thủ thư tóc đỏ" ấn tượng gấp mười lần so với "người phụ nữ".
  • Hành động/Tư thế — Đang làm gì vào lúc này. Động từ quyết định bố cục.
  • Bối cảnh — Thế giới xung quanh. Nêu rõ quốc gia, thời đại, thời gian.
  • Phong cách/Tham chiếu——"film noir", "hoạt hình đẳng cấp Ufotable", "bố cục đối xứng của Wes Anderson", "phong cách quảng cáo Fenty Beauty". Sử dụng ngôn ngữ hình ảnh đã biết, thay vì chất đống những tính từ vô nghĩa.
  • Góc quay/Bố cục——" "Cận cảnh cực gần", "Góc rộng từ dưới lên", "Ống kính chân dung 85mm, f/1.4", "Ống kính màn hình rộng biến dạng". Đây là chìa khóa để biến ảnh chụp nhanh thành khung hình điện ảnh.
  • Ánh sáng——"Ánh sáng viền trong giờ vàng", "Ánh sáng Rembrandt đơn", "Phản chiếu đèn neon trên mặt đất ẩm ướt". Ánh sáng chiếm 60% cảm giác của một bức ảnh.
  • Cảm xúc/Tông màu——"Sự va chạm giữa xanh lạnh và cam ấm", "Màu hổ phách ấm làm sâu sắc bóng tối", "Tông màu u sầu giảm bão hòa".
  • Chỉnh sửa chất lượng hình ảnh——"4K siêu thực", "hạt phim", "bộ phim thời trang". Hãy giữ cho ngắn gọn, phần quan trọng nhất đã được thực hiện ở phần trước.

Cơ bản vs Tối ưu hóa — Hai vòng so sánh về cùng một chủ đề

Kết quả tạo ra từ lời gợi ý cơ bản của GPT Image 2, bố cục đơn điệu, ánh sáng đồng đều
Từ khóa cơ bản: "Một người phụ nữ đang đứng trong phòng." Chủ thể mờ nhạt, ánh sáng nhạt nhòa, bố cục thiếu điểm nhấn — người mẫu hoàn toàn không có điểm nhấn nào để thể hiện.

Cụm từ gợi ý ban đầu tương ứng với hình ảnh trên là:

A woman standing in a room.

Bây giờ hãy viết lại "cùng một khái niệm" bằng công thức tám ô:

A breathtaking young woman with flowing auburn hair stands in a luxurious Art Deco penthouse at golden hour. She wears a champagne-colored satin slip dress that catches the warm light. Floor-to-ceiling windows behind her show a panoramic city sunset. Dramatic side lighting creates deep shadows and golden highlights on her face and bare arms. The composition follows the rule of thirds. Cinematic depth of field with gorgeous city bokeh. Fashion editorial quality. Ultra-realistic 4K.

Chú thích tiếng Trung: Trong căn hộ áp mái theo phong cách Art Deco, một người phụ nữ tóc dài đang đứng trước cửa sổ kính trần, ánh sáng bên hông vào giờ vàng làm nổi bật đường nét khuôn mặt và cánh tay của cô.

Kết quả hình ảnh được tạo ra từ lời nhắc GPT Image 2 sau khi tối ưu hóa bằng công thức 8 ô đầy đủ
Các từ khóa gợi ý sau khi tối ưu hóa công thức 8 ô. Cùng một khái niệm chính, nhưng mọi điểm mơ hồ đều đã được làm rõ.

Lưu ý: Phiên bản tối ưu hóa không phải là việc thêm vào nhiều tính từ hơn, mà là phần mà mô hình phải tự đoán đã giảm đi. GPT Image 2 được xây dựng trên nền tảng mô hình khuếch tán do Transformer điều khiển (xem Giải thích về mô hình khuếch tán trên Wikipedia), và đối với mỗi chi tiết bạn chưa đề cập, mô hình sẽ sử dụng "giá trị trung bình tiên nghiệm" của nó để bổ sung. Nếu bạn không nói "giờ vàng", nó sẽ mặc định cho bạn ánh sáng của một buổi chiều thứ Ba nhiều mây lúc 2 giờ.

Cuối cùng, xin chia sẻ thêm một thông tin thú vị: Giới hạn tối đa của chuỗi lời nhắc trong GPT Image 2 là 20.000 ký tự — tương đương khoảng 3.000 từ tiếng Anh. Trong các tình huống thông thường, con số này là quá dư dả, nhưng đối với các cảnh phức tạp có nhiều nhân vật hoặc các bản phác thảo ý tưởng chi tiết, giới hạn này cho phép bạn đưa ra các quyết định về bố cục một cách rất tỉ mỉ. Phần 11 sẽ hướng dẫn cách sử dụng các chuỗi lời nhắc dài.


Thư viện từ khóa: Cảnh phim

Các bối cảnh mang phong cách điện ảnh là thể loại dễ thực hiện nhất, bởi lịch sử điện ảnh đã tích lũy được một kho tàng ngôn ngữ hình ảnh suốt một thế kỷ. Chỉ cần nêu rõ thể loại, thời kỳ và góc quay, mô hình sẽ tái hiện cho bạn một khung hình hoàn chỉnh.

Hình ảnh được tạo ra từ lời nhắc GPT Image 2 theo phong cách phim noir: Người phụ nữ mặc áo đỏ trong con hẻm ở Hồng Kông sau cơn mưa
Những con hẻm ở Hồng Kông mang phong cách phim noir mới. Câu chuyện màu sắc với sự tương phản giữa xanh và đỏ cùng những khung hình màn ảnh rộng biến dạng đã truyền tải phần lớn cảm xúc.

1. Những con hẻm mới màu đen ở Hồng Kông

Film noir cinematic shot. A dangerously beautiful femme fatale in a curve-hugging red silk dress with a thigh-high slit, walking through a rain-soaked Hong Kong back alley at night. Neon signs in Chinese characters reflect red and blue on the wet cobblestones. She carries a black umbrella over one shoulder, her red-painted lips the only warm color against the cold teal lighting. Smoke wisps from a nearby vent. Anamorphic lens, shallow depth of field, cinematic grain. Ultra-realistic 4K noir film frame.

Chú thích tiếng Trung: Trong một đêm mưa ở con hẻm phía sau tại Hồng Kông, một cô gái mặc áo đỏ cầm ô bước đi trên con đường lát đá phản chiếu ánh đèn neon.

2. Quán bar nhạc jazz Rembrandt

Moody jazz bar interior. A mysterious woman in a sheer black lace dress sits on a velvet barstool, one leg crossed showing stiletto heels. Cigarette smoke curls around her silhouette. Warm amber spotlight from above illuminates her face and exposed collarbones while the rest fades into deep shadow. A saxophone player is a blurred silhouette in the background. Film noir meets modern luxury aesthetic. Dramatic Rembrandt lighting, 35mm film look. Ultra-realistic 4K.

Chú thích tiếng Trung: Người phụ nữ mặc váy ren đen trong quán bar nhạc jazz, ánh sáng chiếu từ trên xuống kết hợp với khói tạo nên hiệu ứng ánh sáng kịch tính theo phong cách Rembrandt.

3. Mái nhà trong phim Blade Runner

Cyberpunk cinematic wide shot. A lone detective in a wet black trench coat stands on a neon-drenched Tokyo rooftop at 3am. Giant holographic advertisements of a geisha float across the skyline behind him, casting shifting pink and cyan light on his face. Light rain catches the glow. Flying cars streak past as horizontal light trails. Shot on anamorphic lens, 2.39:1 aspect, shallow depth of field. Blade Runner 2049 color grade — teal shadows, orange highlights. Ultra-realistic 4K cinematic frame.

Chú thích tiếng Trung: Trên mái nhà Tokyo phong cách cyberpunk, hình ảnh quảng cáo ba-đi-ô của các geisha với hai tông màu xanh và hồng bao trùm lấy người thám tử.

4. Sảnh chính đối xứng của Wes Anderson

Wes Anderson style cinematic composition. A 1960s hotel concierge in a burgundy uniform stands dead-center in a pastel-pink Art Deco lobby, flanked by perfectly symmetrical potted palms and brass sconces. Flat front-on framing, everything on center axis. Soft fluorescent overhead lighting. Pastel pink and mint green color palette. 35mm film look. Ultra-detailed 4K.

Chú thích tiếng Trung: Sảnh khách sạn phong cách Art Deco màu hồng, bố cục đối xứng, nhân viên lễ tân đứng chính giữa khung hình.

5. Cuộc đối đầu trong bếp trong phim tội phạm phong cách Hàn Quốc

Cinematic still from a modern Korean crime thriller. Two men face each other across a small Seoul apartment kitchen at 2am, both holding knives but frozen in a tense moment. Single fluorescent tube overhead casts hard green-tinted light and harsh shadows. Steam rises from an abandoned pot on the stove. Tight composition, 40mm lens, handheld feel. Bong Joon-ho style. Ultra-realistic 4K.

Chú thích tiếng Trung: Hai người đối đầu nhau trong bếp ở Seoul vào lúc 2 giờ sáng, dưới ánh đèn huỳnh quang xanh lục chói lóa + góc quay cầm tay.

Hình ảnh được tạo ra từ lời gợi ý "Người phụ nữ dưới ánh sáng của Rembrandt tại quán bar nhạc jazz" trong GPT Image 2
Một đèn chiếu sáng tập trung kết hợp với khói tạo hiệu ứng khối lượng là một “chiêu” gần như thần kỳ để tạo ra cảm giác điện ảnh.

6. Bi kịch sa mạc Villeneuve

Epic cinematic wide shot in Denis Villeneuve style. A lone hooded figure in flowing desert robes walks across a vast orange sand dune at sunset. The sun is enormous on the horizon, casting elongated shadows. Scale is extreme — the figure is tiny, the landscape overwhelming. Dust kicks up in the wind. Warm amber palette with deep violet shadows. Shot on 65mm, ultra-wide aspect. Ultra-realistic 4K cinematic quality.

Chú thích tiếng Trung: Góc chụp rộng kiểu sa mạc Villeneuve, nhân vật nhỏ bé, khung cảnh hùng vĩ.

7. Quán cà phê Làn sóng mới của Pháp

Black and white French New Wave cinematic still. A young woman in a striped Breton shirt and dark bob haircut smokes at a Paris cafe table in 1962. She looks off-camera with soft intensity. Natural window light, high contrast, slightly overexposed highlights. Film grain visible. Godard aesthetic. 35mm monochrome, 50mm lens. Ultra-detailed.

Chú thích tiếng Trung: Người phụ nữ tóc ngắn trong một quán cà phê ở Paris năm 1962, phong cách Làn sóng mới của Pháp, ảnh đen trắng.

8. Hành lang kinh dị phong cách giallo của Ý

Cinematic horror frame in the style of a 1970s Italian giallo. A woman in a white nightgown stands at the end of a long Victorian hallway lit only by flickering red lamplight. Her back is turned. Shadow stretches toward the camera. Wallpaper is blood-red damask. Shallow depth of field, 28mm lens slightly distorted. Grainy film look. Deep red and black color story. Ultra-detailed 4K.

Chú thích tiếng Trung: Phong cách giallo của Ý thập niên 1970, hình ảnh bóng lưng người phụ nữ mặc áo trắng ở cuối hành lang màu đỏ thẫm.

9. Đêm neon rực rỡ ở Miami

1980s Miami Vice cinematic shot. A woman in a white linen blazer drives a red convertible at night through downtown Miami. Palm trees and neon motel signs blur past. She looks at the camera with sunglasses reflecting the pink and turquoise glow of the city. Lens flare, soft film grain. Teal and magenta color grade. Ultra-realistic 4K.

Chú thích tiếng Trung: Cảnh đêm Miami thập niên 80, chiếc xe mui trần màu đỏ cùng cặp kính râm phản chiếu ánh đèn neon.

10. Phim live-action của Studio Ghibli

Cinematic still styled as a live-action Studio Ghibli adaptation. A young woman in a simple blue linen dress stands in a vast green hillside field, wind blowing her hair and skirt. Fluffy white clouds race overhead. Soft golden hour light. Warm, painterly color grading with gentle film grain. Wide lens, low-angle composition making her heroic against the sky. Ultra-detailed 4K.

Chú thích tiếng Trung: Cảnh quay thực tế theo phong cách Studio Ghibli trên sườn đồi, được quay từ góc thấp hướng lên để làm nổi bật đường chân trời.


Thư viện từ khóa: Chân dung và trang điểm

Sự thành công hay thất bại của một bức ảnh chân dung chỉ phụ thuộc vào ba yếu tố: ống kính, hướng ánh sáng và kết cấu da. Việc ghi rõ "85mm f/1.4" hoặc "đèn vòng" hay "hộp khuếch tán phía trước bên trái máy ảnh" sẽ giúp bạn bỏ qua ngay ba vòng thử nghiệm vô ích.

Cận cảnh làn da ẩm ướt dưới ánh đèn vòng tròn — Mẫu ảnh chân dung theo lời gợi ý GPT-2
Chụp chân dung cận cảnh chất lượng quảng cáo mỹ phẩm. Câu "85mm macro, f/1.4" chính là yếu tố quyết định mang lại hiệu ứng da mịn màng như vậy.

11. Chế độ chụp cận cảnh Fenty Beauty

Extreme close-up beauty portrait. A stunning model with wet dewy skin and tousled damp hair, bare shoulders glistening. Water droplets on her face and neck catch the light of a ring light. Flawless skin texture in macro detail — every pore, every water droplet razor sharp. Smoky eye makeup with subtle gold shimmer. Lips slightly parted, intense gaze at camera. Dark background. Fenty Beauty campaign aesthetic. 85mm macro lens, f/1.4, ultra-shallow depth of field. Ultra-realistic 4K.

Chú thích tiếng Trung: Ảnh cận cảnh trang điểm trên làn da ẩm mượt, được chiếu sáng bởi đèn vòng, từng giọt nước đều hiện lên rõ nét.

12. Tượng người trên ghế dài phong cách Baroque

Luxury editorial portrait. A gorgeous model wearing an elegant black velvet off-shoulder gown reclines on a dark velvet chaise longue in a dimly lit Baroque-style room. One arm draped elegantly above her head. Rich warm Rembrandt lighting from a single window highlights the fabric draping against her glowing skin. Oil painting-like quality with deep shadows and warm highlights. High-end fashion editorial photography. 85mm lens, creamy bokeh. Ultra-realistic 4K.

Chú thích tiếng Trung: Người phụ nữ mặc váy đen trên ghế bọc nhung, ánh sáng từ ô cửa duy nhất của Rembrandt tạo nên hiệu ứng chất liệu tranh sơn dầu.

13. Ảnh thẻ công sở rõ nét

Professional corporate headshot. A confident woman in her early 30s wearing a tailored navy blazer over a crisp white shirt. Neutral gray seamless studio background. Three-point lighting — soft key from camera left, subtle fill from right, rim light from behind. Genuine warm smile, direct eye contact. 85mm lens, f/2.8. Skin tone natural and healthy. LinkedIn executive headshot quality. Ultra-realistic 4K.

Chú thích tiếng Trung: Nền xám + bố cục ánh sáng ba điểm tiêu chuẩn, ảnh đại diện của các nhà quản lý cấp cao trên LinkedIn.

14. Ảnh chân dung đường phố Tokyo

Environmental street portrait. A 20-something Tokyo local with bleached blonde hair and oversized vintage streetwear stands in Shibuya on a weekday afternoon. Shallow depth of field with crowd of pedestrians soft-blurred behind her. Natural overcast daylight. She looks slightly off-camera, lost in thought. Shot on Fujifilm X100 aesthetic, 35mm lens, f/2. Ultra-realistic 4K.

Chú thích tiếng Trung: Một buổi chiều ngày thường ở Shibuya, cô gái tóc nhuộm vàng nổi bật trên nền đám đông mờ ảo.

15. Bìa tạp chí Vogue

High-end fashion portrait in the style of a Vogue Italia cover. A striking model with razor-sharp cheekbones wears an oversized metallic silver couture gown with architectural shoulders. She stares directly into camera with a cold, commanding expression. Hair pulled back tight. Studio lighting is a single hard light from 45 degrees creating sculptural shadows. Gray backdrop. 85mm portrait lens, f/5.6 for crisp detail. Ultra-detailed 4K.

Chú thích tiếng Trung: Phong cách bìa tạp chí Vogue Italia, với chiếc váy dạ hội màu bạc có hiệu ứng 3D kết hợp cùng hình ảnh chân dung điêu khắc được chiếu sáng bằng ánh sáng mạnh.

16. Chụp chân dung trong bếp dưới ánh sáng tự nhiên

Soft natural light portrait. A woman with wavy chestnut hair sits by a large north-facing window in a quiet morning kitchen. She holds a ceramic mug of coffee in both hands, looking out the window thoughtfully. Warm cream sweater, no makeup, freckles visible. Shot in Rembrandt light with window as the only source. 50mm lens, f/1.8, shallow depth of field. Soft, honest, lived-in feel. Ultra-realistic 4K.

Chú thích tiếng Trung: Người phụ nữ trang điểm nhẹ nhàng bên cửa sổ bếp, chỉ sử dụng ánh sáng tự nhiên từ một bên cửa sổ.

17. Ánh sáng sân khấu đơn sắc

Dramatic black and white portrait. A man with a short salt-and-pepper beard and intense dark eyes stares into the lens. Only half his face is lit — hard side light from camera right, pure black shadow on the other side. Textured gray background fades to black. Shot on medium format film aesthetic, 80mm lens. Film grain. Peter Lindbergh style monochrome. Ultra-detailed.

Chú thích tiếng Trung: Ảnh chân dung đen trắng theo phong cách Peter Lindbergh, một nửa khuôn mặt được chiếu sáng mạnh, nửa còn lại hoàn toàn tối đen.

18. Bộ sưu tập trang điểm màu hồng

Dreamy pastel beauty portrait. A model with soft pink lips, dewy skin, and flushed cheeks against a blush pink seamless backdrop. She wears a sheer white off-shoulder top. Soft diffused lighting from a large softbox creates flattering even illumination. Hair in loose tousled waves. 85mm lens, f/2. Cotton candy color palette — pink, peach, cream. Ultra-realistic 4K beauty editorial.

Chú thích tiếng Trung: Nền màu hồng + hộp đèn mềm cỡ lớn, bộ ảnh trang điểm tông màu kẹo ngọt.

19. Khoảnh khắc vàng đầy lãng mạn

Sun-drenched golden hour portrait. A woman in a flowing cream linen dress stands in a wheat field at 7pm on a summer evening. The sun is low behind her, creating a halo of golden backlight through her hair and the sheer fabric. Lens flare across the frame. Her eyes are closed, face tilted up to the warmth. 135mm telephoto lens, f/2, compressed background. Warm honey color grade. Ultra-realistic 4K.

Chú thích tiếng Trung: Cánh đồng lúa mì vào buổi chiều hè, chụp ngược sáng + ống kính tele 135mm tạo hiệu ứng nén không gian.

20. Thư viện của Phái Học viện Bóng tối

Dark academia editorial portrait. A young woman with auburn hair in a loose braid wears a wool cardigan over a white collared shirt in an old university library. She holds an open leather-bound book, reading by the light of a green banker's lamp. Towering bookshelves around her fade into shadow. Warm tungsten light, deep navy and olive color palette. 50mm lens, f/2.8. Ultra-realistic 4K.

Chú thích tiếng Trung: Thư viện cổ kính + đèn bàn màu xanh lá cây, mang đậm phong cách dark academia.


Thư viện từ khóa: Hành động và chuyển động

Các cảnh hành động cần hai yếu tố: những từ diễn tả khoảnh khắc đóng băng ("đóng băng giữa không trung", "chụp ở tốc độ cao") và ánh sáng viền, dùng để làm nổi bật chủ thể khỏi nền hỗn loạn.

Khoảnh khắc vận động viên thực hiện cú đá xoay được đóng băng ở tốc độ cao — Mẫu từ khóa mô tả chuyển động cho GPT Image 2
Chụp lại khoảnh khắc tĩnh lặng. Chính chùm ánh sáng chiếu từ phía sau mới thực sự làm nổi bật đường nét.

21. Khung hình tập luyện của Nike

Dynamic action freeze-frame. An athletic woman in a fitted sports bra and high-waisted compression shorts executes a powerful spinning roundhouse kick. Water splashes frozen in mid-air around her legs and feet in a dramatic spray pattern. Her toned abs and defined muscles visible. Dramatic single-source rim lighting from behind creates a glowing silhouette edge. Dark studio background. Nike Training campaign energy. High-speed photography feel — ultra-sharp subject, motion blur on water droplets. Ultra-realistic 4K.

Chú thích tiếng Trung: Ảnh chụp tốc độ cao đẳng cấp quảng cáo của Nike, những giọt nước như bị đóng băng giữa không trung.

22. Cảnh bên trong ống sóng của người lướt sóng

Epic wide-angle shot of a female surfer riding inside a massive crystal-clear barrel wave at golden hour. Her silhouette and athletic body visible through the translucent turquoise water of the wave tube. Golden sunlight creates an explosion of light and water mist behind her. Dramatic backlit composition. The wave is enormous and perfectly formed. GoPro-style immersive perspective. Ultra-realistic 4K cinematic quality.

Chú thích tiếng Trung: Hình ảnh một nữ vận động viên lướt sóng trong ống sóng khổng lồ vào khoảnh khắc vàng, với bóng dáng ngược sáng.

23. Nhảy qua mái nhà trong môn parkour

High-speed action shot of a parkour athlete mid-leap between two Brooklyn rooftops at sunset. Frozen at the apex of the jump, arms and legs extended, silhouetted against a burning orange sky. The gap below him is dizzying — city streets far below. Motion blur on the trailing edge of his hoodie. Shot from a drone at his height, 35mm lens. Ultra-realistic 4K cinematic action.

Chú thích tiếng Trung: Chạy trên các mái nhà Brooklyn trong ánh hoàng hôn, khoảnh khắc nhảy cao nhất được ghi lại.

24. Đấu trường võ thuật tổng hợp dưới ánh đèn sân khấu

Dramatic fight night action. A female MMA fighter mid-spinning back elbow, sweat flying from her hair in a visible arc of droplets. Single harsh overhead ring spotlight isolates her from pure black background — classic boxing photography look. Her opponent is a blurred silhouette out of focus. 70-200mm lens at 200mm, f/2.8, 1/2000 shutter frozen motion. High contrast, desaturated. Ultra-detailed 4K.

Chú thích tiếng Trung: Ánh sáng chiếu thẳng từ trên xuống sàn đấu MMA, những giọt mồ hôi bắn tung tóe hiện lên rõ nét.

25. Bụi bốc lên từ xe mô tô địa hình

Low-angle action shot of a motocross rider airborne over a dirt jump, red desert dust exploding behind the rear tire. Late afternoon sun casts long shadows. The bike is tilted aggressively mid-trick. Camera is just above ground level looking up, making the jump look monumental. Anamorphic lens flare from the sun. Orange and teal color grade. Ultra-realistic 4K action.

Chú thích tiếng Trung: Chiếc mô tô địa hình lao vút lên không trung, bánh sau tung lên những đám bụi đỏ.

26. Phòng múa ba lê bừng sáng

Contemporary ballet dancer mid-grand jete frozen in the air, arms extended, body perfectly horizontal. She wears a simple nude leotard. Plain gray cyclorama studio background. Strong side-light from camera left creates a sculptural chiaroscuro on her musculature. Powder disturbed from the floor traces her leap in a soft cloud. 1/4000 shutter speed feel. Ultra-detailed 4K.

Chú thích tiếng Trung: Điểm cao nhất của động tác grand jeté trong múa ba lê, cơ thể song song với mặt đất.

27. Động tác úp rổ trong bóng rổ

Low-angle hero shot of a male basketball player mid-slam dunk, one hand gripping the rim, body extended diagonally across the frame. Arena lights streak as lens flares. Crowd is a soft blurred wall of phone flashes behind him. Frozen sweat and net motion. Shot on 24mm wide from directly below the hoop. NBA official photography energy. Ultra-realistic 4K.

Chú thích tiếng Trung: Khoảnh khắc thực hiện cú úp rổ góc rộng 24mm ngay dưới rổ.

28. Ngựa oai phong phi nước đại trên sóng

A rider on a powerful black horse gallops through knee-deep shallow ocean water at sunrise. Water explodes from each hoofstrike, frozen in a dramatic spray. The rider is leaned low, hair streaming behind. Warm golden backlight from the rising sun. Mist rising off the water. Shot at 1/4000 shutter, 200mm telephoto compression. Ultra-realistic 4K equine photography.

Chú thích tiếng Trung: Biển cạn lúc bình minh, con ngựa đen phi nước đại làm tung tóe sóng nước, chụp bằng ống kính tele 200mm tạo hiệu ứng nén.


Danh mục từ khóa: Thiên nhiên và phong cảnh

Các từ khóa liên quan đến phong cảnh là thời điểm, thời tiết, tỷ lệ chiều cao. Mô hình có xu hướng thiên về "cảnh đẹp tự nhiên thông thường" rất mạnh, vì vậy bạn phải sử dụng các từ cụ thể để đưa kết quả ra khỏi mức trung bình đó.

Người phụ nữ bên thác nước trên vách đá trong làn sương mù — Mẫu gợi ý tự nhiên cho GPT Image 2
Người phụ nữ trong làn sương mù bên thác nước trên vách đá. Góc quay từ trên cao với hiệu ứng "nhìn xuống nhẹ nhàng" kết hợp với từ ngữ cụ thể như "gossamer" đã giúp mô hình thoát khỏi sự nhàm chán thông thường.

29. Vùng đất thần tiên trong làn sương mù của thác nước

Ethereal fantasy nature scene. A graceful young woman in a flowing sheer gossamer dress stands at the edge of a towering waterfall cliff. Dense tropical mist swirls around her legs and the translucent fabric. She extends one arm toward the cascade, water droplets catching golden light. Aerial perspective slightly from above showing the dramatic cliff drop. Lush green ferns frame the composition. Golden hour light filtering through the mist. Ultra-realistic 4K cinematic quality.

Chú thích tiếng Trung: Cô gái mặc váy trắng bên thác nước trên vách đá, góc quay từ trên cao + sương mù.

30. Cảnh quay từ trên cao tại Maldives

Overhead drone shot of a beautiful woman in a minimal white bikini floating on her back in crystal-clear turquoise shallow water over white sand in the Maldives. Her long dark hair fans out in the water like a halo. The water is so clear her full body is visible through the translucent surface. Tiny fish swim nearby. Travel photography editorial style. Ultra-realistic 4K aerial quality.

Chú thích tiếng Trung: Ảnh chụp từ trên cao nhìn thẳng xuống Maldives, một người phụ nữ đang lơ lửng trên làn nước trong vắt.

31. Bờ biển cát đen Iceland

Dramatic wide landscape of Iceland's Reynisfjara black sand beach at dawn. Massive basalt sea stacks rise from the churning North Atlantic. Low fog drifts across the black sand. A single figure in a red rain jacket walks along the shoreline for scale. Moody desaturated color grade — almost monochrome with just the red jacket as accent. 24mm wide lens, f/11 for deep focus. Ultra-detailed 4K.

Chú thích tiếng Trung: Bãi biển cát đen Iceland + áo mưa màu đỏ làm điểm nhấn màu sắc.

32. Ánh sáng nhà thờ Rừng Cây Sồi Đỏ

Vertical composition looking up through towering California redwood trees. Shafts of golden morning sunlight cut through the fog between the trunks like cathedral light rays. Ferns carpet the forest floor. A tiny hiker in the distance gives scale. Ultra-wide 14mm lens distorting the trunks into a radial pattern toward the sky. Warm green and gold palette. Ultra-realistic 4K nature photography.

Chú thích tiếng Trung: Ảnh góc rộng 14mm chụp từ dưới lên khu rừng cây tuyết tùng, tia sáng chiếu qua nhà thờ trong sương mù.

33. Hồ Gương ở Patagonia

Perfect mirror reflection of the jagged Torres del Paine peaks in a glass-still Patagonian alpine lake at blue hour. Pink and purple alpenglow on the snow-capped summits. A single orange tent on the near shore as human scale. Complete symmetry — upper and lower half of frame are near-mirror images. 35mm lens, f/11. Ultra-realistic 4K landscape.

Chú thích tiếng Trung: Hồ nước phẳng lặng như gương trong khoảnh khắc màu xanh, đối xứng hoàn hảo từ trên xuống dưới.

34. Bão cát Sahara

Vast Sahara desert at the start of a sandstorm. Rolling orange dunes extend to the horizon, with a towering wall of sand approaching from the left. A lone nomadic figure on camelback is silhouetted against the dust cloud. Sun struggles through the haze as a dim orange disc. Cinematic wide-angle, heavy atmospheric haze. Monochromatic warm orange palette. Ultra-detailed 4K.

Chú thích tiếng Trung: Ở rìa cơn bão cát Sahara, bóng dáng người cưỡi lạc đà đối mặt với bức tường cát.

35. Ngôi nhà Ánh cực quang

Wide landscape of a tiny warm-lit wooden cabin in a Norwegian fjord valley at 1am. A spectacular green and purple aurora borealis dances overhead, reflecting in the still black fjord water. Snow-dusted pine trees and mountains frame the scene. The cabin glow is the only warm color in an otherwise cold composition. 20-second long exposure feel. Ultra-realistic 4K astrophotography.

Chú thích tiếng Trung: Cực quang lúc 1 giờ sáng trên vịnh hẹp Na Uy và ngôi nhà gỗ ấm cúng.

36. Hoàng hôn trên thảo nguyên châu Phi

Cinematic wide shot of a family of elephants crossing a golden savanna at sunset in Kenya. The sun is a huge orange disc on the horizon, silhouetting the herd. Long grass ripples in the warm wind. Dust kicked up by the herd diffuses the backlight into warm beams. 200mm telephoto compression. National Geographic editorial style. Ultra-realistic 4K wildlife photography.

Chú thích tiếng Trung: Đồng cỏ hoàng hôn ở Kenya, bóng dáng đàn voi + hiệu ứng nén do ống kính tele 200mm tạo ra.

37. Sông Hoa Anh Đào ở Kyoto

Serene wide landscape of the Philosopher's Path in Kyoto at peak cherry blossom season. Pink petals float on the narrow canal, with more drifting down from the trees above. Traditional wooden bridges arch over the water. Early morning mist softens the light into diffused pink. A solo figure in a dark kimono walks along the stone path for scale. 50mm lens, f/4, gentle pastel color grade. Ultra-realistic 4K.

Chú thích tiếng Trung: Vào mùa hoa anh đào nở rộ trên Con đường Triết học ở Kyoto, những cánh hoa màu hồng trôi lững lờ trên mặt nước kênh đào.

38. Ánh sáng bão trên Cao nguyên Scotland

Dramatic landscape of the Scottish Highlands during a clearing thunderstorm. Dark churning clouds above a lone glen, with a single shaft of golden sunlight breaking through and lighting one patch of heather-covered hillside. Rainbow arc barely visible at the edge. Ancient standing stones in the foreground. Moody cinematic color grade — steel blue shadows, warm sunlit highlight. 24mm wide, f/11. Ultra-realistic 4K landscape photography.

Chú thích tiếng Trung: Khi cơn giông trên cao nguyên Scotland sắp tan, một tia nắng vàng duy nhất xuyên qua những đám mây đen.


Thư viện từ khóa: Giả tưởng và phong cách hóa

Một khi bạn nêu cụ thể một nguồn tham khảo nghệ thuật trong thể loại giả tưởng (như Ufotable, Arcane, Studio Trigger, các bức tranh minh họa của Magic: The Gathering), các từ khóa sẽ trở nên cụ thể và chính xác hơn rất nhiều. Cụm từ chung chung như "fantasy art" sẽ chỉ mang lại cho bạn những bức tranh giả tưởng chung chung mà thôi.

Nữ chiến binh huyền ảo của thanh kiếm ma phát sáng — Mẫu từ khóa cho hình ảnh GPT 2 trong anime
Những nữ chiến binh huyền ảo mang phong cách Ufotable. Chỉ cần nhắc đến tên xưởng phim này đã đủ nói lên tất cả, còn hơn cả việc liệt kê hai mươi tính từ.

39. Ufotable: Chiến Nữ Anime

Epic anime-inspired fantasy warrior princess with flowing silver-white hair that reaches her waist, wearing ornate golden battle armor that hugs her figure with intricate engravings. She holds a glowing magical sword aloft, emitting bright blue energy. Cherry blossom petals and magical sparkles swirl in a violent storm around her. Her expression is fierce and determined. Dynamic action pose mid-battle leap. Ultra-detailed anime with CGI-quality lighting — Ufotable production quality. Rich colors, dramatic volumetric lighting. 4K quality.

Chú thích tiếng Trung: Chiến nữ anime đẳng cấp Ufotable, Thanh kiếm ma thuật màu xanh + Cơn bão hoa anh đào.

40. Nữ pháp sư Tiên bóng tối

Dark fantasy dark elf sorceress with long flowing midnight-purple hair, pointed ears, and luminous violet eyes. She wears an elegant off-shoulder dark robe with intricate silver embroidery that reveals her collarbones and shoulders. Purple arcane energy spirals from her outstretched hands, illuminating her face from below. A vast star field and nebula visible in the background through a shattered stone archway. Semi-realistic fantasy illustration style with cinematic lighting. Ultra-detailed 4K.

Chú thích tiếng Trung: Nữ pháp sư Tinh linh Bóng tối, năng lượng ma thuật màu tím cuộn xoáy ra từ tay cô.

41. Tinh linh rừng Ghibli

Studio Ghibli style painterly scene. A small forest spirit that looks like a glowing white fox with three tails walks through a mossy enchanted forest at dusk. Fireflies dance around it. Soft painterly brushstrokes, warm honey-gold light filtering through massive ancient trees. Hayao Miyazaki watercolor aesthetic. Ultra-detailed animation cel quality.

Chú thích tiếng Trung: Một con cáo ba đuôi theo phong cách Studio Ghibli đang dạo bước trong khu rừng rêu vào lúc hoàng hôn.

42. Arcane: Cuộc chiến giữa hai thành phố

Arcane Netflix animated series style illustration. A young woman with blue-tipped braided hair and steampunk goggles leans against a graffitied alley wall in the undercity of Piltover. Neon magical rune-signs glow behind her. Textured painterly brushstrokes visible, 2D illustration with 3D depth, saturated purple and teal color story. Fortiche animation studio aesthetic. Ultra-detailed 4K.

Chú thích tiếng Trung: Cô gái trong ngõ hẻm khu phố cổ theo phong cách Arcane Fortiche.

43. Rồng Magic: The Gathering

Fantasy illustration in the style of a Magic The Gathering card. A colossal red dragon emerges from molten lava in an underground cavern, wings half-spread, mouth roaring with fire breath forming. A tiny knight in silver armor stands at the cavern's edge for scale, raising a shield. Dramatic low-angle hero composition. Rich oil-painting texture, Greg Rutkowski influence. Ultra-detailed 4K fantasy art.

Chú thích tiếng Trung: Rồng Lửa Đỏ và Hiệp Sĩ Nhỏ bé theo phong cách minh họa của Magic: The Gathering.

44. Cyber Knight

Cyberpunk fantasy fusion. A female samurai with a chrome katana stands on the rain-slicked rooftop of a neo-Tokyo megacorp tower at night. She wears a fusion of traditional kimono and carbon-fiber combat armor. Holographic cherry blossoms drift around her. Neon reflections on the wet rooftop, flying ad-drones in the background. Illustrated in the style of Katsuhiro Otomo meets modern 3D concept art. Ultra-detailed 4K.

Chú thích tiếng Trung: Nữ samurai trên mái nhà ở Cyber Tokyo + hoa anh đào ảo.

45. Nàng tiên cá dưới nước

Ethereal underwater fantasy. A graceful mermaid with iridescent teal and violet scales swims through a coral reef illuminated by shafts of sunlight piercing the water surface above. Her long turquoise hair flows weightlessly. Bubbles trail from her fingertips. School of small silver fish swim past. Dreamlike painterly quality, Lisa Frank meets National Geographic. Ultra-detailed 4K fantasy art.

Chú thích tiếng Trung: Nàng tiên cá cầu vồng giữa rạn san hô, những tia sáng chiếu xuống từ mặt nước.

46. Thuyền trưởng khinh khí cầu phong cách steampunk

Illustrated steampunk fantasy portrait. A young female airship captain in a brass-buttoned red military coat, goggles pushed up on her forehead, stands at the wheel of a wooden airship. Visible brass gears and copper pipes. Behind her, clouds and other distant airships. Warm golden hour lighting. Illustration style inspired by Nausicaa and Howl's Moving Castle. Ultra-detailed 4K.

Chú thích tiếng Trung: Nữ thuyền trưởng khinh khí cầu theo phong cách Hayao Miyazaki và bánh răng bằng đồng thau.


Nhiều phong cách, nhiều biến thể: Cùng một chủ thể, những thế giới khác nhau

Một quy trình làm việc thường bị đánh giá thấp trong GPT Image 2: khóa đối tượng, chỉ điều chỉnh các tham số phong cách. Bạn sẽ thấy rõ ràng từng phong cách tác động như thế nào lên cùng một khuôn mặt, cùng một bộ trang phục và cùng một tư thế — nhờ đó, lần sau khi chọn phong cách, bạn sẽ không còn phải đoán mò nữa.

So sánh các phong cách bố cục 4 ô: Hiện thực, Anime, Tranh sơn dầu, Cyberpunk — Từ khóa gợi ý cho GPT Image 2
Bốn phong cách của cùng một chủ đề. Cách trình bày này rất phù hợp để tạo bảng cảm hứng trước khi gửi các lựa chọn phong cách cho khách hàng.

Từ khóa cơ bản — Nội dung chính phải hoàn toàn nhất quán trong cả bốn lần tạo:

A beautiful young woman with shoulder-length brown hair stands in a sunlit garden, wearing a simple white sundress, one hand lightly touching a rose bush. Soft golden afternoon light. Three-quarter body framing, slightly tilted head, warm smile.

Chú thích tiếng Trung: Cô gái mặc váy ngắn đang chạm vào những bông hồng trong Vườn Ánh Dương, dưới ánh nắng vàng của buổi chiều.

Sau đó, chỉ cần chuyển đổi vị trí phong cách và chạy mỗi mục một lần:

47. Nhiếp ảnh hiện thực

[Base] — Hyperreal fashion photography aesthetic. 85mm lens at f/1.8, soft natural light, editorial sharpness. Ultra-realistic 4K.

48. Anime Nhật Bản

[Base] — Japanese anime style with cel shading, bold line art, vibrant saturated colors, large expressive eyes. Kyoto Animation production quality. Ultra-detailed.

49. Tranh sơn dầu cổ điển

[Base] — Classical oil painting style with visible thick brushstrokes, warm Renaissance lighting, chiaroscuro shadow, Vermeer-like color palette. Museum-quality.

50. Cyberpunk

[Base] — Neon-drenched cyberpunk futurism. Holographic overlays, circuit-pattern light tattoos on skin, magenta and cyan rim lighting. Ghost in the Shell art direction. Ultra-detailed.

Chúng tôi đã chạy chuỗi thao tác này trên tài khoản thử nghiệm nội bộ; tấm ảnh đầu tiên mất khoảng 18 giây, và các tấm tiếp theo cũng mất thời gian tương tự để chuyển đổi phong cách. Tổng cộng chỉ mất chưa đầy hai phút và 48 credits, chúng tôi đã có được một bộ moodboard phong cách hoàn chỉnh. Khi đưa vào bản đề xuất cho khách hàng, điều này tương đương với việc nén quá trình tìm kiếm tài liệu vốn mất nửa ngày xuống còn thời gian uống một tách cà phê.


Các trường hợp lỗi thường gặp và cách khắc phục

Phần "Thực tế": GPT Image 2 rất hữu ích, nhưng nó không phải là phép màu. Dưới đây là một số loại lỗi thường gặp nhất mà chúng tôi ghi nhận được, cùng với các mẫu khắc phục tương ứng. Hãy coi phần này như một danh sách kiểm tra sự cố — khi gặp sự cố với hình ảnh lần tới, hãy kiểm tra theo thứ tự này; hầu hết các vấn đề đều có thể được giải quyết ngay sau lần sửa đầu tiên.

Thất bại 1: Nội dung nhàm chán

Before:

A beautiful woman in a city.

After:

A 28-year-old woman with auburn hair pulled into a low ponytail, wearing a camel trench coat, crossing a Manhattan crosswalk at 6pm on a rainy Thursday. Yellow taxis blur past in motion-blurred streaks. 50mm lens, f/2, cinematic grain. Ultra-realistic 4K.

Từ gợi ý đầu tiên không cung cấp cho mô hình bất kỳ điểm bám nào. Giải pháp khắc phục luôn là các danh từ cụ thể và địa điểm cụ thể.

Lỗi 2: Số ngón tay không chính xác

GPT Image 2 đã thể hiện tốt hơn hẳn so với mô hình khuếch tán thế hệ đầu tiên trong việc tái tạo hình ảnh bàn tay, nhưng các cảnh cận cảnh bàn tay vẫn có thể gặp sự cố. Có hai cách khắc phục đáng tin cậy:

  • Đừng để bàn tay trở thành điểm nhấn, hãy cắt bỏ ngay: "framing is shoulders up only" (chỉ chụp từ vai trở lên).
  • Cho tay cầm một vật gì đó: "hands gently holding a ceramic coffee cup". Khi có vật thể giúp định hình tư thế, số ngón tay sẽ tự nhiên ổn định hơn.

Lỗi 3: Chữ trong hình bị lỗi ký tự

Mô hình không phải là phần mềm thiết kế bố cục. Nếu muốn chèn logo, biển hiệu hoặc văn bản có thể đọc được trên poster vào hình ảnh, bạn nên sử dụng văn bản cực ngắn (ví dụ: "a sign reads OPEN") hoặc thêm trực tiếp câu chú thích: "không có văn bản, không có chữ cái, không có từ ngữ nào trong hình ảnh", sau đó tiến hành thiết kế bố cục riêng trong Figma/Photoshop.

Sai lầm 4: Bỏ qua hướng ánh sáng

Before:

A portrait of a woman with dramatic lighting.

After:

A portrait of a woman lit by a single hard spotlight from 45 degrees camera-left, with deep black shadow filling the right side of her face. Rembrandt lighting with a small triangle of light on the shadowed cheek.

"Ánh sáng kịch tính" chẳng nói lên điều gì cả. Chỉ khi xác định rõ hướng, độ cứng và phạm vi phủ bóng thì mới thực sự là gợi ý hữu ích.

Sai lầm 5: Đối tượng xuất hiện trong bối cảnh không phù hợp

Nếu mô hình liên tục đặt nhân vật vào phòng chụp ảnh chung thay vì thư viện — hãy đưa bối cảnh lên đầu câu gợi ý và mô tả chi tiết hơn:

In a candle-lit 17th-century English library with floor-to-ceiling oak shelves, leather-bound books, and a stone fireplace, a woman in…

Đặt bối cảnh trước chủ thể có nghĩa là xác định bố cục tổng thể trước khi đưa nhân vật vào khung hình.

Sai lầm 6: Quá tải từ khóa

Khi số lượng từ vượt quá khoảng 1.200 từ, sức ảnh hưởng của từng tính từ riêng lẻ sẽ bắt đầu bị pha loãng. Nếu các từ gợi ý của bạn chỉ là một danh sách dài 40 nhãn phong cách, mô hình sẽ "tính trung bình". Hãy giữ lại một nhãn phong cách chính (ví dụ như "film noir") và coi các nhãn còn lại là phụ.


Đạt đủ 20.000 ký tự: Gợi ý dài có cấu trúc

Một ưu điểm thường bị đánh giá thấp của GPT Image 2 là giới hạn tối đa của lời nhắc lên tới 20.000 ký tự. Hầu hết các sản phẩm cạnh tranh chỉ dừng lại ở khoảng 1.000–2.000 ký tự. Điều này có thể không cần thiết đối với ảnh chân dung, nhưng đối với các cảnh phức tạp có nhiều nhân vật, bản tóm tắt ý tưởng hoặc các bộ ảnh yêu cầu tính nhất quán cao về thương hiệu, việc sử dụng lời nhắc dài và có cấu trúc rõ ràng là rất đáng giá.

Các mẫu thường được sử dụng trong bản tóm tắt sản xuất:

# CẢNH
[Cảnh: Địa điểm, thời gian, thời tiết, bối cảnh lịch sử, 2–3 câu]

# NHÂN VẬT
- Nhân vật A: [Ngoại hình, trang phục, tư thế hiện tại, biểu cảm]
- Nhân vật B: [Như trên]
- Diễn viên phụ: [Mô tả ngắn gọn]

# CẤU TRÚC
[Cấu trúc: Góc rộng/Cận cảnh/Siêu cận; Góc quay; Khung hình; Độ sâu trường ảnh; Vị trí của từng nhân vật trong khung hình — Quy tắc một phần ba/Tỷ lệ vàng/Trung tâm]

# ÁNH SÁNG
[Nguồn sáng, hướng, độ cứng, nhiệt độ màu, hành vi bóng]

# MÀU
[Mô tả bảng màu bằng 3–4 thuật ngữ về màu sắc. Hướng phối màu — ấm/lạnh/phối màu tách biệt]

# STYLE
[Một tham chiếu phong cách chính. Ví dụ: "Phong cách quay phim của Roger Deakins trong phim 'Blade Runner 2049'"]

# KỸ THUẬT
[Các thuật ngữ về độ phân giải, hạt phim, khổ hình, chất lượng hình ảnh. Hãy viết ngắn gọn]

# LOẠI TRỪ
[Những điều cần tránh: "Không có văn bản, không có logo, không có hình mờ, không có chi tiết thừa"]

Ví dụ — Mô tả sản phẩm có cấu trúc đầy đủ (khoảng 500 từ) dành cho một hình ảnh chính của quảng cáo:

# SCENE
A restored 1930s Art Deco ballroom on a rainy Tuesday evening in Paris, set during a private jazz performance. Tall arched windows on the left show wet boulevards and soft yellow streetlamp glow. Interior is lit warm and amber.

# CHARACTERS
- Lead: A striking 32-year-old woman with dark auburn hair in a low chignon, wearing a deep emerald-green silk bias-cut gown with a low back. She stands near a grand piano, one hand resting on its polished black lid, gazing thoughtfully toward the windows. Faint melancholy in her expression.
- Pianist: A middle-aged man in a black tuxedo, seated at the piano mid-performance, profile view, fingers on keys. He is a secondary figure — should not pull focus from the lead.
- Background: Three or four well-dressed patrons at candlelit round tables in soft bokeh, unidentifiable faces.

# COMPOSITION
Medium-wide shot. Lead character is on the right third of the frame, piano extending diagonally across the center toward the left. Rule of thirds. 50mm lens, f/2.2, shallow depth of field — lead and piano sharp, background patrons and windows softly blurred. Eye-level camera height.

# LIGHTING
Warm tungsten chandelier overhead providing ambient glow on the room. Key light on the lead is a single practical wall sconce camera-right at 45 degrees, modeling her face in gentle Rembrandt pattern. Rim from the windows behind her (cool blue rainy light) separates her hair and shoulder edge from the warm interior. Overall contrast: high but soft.

# COLOR
Deep emerald green (dress) and warm amber (interior) as hero colors, with cool blue window light as counter-accent. Warm gold dominant, with selective teal shadow detail. Film-look color grade reminiscent of early Wong Kar-wai.

# STYLE
Cinematic still in the visual language of In the Mood for Love meets a modern luxury cognac commercial. Anamorphic lens quality (slight horizontal flare on the candles). Painterly softness, 35mm film grain.

# TECHNICAL
Ultra-realistic 4K, 16:9 aspect, cinematic frame.

# EXCLUSIONS
No text, no signage, no logos, no watermarks, no visible phones or modern electronics, no extra limbs, no warped fingers on the pianist.

Cấu trúc phân đoạn mang lại hai lợi ích: Thứ nhất, giúp bạn không bỏ sót bất kỳ ô nào; thứ hai, cung cấp cho mô hình một điểm vào phân tích có cấu trúc, thay vì một đoạn văn dài 500 từ. Chỉ cần chỉnh sửa hai phần CHARACTERS và SCENE trong toàn bộ chuỗi, bạn có thể tạo ra hàng loạt các cảnh quay khác nhau cho cùng một quảng cáo.

Một lời khuyên thực tế: Khi hình ảnh đã được render đúng 80% nhưng có một yếu tố nào đó chưa chính xác (ví dụ như nhân vật nữ chính mặc sai màu), đừng viết lại toàn bộ câu gợi ý. Hãy sao chép câu gợi ý đã thành công, chỉ chỉnh sửa phần tương ứng, rồi chạy lại một lần nữa. Nhật ký lặp lại nội bộ của chúng tôi cho thấy: với lời nhắc có cấu trúc, trung bình chỉ cần 2,8 lần là có thể nhận được một khung hình đạt chất lượng hình chính; trong khi với lời nhắc tự do, thường phải vượt quá 6 lần. Tính theo 12 credits cho mỗi hình, đây chính là sự chênh lệch giữa $2 và $5 cho mỗi hình chính.

Bạn muốn giao quy trình làm việc với các từ khóa có cấu trúc cho đồng nghiệp? Hãy để họ xem Hướng dẫn bắt đầu trước, sau đó quay lại đọc bài viết này.


Câu hỏi thường gặp

Điều quan trọng nhất trong lời nhắc của GPT Image 2 là gì?

Ánh sáng và ống kính – thứ tự chính là như vậy. Nếu chủ thể và bối cảnh được miêu tả hơi mơ hồ thì vẫn có thể cứu vãn được, nhưng một khi hướng ánh sáng và lựa chọn ống kính không rõ ràng, thành phẩm sẽ luôn trông như ảnh stock. Nếu bạn chỉ có thời gian để chỉnh sửa kỹ lưỡng hai yếu tố này, hãy tập trung vào chúng. Hãy xác định rõ “ánh sáng đến từ hướng nào, độ cứng ra sao, bóng đổ về phía nào”, sau đó xác định rõ “ống kính bao nhiêu mm, khẩu độ bao nhiêu, khoảng cách gần hay xa”, như vậy nền tảng cơ bản của bức ảnh đã được đảm bảo.

Độ dài của lời nhắc GPT Image 2 nên là bao nhiêu?

Đối với ảnh chân dung và bối cảnh đơn giản, khoảng 80–150 từ là mức lý tưởng. Đối với ảnh góc rộng mang phong cách điện ảnh, có yếu tố thời đại và phong cách đặc trưng, khoảng 150–250 từ. Đối với bối cảnh có nhiều nhân vật hoặc bản tóm tắt quảng cáo, sử dụng mẫu có cấu trúc với khoảng 400–800 từ. Giới hạn tối đa 20.000 ký tự dành cho những trường hợp đặc biệt — trong thực tế, hiếm khi vượt quá 500 từ.

Có thể ghi tên nghệ sĩ thực tế vào lời nhắc không?

Bạn có thể đề cập đến một phong cách hoặc thời kỳ — như "film noir", "giallo thập niên 1970", "phong cách hội họa của Studio Ghibli" — mô hình sẽ nhận diện được những ngôn ngữ thị giác này. Tuy nhiên, việc sử dụng tên của các nghệ sĩ còn sống làm nhãn phong cách là vấn đề đạo đức nhạy cảm và ngày càng bị các mô hình lọc bỏ. Cách tốt hơn là mô tả phong cách, phương tiện nghệ thuật và thời kỳ, thay vì nêu tên cá nhân.

Tại sao mỗi lần nhập cùng một từ khóa lại cho kết quả khác nhau?

Mô hình lan truyền về bản chất là ngẫu nhiên — nó bắt đầu từ một hình ảnh nhiễu và loại bỏ nhiễu để tạo ra hình ảnh. Khi chạy cùng một lời nhắc hai lần, kết quả thu được chắc chắn sẽ tương tự nhưng không hoàn toàn giống nhau. Đây là đặc tính chứ không phải lỗi, đồng thời cũng là nguồn gốc của "sự đa dạng". Để tái tạo kết quả, hầu hết các hệ thống tạo sinh đều hỗ trợ tham số seed. Để tìm hiểu thêm về bối cảnh kỹ thuật, bạn có thể tham khảo Bài viết trên blog về tạo sinh hình ảnh của OpenAI.

Độ dài của từ khóa có ảnh hưởng đến giá không?

Không ảnh hưởng. GPT Image 2 áp dụng mức giá cố định: 12 credits cho mỗi hình ảnh, bất kể bạn nhập 20 từ hay 2.000 từ. Yếu tố duy nhất ảnh hưởng đến chi phí là số lượng hình ảnh được tạo ra.

Nên thử một ý tưởng bao nhiêu lần trước khi từ bỏ?

Quy tắc kinh nghiệm: Thử chạy cùng một từ khóa 3 lần để cảm nhận sự biến động tự nhiên; nếu vẫn chưa đúng, hãy chỉ điều chỉnh một ô, đừng xóa hết để làm lại từ đầu. Hầu hết các trường hợp chỉ cần điều chỉnh ánh sáng hoặc góc máy. Nếu đến lần thứ 8 vẫn không có tiến triển, nghĩa là cấu trúc có vấn đề — hãy quay lại công thức 8 vị trí để kiểm tra xem bạn đã điền được bao nhiêu. Chúng tôi còn có một thói quen nội bộ: ghi lại mỗi từ gợi ý được tạo ra và hạt giống tương ứng vào một bảng, khi phân tích lại sẽ dễ dàng nhận ra từ nào thực sự có tác dụng.

Có thể sử dụng hình ảnh do GPT Image 2 tạo ra cho mục đích thương mại không?

Được. Theo các điều khoản tiêu chuẩn của sản phẩm, hình ảnh bạn tạo ra thuộc quyền sở hữu của bạn và có thể sử dụng cho mục đích thương mại. Các điều khoản cấp phép cụ thể sẽ tuân theo nội dung ở phần chân trang; đối với các trường hợp có rủi ro cao (quảng cáo thương hiệu, bìa ấn phẩm, v.v.), bạn nên tham khảo ý kiến luật sư. Ngoài ra, đừng coi các nhân vật thực tế hoặc nhãn hiệu thương hiệu được đề cập trong từ khóa gợi ý như một “lá bùa miễn trừ trách nhiệm” — đó là vấn đề liên quan đến quyền hình ảnh và quyền nhãn hiệu, không thuộc phạm vi điều chỉnh của các điều khoản sản phẩm AI.

Sự khác biệt giữa các từ khóa cho "text-to-image" và "image-to-image" là gì?

text-to-image bắt đầu từ hình ảnh nhiễu, trong đó lời gợi ý là hướng dẫn duy nhất. image-to-image bắt đầu từ hình ảnh tham chiếu mà bạn tải lên, lời gợi ý chỉ dùng để chỉnh sửa hình ảnh đó. Lời gợi ý cho image-to-image nên ngắn gọn hơn, tập trung vào "chỉnh sửa gì" ("chuyển sang phong cách tranh sơn dầu, giữ nguyên tư thế và trang phục của nhân vật chính"), thay vì mô tả lại toàn bộ bối cảnh — vì hình ảnh tham chiếu đã cung cấp hầu hết các chi tiết cần thiết.


Bạn đã sẵn sàng bắt tay vào công việc chưa?

Hiện tại, bạn đã có hơn 50 từ khóa gợi ý, một bộ công thức gồm 8 ô, một danh sách các trường hợp thất bại cần khắc phục, cùng một mẫu từ khóa gợi ý dài có cấu trúc sẵn. Bước tiếp theo là mở công cụ và thực sự chạy thử một lần. Hãy chọn ngẫu nhiên một từ khóa, dán vào và xem kết quả đầu ra khác biệt bao nhiêu so với hình ảnh bạn tưởng tượng trong đầu — sau đó chỉ cần chỉnh sửa ô nào bị lệch, rồi chạy lại một lần nữa. Chỉ sau hai hoặc ba lần lặp lại, bạn sẽ có thể tạo ra những hình ảnh "sẵn sàng để giao" một cách ổn định.

Hãy lưu bài viết này vào danh sách dấu trang của trình duyệt, hoặc dán công thức 8 ô này bên cạnh màn hình phụ của bạn. Sự tiến bộ thực sự không nằm ở việc ghi nhớ những từ khóa này, mà là biến công thức thành phản xạ tự nhiên — sau đó, bất cứ khi nào bạn nhìn thấy một bức ảnh tham khảo nào, bạn sẽ tự nhiên phân tích được chủ thể, ánh sáng, góc máy và phong cách của nó.

Bắt đầu sử dụng GPT Image 2 miễn phí →

Đọc tiếp:

Bạn có thắc mắc về một từ khóa nào đó? Hãy để lại bình luận cho chúng tôi trên trang web — chúng tôi sẽ xem xét từng bình luận, và những câu hỏi được đặt ra nhiều nhất thường sẽ được đưa vào phiên bản hướng dẫn tiếp theo. Bạn có thể tham khảo thêm phần lý thuyết tại bài viết trên Wikipedia về mô hình tạo hình ảnh từ văn bản, mất khoảng 10 phút. Nếu muốn nâng cao kỹ năng hơn nữa, bước tiếp theo bạn có thể tham khảo Hướng dẫn sử dụng trong cùng series này, để nâng cấp quy trình làm việc từ "tạo ra một hình ảnh đẹp" lên "sản xuất ổn định một bộ hình ảnh có phong cách thống nhất".

Nhóm GPT Image 2

Nhóm GPT Image 2

Tạo hình ảnh và video bằng trí tuệ nhân tạo