Hướng dẫn sử dụng GPT Image 2: Hướng dẫn chi tiết từ đăng ký đến tạo hình ảnh (2026)

Tóm tắt nhanh

GPT Image 2 là một công cụ tạo hình ảnh bằng AI chạy trực tiếp trên trình duyệt, chỉ có hai chế độ: chuyển văn bản thành hình ảnh (text-to-image) và chuyển hình ảnh thành hình ảnh (image-to-image). Giá được tính thống nhất là 12 điểm/hình, không có các tùy chọn bổ sung như độ phân giải, tỷ lệ khung hình hay mức chất lượng. Bài viết này sẽ hướng dẫn bạn từ khâu đăng ký, tạo hình ảnh lần đầu, tải ảnh tham khảo để chỉnh sửa, cho đến các chiến lược gợi ý từ khóa để tạo ra những hình ảnh thực sự hữu ích, tất cả chỉ trong một bài viết. Dùng thử miễn phí GPT Image 2 →

Trước khi bắt đầu: Bạn cần chuẩn bị những gì

Để sử dụng GPT Image 2, bạn không cần card đồ họa cao cấp, Photoshop hay bất kỳ kinh nghiệm nào về AI; tất cả các tác vụ tính toán đều được thực hiện trên máy chủ, còn trình duyệt chỉ chịu trách nhiệm nhập liệu và hiển thị kết quả. Những gì bạn thực sự cần chuẩn bị rất đơn giản:

Một trình duyệt hiện đại. Các phiên bản mới nhất của Chrome, Edge, Safari, Firefox và Arc đều được hỗ trợ. Bật tính năng tăng tốc phần cứng sẽ giúp quá trình xem trước mượt mà hơn, nhưng không bắt buộc.
Một tài khoản email. Hỗ trợ đăng ký bằng mật khẩu email cũng như đăng nhập một chạm qua Google. Có thể sử dụng email công ty hoặc Gmail, nhưng các tên miền email dùng một lần sẽ bị từ chối.
Một số điểm thưởng. Dù là tạo hình ảnh từ văn bản hay tạo hình ảnh từ hình ảnh, bất kể độ dài của từ khóa gợi ý hay tỷ lệ đầu ra, đều tính thống nhất 12 điểm/hình. Tài khoản mới được tặng điểm dùng thử miễn phí, đủ để hoàn thành các lần tạo hình đầu tiên trong hướng dẫn này.
Một hình ảnh tham khảo (tùy chọn). Nếu bạn định sử dụng tính năng tạo hình từ hình, hãy chuẩn bị một đến hai hình ảnh nguồn ở định dạng JPG / PNG / WebP, mỗi hình không nên vượt quá 10 MB. Cấu trúc hình vuông hoặc dọc sẽ dễ dàng cho kết quả ổn định nhất.
**Chỉ cần một ý tưởng mơ hồ là đủ. ** Người mới thường muốn viết ra "cụm từ gợi ý hoàn hảo" ngay từ đầu, nhưng lại dễ bị mắc kẹt trong sự băn khoăn. Phương pháp thực sự hiệu quả là trước tiên hãy dùng cụm từ gợi ý đơn giản để tạo ra một hình ảnh, xem mô hình đưa ra kết quả gì, rồi mới quyết định chỉnh sửa như thế nào.

Tính đến tháng 4 năm 2026, việc sử dụng GPT Image 2 không yêu cầu tải xuống bất kỳ phần mềm khách hàng nào, không cần đăng ký khóa API và cũng không phải chờ đợi trong danh sách chờ. Chỉ cần truy cập trang chủ, đăng nhập và bắt đầu tạo nội dung – chỉ cần ba bước đơn giản như vậy.

Bìa hướng dẫn sử dụng GPT Image 2: Tác giả đang sử dụng công cụ tạo hình ảnh AI trước máy tính xách tay — Một chiếc bàn, một tab trình duyệt, một đoạn văn bản gợi ý — đó là toàn bộ môi trường làm việc của GPT Image 2.

Bài viết này dành cho những ai muốn sử dụng công cụ một cách hiệu quả. Việc thao tác trên công cụ chỉ mất hai phút là có thể nắm được, nhưng điều thực sự đòi hỏi công sức chính là những quyết định như "viết gì, xem gì và khi nào cần chỉnh sửa" – và các chương sau đây sẽ đề cập đến những vấn đề này. Nếu bạn đang vội, có thể chuyển thẳng sang Phương pháp 1, và khi gặp kết quả đầu tiên không như ý, hãy quay lại xem hai phần về kỹ thuật sử dụng từ khóa gợi ý và các lỗi thường gặp.

Phương pháp 1: Chuyển văn bản thành hình ảnh — Tạo bức ảnh đầu tiên từ đầu

Chế độ "Viết thành hình ảnh" là tính năng mà hầu hết mọi người đều muốn thử ngay khi truy cập GPT Image 2: chỉ cần viết một đoạn mô tả, nhấn nút tạo, mô hình sẽ trả về một hình ảnh hoàn chỉnh. Dưới đây là hướng dẫn từng bước.

Bước 1: Mở trình tạo và đăng nhập

Mở trang chủ GPT Image 2 . Bảng điều khiển công cụ tạo nội dung nằm ở màn hình đầu tiên trên phiên bản máy tính để bàn và là khối nội dung đầu tiên trên phiên bản di động. Khi chưa đăng nhập, bạn sẽ thấy mục "Tạo sau khi đăng nhập"; hãy chọn tài khoản email hoặc Google để hoàn tất việc đăng nhập, chỉ mất chưa đầy một phút.

Sau khi đăng nhập, số dư điểm sẽ hiển thị ở góc trên bên phải. Hãy đảm bảo bạn có ít nhất 12 điểm — tài khoản mới được cấp một khoản tín dụng dùng thử, nên bạn có thể thực hiện ví dụ đầu tiên trong bài viết này mà không cần liên kết thẻ.

Bước 2: Chuyển sang tab Text to Image

Ở phía trên trình tạo có hai tab: Text to Image và Image to Image. Lần đầu tiên, hãy sử dụng tính năng chuyển văn bản thành hình ảnh theo mặc định. Ô nhập liệu nằm ngay dưới thanh tab.

Không cần chọn mô hình thủ công — hệ thống sẽ tự động sử dụng mô hình gpt-image-2-text-to-image của KIE; không có các tùy chọn về kích thước, tỷ lệ hay độ phân giải: chỉ có một mô hình duy nhất với một mức giá.

Bước 3: Trước tiên, hãy viết một từ khóa cố ý ngắn gọn

Một sai lầm phổ biến của người mới bắt đầu là nhồi nhét tất cả các tính từ mà họ biết vào dòng gợi ý đầu tiên. Đừng làm như vậy. Hãy bắt đầu bằng một đoạn mô tả ngắn gọn và cụ thể để xem mô hình hoạt động như thế nào ở "trạng thái mặc định". Dòng gợi ý dưới đây là dòng tôi đã sử dụng trong lần thử nghiệm đầu tiên khi chuẩn bị bài viết này:

A golden retriever puppy sitting in a sunlit field of wildflowers, shallow depth of field,
warm afternoon light.

(Ý nghĩa tiếng Trung: Một chú chó Golden Retriever con đang ngồi giữa những bông hoa dại dưới ánh nắng, với độ sâu trường ảnh nông và ánh sáng ấm áp của buổi chiều.)

Dán vào ô nhập liệu, nhấp vào Generate. Hầu hết các từ gợi ý sẽ trả về kết quả trong khoảng 20 đến 40 giây, nhưng vào giờ cao điểm thì sẽ chậm hơn một chút.

Bước 4: Đánh giá kết quả một cách trung thực

Lần đầu tiên tôi chạy lệnh trên, kết quả gần như đạt yêu cầu: tông màu ấm, đôi mắt rõ nét, nền mờ tự nhiên — nhưng bàn chân con chó có phần hơi mờ, đây là điểm yếu điển hình của các mô hình hình ảnh hiện nay. Điều này là bình thường, bước này không nhằm mục đích chấm điểm, mà để giúp bạn hình thành nhận thức về "kết quả mặc định".

Trong hình đầu tiên, bạn cần chú ý đến ít nhất ba điều sau:

Đối tượng chính có chính xác không. Mô hình có thể hiện đúng đối tượng bạn muốn không? Hay có sự sai lệch (ví dụ như vẽ chó Golden Retriever thành chó Labrador)?
**Hướng ánh sáng. ** Ánh sáng thực tế có khớp với mô tả của bạn không? "Ánh sáng ấm áp của buổi chiều" nên là ánh sáng bên mềm mại và có hướng, chứ không phải ánh sáng từ trên cao.
Bố cục. Khung hình của chủ thể có phù hợp với hình ảnh trong đầu bạn không? Hay lại nằm chính giữa một cách gượng gạo?

Nếu có bất kỳ yếu tố nào trong ba khía cạnh này không phù hợp, bạn sẽ có lý do chính đáng để điều chỉnh từ khóa — thay vì chỉ đơn thuần chạy lại quảng cáo một cách mù quáng.

Bước 5: Viết một lời nhắc đã được tối ưu hóa

Dưới đây là phiên bản nâng cao của cùng một cảnh. Chủ thể và cách xử lý ánh sáng vẫn giữ nguyên, nhưng đã áp dụng cấu trúc phù hợp hơn với GPT Image 2:

A 3-month-old golden retriever puppy with fluffy fur and floppy ears, sitting upright in a
meadow of wild daisies and lavender. Warm late-afternoon sunlight streams from the left,
casting long gentle shadows and creating a soft golden rim light on the fur. Shallow depth
of field, background softly blurred with bokeh. Shot on an 85mm lens, eye level with the
puppy. Photorealistic, high detail, natural colors.

(Ý nghĩa tiếng Trung: Một chú chó Golden Retriever ba tháng tuổi, lông xù, tai mềm rũ, đang ngồi ngay ngắn trên bãi cỏ đầy hoa cúc dại và hoa oải hương. Ánh nắng ấm áp của buổi chiều chiếu từ bên trái, tạo ra những bóng dài mềm mại và tạo nên những đường viền ánh sáng vàng trên bộ lông. Độ sâu trường ảnh nông, nền mờ với hiệu ứng bokeh. Ống kính 85mm, chụp ngang tầm mắt với chú chó con. Phong cách hiện thực, chi tiết cao, màu sắc tự nhiên.)

So với bản đầu tiên, có bốn điểm đã được sửa đổi:

Chi tiết về đối tượng cụ thể hơn ("ba tháng tuổi", "bộ lông xù", "tai mềm"), giúp người mẫu hình dung rõ hình ảnh.
Hướng ánh sáng rõ ràng ("từ bên trái", "ánh sáng viền chiếu lên bộ lông"), thay vì chỉ mô tả là "ấm áp".
Ngôn ngữ ống kính ("ống kính 85mm", "nhìn ngang tầm mắt với chú chó con") cung cấp cho người mẫu một khuôn mẫu bố cục cụ thể.
Các tính từ mô tả chất lượng được đặt ở cuối ("thực tế, chi tiết cao, màu sắc tự nhiên") — ngắn gọn, không lấn át nội dung chính.

Hãy nhấp vào Generate một lần nữa. Hình ảnh thứ hai sẽ gần với hình dung của bạn hơn. Nếu vẫn chưa đúng, đừng viết lại toàn bộ đoạn văn — hãy chỉ thay đổi một biến số mỗi lần, sau đó tạo ra kết quả và so sánh, như vậy bạn mới biết được từ nào đang phát huy tác dụng.

Một mô hình tư duy hữu ích: Chia từ khóa thành bốn "khung" — chủ thể, hành động, bối cảnh và phong cách. Mỗi lần chỉ cần điều chỉnh khung có vấn đề. Nếu chủ thể không phù hợp thì điều chỉnh khung chủ thể, nếu ánh sáng không đúng thì điều chỉnh khung bối cảnh, nếu hình ảnh trông như hoạt hình nhưng bạn muốn ảnh chụp thì điều chỉnh khung phong cách.

Bước 6: Lưu, tải xuống hoặc tiếp tục chỉnh sửa

Sau khi hài lòng với hình ảnh, bạn sẽ thấy nút tải xuống bên dưới phần xem trước. Mỗi lần tạo hình ảnh sẽ tự động được lưu vào lịch sử tài khoản; bạn có thể xem lại các phiên bản cũ, sao chép các từ khóa gợi ý trước đó và tiếp tục chỉnh sửa. Nếu sau này muốn tiếp tục chỉnh sửa nhân vật này trong tính năng "Tạo hình từ hình ảnh", bạn chỉ cần chọn hình ảnh này từ lịch sử làm hình ảnh gốc là được.

Hình ảnh chất lượng điện ảnh được tạo ra bằng GPT Image 2: Một người phụ nữ mặc váy dài bằng lụa trắng trên bãi biển vào giờ hoàng hôn — Một lời gợi ý tạo hình ảnh từ văn bản kèm theo mô tả cụ thể về ánh sáng. Khi chỉ rõ "giờ vàng" và "lụa ngược sáng", mô hình sẽ có những gợi ý trực quan rõ ràng để phát huy khả năng.

Quy trình "Mở đầu — Viết lời — Đánh giá — Điều chỉnh — Tạo lại" mà bạn vừa hoàn thành chính là chu trình làm việc của toàn bộ quy trình tạo hình ảnh từ văn bản. Tất cả nội dung tiếp theo trong bài viết này sẽ hướng dẫn bạn cách thực hiện chu trình này nhanh hơn và tiết kiệm điểm hơn.

Nếu bạn sử dụng GPT Image 2 trong thời gian dài, tôi khuyên bạn nên tạo một tệp văn bản thuần túy để ghi lại các "lời nhắc hiệu quả". Đây không phải là các mẫu có sẵn, mà là nhật ký cá nhân của bạn — mỗi khi hài lòng với hình ảnh tạo ra, hãy sao chép toàn bộ lời nhắc đó vào tệp dưới dạng một dòng ghi chú. Sau nửa năm, kho lưu trữ này sẽ phù hợp với gu thẩm mỹ của bạn hơn bất kỳ mẫu chung nào trên mạng.

Phương pháp 2: Tạo hình từ hình ảnh — Chỉnh sửa hoặc thay đổi phong cách trên ảnh có sẵn

Chế độ hình ảnh sang hình ảnh (image-to-image, viết tắt là i2i) lấy một hình ảnh gốc làm điểm xuất phát; mô hình sẽ giữ lại những phần bạn muốn giữ nguyên và tái tạo phần còn lại dựa trên lời nhắc. Nếu bạn muốn thực hiện các yêu cầu như "cùng một người thay đổi trang phục", "cùng một sản phẩm thay đổi phông nền" hay "cùng một bố cục nhưng thay đổi phong cách", hãy sử dụng chế độ này.

Bước 1: Chuyển sang tab Image to Image

Quay lại trình tạo trang chủ, nhấp vào Image to Image. Phía trên khu vực nhập liệu sẽ xuất hiện thêm một khu vực tải lên tệp; hộp gợi ý vẫn còn đó và vẫn hỗ trợ tối đa 20.000 ký tự, nhưng giờ đây nó hoạt động kết hợp với hình ảnh được tải lên.

Dịch vụ này sử dụng gpt-image-2-image-to-image ở phía sau, với mức giá tương tự như dịch vụ tạo hình ảnh từ văn bản — 12 điểm/hình. Không có thanh trượt "độ mạnh" riêng biệt; mức độ thay đổi hoàn toàn phụ thuộc vào cách diễn đạt trong lời nhắc của bạn.

Nếu bạn đã từng sử dụng các công cụ khác như InPainting (sửa chữa bằng mặt nạ), hãy lưu ý điều chỉnh cách tiếp cận: GPT Image 2 không yêu cầu vẽ mặt nạ, mà sẽ đọc toàn bộ hình ảnh gốc cùng với toàn bộ lời nhắc trước khi quyết định chỉnh sửa những gì. Đối với 80% nhu cầu thực tế (thay đổi nền, thay đổi trang phục, chuyển từ ban ngày sang ban đêm), việc chỉ chỉnh sửa lời nhắc lại đơn giản hơn nhiều.

Bước 2: Tải lên hình ảnh gốc

Kéo tệp JPG / PNG / WebP vào khu vực tải lên hoặc nhấp để chọn tệp. Lần đầu tiên thực hành, bạn nên chọn một bức ảnh có ánh sáng rõ ràng và bố cục đơn giản. Những bức ảnh bị mờ do chuyển động, ánh sáng yếu hoặc nền lộn xộn sẽ tạo ra nhiều khoảng trống cho mô hình "tự do diễn giải", khiến việc so sánh trước sau trở nên khó nhận biết.

Bức ảnh dưới đây chính là kiểu ảnh điển hình mà "người mới bắt đầu thường tải lên khi lần đầu thử dùng công cụ AI" — một bức ảnh tự sướng bình thường trong nhà.

Một bức ảnh tự chụp trong nhà bình thường, được dùng làm hình ảnh gốc cho tính năng tạo hình ảnh của GPT Image 2 — Ảnh gốc: Một bức ảnh tự chụp trong nhà hàng ngày bị phơi sáng quá mức một chút. Đây không phải là ảnh đã qua chỉnh sửa kỹ lưỡng, mà chính xác là loại ảnh đầu vào mà Tushengtu giỏi nhất trong việc biến đổi.

Bước 3: Trước tiên hãy xác định xem đó là "sửa chữa nhỏ" hay "cải tạo toàn diện"?

Trước khi viết lời nhắc, hãy xác định rõ mức độ thay đổi mà bạn mong muốn. Việc tạo hình ảnh mới và thay thế hình ảnh hiện có là hai mục đích hoàn toàn khác nhau, do đó cách viết lời nhắc cũng khác nhau:

Sửa nhỏ (Edit): Giữ nguyên phần lớn, chỉ thay đổi một yếu tố. "Thay đổi màu áo thành xanh hải quân." "Loại bỏ tách cà phê." "Thay đổi nền thành giá sách." "
Biến đổi (Transform): Giữ nguyên nhân vật, viết lại toàn bộ bối cảnh."Cùng một người, thay đổi trang phục thành trang phục truyền thống Trung Quốc và đứng trên ban công cung điện dưới ánh trăng.""Cùng một sản phẩm, thay đổi thành bàn đá cẩm thạch kết hợp với ánh sáng studio."

Càng mô tả chi tiết bối cảnh mới trong lời nhắc, mô hình sẽ điều chỉnh càng nhiều; nếu chỉ đề cập đến một thuộc tính, các phần còn lại sẽ có xu hướng được giữ nguyên. Đây chính là công cụ giúp bạn kiểm soát "mức độ thay đổi" khi không có thanh trượt.

Ví dụ: change the shirt to navy blue (thay áo sơ mi thành màu xanh hải quân) là một chỉnh sửa nhỏ, khuôn mặt, kiểu tóc, tư thế, phông nền và ánh sáng đều không thay đổi. Nếu thay đổi thành She is now wearing a tailored navy suit, standing in a glass-walled corporate office at golden hour (Cô ấy đang mặc một bộ vest màu xanh hải quân vừa vặn, đứng trong văn phòng có tường kính vào giờ hoàng hôn), thì đây là một sự biến đổi hoàn toàn — vest, môi trường, ánh sáng đều thay đổi, chỉ giữ lại khuôn mặt và dáng người. Cả hai đều là một câu, mức độ thay đổi phụ thuộc vào việc bạn mô tả bao nhiêu bối cảnh mới.

Bước 4: Viết một lời nhắc để cho mô hình biết "nên giữ lại những gì"

Dưới đây là các từ khóa tôi đã sử dụng để "biến hóa" bức ảnh gốc ở trên:

Same woman — identical facial features and hair. Transform the scene: she now wears an
elaborate crimson-and-gold hanfu with intricate embroidery and a jeweled phoenix hairpin.
She stands on a moonlit palace terrace, red lanterns glowing softly in the background,
cherry blossom petals drifting in the air. Warm lantern light from the right, cool
moonlight fill from the left. Cinematic shallow depth of field, elegant composition, 4K
photorealistic.

(Ý nghĩa tiếng Trung: Vẫn là cùng một người phụ nữ — khuôn mặt và kiểu tóc được giữ nguyên hoàn toàn. Mô tả lại bối cảnh: Giờ đây, cô mặc bộ trang phục Hán phục màu đỏ vàng lộng lẫy, thêu hoa văn tinh xảo, cài chiếc trâm phượng vàng trên búi tóc. Cô đứng trên ban công cung điện dưới ánh trăng, phía sau là những chiếc đèn lồng đỏ tỏa ánh sáng dịu nhẹ, cùng những cánh hoa anh đào đang bay lả tả. Phía bên phải là ánh sáng ấm áp từ đèn lồng, phía bên trái là ánh trăng lạnh lẽo. Độ sâu trường ảnh nông như phim điện ảnh, bố cục thanh lịch, độ phân giải 4K chân thực.)

Có hai điểm được nêu rõ:

"Cùng một người phụ nữ — các đặc điểm khuôn mặt và mái tóc giống hệt nhau." Câu này gần như đã hoàn tất toàn bộ công việc duy trì nhận dạng. Nếu không ghi câu này, mô hình sẽ bị lệch hướng một cách ngẫu nhiên.
Mô tả chi tiết về bối cảnh mới. Phải nêu rõ trang phục, địa điểm, đạo cụ và hướng ánh sáng. Mô hình đang tái tạo toàn bộ môi trường, do đó cần một bộ hướng dẫn đầy đủ, chứ không chỉ một thẻ.

Bước 5: So sánh kết quả trước và sau khi tạo

Nhấn vào "Generate" để xem kết quả. Trong lần thử nghiệm của tôi, hình ảnh tạo ra vẫn giữ nguyên khuôn mặt và đường nét kiểu tóc có thể nhận diện được của nhân vật chính, còn tất cả các chi tiết khác đều được tái tạo theo lời gợi ý.

Kết quả tạo hình ảnh của GPT Image 2: Cùng một nhân vật được biến tấu thành bối cảnh phim cổ trang cung đình — Tạo hình ảnh từ hình ảnh: Giữ nguyên nhân vật trong cả hai hình ảnh, nhưng trang phục, bối cảnh và ánh sáng phải được viết lại hoàn toàn theo từ khóa.

Hãy xem xét cả hai hình ảnh trước và sau cùng nhau. Nếu khuôn mặt thay đổi quá nhiều, hãy bổ sung cụm từ "same person" vào lời nhắc (ví dụ: thêm vào "preserve exact face shape, same eyes, same nose, same lip shape" — giữ nguyên hình dáng khuôn mặt, đôi mắt, chiếc mũi và hình dáng đôi môi); nếu bối cảnh chưa được điều chỉnh đủ, hãy bổ sung thêm chi tiết về môi trường xung quanh. Đó chính là những nút điều chỉnh mà bạn đang nắm trong tay.

Bước 6: Không cần rời khỏi trang, hãy sử dụng kết quả hiện tại làm dữ liệu đầu vào cho lần tiếp theo

Điểm tiện lợi nhất của tính năng "Tạo hình từ hình" là: chính kết quả vừa tạo ra đã trở thành hình ảnh gốc hợp lệ cho lần chỉnh sửa tiếp theo. Chỉ cần nhấp vào "Sử dụng làm đầu vào mới", sau đó nhập một lời gợi ý mới (ví dụ: "Cùng bối cảnh, nhưng chuyển sang lúc bình minh" hoặc "Cùng tư thế, nhưng tay cầm thêm một chiếc quạt gấp"). Hình ảnh cuối cùng được tạo ra từ những chỉnh sửa nhỏ liên tiếp hầu như luôn gọn gàng hơn so với một lời gợi ý quá dài cố gắng bao quát tất cả mọi thứ.

"Chỉnh sửa theo chuỗi" là một trong những kỹ thuật quy trình làm việc đáng học hỏi nhất trong bài viết này. Mô hình thất bại thường gặp ở người mới bắt đầu: viết một gợi ý dài 300 từ bao quát mọi thứ, nhưng sau tám lần vẽ lại vẫn không đúng. Cách làm chuyên nghiệp là chia thành các vòng: trước tiên hoàn thiện nhân vật, sau đó lấy kết quả của vòng trước làm hình nền để hoàn thiện trang phục, bối cảnh và ánh sáng. Mỗi vòng 12 điểm, tổng cộng 48 điểm cho bốn vòng — kết quả thu được sẽ gọn gàng hơn nhiều so với việc vẽ lại mười lần một lần.

Chuyển đổi phong cách trong GPT Image 2: Ảnh bãi biển thực tế ở bên trái, bản vẽ lại theo phong cách cyberpunk neon ở bên phải — Một bước tiến mới trong việc chuyển đổi phong cách: cùng một nhân vật, cùng một tư thế, được tái tạo từ bãi biển thực tế thành sân thượng phong cách cyberpunk rực rỡ ánh đèn neon. Chỉ cần ghi rõ "same pose" trong lời nhắc, mô hình sẽ giữ nguyên cấu trúc hình học, còn mọi yếu tố khác sẽ được điều chỉnh phù hợp với bối cảnh mới.

Những mẹo viết từ khóa thực sự giúp hình ảnh hiển thị đẹp hơn

Bây giờ bạn đã nắm vững toàn bộ quy trình thao tác. Sự khác biệt giữa người dùng mới trong ngày đầu tiên và người dùng lâu năm có thể tạo ra bộ sưu tập tác phẩm nhờ GPT Image 2 không nằm ở một cụm từ gợi ý bí ẩn nào đó, mà là việc biết được những “đòn bẩy” nào thực sự hiệu quả. Chín gợi ý dưới đây là những gợi ý mang lại hiệu quả đầu tư cao nhất trong thực tế.

Mẹo 1: Đặt từ chính ở đầu, từ chỉ mức độ ở cuối

Hãy bắt đầu lời mô tả bằng cụm từ "Hình vẽ là ai/là gì", và chuyển các từ khóa liên quan đến chất lượng hình ảnh như photorealistic, cinematic, 4K, high detail xuống phần cuối. Mô hình đọc lời mô tả từ đầu đến cuối, nên chủ thể được đề cập ở phần đầu sẽ nhận được trọng số cao nhất, trong khi chủ thể bị che lấp bởi bảy thẻ chất lượng ở phía sau sẽ bị làm loãng.

Yếu hơn: Bức ảnh siêu thực 4K tuyệt đẹp, chi tiết như phim điện ảnh, độ phân giải siêu cao (ultra-HD) chụp một chú mèo đang ngồi trên bệ cửa sổ

Mạnh mẽ: Một chú mèo lông đen trắng mặc bộ vest đang ngồi trên bệ cửa sổ gỗ, nhìn ra con phố mưa bên ngoài. Ánh sáng dịu nhẹ lan tỏa từ cửa sổ, độ sâu trường ảnh nông. Hình ảnh chân thực như thật, mang phong cách điện ảnh.

Mẹo 2: Hãy miêu tả "hướng ánh sáng", chứ không phải "bầu không khí ánh sáng"

"Ánh sáng đẹp" gần như chẳng nói lên điều gì cả. Chỉ khi mô tả cụ thể như "ánh nắng hoàng hôn ấm áp từ bên trái, những bóng dài đổ về phía phải" thì người mẫu mới biết chính xác mỗi bóng nên nằm ở đâu. Các nguồn sáng có hướng và tên cụ thể (window light, rim light, softbox from above, neon fill from behind) là một trong những công cụ tiết kiệm lời nhất và có khả năng nâng cao chất lượng hình ảnh nhất.

Mẹo 3: Sử dụng thuật ngữ nhiếp ảnh để mô tả bố cục, cảm giác chân thực sẽ ngay lập tức được nâng cao

Nếu muốn tạo ra những bức ảnh chân thực, hãy học hỏi từ vựng của các nhiếp ảnh gia. Kết hợp các yếu tố như dải tiêu cự (35mm, 50mm, 85mm, 135mm), các khái niệm về độ sâu trường ảnh (shallow depth of field, deep focus) và góc máy (eye level, low angle, overhead), người mẫu sẽ có được một bộ khuôn mẫu bố cục cụ thể. Bài viết Camera lens trên Wikipedia tiếng Anh là tài liệu hay chỉ mất 10 phút để đọc, giúp bạn lựa chọn tiêu cự một cách có ý thức.

Mẹo 4: Mô tả phong cách theo "phương tiện" thay vì "tên nghệ sĩ"

Cụm từ "theo phong cách của một họa sĩ nào đó" vừa dễ gây hiểu lầm, vừa tiềm ẩn tranh cãi về quyền sở hữu. Cách làm an toàn hơn là mô tả chính phương tiện nghệ thuật: oil painting with visible brushwork (tranh sơn dầu có nét cọ rõ ràng), pencil sketch with cross-hatching (bản phác thảo bút chì có nét chéo), vintage Kodachrome film look with grain (hình ảnh phim Kodachrome cổ điển có hạt), clean vector illustration with flat colors (hình minh họa vector màu phẳng). Cách này vừa cung cấp hướng thẩm mỹ, vừa không phụ thuộc vào cá nhân cụ thể.

Mẹo 5: Sử dụng "mô tả tích cực" thay vì "hạn chế tiêu cực"

GPT Image 2 không có ô nhập từ khóa phủ định riêng biệt. Cách tốt nhất để tránh một số yếu tố là mô tả rõ ràng những gì bạn muốn. Thay vì viết không có người, không có chữ, không lộn xộn, hãy viết một căn phòng trống với tường trơn, bố cục tối giản, một chậu cây duy nhất ở góc phòng. Mô tả tích cực đáng tin cậy hơn nhiều so với cách diễn đạt phủ định.

Mẹo 6: Khi sáng tạo hình ảnh từ hình ảnh, hãy xác định rõ nhân vật trước, sau đó mới tái hiện lại bối cảnh

Khi thực hiện "thay đổi trang phục/bối cảnh", nếu muốn khuôn mặt vẫn giữ nguyên, câu đầu tiên trong lời nhắc chính là chìa khóa. Một câu như Same person — preserve facial features, hair color, and skin tone (Cùng một người — giữ nguyên các đặc điểm khuôn mặt, màu tóc và tông da) đặt ở đầu sẽ hiệu quả hơn bất kỳ mô tả bối cảnh đẹp đẽ nào ở phía sau. Nếu cần làm nổi bật danh tính rõ ràng hơn, hãy bổ sung thêm same eye shape, same nose, same lips. Nói rõ ràng sẽ hiệu quả hơn là gợi ý.

Mẹo 7: Thực hiện các bước nhỏ thay vì viết lại toàn bộ đoạn văn

Mỗi lần chỉ chỉnh sửa một biến số. Nếu tư thế đúng nhưng trang phục không phù hợp, thì chỉ chỉnh sửa phần liên quan đến trang phục; nếu ánh sáng không đúng nhưng các yếu tố khác đều ổn, thì chỉ chỉnh sửa phần liên quan đến ánh sáng. Chỉ như vậy, bạn mới có thể tạo ra một vòng phản hồi thực sự có thể kiểm soát được, từ đó biết được từ nào đã thay đổi điều gì. Viết lại toàn bộ đoạn văn sẽ làm mất đi tín hiệu này và lãng phí điểm.

Mẹo 8: Viết các từ gợi ý theo thứ tự "những điều mô hình nên ưu tiên chú ý"

Đặt các yếu tố chính lên trước: chủ thể → hành động → bối cảnh → phong cách. Nếu viết là "theo phong cách tranh sơn dầu, có một người phụ nữ mặc váy đỏ đang đi dọc con đường lát đá cuội vào lúc hoàng hôn", bạn đang nói với mô hình rằng "đây trước hết là một bức tranh sơn dầu", còn lại chỉ là phụ. Thay vào đó, hãy viết "Một người phụ nữ mặc váy đỏ đang đi bộ trên con đường lát đá cuội vào lúc hoàng hôn, được thể hiện dưới dạng tranh sơn dầu", người mẫu sẽ nghe thấy chủ đề trước tiên, và cuối cùng mới nghe thấy phương tiện thể hiện. Lượng thông tin là như nhau, nhưng cách thứ hai thường cho ra kết quả chính xác hơn rõ rệt.

Mẹo 9: Sử dụng những thuật ngữ mà nhiếp ảnh gia và đạo diễn thực sự dùng

Dutch angle (góc quay Hà Lan), rack focus (chuyển tiêu cự), golden hour (giờ vàng), overcast daylight (ánh sáng ban ngày khi trời nhiều mây), softbox (hộp đèn mềm), gobo shadow (bóng đổ từ tấm chắn hình), hero shot (cảnh quay nhân vật chính), two-shot (cảnh quay đôi), negative space (không gian trống) — những thuật ngữ này đều có ý nghĩa rõ ràng trong nhiếp ảnh và điện ảnh, và có rất nhiều hình ảnh trong dữ liệu huấn luyện được gắn kèm các thuật ngữ này. Các từ mô tả cảm xúc mơ hồ (vibey, dreamy, epic) mang tín hiệu yếu hơn nhiều đối với mô hình. Bài viết Shot (filmmaking) trên Wikipedia tiếng Anh là một tài liệu tham khảo từ vựng nhanh hữu ích trong vòng 15 phút.

Những sai lầm phổ biến nhất của người mới bắt đầu và cách khắc phục

Thành thật mà nói, tôi đã từng mắc phải tất cả những sai lầm dưới đây. Khả năng cao là bạn cũng sẽ mắc phải, nhưng ít nhất bạn có thể nhận ra chúng nhanh hơn.

Lỗi 1: Viết một lời nhắc dài 400 ký tự và mong đợi có được bản hoàn chỉnh ngay từ lần đầu. Các mô hình hình ảnh thường xử lý tốt hơn với những lời nhắc "ngắn gọn và có thể điều chỉnh dần", thay vì những lời nhắc "quá dài và phải hoàn thiện ngay từ đầu". Giới hạn 20.000 ký tự không phải là mục tiêu. Những kết quả mà tôi hài lòng nhất trên GPT Image 2 thường có lời nhắc dài từ 40 đến 120 từ.

Lỗi 2: Tiếp tục chạy lại nhiều lần mà không thay đổi lời gợi ý. Khi nhấn "Generate" hai lần với cùng một lời gợi ý, kết quả đều "gần như hoàn hảo", nhưng khi nhấn lần thứ ba vẫn chỉ là "gần như hoàn hảo". Tính ngẫu nhiên chỉ khám phá trong một vùng lân cận nhỏ; nếu hướng của vùng lân cận đó sai, thì dù chạy lại bao nhiêu lần cũng không cứu vãn được — phải thay đổi lời gợi ý.

Lỗi 3: Từ khóa mâu thuẫn với nhau. Trong cùng một dòng, vừa có "soft dreamy watercolor" (phong cách màu nước mềm mại, mơ màng), vừa có "ultra-sharp photorealistic 4K" (hình ảnh 4K siêu nét, chân thực), điều này là mâu thuẫn. Hệ thống sẽ chỉ chọn một trong hai, hoặc tệ hơn: lấy trung bình của cả hai. Hãy suy nghĩ kỹ trước khi viết.

Lỗi 4: Đặt kỳ vọng quá cao vào văn bản trong hình ảnh. Tính đến tháng 4 năm 2026, các mô hình hình ảnh AI vẫn chưa thể hiển thị ổn định các đoạn văn bản dài, đặc biệt là các ký tự không thuộc bảng chữ cái La-tinh. Các nhãn ngắn trên biển hiệu đôi khi có thể hiển thị được, nhưng văn bản ở cấp độ đoạn văn thì hiếm khi thành công. Khi văn bản là thông tin cốt lõi, bạn chỉ cần sử dụng bất kỳ trình chỉnh sửa hình ảnh nào để chèn một lớp văn bản lên trên sau khi xuất ra là được.

Lỗi 5: Tải lên một hình ảnh gốc mờ. Mô hình sẽ lấy mức độ chi tiết của hình ảnh gốc làm tiêu chuẩn. Một bức ảnh chụp bằng điện thoại mờ nhòe và thiếu sáng, dù bạn có viết lời nhắc là "rõ nét" đi chăng nữa, kết quả đầu ra vẫn sẽ giữ nguyên cảm giác mờ nhòe đó. Nếu có thể, hãy chọn hình ảnh gốc rõ nét.

Lỗi 6: Đừng để bàn tay trở thành điểm nhấn. Bàn tay vẫn là nguyên nhân phổ biến nhất dẫn đến những khuyết điểm trong việc tạo hình ảnh. Nếu bố cục bắt buộc phải làm nổi bật bàn tay, hãy chấp nhận rằng bạn sẽ phải chỉnh sửa thêm vài lần; còn nếu bàn tay không phải là yếu tố trung tâm, hãy để phần tay nằm ngoài khung hình hoặc buông thõng một cách tự nhiên.

Lỗi 7: Bỏ qua tỷ lệ khung hình trong giai đoạn tải lên hình ảnh được tạo từ hình ảnh gốc. Hình ảnh được tạo ra thường giữ nguyên tỷ lệ khung hình của hình ảnh gốc. Nếu bạn muốn tạo banner nhưng lại tải lên một bức ảnh selfie dọc, điều đó chẳng khác nào đi ngược lại với mô hình. Hãy cắt hình ảnh gốc theo tỷ lệ mong muốn trước khi tạo hình ảnh.

Lỗi 8: Coi "bản phác thảo tạm bợ đầu tiên" là bản hoàn chỉnh. Những người dùng có kinh nghiệm sẽ coi "cũng được" là điểm xuất phát cho vòng tiếp theo. Khoảng cách giữa "cũng được" và "đạt chuẩn portfolio" thường chỉ xuất hiện ở lần tạo thứ ba, chứ không phải lần đầu tiên.

Lỗi 9: Quên rằng mô hình không ghi nhớ dữ liệu giữa hai lần tạo hình. Trừ khi bạn sử dụng phương pháp “tạo hình từ hình” (image-to-image) để lấy kết quả trước đó làm hình ảnh nguồn, mỗi lần tạo hình đều là một quá trình hoàn toàn mới. Nếu muốn tái sử dụng nhân vật cũ, hãy lưu lại lời nhắc ban đầu hoặc trực tiếp chỉnh sửa dựa trên hình ảnh trước đó.

Cách thức hoạt động bên trong của GPT Image 2 (Tóm tắt)

Phần này không bắt buộc phải đọc, nhưng sẽ giúp bạn có cái nhìn thực tế hơn. GPT Image 2 là một giao diện người dùng (UI) được tối giản hóa, trực tiếp gọi hai mô hình gpt-image-2-text-to-image và gpt-image-2-image-to-image của KIE — chúng thuộc họ mô hình lan truyền (diffusion models) và đã được tối ưu hóa cho việc tuân thủ lệnh và tạo hình ảnh chân thực với độ trung thực cao. Mỗi yêu cầu sẽ được xác thực, tính phí 12 điểm, xếp hàng và trả về URL hình ảnh.

Việc hiển thị các nút điều khiển trên giao diện hầu như không phải là chủ ý: Bản thân API KIE không cung cấp các thành phần điều khiển này, và việc thêm các "nút trượt giả" ở lớp trên chỉ gây nhầm lẫn. Mọi khả năng của mô hình đều được thể hiện thông qua các từ khóa gợi ý. Để tìm hiểu sâu hơn về nguyên lý hoạt động, bạn có thể tham khảo bài viết trên Wikipedia Mô hình khuếch tán và trang nghiên cứu của OpenAI Trang nghiên cứu.

GPT Image 2 cũng có những hạn chế

Nếu chỉ nói về mặt tích cực mà không đề cập đến mặt tiêu cực thì đó không phải là một hướng dẫn. Dưới đây là những điểm yếu chung của GPT Image 2 — thực ra là của tất cả các mô hình hình ảnh chủ đạo hiện nay:

Tái hiện chính xác các yếu tố thương hiệu. Logo, nhân vật được cấp phép và bao bì sản phẩm không thể được tái hiện một cách ổn định. Cách làm đúng là tạo bố cục trước, sau đó ghép logo thật vào.
**Độ nhất quán cao trong việc tham chiếu. ** Khi cần một nhân vật phải hoàn toàn nhất quán trong hàng chục trang (ví dụ như truyện tranh đăng kỳ), việc duy trì bản sắc của hình ảnh tạo ra từ hình ảnh đã tốt hơn nhiều so với việc tạo hình ảnh từ văn bản thuần túy, nhưng vẫn không chính xác đến từng khung hình như khi huấn luyện LoRA hoặc gắn kết nhân vật 3D.
Giải phẫu học trong các tư thế cực đoan. Ngón tay, bàn chân, răng, tai và các chi chéo nhau là những bộ phận dễ bị biến dạng nhất. Càng zoom gần, lỗi càng rõ ràng.
Bố cục hoàn hảo. Như đã đề cập ở trên — điều này vẫn đúng.

Còn hai điều thực tế nữa: Thứ nhất, bản thân mô hình lan truyền đã có tính ngẫu nhiên trong việc lấy mẫu — cùng một lời gợi ý sẽ cho ra kết quả khác nhau mỗi lần; tính đa dạng là ưu điểm, còn tính nhất quán là nhược điểm, và nhược điểm này có thể được khắc phục bằng cách chỉnh sửa theo chuỗi “hình sinh hình”. Thứ hai, mô hình phản ánh phân phối của dữ liệu huấn luyện; các bối cảnh văn hóa ít phổ biến thường khó đưa ra kết quả chính xác ngay từ lần đầu so với các chủ đề đại chúng, do đó cần dự kiến sẽ phải lặp lại nhiều lần.

Một quy trình tạo hình ảnh bằng AI thực sự hiệu quả không phải là "dùng một mô hình duy nhất cho mọi trường hợp", mà là "GPT Image 2 xử lý 80% nội dung hình ảnh chính, còn trình chỉnh sửa cơ bản sẽ thực hiện 20% công đoạn hoàn thiện thủ công".

Tóm tắt trên một trang: Quy trình đầy đủ

Nếu bạn chỉ muốn xem phiên bản ngắn gọn ngay bên cạnh màn hình:

Mở trang chủ GPT Image 2] và đăng nhập.
Xác nhận tài khoản có ít nhất 12 điểm.
Chọn thẻ: Text to Image hoặc Image to Image.
Tạo hình từ hình: Tải lên một hình ảnh nguồn rõ nét.
Trước tiên, viết một lời gợi ý ngắn gọn và cụ thể. Đặt chủ thể ở trước, từ mô tả chất lượng ở sau.
Tạo hình ảnh. Đánh giá trung thực theo ba khía cạnh: chủ thể, ánh sáng, bố cục.
Chỉ thay đổi một biến số, tạo lại và so sánh.
Lặp lại bước 6–7 cho đến khi hài lòng với kết quả.
Tải xuống.

Chỉ có vậy thôi. Tất cả các phím tắt, mẹo vặt và thói quen của người dùng lâu năm được đề cập trong bài viết này đều là những biến thể xoay quanh chín bước này.

Thêm một thói quen nhỏ nữa: Hãy soạn sẵn lời nhắc trong trình soạn thảo văn bản trước, sau đó dán vào công cụ tạo hình. Cách này giúp lưu lại lịch sử, điều chỉnh thứ tự câu, và tái sử dụng các đoạn mở đầu cố định như "Same person — preserve facial features…" (Cùng một người — giữ nguyên các đặc điểm khuôn mặt…). Khi đã hài lòng với kết quả, hãy sao chép lại phiên bản cuối cùng vào nhật ký lời nhắc. Sự cản trở nhỏ này sẽ giúp bạn tránh mất đi những lời nhắc hay nhất khi làm mới trình duyệt.

Câu hỏi thường gặp

Mỗi hình ảnh GPT Image 2 được bao nhiêu điểm?

Dù là tạo hình ảnh từ văn bản hay tạo hình ảnh từ hình ảnh, mức phí đều là 12 điểm/bức. Không có các khoản phí bổ sung như "mô tả dài hơn", "kích thước đầu ra lớn hơn" hay "chất lượng hình ảnh cao hơn" — những tùy chọn đó vốn dĩ không tồn tại. Điểm có thể được mua theo gói trên trang web, và tài khoản mới sẽ tự động được cấp điểm dùng thử.

Có cần cài đặt gì để sử dụng GPT Image 2 không?

Không cần. Mọi thứ đều được thực hiện ngay trong trình duyệt. Không cần ứng dụng trên máy tính, không cần tiện ích mở rộng trình duyệt, và giao diện người dùng web cũng không yêu cầu bạn phải đăng ký khóa API. Bạn chỉ cần một trình duyệt hiện đại và một tài khoản email.

Từ khóa tối đa có thể dài bao nhiêu?

Cả hai phương thức tạo hình ảnh từ văn bản và tạo hình ảnh từ hình ảnh đều hỗ trợ nhập tối đa 20.000 ký tự. Tuy nhiên, trên thực tế, các lời nhắc hiệu quả nhất thường có độ dài từ 40 đến 200 từ. Lời nhắc quá dài dễ làm loãng tín hiệu, thậm chí dẫn đến mâu thuẫn; những lời nhắc ngắn có cấu trúc tốt thường mang lại kết quả tốt hơn.

Có thể tải lên nhiều hình ảnh tham khảo cùng lúc không?

Chế độ "Tạo hình từ hình" chỉ hỗ trợ một hình ảnh nguồn mỗi lần. Nếu bạn muốn kết hợp nhiều yếu tố tham chiếu (ví dụ: "nhân vật này + phong cách trang phục kia"), bạn có thể thực hiện quy trình tạo hình theo chuỗi: trước tiên tạo ra một hình ảnh trung gian, sau đó sử dụng hình ảnh đó làm hình ảnh nguồn cho lần tiếp theo, kết hợp với lời gợi ý mới để tiếp tục chỉnh sửa. Việc chỉnh sửa theo chuỗi thường cho ra kết quả rõ ràng hơn so với việc tạo hình trực tiếp từ một lời gợi ý phức tạp.

GPT Image 2 có hỗ trợ độ phân giải hoặc tỷ lệ khung hình cụ thể không?

Hiện tại, tỷ lệ định dạng là cố định và API KIE không cung cấp các tùy chọn về tỷ lệ hoặc độ phân giải cho người dùng. Hình ảnh được tạo ra thường giữ nguyên hình dạng của hình ảnh gốc — do đó, nếu cần một tỷ lệ cụ thể, bạn cần cắt hình ảnh gốc trước rồi mới tạo lại.

Hình ảnh được tạo ra có thể sử dụng cho mục đích thương mại không?

Quyền sử dụng nội dung được quy định trong Điều khoản dịch vụ ở phần chân trang; vui lòng lấy các điều khoản này làm cơ sở cuối cùng. Trong thực tế, tính đến năm 2026, phần lớn người dùng sử dụng nội dung này cho các mục đích như ý tưởng tiếp thị, nội dung mạng xã hội, thiết kế mẫu và sáng tạo cá nhân. Trước khi sử dụng một hình ảnh cho sản phẩm mang lại doanh thu, vui lòng kiểm tra các điều khoản có hiệu lực tại thời điểm đó.

Làm thế nào để đảm bảo tính nhất quán của cùng một nhân vật trong nhiều hình ảnh?

Sử dụng hình tạo hình và ghi rõ mệnh đề giữ nguyên đặc điểm nhận dạng ngay từ đầu lời nhắc ("Cùng một người — giữ nguyên các đặc điểm khuôn mặt, màu tóc và tông da"). Sau đó, lấy kết quả đầu ra mỗi lần làm hình nền cho hình tiếp theo, kết hợp với mô tả bối cảnh mới để tiếp tục tạo hình. Phương pháp này không chính xác bằng mô hình LoRA được huấn luyện chuyên biệt cho nhân vật, nhưng hiệu quả hơn nhiều so với việc bắt đầu lại từ đầu bằng phương pháp văn bản tạo hình mỗi lần.

Cách nhanh nhất để làm quen với GPT Image 2 là gì?

Trong 12 đến 20 lần tạo đầu tiên, hãy sử dụng các từ khóa đơn giản để tạo hình ảnh từ văn bản, nhằm nắm rõ khả năng hoạt động của mô hình ở "trạng thái mặc định"; sau đó mới chuyển sang tạo hình ảnh từ hình ảnh, bắt đầu từ một hình ảnh gốc trống. Thực hiện theo hướng dẫn nhanh ở trang trên, phần lớn người dùng chỉ cần luyện tập nghiêm túc khoảng một giờ là có thể thực hiện một cách khá thành thạo.

Tại sao kết quả của tôi lại hoàn toàn khác với từ khóa gợi ý?

Có ba nguyên nhân phổ biến: Thứ nhất, các từ mô tả chất lượng được xếp ở phía trước, còn nội dung chính lại nằm ở phía sau — hãy chuyển nội dung chính lên đầu; Thứ hai, các từ gợi ý mâu thuẫn với nhau (ví dụ: "watercolor" và "photorealistic" được đặt cạnh nhau) — hãy chọn một phương tiện; Thứ ba, chỉ sử dụng các từ diễn tả cảm xúc ("đẹp", "gây ấn tượng") mà không có danh từ cụ thể — hãy bổ sung các vật thể cụ thể, hướng ánh sáng, ngôn ngữ hình ảnh.

Bạn đã sẵn sàng bắt đầu chưa?

Đến đây, bạn đã có trong tay quy trình làm việc hoàn chỉnh, các mẫu lời nhắc hữu ích, những điểm cần tránh, cùng với một trang tham khảo nhanh. Điều duy nhất còn lại cần làm là: mở công cụ tạo nội dung và sử dụng 100 điểm đầu tiên để tìm ra "loại lời nhắc nào phù hợp với bạn". Bước này không ai có thể làm thay bạn được.

Mở GPT Image 2, tạo hình ảnh đầu tiên của bạn →

Nếu bạn muốn tìm hiểu thêm:

GPT Image 2 là gì? Tính năng, giá cả và các trường hợp sử dụng
Hướng dẫn viết lời nhắc cho GPT Image 2: Viết lời nhắc thực sự hữu ích
GPT Image 2 vs Sora: So sánh khả năng tạo hình ảnh
Hãy thử trước công cụ tạo lời nhắc hình ảnh tích hợp sẵn, tự động mở rộng từ một ý tưởng đơn giản thành lời nhắc hoàn chỉnh.
Bạn cũng có thể truy cập trực tiếp vào trang dành riêng cho chế độ đơn Text to Image hoặc Image to Image.

Bài viết này do Nhóm GPT Image 2 công bố. Tính đến tháng 4 năm 2026, cả hai chế độ đều được tính phí thống nhất là 12 điểm/ảnh. Nếu có bất kỳ điều chỉnh nào trong tương lai, chúng tôi sẽ cập nhật bài viết này và ghi chú trong nhật ký cập nhật.

Hướng dẫn sử dụng GPT Image 2: Hướng dẫn chi tiết từ đăng ký đến tạo hình ảnh (2026)

Mục lục