ملخص سريع
GPT Image 2 هي أداة لتوليد الصور بالذكاء الاصطناعي تعمل داخل المتصفح، وتحتوي على وضعين فقط — تحويل النص إلى صورة (text-to-image) وتحويل الصورة إلى صورة (image-to-image) — ويتم احتساب التكلفة بشكل موحد بمعدل 12 نقطة لكل صورة، دون أي خيارات إضافية مثل الدقة أو النسب أو مستويات الجودة. ستأخذك هذه المقالة في جولة شاملة من التسجيل، وإنشاء الصورة الأولى، وتحميل الصور المرجعية للتحرير، وصولاً إلى استراتيجيات الكلمات المفتاحية التي تتيح إنتاج صور قابلة للاستخدام. جرب GPT Image 2 مجاناً →
قبل البدء: ما الذي تحتاج إلى إعداده
لا يتطلب استخدام GPT Image 2 بطاقة رسومات عالية الأداء أو برنامج Photoshop أو أي خبرة في مجال الذكاء الاصطناعي، حيث تتم جميع العمليات الحسابية على الخادم، بينما يقتصر دور المتصفح على إدخال البيانات وعرض النتائج. ما عليك فعله فعليًا بسيط للغاية:
- متصفح حديث. يمكن استخدام الإصدارات الحالية من Chrome وEdge وSafari وFirefox وArc. سيؤدي تشغيل التسريع المادي إلى جعل المعاينة أكثر سلاسة، ولكنه ليس ضروريًا.
- حساب بريد إلكتروني. يدعم التسجيل باستخدام كلمة مرور البريد الإلكتروني، كما يدعم تسجيل الدخول بنقرة واحدة عبر Google. يمكن استخدام البريد الإلكتروني الخاص بالشركة أو Gmail، وسيتم رفض عناوين البريد الإلكتروني ذات الاستخدام لمرة واحدة.
- رصيد نقاط قليل. سواء كان إنشاء صورة من نص أو من صورة، وبغض النظر عن طول الكلمات المفتاحية أو نسبة الإخراج، فإن التكلفة موحدة وهي 12 نقطة لكل صورة. تحتوي الحسابات الجديدة على نقاط تجريبية مجانية، وهي كافية لإنشاء الصور الأولى في هذا البرنامج التعليمي.
- صورة مرجعية (اختياري). إذا كنت تنوي استخدام "تحويل صورة إلى صورة"، فقم بإعداد صورة أو صورتين بتنسيق JPG / PNG / WebP، ويفضل ألا يتجاوز حجم الصورة الواحدة 10 ميغابايت. التكوين المربع أو العمودي هو الأسهل للحصول على نتائج مستقرة.
- **فكرة عامة كافية. ** غالبًا ما يحاول المبتدئون كتابة "كلمة تلميح مثالية" دفعة واحدة، مما يجعلهم يقعون في حيرة. الطريقة الفعالة حقًا هي استخدام كلمة تلميح بسيطة لإنشاء صورة أولاً، ومشاهدة ما يقدمه لك النموذج، ثم تحديد كيفية تعديله.
حتى أبريل 2026، لا يتطلب استخدام GPT Image 2 تنزيل أي برنامج عميل، ولا الحاجة إلى طلب مفتاح API، ولا الانتظار في قائمة الانتظار. ما عليك سوى فتح الصفحة الرئيسية، وتسجيل الدخول، والبدء في الإنشاء — ثلاث خطوات فقط.

هذه المقالة موجهة لمن يرغبون في الاستفادة القصوى من هذه الأداة. يمكن تعلم كيفية تشغيل الأداة في غضون دقيقتين، أما ما يتطلب جهدًا حقيقيًّا فهو اتخاذ القرارات المتعلقة بـ"ماذا تكتب، وماذا تراقب، ومتى تُجري التعديلات"، وهذا ما ستتناوله الفصول التالية. إذا كنت في عجلة من أمرك، يمكنك الانتقال مباشرةً إلى الطريقة الأولى، ثم العودة لاحقًا للاطلاع على فصلي "نصائح حول الكلمات المفتاحية" و"الأخطاء الشائعة" عند الحصول على أول نتيجة غير مرضية.
الطريقة الأولى: تحويل النص إلى صورة — إنشاء أول صورة من الصفر
يعد «كتابة النص لتوليد الصورة» الوضع الذي يرغب معظم المستخدمين في تجربته عند استخدام GPT Image 2: ما عليك سوى كتابة وصف، والنقر على زر «إنشاء»، ليقوم النموذج بإرجاع صورة كاملة. وفيما يلي خطوات الاستخدام التفصيلية.
الخطوة 1: افتح أداة الإنشاء وقم بتسجيل الدخول
افتح الصفحة الرئيسية لـ GPT Image 2. تظهر لوحة أداة الإنشاء في الشاشة الأولى على سطح المكتب، وفي أول قسم كامل على الأجهزة المحمولة. عند عدم تسجيل الدخول، سيظهر رابط "الإنشاء بعد تسجيل الدخول"؛ اختر بريدك الإلكتروني أو حساب Google لإكمال تسجيل الدخول، ولن يستغرق الأمر أكثر من دقيقة.
بعد تسجيل الدخول، سيظهر رصيد النقاط في الزاوية العلوية اليمنى. تأكد من وجود 12 نقطة على الأقل — فالحسابات الجديدة تأتي مع رصيد تجريبي، ولا تحتاج إلى ربط بطاقة لإكمال المثال الأول في هذا المقال.
الخطوة 2: انتقل إلى علامة التبويب «Text to Image»
يوجد في الجزء العلوي من الأداة علامتان: Text to Image وImage to Image. في المرة الأولى، استخدم أولاً الخيار الافتراضي "تحويل النص إلى صورة". ويقع مربع الإدخال أسفل شريط العلامات.
لا حاجة لاختيار النموذج يدويًا — حيث يتم استدعاء نموذج gpt-image-2-text-to-image من KIE في الخلفية، ولا توجد قوائم منسدلة للصيغ أو النسب أو الدقة: نموذج واحد، وسعر واحد.
الخطوة 3: اكتب أولاً عبارة تلميح قصيرة عن قصد
من الأخطاء الشائعة التي يرتكبها المبتدئون حشر كل الصفات التي يعرفونها في الكلمة التوجيهية الأولى. تجنب القيام بذلك. استخدم أولاً وصفًا قصيرًا ومحددًا لترى أداء النموذج في "حالته الافتراضية". فيما يلي الكلمة التوجيهية التي استخدمتها عند إعداد هذا المقال وفي أول اختبار أجريته:
A golden retriever puppy sitting in a sunlit field of wildflowers, shallow depth of field,
warm afternoon light.(المعنى بالصينية: جرو من فصيلة جولدن ريتريفر يجلس وسط باقة من الأزهار البرية تحت أشعة الشمس، مع عمق مجال ضحل، وضوء بعد الظهر الدافئ.)
الصق النص في مربع الإدخال، ثم انقر على Generate. تظهر نتائج معظم الكلمات المفتاحية في غضون 20 إلى 40 ثانية، وقد يستغرق الأمر وقتًا أطول قليلاً في أوقات الذروة.
الخطوة الرابعة: تقييم النتائج بصدق
عندما قمت بتشغيل الأمر المذكور أعلاه للمرة الأولى، كانت النتيجة مرضية بشكل عام: درجات الألوان دافئة، والعينان واضحتان، والخلفية غير واضحة بشكل طبيعي — لكن أقدام الكلب بدت ضبابية قليلاً، وهو عيب نموذجي في نماذج الصور الحالية. وهذا أمر طبيعي، فهذه الخطوة لا تهدف إلى تقييم النتيجة، بل إلى تكوين تصور لديك عن «الإخراج الافتراضي».
يجب أن تركز في الصورة الأولى على ثلاثة أمور على الأقل:
- هل الموضوع دقيق؟ هل النموذج يعرض الموضوع الذي تريده؟ أم أنه يختلف عنه (مثل رسم كلب من فصيلة جولدن ريتريفر على أنه من فصيلة لابرادور)؟
- **اتجاه الضوء. ** هل تتطابق الإضاءة الفعلية مع وصفك؟ "ضوء بعد الظهر الدافئ" يجب أن يكون ضوءًا جانبيًا ناعمًا وموجهًا، وليس ضوءًا علويًا.
- التكوين. هل يتوافق إطار الصورة مع الصورة التي تتخيلها؟ أم أنه موضوع بشكل محرج في المنتصف؟
إذا كان هناك خطأ في أي من هذه الأبعاد الثلاثة، فسيكون لديك سبب واضح لتعديل الكلمات المفتاحية — بدلاً من إعادة النشر بشكل عشوائي.
الخطوة 5: كتابة نص تلميح محسّن
فيما يلي نسخة مطورة من المشهد نفسه. الموضوع هو نفسه، ونفس نهج الإضاءة، ولكن تم استخدام تركيبة أكثر ملاءمة لـ GPT Image 2:
A 3-month-old golden retriever puppy with fluffy fur and floppy ears, sitting upright in a
meadow of wild daisies and lavender. Warm late-afternoon sunlight streams from the left,
casting long gentle shadows and creating a soft golden rim light on the fur. Shallow depth
of field, background softly blurred with bokeh. Shot on an 85mm lens, eye level with the
puppy. Photorealistic, high detail, natural colors.(المعنى بالصينية: جرو من فصيلة جولدن ريتريفر يبلغ من العمر ثلاثة أشهر، ذو فرو كثيف وأذنين متدليتين، يجلس في حقل من زهور الأقحوان البري واللافندر. تسقط أشعة الشمس الدافئة بعد الظهر من الجانب الأيسر، ملقيةً ظلًا طويلًا ناعمًا، ومكونةً إضاءةً ذهبيةً على الفراء. عمق مجال ضحل، وخلفيةً ضبابيةً مع تأثير بوكيه. عدسة 85 مم، والتصوير من مستوى عين الجرو. أسلوب واقعي، وتفاصيل عالية، وألوان طبيعية.)
تم إجراء أربعة تعديلات مقارنة بالنسخة الأولى:
- تفاصيل أكثر تحديدًا عن الكائن الرئيسي ("عمره ثلاثة أشهر" و"فرو ناعم" و"أذنان ناعمتان")، مما يساعد النموذج على تحديد الصورة بوضوح.
- اتجاه الضوء واضح ("من الجانب الأيسر" و"ضوء محيطي يسلط على الفرو")، بدلاً من الاكتفاء بوصف "دافئ".
- لغة العدسة ("عدسة 85 مم"، "على مستوى نظر الجرو") توفر للموديل نموذجًا محددًا للتكوين.
- وضع الصفات التي تشير إلى الجودة في النهاية ("واقعي، عالي التفاصيل، ألوان طبيعية") — قصيرة، ولا تسرق الأضواء.
اضغط مرة أخرى على «Generate». من المفترض أن تكون الصورة الثانية أقرب إلى الصورة التي تتخيلها. إذا لم تكن النتيجة صحيحة بعد، فلا تقم بإعادة كتابة الفقرة بأكملها — بل قم بتعديل متغير واحد فقط في كل مرة، ثم قم بإنشاء النص ومقارنته، حتى تعرف أي كلمة هي التي تؤثر على النتيجة.
نموذج نفسي مفيد: قسّم الكلمة المفتاحية إلى أربعة «خانات» — الموضوع، والحركة، والبيئة، والأسلوب. قم بتعديل الخانة التي بها المشكلة فقط في كل مرة. إذا كان النوع غير مناسب، فقم بتعديل خانة الموضوع؛ وإذا كان الإضاءة غير مناسبة، فقم بتعديل خانة البيئة؛ وإذا كانت الصورة تبدو كرسوم متحركة بينما تريد صورة فوتوغرافية، فقم بتعديل خانة الأسلوب.
الخطوة 6: الحفظ أو التنزيل أو متابعة التعديل
بعد أن تصبح راضياً عن الصورة، ستجد زر التنزيل أسفل المعاينة. يتم حفظ كل صورة يتم إنشاؤها تلقائيًا في سجل حسابك، ويمكنك الاطلاع على الإصدارات السابقة ونسخ الكلمات المفتاحية القديمة ومواصلة عملية التطوير. إذا أردت لاحقًا تعديل هذا الشخصية في أداة إنشاء الصور، فما عليك سوى اختيار هذه الصورة من السجل لتكون الصورة الأصلية.

إن دورة العمل التي مررت بها للتو، وهي "الفتح — كتابة النص — التقييم — الضبط الدقيق — إعادة الإنشاء"، هي دورة العمل الكاملة لعملية إنشاء الصور من النص. وستركز جميع أجزاء المقالة التالية على تعليمك كيفية تسريع هذه الدورة واستخدام نقاطك بشكل أكثر كفاءة.
إذا كنت تستخدم GPT Image 2 على المدى الطويل، ننصحك بتسجيل "التلميحات الفعالة" في ملف نصي بحت. لا تقصد هنا القوالب الجاهزة، بل سجلاتك الخاصة — فكلما حصلت على صورة ترضيك، قم بإضافة التلميح الكامل في سطر ملاحظة. بعد ستة أشهر، ستكون هذه المجموعة أكثر ملاءمة لذوقك من أي قوالب عامة متوفرة على الإنترنت.
الطريقة الثانية: إنشاء صورة من صورة — إجراء تعديلات على صورة موجودة أو تغيير أسلوبها
تبدأ تقنية "صورة إلى صورة" (image-to-image، أو i2i اختصارًا) بصورة أصلية، حيث يحتفظ النموذج بالأجزاء التي تريد الاحتفاظ بها، ثم يعيد صياغة الأجزاء المتبقية وفقًا للكلمات التوجيهية. يمكنك استخدام هذا النموذج لتلبية احتياجات مثل "تغيير ملابس الشخص نفسه"، أو "تغيير خلفية المنتج نفسه"، أو "تغيير أسلوب الصورة مع الحفاظ على التكوين نفسه".
الخطوة 1: انتقل إلى علامة التبويب «Image to Image»
عد إلى أداة إنشاء الصفحة الرئيسية، وانقر على Image to Image. سيظهر مجال لتحميل الملفات فوق منطقة الإدخال، وسيظل مربع النص موجودًا، ولا يزال يدعم ما يصل إلى 20,000 حرف، ولكنه يعمل الآن بالتزامن مع الصورة التي تم تحميلها.
يتم استدعاء gpt-image-2-image-to-image في الخلفية، والسعر هو نفسه المستخدم في تحويل النص إلى صورة — 12 نقطة لكل صورة. لا يوجد شريط تمرير مستقل لـ"القوة"، حيث يعتمد مدى التغيير كليًا على صياغة التعليمات التي تدخلها.
إذا كنت قد استخدمت أدوات أخرى مثل InPainting (تصحيح القناع)، فاحرص على تغيير طريقة تفكيرك: لا يتطلب GPT Image 2 رسم قناع، بل يقرأ الصورة المصدر بأكملها + النص التوجيهي بالكامل قبل أن يقرر ما الذي يجب تعديله. بالنسبة لـ 80% من الاحتياجات الفعلية (تغيير الخلفية، تغيير الملابس، تحويل النهار إلى ليل)، فإن تعديل النص التوجيهي وحده يكون في الواقع أسهل.
الخطوة 2: تحميل الصورة الأصلية
اسحب ملفات JPG / PNG / WebP إلى منطقة التحميل، أو انقر فوق "اختيار ملف". يُنصح عند التدريب لأول مرة باختيار صورة ذات إضاءة واضحة وتكوين بسيط. فالصور التي تحتوي على ضبابية حركة أو إضاءة خافتة أو خلفية مزدحمة تمنح النموذج مساحة أكبر "للتفسير الحر"، مما يجعل المقارنة بين الصور قبل وبعد صعبة الفهم.
الصورة التالية هي نموذج نموذجي لـ"الصورة التي عادةً ما يرفعها المبتدئون عند تجربتهم لأدوات الذكاء الاصطناعي لأول مرة" — صورة سيلفي عادية التقطت داخل المنزل.

الخطوة الثالثة: حدد أولاً ما إذا كان الأمر يتعلق بـ"إصلاح بسيط" أم "تجديد شامل"؟
قبل كتابة النص التوجيهي، فكر جيدًا في مستوى التعديل الذي تريده. فهناك نوعان مختلفان تمامًا من الأغراض وراء إنشاء الصور واستبدال الصور، وتختلف طريقة كتابة النص التوجيهي وفقًا لذلك:
- تعديل بسيط (Edit): الاحتفاظ بمعظم العناصر مع تغيير عنصر واحد فقط. "تغيير لون الملابس إلى الأزرق الداكن." "إزالة فنجان القهوة." "تغيير الخلفية إلى رف كتب." "
- تحويل (Transform): الاحتفاظ بالهوية، وإعادة كتابة المشهد بالكامل." "نفس الشخص، يرتدي ملابس صينية تقليدية ويقف على شرفة القصر تحت ضوء القمر." "نفس المنتج، مع تغيير سطح الطاولة إلى رخام وإضافة إضاءة الاستوديو."
كلما كان الوصف المقدم للمشهد الجديد أكثر اكتمالاً، زادت التعديلات التي يجريها النموذج؛ أما إذا تم ذكر سمة واحدة فقط، فتميل النموذج إلى الإبقاء على الأجزاء الأخرى دون تغيير. وهذا هو المفتاح الذي يتيح لك التحكم في «مدى التغيير» في حالة عدم وجود شريط التمرير.
مثال: change the shirt to navy blue (تغيير لون القميص إلى الأزرق الداكن) هو تعديل محدود، حيث لا تتغير ملامح الوجه أو تصفيفة الشعر أو الوضعية أو الخلفية أو الإضاءة. أما إذا استبدلناها بـ "She is now wearing a tailored navy suit, standing in a glass-walled corporate office at golden hour" (ترتدي الآن بدلة زرقاء داكنة مصممة خصيصًا، وتقف في مكتب ذي جدران زجاجية في ساعة الذروة)، فإنها تعتبر تحولًا كاملًا — حيث تتغير البدلة والبيئة والإضاءة بالكامل، ولا يُحتفظ إلا بالوجه وقوام الجسم. كلاهما عبارة واحدة، لكن مدى التغيير يتحدد بمدى وصفك للمشهد الجديد.
الخطوة الرابعة: اكتب جملة توجه النموذج إلى "ما يجب الاحتفاظ به"
فيما يلي الكلمات المفتاحية التي استخدمتها عند "تحويل" الصورة الأصلية المذكورة أعلاه:
Same woman — identical facial features and hair. Transform the scene: she now wears an
elaborate crimson-and-gold hanfu with intricate embroidery and a jeweled phoenix hairpin.
She stands on a moonlit palace terrace, red lanterns glowing softly in the background,
cherry blossom petals drifting in the air. Warm lantern light from the right, cool
moonlight fill from the left. Cinematic shallow depth of field, elegant composition, 4K
photorealistic.(المعنى بالصينية: نفس المرأة — مع الحفاظ تمامًا على ملامح وجهها وتسريحة شعرها. إعادة صياغة المشهد: ترتدي الآن ثوبًا صينيًا فاخرًا باللونين الأحمر والذهبي، مزينًا بتطريزات معقدة، وتزين كعكة شعرها بدبوس على شكل طائر الفينيق الذهبي. تقف على شرفة القصر تحت ضوء القمر، مع خلفية من الفوانيس الحمراء ذات الضوء الناعم، وبتلات أزهار الكرز المتناثرة. ضوء الفوانيس الدافئ على اليمين، وضوء القمر البارد على اليسار. عمق مجال ضحل بمستوى سينمائي، وتكوين أنيق، وواقعية بدقة 4K.)
هناك نقطتان تم توضيحهما بشكل صريح:
- "نفس المرأة — ملامح وجه وشعر متطابقة." هذه الجملة تكاد تكمل مهمة الحفاظ على الهوية بالكامل. إذا لم تُكتب، فسوف تنحرف الشخصية بشكل عشوائي.
- وصف كامل للمشهد الجديد. يجب توضيح الملابس والمكان والأدوات واتجاه الضوء. تقوم الشخصية بإعادة بناء البيئة بأكملها، لذا فهي تحتاج إلى مجموعة كاملة من التعليمات، وليس مجرد علامة واحدة.
الخطوة 5: مقارنة الصورة قبل وبعد المعالجة
انقر على "Generate" للحصول على النتائج. في الاختبار الذي أجريته، احتفظت الصورة الناتجة بملامح الوجه وتسريحة الشعر التي يمكن التعرف عليها، بينما أعيد بناء كل شيء آخر وفقًا للكلمات الموجّهة.

انظر إلى الصورتين معًا. إذا كان شكل الوجه قد تغير كثيرًا، فقم بإضافة عبارة "same person" إلى التعليمات (على سبيل المثال، أضف "preserve exact face shape, same eyes, same nose, same lip shape" — أي الحفاظ على شكل الوجه والعينين والأنف وشكل الشفاه)؛ وإذا لم تتغير المشهد بما يكفي، فقم بإضافة المزيد من التفاصيل المحيطة. هذه هي أدوات التحكم المتاحة لك.
الخطوة 6: دون الحاجة إلى مغادرة الصفحة، استخدم الناتج مباشرةً كمدخلات للخطوة التالية
أفضل ما يميز «توليد الصور» هو أن الناتج الذي تم الحصول عليه للتو يُعد بحد ذاته مصدرًا صالحًا للتحرير التالي. ما عليك سوى النقر على «استخدام كمدخل جديد»، ثم كتابة تلميح جديد (مثل «نفس المشهد، ولكن في وقت الفجر» أو «نفس الوضعية، مع إضافة مروحة يدوية»). فالصورة النهائية الناتجة عن التحرير التدريجي المتواصل تكون دائمًا أكثر دقة من الصورة الناتجة عن تلميح طويل جدًا يحاول إنجاز كل شيء دفعة واحدة.
"التحرير التسلسلي" هو أحد أهم أساليب سير العمل التي يمكن الاستفادة منها في هذا المقال. من الأخطاء الشائعة التي يرتكبها المبتدئون: كتابة تلميح واحد من 300 كلمة يحاول تغطية كل شيء، ثم إعادة المحاولة ثماني مرات دون التوصل إلى النتيجة المرجوة. أما الطريقة الاحترافية فهي تقسيم العملية إلى مراحل: البدء بتحديد الشخصية أولاً، ثم استخدام الناتج من المرحلة السابقة كصورة أساسية لتحديد الملابس والبيئة والإضاءة. 12 نقطة لكل جولة، أي 48 نقطة في المجموع لأربع جولات — وهذا ينتج صورة أنظف بكثير من إعادة الرسم عشر مرات دفعة واحدة.

تقنيات صياغة الكلمات المفتاحية التي تحسن نتائج البحث فعليًا
لقد أصبحت الآن على دراية كاملة بإجراءات التشغيل. الفرق بين المستخدم الجديد في اليوم الأول والمستخدم القديم القادر على إنتاج محفظة أعمال باستخدام GPT Image 2 لا يكمن في كلمة تلميح غامضة ما، بل في معرفة العوامل التي تؤتي ثمارها بالفعل. فيما يلي تسع نقاط تتمتع بأعلى معدل عائد على الاستثمار في الاستخدام الفعلي.
النصيحة 1: ضع الموضوع في البداية، واحتفظ بالكلمات ذات الصلة بالجودة في النهاية
اكتب في بداية النص التوجيهي عبارة "من/ماذا يصور هذا"، ثم انقل مصطلحات جودة الصورة مثل photorealistic وcinematic و4K وhigh detail إلى النهاية. يقرأ النموذج النص التوجيهي من البداية إلى النهاية، لذا يحظى الموضوع المذكور في البداية بأعلى وزن، بينما يتضاءل تأثير الموضوع الذي يختفي خلف سبع علامات الجودة.
أضعف: صورة فائقة الدقة بتقنية 4K فائقة الواقعية وذات تفاصيل سينمائية رائعة لقطّة جالسة على حافة نافذة
قوي: قطة توكسيدو سوداء وبيضاء تجلس على حافة نافذة خشبية، وتراقب شارع المدينة الممطر بالخارج. ضوء ناعم منتشر من النافذة، وعمق مجال ضحل. صورة واقعية، ذات طابع سينمائي.
النصيحة 2: اكتب "اتجاه الضوء"، وليس "أجواء الضوء"
عبارة "إضاءة جميلة" تكاد تكون بلا معنى. أما عبارة "ضوء غروب دافئ من اليسار، وظلال طويلة تمتد إلى اليمين" فهي التي تحدد للموديل مكان سقوط كل ظل. تعد مصادر الضوء المحددة الاتجاه والمسمّاة (مثل "ضوء النافذة" و"ضوء الحافة" و"صندوق الإضاءة الناعمة من الأعلى" و"إضاءة النيون من الخلف") من أكثر العوامل فعالية في تحسين جودة الصورة بأقل عدد من الكلمات.
النصيحة 3: استخدم المصطلحات الفوتوغرافية لوصف التكوين، وستزداد الواقعية على الفور
إذا كنت ترغب في الحصول على صور ذات طابع واقعي، فاستخدم المصطلحات التي يستخدمها المصورون. من خلال الجمع بين البعد البؤري (35mm، 50mm، 85mm، 135mm) ومؤشرات عمق المجال (shallow depth of field، deep focus) وزوايا التصوير (eye level، low angle، overhead)، سيحصل العارض على مجموعة من قوالب التكوين المحددة. تعد مقالة Camera lens في ويكيبيديا الإنجليزية مادة جيدة يمكن قراءتها في 10 دقائق، وتساعدك على اختيار البعد البؤري بشكل واعٍ.
النصيحة 4: وصف الأسلوب استنادًا إلى "الوسيلة" وليس "اسم الفنان"
تعتبر عبارة "على غرار فنان معين" تعبيرًا هشًا ويثير جدلًا حول الملكية. والطريقة الأكثر أمانًا هي وصف الوسيلة نفسها: "لوحة زيتية تظهر فيها ضربات الفرشاة"، "رسم تخطيطي بالقلم الرصاص مع تظليل متقاطع"، "مظهر فيلم كوداكروم قديم مع حبيبات"، "رسم متجه واضح بألوان مسطحة". فهي توفر توجيهًا جماليًا دون الاعتماد على شخص معين.
النصيحة 5: استخدم "الوصف الإيجابي" بدلاً من "القيود السلبية"
لا يحتوي GPT Image 2 على حقل إدخال منفصل للمصطلحات السلبية. أفضل طريقة لتجنب بعض العناصر هي وصف ما تريده بوضوح. فبدلاً من كتابة «لا أشخاص، لا نصوص، لا فوضى»، من الأفضل كتابة «غرفة فارغة بجدران نظيفة، وتكوين بسيط، ونبتة واحدة في الزاوية». فالوصف الإيجابي أكثر موثوقية بكثير من الصياغة السلبية.
النصيحة 6: عند إنشاء صورة من صورة أخرى، يجب تحديد الهوية أولاً، ثم إعادة كتابة المشهد
عند إجراء "تغيير الملابس/المشهد"، إذا أردت الحفاظ على ملامح الوجه كما هي، فإن الجملة الأولى من التعليمات هي المفتاح. فعبارة مثل Same person — preserve facial features, hair color, and skin tone (نفس الشخص — الحفاظ على ملامح الوجه ولون الشعر ولون البشرة) عند وضعها في البداية، تكون أكثر فاعلية من أي وصف جميل للمشهد يأتي بعدها. وإذا أردت أن تكون الهوية أكثر تحديدًا، أضف same eye shape, same nose, same lips (نفس شكل العين، نفس الأنف، نفس الشفاه). فالصراحة أكثر فعالية من التلميح.
النصيحة 7: قم بالتعديل التدريجي بدلاً من إعادة كتابة الفقرة بأكملها
قم بتعديل متغير واحد فقط في كل مرة. إذا كانت الوضعية صحيحة والملابس غير مناسبة، فقم بتعديل الجزء المتعلق بالملابس فقط؛ وإذا كان الإضاءة غير مناسبة وكل شيء آخر جيد، فقم بتعديل الجزء المتعلق بالإضاءة فقط. بهذه الطريقة يمكنك تكوين حلقة تغذية مرتدة يمكن التحكم فيها حقًا، بحيث تعرف أي كلمة تغيرت وما الذي تغير نتيجة لذلك. إعادة كتابة الفقرة بأكملها ستدمر هذه الإشارة وتهدر نقاطك.
النصيحة 8: اكتب الكلمات التوجيهية وفقًا لترتيب "الأمور التي يجب أن يركز عليها النموذج"
ضع العناصر الأساسية في المقدمة: الموضوع → الحركة → البيئة → الأسلوب. إذا كتبت "بأسلوب اللوحة الزيتية، هناك امرأة ترتدي فستانًا أحمر تسير في شارع مرصوف بالحصى عند الغسق"، فأنت تخبر النموذج أن "هذه في المقام الأول لوحة زيتية"، وأن الباقي مجرد تفاصيل ثانوية. أما إذا استبدلت ذلك بـ "امرأة ترتدي فستانًا أحمر تسير في شارع مرصوف بالحصى عند الغسق، مصورة على شكل لوحة زيتية"، فإن النموذج يسمع الموضوع أولاً، ولا يسمع الوسيلة إلا في النهاية. مع أن كمية المعلومات هي نفسها، إلا أن الصورة الناتجة عن الصيغة الثانية عادةً ما تكون أكثر دقة بشكل واضح.
النصيحة 9: استخدم المصطلحات التي يستخدمها المصورون والمخرجون فعليًا
Dutch angle (زاوية هولندية)، rack focus (تغيير البؤرة)، golden hour (الساعة الذهبية)، overcast daylight (ضوء النهار في يوم غائم)، softbox (صندوق الإضاءة الناعمة)، gobo shadow (ظل القالب)، hero shot (لقطة البطل)، two-shot (لقطة ثنائية)، negative space (المساحة السلبية) — هذه المصطلحات لها معانٍ محددة في مجال التصوير الفوتوغرافي والسينمائي، وقد تم إرفاقها بكمية كبيرة من الصور في بيانات التدريب. أما المصطلحات العاطفية الغامضة (vibey، dreamy، epic) فهي تمثل إشارات أضعف بكثير بالنسبة للنموذج. تعد مقالة Shot (filmmaking) في ويكيبيديا الإنجليزية مرجعًا جيدًا للبحث السريع عن المفردات في غضون 15 دقيقة.
الأخطاء الأكثر شيوعًا التي يرتكبها المبتدئون، وكيفية تصحيحها
بصراحة، لقد ارتكبت كل الأخطاء التالية. ومن المرجح أنك سترتكبها أيضًا، لكن على الأقل ستتمكن من التعرف عليها بسرعة أكبر.
الخطأ 1: كتابة تلميح مكون من 400 كلمة، على أمل الحصول على النسخة النهائية من المرة الأولى. تتفوق نماذج الصور في معالجة التلميحات "المحددة والمتكررة"، وليس التلميحات "الطويلة جدًا التي تهدف إلى الوصول إلى النتيجة النهائية من المرة الأولى". الحد الأقصى البالغ 20 ألف حرف ليس هو الهدف. في معظم المخرجات التي أعجبتني في GPT Image 2، تراوحت طول التلميحات بين 40 و120 كلمة.
الخطأ 2: إعادة المحاولة مرارًا وتكرارًا دون تغيير المطالبة. عند الضغط مرتين على زر "Generate" باستخدام نفس المطالبة، تظهر النتيجة "تقريبًا جاهزة"، وعند الضغط للمرة الثالثة تظل النتيجة "تقريبًا جاهزة". لا يتم استكشاف العشوائية إلا في نطاق صغير؛ وإذا كان اتجاه هذا النطاق خاطئًا، فلن تنفع إعادة المحاولة مهما كان عدد المرات — بل يجب تغيير المطالبة.
الخطأ 3: التناقض في الكلمات المفتاحية. لا يمكن أن تتضمن نفس العبارة كلاً من "soft dreamy watercolor" (ألوان مائية ناعمة حالمة) و"ultra-sharp photorealistic 4K" (دقة 4K فائقة الوضوح وواقعية)، فهذا تناقض. سيختار النموذج أحدهما، أو الأسوأ من ذلك: سيقوم بدمج الاثنين معًا. فكر جيدًا قبل الكتابة.
الخطأ 4: توقع الكثير من النصوص في الصورة. حتى أبريل 2026، لا تزال نماذج الصور التي تعتمد على الذكاء الاصطناعي غير مستقرة في عرض النصوص الطويلة، لا سيما تلك التي تحتوي على أحرف غير لاتينية. قد تنجح أحيانًا العلامات القصيرة مثل اللافتات، لكن النصوص على مستوى الفقرات نادرًا ما تنجح. عندما يكون النص هو المعلومة الأساسية، يكفي إضافة طبقة منه فوق الصورة باستخدام أي محرر صور بعد الحصول على النتيجة.
الخطأ 5: تحميل صورة مصدر غير واضحة عند إنشاء الصور. يستخدم النموذج مستوى التفاصيل في الصورة المصدر كمعيار. فإذا كانت الصورة الملتقطة بالهاتف غير واضحة وتفتقر إلى الإضاءة، فسيحتفظ الناتج بهذا الطابع غير الواضح، بغض النظر عن مدى دقة العبارة التي تستخدمها في التوجيه. لذا، اختر صورة مصدر واضحة إن أمكن.
الخطأ 6: لا تركز على اليدين. لا تزال اليدين من أكثر مصادر العيوب شيوعًا في إنشاء الصور. إذا كان التكوين يتطلب إبراز اليدين، فاستعد لإجراء عدة جولات إضافية من التعديل؛ أما إذا لم تكن اليدين عنصرًا أساسيًا، فدعها تخرج من الإطار أو تتدلى بشكل طبيعي.
الخطأ 7: تجاهل النسب في مرحلة تحميل الصور المولدة. عادةً ما تتبع الصور المولدة نسب الصورة الأصلية. إذا كنت تريد صورة عرضية لكنك قمت بتحميل صورة سيلفي عمودية، فهذا يعني أنك تعمل عكس ما هو مطلوب. قم بقص الصورة الأصلية إلى النسب المطلوبة قبل البدء في التوليد.
الخطأ 8: اعتبار "أول صورة مقبولة" النسخة النهائية. المستخدم المتمرس يعتبر "الصورة المقبولة" نقطة انطلاق للجولة التالية. الفارق بين "الصورة المقبولة" و"مستوى محفظة الأعمال" يظهر عادةً في المحاولة الثالثة، وليس في المحاولة الأولى.
الخطأ 9: نسيان أن النموذج لا يحتفظ بالذاكرة بين عمليتي التوليد. ما لم تستخدم ميزة "توليد صورة من صورة" لتستخدم الناتج السابق كصورة مصدر، فإن كل عملية توليد تكون جديدة تمامًا. إذا أردت إعادة استخدام شخصية قديمة، فاحفظ النص الأصلي، أو قم بالتحرير التسلسلي مباشرةً باستخدام الصورة السابقة.
كيف يعمل GPT Image 2 من الداخل (نبذة موجزة)
ليس من الضروري استخدام هذا القسم، لكنه سيساعدك على تكوين توقعات معقولة. GPT Image 2 عبارة عن واجهة مستخدم مبسطة تستدعي مباشرة نموذجي KIE هما gpt-image-2-text-to-image وgpt-image-2-image-to-image — وهما ينتميان إلى عائلة نماذج الانتشار، وقد تم تحسينهما خصيصًا لتتبع التعليمات وتقديم صور واقعية عالية الدقة. يتم في كل طلب إجراء المصادقة، وخصم 12 نقطة، ووضع الطلب في قائمة الانتظار، ثم إرجاع رابط الصورة.
قلة وجود أزرار التحكم على الواجهة أمر متعمد: لا تكشف واجهة برمجة تطبيقات KIE عن عناصر التحكم هذه، وإضافة "أزرار تحكم وهمية" في الطبقة العليا لن يؤدي إلا إلى إرباك المستخدم. كل ما يمكن للنموذج القيام به يتم التعبير عنه من خلال الكلمات الموجهة. للتعمق في فهم المبدأ، يمكنك الاطلاع على ويكيبيديا نموذج الانتشار وصفحة الأبحاث الخاصة بـ OpenAI.
GPT Image 2 لها أيضًا نقاط ضعف
إن الاكتفاء بذكر الإيجابيات دون التطرق إلى السلبيات لا يجعل هذا دليلاً تعليمياً. وفيما يلي نقاط الضعف المشتركة في GPT Image 2 — بل وفي جميع نماذج الصور السائدة حالياً:
- إعادة إنتاج عناصر العلامة التجارية بدقة. لا يمكن إعادة إنتاج الشعار والشخصيات المرخصة وتغليف المنتجات بشكل ثابت. الطريقة الصحيحة هي إنشاء التكوين، ثم دمج الشعار الحقيقي فيه.
- **التناسق الصارم مع المرجع. ** عندما يتطلب الأمر أن يكون شكل شخصية ما متطابقًا تمامًا عبر عشرات الصور (مثل المسلسلات المصورة)، فإن الحفاظ على هوية الصورة المولدة يكون أفضل بكثير من الصورة المولدة من النص فقط، ولكنه لا يزال أقل دقة من تدريب LoRA أو ربط الشخصيات ثلاثية الأبعاد، حيث يتم تحقيق الدقة في كل إطار.
- التشريح في الأوضاع المتطرفة. الأصابع والقدمين والأسنان والأذنين والأطراف المتقاطعة هي الأجزاء الأكثر عرضة للانهيار. وكلما اقتربت الكاميرا، كلما أصبحت الأخطاء أكثر وضوحًا.
- التنسيق المثالي. كما ذكرنا سابقًا — لا يزال هذا صحيحًا.
وهناك حقيقتان أخريان: أولاً، تنطوي نماذج التوليد في حد ذاتها على عشوائية في أخذ العينات — فكل مرة يتم فيها إدخال نفس الكلمة الموجّهة، تختلف النتائج؛ والتنوع هو ميزة، أما الاتساق فهو عيب، ويمكن التخفيف من هذا العيب عن طريق التحرير التسلسلي «صورة تولد صورة». ثانياً، تعكس النماذج توزيع بيانات التدريب، لذا فإن السياقات الثقافية غير الشائعة أصعب في الحصول على نتائج دقيقة من المرة الأولى مقارنة بالمواضيع الشائعة، لذا يجب توقع الحاجة إلى المزيد من التكرار.
إن سير العمل الجيد حقًا في إنشاء الصور باستخدام الذكاء الاصطناعي لا يعتمد على "نموذج واحد يغطي كل شيء"، بل على "استخدام GPT Image 2 لحل 80% من الصور الأساسية، مع استخدام محرر بسيط لإكمال 20% المتبقية يدويًّا".
نظرة سريعة: الإجراءات الكاملة
إذا كنت تريد نسخة يمكن قراءتها بنظرة واحدة بجانب الشاشة:
- افتح الصفحة الرئيسية لـ GPT Image 2 وقم بتسجيل الدخول.
- تأكد من أن رصيد حسابك لا يقل عن 12 نقطة.
- اختر التسمية: Text to Image أو Image to Image.
- إنشاء صورة من صورة: قم بتحميل صورة مصدر واضحة.
- اكتب أولاً تلميحًا قصيرًا ومحددًا. الموضوع أولاً، ثم الكلمات التي تحدد الجودة.
- قم بالإنشاء. قم بالتقييم الدقيق وفقًا لثلاثة أبعاد: الموضوع، والإضاءة، والتكوين.
- قم بتعديل متغير واحد فقط، ثم قم بالإنشاء مرة أخرى، وقارن بين النتيجتين.
- كرر الخطوتين 6 و7 حتى تحصل على نتيجة مرضية.
- قم بالتنزيل.
هذا كل شيء. جميع الاختصارات والنصائح والعادات التي يتبعها الخبراء الواردة في هذا المقال هي مجرد أشكال مختلفة من هذه الخطوات التسع.
إليك عادة صغيرة أخرى: اكتب النص التوجيهي أولاً في محرر النصوص، ثم الصقه في أداة الإنشاء. فهذا يسهل الاحتفاظ بالسجل، وتغيير ترتيب الكلمات، وإعادة استخدام البدايات الثابتة مثل "نفس الشخص — الحفاظ على ملامح الوجه...". وبعد الحصول على صورة مرضية، أعد كتابة النسخة النهائية في سجل النصوص التوجيهية. فهذه الخطوة البسيطة تمنع ضياع أفضل نصوصك التوجيهية عند تحديث المتصفح.
الأسئلة الشائعة
كم عدد النقاط التي تمنحها GPT Image 2 لكل صورة؟
سواء كان الأمر يتعلق بتحويل النص إلى صورة أو صورة إلى صورة، فإن السعر موحد عند 12 نقطة لكل صورة. لا توجد رسوم إضافية مقابل "تلميحات أطول" أو "مخرجات أكبر" أو "مستويات جودة أعلى" — فهذه الخيارات غير متوفرة أصلاً. يتم شراء النقاط ضمن باقات الموقع، ويتم منح الحسابات الجديدة نقاط تجريبية تلقائيًا.
هل يتطلب استخدام GPT Image 2 تثبيت أي برامج؟
لا حاجة لذلك. كل شيء يتم داخل المتصفح. لا توجد تطبيقات سطح مكتب، ولا ملحقات للمتصفح، ولا تحتاج واجهة المستخدم على الويب إلى طلب مفتاح API بنفسك. كل ما تحتاجه هو متصفح حديث وحساب بريد إلكتروني.
ما هو الحد الأقصى لطول الكلمات المفتاحية؟
يدعم كل من "تحويل النص إلى صورة" و"تحويل الصورة إلى صورة" إدخال أوامر تضمين تصل إلى 20,000 حرف كحد أقصى. ومع ذلك، فإن أكثر أوامر التضمين فعالية في الممارسة العملية تتراوح في الغالب بين 40 و200 كلمة. فالأوامر الطويلة جدًا قد تؤدي إلى إضعاف الإشارات أو حتى ظهور تناقضات؛ لذا، عادةً ما تكون الأوامر القصيرة ذات البنية الجيدة هي الأفضل.
هل يمكن تحميل عدة صور مرجعية في آن واحد؟
يدعم نمط "إنشاء صورة من صورة" صورة مصدر واحدة في كل مرة. إذا كنت ترغب في دمج عدة مراجع (مثل "هذا الشخص + أسلوب هذا الثوب")، يمكنك استخدام "التوليد التسلسلي": قم أولاً بإنشاء صورة وسيطة، ثم استخدمها كصورة مصدر للمرحلة التالية مع إضافة توجيهات جديدة لمواصلة التعديل. غالبًا ما تكون النتائج الناتجة عن التحرير التسلسلي أنظف من تلك الناتجة عن توجيهات معقدة واحدة.
هل يدعم GPT Image 2 دقة أو نسبة عرض إلى ارتفاع محددة؟
الأسعار الحالية موحدة، ولا توفر واجهة برمجة تطبيقات KIE نفسها أي خيارات للمستخدم لتعديل النسبة أو الدقة. عادةً ما تتبع الصورة الناتجة شكل الصورة الأصلية — لذا، عند الحاجة إلى نسبة معينة، يجب أولاً قص الصورة الأصلية ثم إعادة إنشائها.
هل يمكن استخدام الصور التي تم إنشاؤها لأغراض تجارية؟
تخضع حقوق استخدام المحتوى لشروط الخدمة الواردة في تذييل الموقع، ويُرجى اعتبار هذه الشروط المرجع النهائي. في الممارسة العملية، وحتى عام 2026، يستخدم معظم المستخدمين هذا المحتوى في الأفكار التسويقية والمحتوى الاجتماعي وتصميم النماذج الأولية والإبداعات الشخصية. قبل استخدام أي صورة في منتج مدرّ للدخل، يُرجى مراجعة الشروط السارية في ذلك الوقت.
كيف يمكن الحفاظ على تناسق مظهر نفس الشخصية عبر عدة صور؟
استخدم توليد الصور من صورة، مع كتابة جملة "الحفاظ على الهوية" بوضوح في بداية العبارة التوجيهية ("نفس الشخص — الحفاظ على ملامح الوجه ولون الشعر ولون البشرة"). ثم استخدم كل صورة ناتجة كصورة أصلية للصورة التالية، مع إضافة وصف جديد للمشهد لمواصلة التوليد. هذه الطريقة أقل دقة من نموذج LoRA المخصص للتدريب على الشخصيات، لكنها أفضل بكثير من البدء من الصفر في كل مرة باستخدام "توليد الصور من النص".
ما هي أسرع طريقة لتعلم استخدام GPT Image 2؟
استخدم في المرات الـ12 إلى الـ20 الأولى تلميحات بسيطة لتحويل النص إلى صورة، حتى تتعرف جيدًا على أداء النموذج في "حالته الافتراضية"؛ ثم انتقل بعد ذلك إلى تحويل الصورة إلى صورة، بدءًا من صورة مصدر خالية من أي عناصر. اتبع الإرشادات الموجزة في الصفحة السابقة، وستتمكن معظم المستخدمين من القيام بذلك بثقة بعد حوالي ساعة من التدريب الجاد.
لماذا تختلف نتائجي تمامًا عن الكلمات المفتاحية؟
هناك ثلاثة أسباب شائعة: أولاً، تراكم الكلمات التي تصف الجودة في المقدمة، بينما يختفي الموضوع الرئيسي في الخلف — يجب نقل الموضوع الرئيسي إلى المقدمة؛ ثانياً، وجود تناقض بين الكلمات الدلالية (مثل وضع "watercolor" و"photorealistic" جنباً إلى جنب) — اختر وسيلة واحدة؛ ثالثاً، استخدام كلمات تعبر عن المشاعر فقط ("جميل"، "مذهل") دون أسماء محددة — أضف أشياء محددة، واتجاه الضوء، ولغة التصوير.
هل أنت مستعد للبدء؟
الآن، أصبحت لديك سلسلة عمل كاملة، ونماذج جاهزة من العبارات الموجهة، والمزالق التي يجب تجنبها، بالإضافة إلى صفحة مرجعية سريعة. لم يتبقَ سوى شيء واحد يمكنك فعله: افتح أداة الإنشاء، واستخدم أول 100 نقطة لتكتشف "أي نوع من العبارات الموجهة تفضل". لا أحد يستطيع أن يكتب هذه الخطوة نيابة عنك.
افتح GPT Image 2، وقم بإنشاء صورتك الأولى →
إذا كنت ترغب في مواصلة القراءة:
- ما هو GPT Image 2؟ الميزات والأسعار وحالات الاستخدام
- دليل تلميحات GPT Image 2: اكتب تلميحات قابلة للتطبيق فعليًا
- GPT Image 2 مقابل Sora: مقارنة قدرات إنشاء الصور
- جرب أولاً أداة إنشاء تلميحات الصور المدمجة، لتوسيع فكرة بسيطة إلى تلميح كامل تلقائيًا.
- يمكنك أيضًا الانتقال مباشرةً إلى الصفحة المخصصة للوضع الفردي Text to Image أو Image to Image.
تم نشر هذا المقال بواسطة فريق GPT Image 2. اعتبارًا من أبريل 2026، سيتم احتساب تكلفة كل صورة بواقع 12 نقطة في كلا النموذجين. في حالة حدوث أي تعديلات مستقبلية، سنقوم بتحديث هذا المقال ونشير إلى ذلك في سجل التحديثات.

