תקציר
GPT Image 2 הוא כלי ליצירת תמונות מבוסס בינה מלאכותית הפועל בדפדפן, הכולל שני מצבים בלבד – טקסט לתמונה (text-to-image) ותמונה לתמונה (image-to-image). התמחור אחיד ועומד על 12 נקודות לכל תמונה, ללא אפשרויות נוספות כגון רזולוציה, יחס גובה-רוחב או רמות איכות. מאמר זה ילווה אתכם צעד אחר צעד, החל מההרשמה, דרך יצירת התמונה הראשונה, העלאת תמונות ייחוס לעריכה, ועד לטיפים ליצירת תמונות שמישות. ניסיון חינם ב-GPT Image 2 →
לפני שמתחילים: מה עליך להכין
השימוש ב-GPT Image 2 אינו מצריך כרטיס מסך מתקדם, תוכנת פוטושופ או כל ניסיון קודם ב-AI; כל החישובים מתבצעים בשרת, והדפדפן אחראי רק על הזנת הנתונים והצגת התוצאות. כל מה שצריך להכין הוא פשוט מאוד:
- דפדפן מודרני. כל הגרסאות העדכניות של Chrome, Edge, Safari, Firefox ו-Arc מתאימות. הפעלת האצת חומרה תשפר את חוויית התצוגה המקדימה, אך אינה הכרחית.
- חשבון דוא"ל. ניתן להירשם באמצעות סיסמת דוא"ל או באמצעות כניסה בלחיצה אחת של Google. ניתן להשתמש בתיבת דואר אלקטרוני של החברה או ב-Gmail, אך כתובות דואר אלקטרוני חד-פעמיות יידחו.
- יתרת נקודות קטנה. בין אם מדובר בהפקת תמונה מטקסט או בהפקת תמונה מתמונה, בין אם מילת המפתח קצרה או ארוכה ובין אם יחס התמונה משתנה, העלות היא 12 נקודות לתמונה. לחשבונות חדשים יש נקודות ניסיון חינמיות, המספיקות להפקת התמונות הראשונות במדריך זה.
- תמונה להשראה (אופציונלי). אם אתם מתכננים להשתמש ביצירת תמונה מתמונה, הכינו תמונה מקורית אחת או שתיים בפורמט JPG / PNG / WebP, מומלץ שלא תעלה על 10 MB לתמונה. קומפוזיציה מרובעת או אנכית היא הקלה ביותר להשגת תוצאות יציבות.
- **מספיק רעיון מעורפל. ** מתחילים נוטים לנסות לכתוב "הנחיה מושלמת" בפעם אחת, מה שגורם להם להיתקע בהתלבטויות. השיטה היעילה באמת היא ליצור תמונה אחת עם הנחיה פשוטה, לראות מה המודל נותן לכם, ורק אז להחליט איך לשנות.
נכון לאפריל 2026, השימוש ב-GPT Image 2 אינו מצריך הורדת תוכנה כלשהי, אין צורך להגיש בקשה למפתח API, ואין צורך להמתין בתור. כל מה שצריך לעשות זה לפתוח את דף הבית, להתחבר ולהתחיל ליצור – שלוש פעולות בלבד.

מאמר זה מיועד למי שרוצה להשתמש בכלי זה ביעילות. את הפעולות הטכניות ניתן ללמוד תוך שתי דקות, אך מה שדורש באמת השקעה הוא קבלת ההחלטות בנוגע ל"מה לכתוב, על מה להתמקד ומתי לערוך" – והפרקים הבאים עוסקים בדיוק בכך. אם אתם ממהרים, תוכלו לדלג תחילה לשיטה 1, ולחזור לקרוא את הפרקים העוסקים בטיפים למילות מפתח ובטעויות נפוצות רק לאחר שתקבלו את התוצאה הראשונה שאינה משביעת רצון.
שיטה 1: יצירת תמונה מטקסט — יצירת התמונה הראשונה מאפס
"טקסט לתמונה" הוא המצב שרוב האנשים רוצים לנסות כשהם נכנסים ל-GPT Image 2: כותבים תיאור, לוחצים על "הפק", והמודל מחזיר תמונה שלמה. להלן ההוראות שלב אחר שלב.
שלב 1: פתח את היוצר והתחבר
פתח את דף הבית של GPT Image 2. לוח הבקרה של הגנרטור מופיע במסך הראשי בגרסת הדסקטופ, ובגרסת המובייל הוא מהווה את הבלוק המלא הראשון. כאשר אינך מחובר, תופיע הכניסה "הפק לאחר התחברות"; בחר כתובת דוא"ל או חשבון Google כדי להשלים את ההתחברות, תהליך שנמשך פחות מדקה.
לאחר הכניסה, יתרת הנקודות תופיע בפינה הימנית העליונה. יש לוודא שיש לפחות 12 נקודות — חשבונות חדשים מגיעים עם מכסת ניסיון, ולכן ניתן לבצע את הדוגמה הראשונה במדריך זה ללא צורך בקישור כרטיס אשראי.
שלב 2: עבור לכרטיסייה "Text to Image"
בחלק העליון של הגנרטור יש שתי כותרות: Text to Image ו-Image to Image. בפעם הראשונה, השתמשו באפשרות ברירת המחדל של "טקסט לתמונה". תיבת הטקסט נמצאת מתחת לשורת הכותרות.
אין צורך לבחור מודל באופן ידני — המערכת קוראת מאחורי הקלעים ל-gpt-image-2-text-to-image של KIE, ללא תפריטי נפתחים לבחירת גודל, יחס רוחב-גובה או רזולוציה: מודל אחד, מחיר אחד.
שלב 3: כתוב תחילה מילת מפתח קצרה בכוונה
טעות נפוצה בקרב מתחילים היא לדחוס את כל התארים שהם מכירים לתוך ההנחיה הראשונה. אל תעשו זאת. התחילו בתיאור קצר וקונקרטי, ובדקו כיצד המודל מתנהג ב"מצב ברירת המחדל" שלו. להלן ההנחיה שהשתמשתי בה בעת הכנת מאמר זה, בבדיקה הראשונה:
A golden retriever puppy sitting in a sunlit field of wildflowers, shallow depth of field,
warm afternoon light.(משמעות בסינית: גור גולדן רטריבר יושב בין פרחי בר בשמש, עם עומק שדה רדוד ואור חם של אחר הצהריים.)
הדבק בתיבת הטקסט ולחץ על Generate. רוב מילות המפתח מחזירות תוצאות תוך 20 עד 40 שניות, אך בשעות העומס התהליך מעט איטי יותר.
שלב 4: הערכה כנה של התוצאות
כשהפעלתי את ההנחיה שלמעלה בפעם הראשונה, התוצאה הייתה די מדויקת: גוונים חמים, עיניים חדות, טשטוש רקע טבעי — אך כפות הרגליים של הכלב נראו מעט מטושטשות, וזו נקודת תורפה אופיינית למודלים הוויזואליים הנוכחיים. זה נורמלי; שלב זה לא נועד לציון, אלא כדי לבנות את התפיסה שלך לגבי "התפוקה המוגדרת כברירת מחדל".
בתמונה הראשונה יש לשים לב לפחות לשלושה דברים:
- האם הנושא מדויק? האם הדגם מציג את הנושא הרצוי? או שמא הוא סוטה ממנו (למשל, צייר גולדן רטריבר כלאברדור)?
- **כיוון האור. ** האם התאורה בפועל תואמת לתיאור שלך? "אור אחר הצהריים החם" אמור להיות אור צדדי רך ומכוון, ולא אור מלמעלה.
- הקומפוזיציה. האם פריסת האובייקט תואמת את התמונה שבראשך? או שהוא ממוקם במרכז בצורה מביכה?
אם אחד משלושת הממדים הללו אינו תקין, יש לך סיבה ברורה לשנות את מילת המפתח — ולא פשוט לבצע חיפוש מחדש באופן עיוור.
שלב 5: כתוב גרסה משופרת של מילת המפתח
להלן גרסה משופרת של אותה סצנה. הנושא זהה, וגישת התאורה דומה, אך נעשה שימוש במבנה המתאים יותר ל-GPT Image 2:
A 3-month-old golden retriever puppy with fluffy fur and floppy ears, sitting upright in a
meadow of wild daisies and lavender. Warm late-afternoon sunlight streams from the left,
casting long gentle shadows and creating a soft golden rim light on the fur. Shallow depth
of field, background softly blurred with bokeh. Shot on an 85mm lens, eye level with the
puppy. Photorealistic, high detail, natural colors.(משמעות בסינית: גור גולדן רטריבר בן שלושה חודשים, בעל פרווה רכה ואוזניים שמוטות, יושב זקוף על מדשאה מכוסה חרציות בר ולבנדר. אור השמש החם של אחר הצהריים מאיר משמאל, מטיל צל ארוך ורך ויוצר הילה זהובה על הפרווה. עומק שדה רדוד, רקע מטושטש עם אפקט בוקיס. עדשת 85 מ"מ, בגובה העיניים של הגור. סגנון ריאליסטי, רמת פירוט גבוהה, צבעים טבעיים.)
בהשוואה למהדורה הראשונה, בוצעו ארבעה שינויים:
- פרטים ספציפיים יותר על האובייקט ("בן שלושה חודשים", "פרווה רכה", "אוזניים רכות"), כדי לאפשר לדוגמן לדמיין את הדמות.
- כיוון תאורה ברור ("משמאל", "אור מתאר על הפרווה"), ולא רק "חמים".
- שפת הצילום ("עדשת 85 מ"מ", "מבט בגובה העיניים של הגור") מספקת לדוגמן תבנית קומפוזיציה קונקרטית.
- תארי איכות מופיעים בסוף ("ריאליסטי, רמת פירוט גבוהה, צבעים טבעיים") — קצרים, לא גונבים את ההצגה.
לחץ שוב על "Generate". התמונה השנייה אמורה להיות קרובה יותר לתמונה שבראשך. אם היא עדיין לא נכונה, אל תכתוב מחדש את כל הקטע — שנה משתנה אחד בכל פעם, צור תמונה והשווה, רק כך תוכל לדעת איזה מילה משפיעה.
מודל מחשבתי שימושי: פצל את מילת המפתח לארבעה "משבצות" — נושא, פעולה, סביבה וסגנון. בכל פעם, שנה רק את המשבצת הבעייתית. אם הסוג לא מתאים, שנה את משבצת הנושא; אם התאורה לא נכונה, שנה את משבצת הסביבה; אם התמונה נראית כמו קריקטורה אבל אתה רוצה תמונה מצולמת, שנה את משבצת הסגנון.
שלב 6: שמור, הורד או המשך באיטרציה
לאחר שתהיה מרוצה מהתמונה, תמצא כפתור הורדה מתחת לתצוגה המקדימה. כל תמונה שנוצרת נשמרת אוטומטית בהיסטוריית החשבון שלך, כך שתוכל לעיין בגרסאות קודמות, להעתיק מילות מפתח ישנות ולהמשיך בתהליך האיטרציה. אם תרצה להמשיך לערוך את הדמות הזו ב"יצירת תמונה מתמונה" בהמשך, פשוט בחר את התמונה הזו מההיסטוריה כקובץ מקור.

התהליך שסיימת זה עתה – "פתיחה – כתיבת טקסט – הערכה – כוונון עדין – יצירה מחדש" – הוא מחזור העבודה המלא של יצירת תמונות מהטקסט. כל התוכן בהמשך מאמר זה נועד ללמד אותך כיצד להאיץ את המחזור הזה ולחסוך בנקודות.
אם אתם משתמשים ב-GPT Image 2 לאורך זמן, מומלץ לשמור קובץ טקסט פשוט שבו תתעדו את "ההנחיות היעילות". לא מדובר בתבנית, אלא ביומן אישי שלכם — בכל פעם שתהיו מרוצים מהתמונה, הוסיפו שורה עם ההנחיה המלאה והערה. לאחר חצי שנה, מאגר זה יתאים לטעמכם האסתטי יותר מכל תבנית כללית שתמצאו באינטרנט.
שיטה 2: יצירת תמונה מתמונה — עריכה של תמונה קיימת או שינוי הסגנון שלה
במודל "תמונה לתמונה" (image-to-image, או בקיצור i2i), המודל משתמש בתמונה מקורית כנקודת מוצא, שומר על החלקים הרצויים ומשכתב את השאר בהתאם למילת המפתח. אם ברצונכם ליצור תמונות מסוג "אותו אדם בבגדים שונים", "אותו מוצר ברקע שונה" או "אותה קומפוזיציה בסגנון שונה", השתמשו במודל זה.
שלב 1: עבור לכרטיסייה "תמונה לתמונה"
חזור לבונה הדף הראשי ולחץ על Image to Image. מעל אזור ההזנה יופיע אזור להעלאת קבצים; תיבת ההנחיות תישאר במקומה ותמשיך לתמוך בעד 20,000 תווים, אך כעת היא פועלת בשילוב עם התמונה שהועלתה.
השירות משתמש ב-gpt-image-2-image-to-image ברקע, והמחיר זהה לזה של יצירת תמונות מטקסט — 12 נקודות לכל תמונה. אין מחוון "עוצמה" נפרד, והמידה שבה התמונה תשתנה תלויה אך ורק בניסוח ההנחיה שלך.
אם השתמשתם בעבר בכלים אחרים לתיקון באמצעות מסכות (InPainting), שימו לב לשינוי בגישה: GPT Image 2 אינו דורש ציור מסכות, אלא קורא את התמונה המקורית כולה יחד עם ההנחיה כולה, ורק לאחר מכן מחליט מה לשנות. עבור 80% מהצרכים האמיתיים (החלפת רקע, החלפת בגדים, מעבר מיום ללילה), עריכת ההנחיה בלבד דווקא חוסכת זמן.
שלב 2: העלאת התמונה המקורית
גררו קבצי JPG / PNG / WebP לאזור ההעלאה, או לחצו על "בחר קובץ". לתרגול ראשון, מומלץ לבחור תמונה עם תאורה נקייה וקומפוזיציה פשוטה. תמונות עם טשטוש תנועה, תאורה חלשה או רקע עמוס יעניקו למודל מרחב "פרשנות חופשית" רב יותר, מה שיקשה על זיהוי ההבדלים בין התמונות.
התמונה שלמטה היא דוגמה קלאסית ל"סוג התמונה שמתחילים מעלים כשהם מנסים להשתמש בכלי בינה מלאכותית בפעם הראשונה" — תמונת סלפי רגילה שצולמה בתוך הבית.

שלב 3: תחילה יש להחליט – האם מדובר ב"תיקון קטן" או ב"שינוי מוחלט"?
לפני שתכתוב את ההנחיה, חשוב תחילה מהו היקף השינוי הרצוי לך. יצירת תמונה חדשה והחלפת תמונה קיימת הן שתי מטרות שונות בתכלית, ולכן גם אופן כתיבת ההנחיות שונה:
- תיקון קל (Edit): שמירה על רוב האלמנטים, החלפת אלמנט אחד בלבד. "הבגדים הוחלפו לכחול כהה." "הסרת כוס הקפה." "הרקע הוחלף למדף ספרים." "
- שינוי (Transform): שמירה על הזהות, כתיבה מחדש של הסצנה כולה. "אותו אדם, לבוש בבגדים סיניים מסורתיים, עומד במרפסת הארמון לאור הירח." "אותו מוצר, עם שולחן שיש ותאורה של סט צילומים."
ככל שהמילת המפתח מתארת את הסצנה החדשה בצורה מפורטת יותר, כך המודל יבצע שינויים רבים יותר; אם תציין תכונה אחת בלבד, המודל יטה להשאיר את שאר החלקים ללא שינוי. זהו המנוף שבאמצעותו אתה שולט ב"היקף השינוי" גם ללא שימוש במחוונים.
דוגמה: change the shirt to navy blue (להחליף את החולצה לכחול כהה) הוא עריכה מצומצמת, שבה הפנים, התסרוקת, התנוחה, הרקע והתאורה נשארים ללא שינוי. לעומת זאת, She is now wearing a tailored navy suit, standing in a glass-walled corporate office at golden hour (היא לובשת חליפה כחולה כהה מחויטת, עומדת במשרד עם קירות זכוכית בשעת הזהב) הוא שינוי מוחלט — החליפה, הסביבה והתאורה משתנות לחלוטין, ורק הפנים והגזרה נשארים ללא שינוי. בשני המקרים מדובר במשפט אחד, אך היקף השינוי נקבע על ידי כמות הסצנות החדשות שאתה מתאר.
שלב 4: כתוב הנחיה המורה למודל "מה לשמור"
להלן מילות המפתח שהשתמשתי בהן בעת יצירת ה"טרנספורמציה" של התמונה המקורית שלמעלה:
Same woman — identical facial features and hair. Transform the scene: she now wears an
elaborate crimson-and-gold hanfu with intricate embroidery and a jeweled phoenix hairpin.
She stands on a moonlit palace terrace, red lanterns glowing softly in the background,
cherry blossom petals drifting in the air. Warm lantern light from the right, cool
moonlight fill from the left. Cinematic shallow depth of field, elegant composition, 4K
photorealistic.(משמעות בסינית: אותה אישה – פניה ותסרוקתה נותרו ללא שינוי. תיאור מחודש של הסצנה: כעת היא לבושה בבגד סיני מסורתי מפואר בצבעי אדום וזהב, עם רקמה מורכבת, וסיכת פנינה בצורת פניקס מזהב משובצת בתסרוקתה. היא עומדת במרפסת הארמון לאור הירח, על רקע פנסים אדומים המפיצים אור רך, כשעלי כותרת של פריחת הדובדבן מתעופפים סביבה. אור פנסים חם בצד ימין, אור ירח קר בצד שמאל. עומק שדה רדוד ברמה קולנועית, קומפוזיציה אלגנטית, ריאליזם ב-4K.)
יש שני מקומות שבהם הדבר צוין במפורש:
- "אותה אישה — תווי פנים ושיער זהים." משפט זה כמעט מבצע את כל העבודה הנדרשת לשמירת הזהות. אם לא נכתוב זאת, הדמות תסטו באופן אקראי.
- תיאור מלא של הסצנה החדשה. יש לפרט בבירור את הלבוש, המיקום, האביזרים וכיוון האור. הדמות בונה מחדש את הסביבה כולה, ולכן היא זקוקה לסדרה שלמה של הוראות, ולא רק לתגית אחת.
שלב 5: השוואת התוצאות לפני ואחרי היצירה
לחיצה על "Generate" והלאה. בבדיקה שביצעתי, התמונה שהתקבלה שמרה על קווי המתאר של הפנים והתספורת של הדמות הראשית, בעוד שכל השאר שוחזר בהתאם להנחיות.

הסתכל על התמונות לפני ואחרי ביחד. אם הפנים השתנו יותר מדי, הוסף את הביטוי "same person" (למשל, הוסף "preserve exact face shape, same eyes, same nose, same lip shape" — שמור על צורת הפנים, העיניים, האף וצורת השפתיים); אם השינוי בסביבה לא מספיק, הוסף פרטים נוספים על הסביבה. אלה הם "הכפתורים" העומדים לרשותך.
שלב 6: אין צורך לעזוב את הדף; פשוט השתמש בתוצאה כקלט הבא
היתרון הגדול ביותר של "תמונה מול תמונה" הוא שהפלט שקיבלת זה עתה משמש כקובץ מקור חוקי לעריכה הבאה. לחץ על "השתמש כקלט חדש" והזן הנחיה חדשה (למשל, "אותו סצנה, הפעם בשעת שחר" או "אותה תנוחה, עם מניפה ביד"). התמונה הסופית המתקבלת מעריכה רציפה של שינויים קטנים כמעט תמיד נראית טוב יותר מאשר תמונה שנוצרה מהנחיה ארוכה אחת שמנסה לכסות את הכל.
"עריכה שרשרתית" היא אחת מטכניקות זרימת העבודה החשובות ביותר במאמר זה. דפוס כישלון נפוץ בקרב מתחילים: כתיבת תיאור בן 300 מילים שמכסה את הכל, וניסיון חוזר של שמונה פעמים שעדיין לא מניב תוצאות. השיטה המקצועית היא לעבוד בשלבים: קודם כל להגדיר את הדמות, ואז להשתמש בתוצר של השלב הקודם כבסיס ליצירת הלבוש, הסביבה והתאורה. 12 נקודות בכל שלב, סך הכל 48 נקודות בארבעה שלבים — התוצאה נקייה בהרבה מאשר תמונה שנוצרה לאחר עשרה ניסיונות מחודשים בבת אחת.

טיפים וטכניקות לכתיבת מילות מפתח שבאמת ישפרו את תוצאות החיפוש
כעת אתה שולט בתהליך העבודה במלואו. ההבדל בין משתמשים חדשים ביום הראשון לבין משתמשים ותיקים שמצליחים ליצור תיק עבודות באמצעות GPT Image 2 אינו טמון במילת מפתח מסתורית כלשהי, אלא בידיעה אילו כלים באמת יעילים. התשעה הבאים הם אלה שמניבים את התמורה הטובה ביותר ביחס להשקעה בשימוש בפועל.
טיפ 1: כתוב את הנושא בתחילת המשפט, ואת מילות התיאור בסוף
כתוב בתחילת ההנחיה "מי/מה מצויר בתמונה", והעבר את מילות התיאור של איכות התמונה כגון photorealistic, cinematic, 4K ו-high detail לסוף. המודל קורא את ההנחיה מההתחלה ועד הסוף, ולכן הנושא המופיע בתחילת ההנחיה מקבל את המשקל הגבוה ביותר, ואילו הנושא שמוסתר מאחורי שבעת תגי האיכות יקבל משקל נמוך יותר.
נמוך: תמונה קולנועית מפורטת ברזולוציית 4K היפר-ריאליסטית באיכות אולטרה-HD של חתול היושב על אדן החלון
חזק: חתול טוקסידו שחור-לבן יושב על אדן חלון מעץ, ומביט ברחוב עירוני גשום שבחוץ. אור רך ומפוזר הנכנס מהחלון, עומק שדה רדוד. פוטוריאליסטי, קולנועי.
טיפ 2: תאר את "כיוון האור", ולא את "אווירת האור"
"תאורה יפה" זה כמעט כמו לא לומר כלום. רק "אור שקיעה חם משמאל, צללים ארוכים הנופלים ימינה" אומר לדוגמנית היכן כל צל צריך ליפול. מקורות אור בעלי כיוון ושם (window light, rim light, softbox from above, neon fill from behind) הם אחד המנופים החסכוניים ביותר במילים, אך גם היעילים ביותר בשיפור איכות התמונה.
טיפ 3: תיאור הקומפוזיציה במונחים צילומיים משפר מיד את תחושת הריאליזם
אם אתם רוצים תמונות עם תחושה מציאותית, השתמשו במונחים של צלמים. שילוב של אורך מוקד (35mm, 50mm, 85mm, 135mm), רמזים לעומק שדה (shallow depth of field, deep focus) וזוויות צילום (eye level, low angle, overhead) ייתן לדוגמנים סט תבניות קומפוזיציה קונקרטיות. הערך Camera lens בוויקיפדיה האנגלית הוא חומר מצוין שאפשר לקרוא תוך 10 דקות, שיעזור לכם לבחור את אורך המוקד בצורה מודעת.
טיפ 4: תיאור הסגנון לפי "המדיום" ולא לפי "שם האמן"
הביטוי "בסגנון של צייר מסוים" הוא רגיש ומעורר מחלוקת בנוגע לייחוס. גישה בטוחה יותר היא לתאר את המדיום עצמו: ציור שמן עם משיחות מכחול נראות לעין, רישום בעיפרון עם הצללה צולבת, מראה של סרט Kodachrome וינטג'י עם גרעיניות, איור וקטורי נקי עם צבעים שטוחים. כך ניתן כיוון אסתטי מבלי להסתמך על אדם מסוים.
טיפ 5: השתמשו ב"תיאור חיובי" במקום ב"הגבלות שליליות"
ב-GPT Image 2 אין שדה נפרד להזנת מילות מפתח שליליות. הדרך הטובה ביותר להימנע מאלמנטים מסוימים היא לתאר בבירור את מה שאתה רוצה. במקום לכתוב no people, no text, no clutter, עדיף לכתוב an empty room with clean walls, minimalist composition, a single plant in the corner. תיאור חיובי אמין בהרבה מניסוח שלילי.
טיפ 6: ביצירת תמונות מתוך תמונות יש לקבוע תחילה את זהות הדמות, ורק לאחר מכן לשנות את התפאורה
כאשר מבצעים "החלפת תלבושת/החלפת תפאורה", אם רוצים לשמור על עקביות בפנים, המשפט הראשון בהנחיות הוא המפתח. משפט כמו Same person — preserve facial features, hair color, and skin tone (אותו אדם — שמור על תווי הפנים, צבע השיער וגווני העור) המופיע בתחילת ההנחיות, יעיל יותר מכל תיאור תפאורה יפה שיופיע בהמשך. אם יש צורך בהדגשת הזהות, יש להוסיף same eye shape, same nose, same lips. אמירה מפורשת יעילה יותר מרמיזה.
טיפ 7: בצעו שינויים בהדרגה, במקום לכתוב מחדש קטעים שלמים
שנו משתנה אחד בלבד בכל פעם. אם התנוחה נכונה אך הבגדים לא מתאימים, שנו רק את הקטע העוסק בבגדים; אם התאורה לא נכונה אך כל השאר בסדר, שנו רק את הקטע העוסק בתאורה. רק כך תוכלו ליצור מעגל משוב שניתן לשלוט בו באמת, ולדעת איזה מילה שינתה מה. כתיבה מחדש של הקטע כולו תשבש את המסר הזה ותבזבז נקודות.
טיפ 8: כתוב את מילות המפתח לפי הסדר שבו "המודל צריך לתת עדיפות"
הצב את המרכיבים המרכזיים בתחילת המשפט: הנושא → הפעולה → הסביבה → הסגנון. אם תכתוב "בסגנון ציור שמן, אישה בשמלה אדומה הולכת ברחוב מרוצף אבן בשעת בין ערביים", אתה אומר למודל ש"זהו בראש ובראשונה ציור שמן", וכל השאר הוא משני. החלף ל-"אישה בשמלה אדומה הולכת ברחוב מרוצף אבן בשעת בין ערביים, המוצגת כציור שמן". הדוגמנית שומעת תחילה את הנושא, ורק בסוף את המדיום. כמות המידע זהה, אך התוצאה הסופית של האפשרות השנייה בדרך כלל מדויקת יותר.
טיפ 9: השתמשו במונחים שצלמים ובמאים באמת משתמשים בהם
Dutch angle (זווית הולנדית), rack focus (מיקוד רציף), golden hour (שעת הזהב), overcast daylight (אור יום מעונן), softbox (תיבת תאורה רכה), gobo shadow (הצללת גובו), hero shot (צילום גיבור), two-shot (צילום זוגי), negative space (חלל שלילי) – למונחים אלה יש משמעויות ברורות בצילום ובקולנוע, ותמונות רבות במאגר הנתונים לדירוג מלוות במונחים אלה. מילות רגש מעורפלות (vibey, dreamy, epic) מהוות אות חלש בהרבה עבור המודל. הערך בויקיפדיה האנגלית Shot (filmmaking) מהווה מקור טוב לעיון מהיר של 15 דקות במילון מונחים.
הטעויות הנפוצות ביותר בקרב מתחילים, וכיצד לתקן אותן
בכנות, את כל הטעויות הבאות כבר עשיתי בעצמי. סביר להניח שגם אתה תעשה אותן, אבל לפחות תוכל לזהות אותן מהר יותר.
טעות 1: לכתוב הנחיה באורך 400 תווים בתקווה לקבל תוצאה סופית בניסיון אחד. מודלים חזותיים מתמחים יותר בטיפול בהנחיות "מצומצמות וניתנות לאיטרציה", ולא בהנחיות "ארוכות במיוחד שנועדו להניב תוצאה מושלמת בניסיון אחד". אין להתייחס למגבלה של 20,000 תווים כיעד. התוצאות שהכי מרוצה מהן ב-GPT Image 2 הן לרוב אלה שההנחיות שלהן נעות בין 40 ל-120 מילים.
טעות 2: ריצה חוזרת ונשנית של המודל מבלי לשנות את ההנחיה. גם לאחר לחיצה פעמיים על "Generate" עבור אותה הנחיה, התוצאה היא "כמעט מוכן", ולחיצה שלישית עדיין מניבה "כמעט מוכן". האקראיות תחקור רק תחום מצומצם; אם כיוון התחום שגוי, ריצות חוזרות ונשנות לא יוכלו לתקן זאת — יש לשנות את ההנחיה.
טעות 3: סתירה בתיאור. באותו משפט מופיעים גם "soft dreamy watercolor" (צבעי מים רכים וחלומיים) וגם "ultra-sharp photorealistic 4K" (4K פוטוריאליסטי וחדה במיוחד) – זו סתירה. המודל יבחר באחד מהם, או גרוע מכך: ייצור ממוצע בין השניים. חשוב לחשוב היטב לפני הכתיבה.
טעות 4: ציפיות גבוהות מדי מהטקסט בתמונה. נכון לאפריל 2026, מודלי תמונה מבוססי בינה מלאכותית עדיין מתקשים להציג טקסט ארוך, ובמיוחד תווים שאינם לטיניים. לעתים ניתן להציג כיתובים קצרים על שלטים, אך טקסט ברמת פסקאות כמעט ולא מוצג כהלכה. כאשר הטקסט הוא המידע המרכזי, פשוט הוסף שכבה של טקסט באמצעות עורך תמונות כלשהו לאחר הפלט.
שגיאה 5: העלאת תמונה מקור מטושטשת. המודל ישתמש ברמת הפירוט של התמונה המקורית כנקודת ייחוס. תמונת טלפון מטושטשת וחסרת תאורה, לא משנה כמה תכתוב בהנחיות "חדה וברורה", התוצאה תשמור על אותה תחושה מטושטשת. אם אפשר לבחור תמונה מקור חדה, בחר תמונה חדה.
טעות 6: אל תשים את הדגש על הידיים. הידיים הן עדיין מקור הפגמים הנפוץ ביותר ביצירת תמונות. אם הקומפוזיציה מחייבת להבליט את הידיים, קבל את העובדה שתצטרך לעבור על התמונה מספר פעמים נוספות; אם הן אינן המוקד, השאר את הידיים מחוץ לפריים או תן להן להיראות תלויות באופן טבעי.
טעות 7: התעלמות מהיחס בין הגבהים לרוחב בשלב העלאת התמונה ליצירת תמונה חדשה. התמונה שנוצרת בדרך כלל שומרת על היחס בין הגבהים לרוחב של התמונה המקורית. אם אתה רוצה באנר אבל העלית סלפי אנכי, זה כמו לפעול בניגוד למודל. לפני היצירה, חתוך את התמונה המקורית ליחס הרצוי.
טעות 8: להתייחס ל"האיור הראשון שרק מסתדר" כאל הגרסה הסופית. משתמשים מנוסים יראו ב"בסדר" נקודת התחלה לסבב הבא. הפער בין "בסדר" ל"רמת תיק העבודות" מתגלה בדרך כלל בניסיון השלישי, ולא בניסיון הראשון.
טעות 9: לשכוח שהמודל אינו זוכר בין שתי פעולות יצירה. אלא אם כן משתמשים ב"יצירת תמונה מתמונה" ומשתמשים בתוצאה הקודמת כתמונה מקורית, כל פעולת יצירה היא חדשה לחלוטין. אם ברצונכם להשתמש שוב בדמות ישנה, שמרו את ההנחיה המקורית, או ערכו עריכה רציפה ישירות על התמונה הקודמת.
איך פועל GPT Image 2 מבפנים (בקיצור)
הפרק הזה אינו הכרחי לשימוש, אך הוא יסייע לכם לפתח ציפיות ריאליות. GPT Image 2 הוא ממשק משתמש (UI) פשוט, המפעיל ישירות את שני המודלים של KIE: gpt-image-2-text-to-image ו-gpt-image-2-image-to-image. מודלים אלה שייכים למשפחת מודלי הדיפוזיה, והם עברו אופטימיזציה לביצוע הוראות ולריאליזם ברמת דיוק גבוהה. כל בקשה עוברת אימות, מחויבת ב-12 נקודות, נכנסת לתור, ומחזירה כתובת URL של התמונה.
כפתורים בממשק הם כמעט אף פעם לא מכוונים: ה-KIE API עצמו אינו חושף את אמצעי השליטה הללו, והוספת "מחוונים מדומים" בשכבה העליונה רק עלולה להטעות. כל מה שהמודל יכול לעשות מתבטא באמצעות מילות מפתח. למי שרוצה להבין לעומק את העיקרון, מומלץ לעיין בערך בויקיפדיה מודל דיפוזיה ובדף המחקר של OpenAI דף המחקר.
גם ל-GPT Image 2 יש חסרונות
אם רק משבחים ולא מציינים את החסרונות, זה כבר לא מדריך. להלן החסרונות המשותפים ל-GPT Image 2 — ולמעשה לכל הדגמים המובילים בתחום התמונות כיום:
- שחזור מדויק של אלמנטים מיתוגיים. לא ניתן לשחזר באופן עקבי לוגו, דמויות מורשות ואריזות מוצרים. הדרך הנכונה היא ליצור קומפוזיציה ולאחר מכן לשלב בה את הלוגו האמיתי.
- **עקביות קפדנית ביחס למקור. ** כאשר נדרשת עקביות מוחלטת של דמות בעשרות תמונות (למשל, קומיקס בהמשכים), שמירת הזהות של "תמונה מול תמונה" כבר טובה בהרבה מ"טקסט מול תמונה", אך עדיין אינה מדויקת כמו אימון LoRA או קישור דמויות תלת-ממדיות, שמגיעים לרמת דיוק של כל פריים.
- אנטומיה בתנוחות קיצוניות. אצבעות, כפות רגליים, שיניים, אוזניים ואיברים מצטלבים הם האזורים שנוטים להתעוות בקלות רבה ביותר. ככל שהזווית קרובה יותר, כך הפגמים בולטים יותר.
- עיצוב מושלם. כפי שהוזכר לעיל – זה עדיין נכון.
ועוד שתי אמיתות: ראשית, מודל ההפצה טומן בחובו אקראיות בדגימה – אותה מילת מפתח תניב תוצאות שונות בכל פעם; הגיוון הוא יתרון, והעקביות היא חסרון, אשר ניתן למתן באמצעות עריכה שרשרתית של "תמונה מול תמונה". שנית, המודל משקף את התפלגות נתוני האימון, ולכן קשה יותר להפיק תוצאה מדויקת בפעם הראשונה בהקשרים תרבותיים נישתיים מאשר בנושאים פופולריים; יש לצפות למספר רב של איטרציות.
תהליך עבודה טוב באמת ליצירת תמונות באמצעות בינה מלאכותית אינו מתבסס על "מודל אחד לכל המטרות", אלא על "GPT Image 2 שמטפל ב-80% מהתמונה הבסיסית, ועורך בסיסי שמבצע את 20% הנותרים בעריכה ידנית".
מדריך מהיר: התהליך המלא
אם אתם מעדיפים גרסה שניתן לקרוא במבט אחד ליד המסך:
- פתחו את דף הבית של GPT Image 2 והתחברו.
- ודא שיש לך לפחות 12 נקודות בחשבון.
- בחר תווית: Text to Image או Image to Image.
- יצירת תמונה מתמונה: העלה תמונה מקורית נקייה.
- כתוב תחילה הנחיה קצרה ומפורטת. הנושא המרכזי תחילה, מילות התיאור האיכותיות לאחר מכן.
- צור. הערך את התוצאה לפי שלושה ממדים: נושא, תאורה, קומפוזיציה.
- שנה משתנה אחד בלבד, צור מחדש והשווה.
- חזור על שלבים 6–7 עד שתהיה מרוצה מהתוצאה.
- הורד.
זהו. כל קיצורי הדרך, הטיפים וההרגלים של המשתמשים המנוסים המוזכרים במאמר זה הם וריאציות של תשעת השלבים הללו.
עוד הרגל קטן: כתבו את ההנחיה תחילה בעורך טקסט, ואז הדביקו אותה בגנרטור. כך תוכלו לשמור את ההיסטוריה, לשנות את סדר המילים ולעשות שימוש חוזר בפתיחות קבועות כמו "אותו אדם — שמור על תווי הפנים…". לאחר שתהיו מרוצים מהתוצאה, העתיקו את הגרסה הסופית חזרה ליומן ההנחיות. ההתנגדות הקטנה הזו תמנע את אובדן ההנחיות הטובות ביותר שלכם בעת רענון הדפדפן.
שאלות נפוצות
כמה נקודות מקבלים עבור כל תמונה ב-GPT Image 2?
בין אם מדובר ביצירת תמונה מתוכן טקסטואלי ובין אם ביצירת תמונה מתמונה קיימת, המחיר האחיד הוא 12 נקודות לכל תמונה. אין חיובים נוספים עבור "הנחיות ארוכות יותר", "תפוקה גדולה יותר" או "רמת איכות תמונה גבוהה יותר" — האפשרויות הללו פשוט אינן קיימות. ניתן לרכוש את הנקודות כחלק מחבילות באתר, וחשבונות חדשים מקבלים נקודות ניסיון באופן אוטומטי.
האם יש צורך בהתקנה כלשהי כדי להשתמש ב-GPT Image 2?
אין צורך. הכל מתבצע בדפדפן. אין צורך באפליקציית שולחן עבודה, בתוסף לדפדפן או בממשק משתמש אינטרנטי, ואין צורך להגיש בקשה לקבלת מפתח API. כל מה שאתה צריך זה דפדפן מודרני וחשבון דוא"ל.
מה האורך המרבי של מילת המפתח?
הזנת פרומפטים עבור יצירת תמונות מטקסט ויצירת תמונות מתמונה תומכת ב-20,000 תווים לכל היותר. עם זאת, בפועל, הפרומפטים היעילים ביותר הם לרוב באורך של 40 עד 200 מילים. פרומפטים ארוכים מדי עלולים לדלל את המסר ואף ליצור סתירות; פרומפטים קצרים ומובנים היטב הם בדרך כלל היעילים ביותר.
האם ניתן להעלות מספר תמונות להתייחסות בו-זמנית?
מצב "יצירת תמונה מתמונה" תומך בתמונה מקורית אחת בכל פעם. אם ברצונך לשלב מספר מקורות השראה (למשל, "הדמות הזו + סגנון הבגד הזה"), תוכל להשתמש ביצירת תמונות בשרשרת: צור תחילה תמונה ביניים, ולאחר מכן השתמש בה כתמונה מקורית לפעם הבאה, הוסף הנחיות חדשות והמשך לערוך. עריכה בשרשרת נוטה להניב תוצאות נקיות יותר מאשר יצירת תמונה מהנחיה מורכבת אחת.
האם GPT Image 2 תומך ברזולוציה או ביחס גובה-רוחב ספציפיים?
התמחור הנוכחי הוא אחיד, ו-KIE API עצמה אינה מציעה למשתמשים אפשרויות לבחירת יחס גובה-רוחב או רזולוציה. התמונה שנוצרת בדרך כלל עוקבת אחר צורת התמונה המקורית — לכן, כאשר נדרש יחס גובה-רוחב ספציפי, יש לחתוך תחילה את התמונה המקורית ורק לאחר מכן ליצור את התמונה החדשה.
האם ניתן להשתמש בתמונות שנוצרו למטרות מסחריות?
זכויות השימוש בתוכן כפופות לתנאי השימוש המופיעים בתחתית האתר; תנאים אלה מהווים את הבסיס הסופי. בפועל, נכון לשנת 2026, מרבית המשתמשים עושים בו שימוש לצורכי רעיונות שיווקיים, תוכן ברשתות החברתיות, עיצוב אב טיפוס ויצירה אישית. לפני השימוש בתמונה במוצר מניב הכנסות, יש לעיין בתנאים התקפים באותו מועד.
איך לשמור על עקביות של אותה דמות במספר תמונות?
השתמשו ב**"תמונה מולדת"**, וציינו במפורש בתחילת ההנחיה את התנאי לשמירת המאפיינים האישיים ("אותו אדם — שמור על תווי הפנים, צבע השיער וגווני העור"). לאחר מכן, השתמשו בכל תוצאה כקובץ מקור לתמונה הבאה, והמשיכו ביצירת תמונות תוך שילוב תיאור סצנה חדש. שיטה זו אינה מדויקת כמו מודל LoRA שהוכשר במיוחד לדמות, אך היא יעילה בהרבה מאשר להתחיל מחדש בכל פעם בתהליך של "טקסט לתמונה".
מה הדרך המהירה ביותר ללמוד להשתמש ב-GPT Image 2?
ב-12 עד 20 הפעמים הראשונות השתמשו בהנחיות פשוטות ליצירת תמונות מטקסט, כדי להבין היטב את ביצועי המודל ב"מצב ברירת המחדל"; לאחר מכן עברו ליצירת תמונות מתמונה, תוך התחלה מתמונה מקורית נקייה. אם תפעלו לפי המדריך המהיר בעמוד הקודם, רוב המשתמשים יוכלו להתמודד עם המשימה בקלות יחסית לאחר כשעה של תרגול רציני.
מדוע התוצאות שלי שונות לחלוטין מהמילת המפתח?
שלוש סיבות נפוצות: ראשית, מילות תיאור איכותיות מרוכזות בתחילת הטקסט, בעוד הנושא המרכזי מוסתר בסוף — יש להציב את הנושא המרכזי בראש הטקסט; שנית, מילות התיאור סותרות זו את זו (למשל, "צבעי מים" לצד "פוטוריאליסטי") — בחרו במדיום אחד; שלישית, שימוש במילות תיאור רגשיות בלבד ("יפה", "מרשים") ללא שמות עצם ספציפיים — הוסיפו תיאור של אובייקטים ספציפיים, כיוון האור ושפת הצילום.
מוכנים להתחיל?
בשלב זה, כבר יש בידך תהליך עבודה שלם, תבניות פרומפט שימושיות, נקודות תורפה שיש להימנע מהן, וכן דף עזר לעיון מהיר. נותר לך רק דבר אחד לעשות: לפתוח את הגנרטור, ולהשתמש ב-100 הנקודות הראשונות שלך כדי לגלות "איזה סוג של פרומפט אתה מעדיף". אף אחד לא יכול לעשות את הצעד הזה במקומך.
פתח את GPT Image 2, צור את התמונה הראשונה שלך →
אם ברצונכם להמשיך לקרוא:
- מהו GPT Image 2? תכונות, מחירים ושימושים
- מדריך לפקודות GPT Image 2: כתיבת הנחיות שימושיות באמת
- GPT Image 2 לעומת Sora: השוואת יכולות יצירת תמונות
- נסו קודם את מחולל ההנחיות המובנה, המרחיב אוטומטית הנחיה שלמה מתוך רעיון פשוט אחד.
- ניתן גם לעבור ישירות לדף הייעודי של מצב יחיד Text to Image או Image to Image.
מאמר זה פורסם על ידי צוות GPT Image 2. נכון לאפריל 2026, שני המודלים מחויבים בתעריף אחיד של 12 נקודות לכל תמונה. אם יחולו שינויים בעתיד, נעדכן מאמר זה ונציין זאת ביומן העדכונים.

