גוגל פתחה פער, OpenAI מנסה לסגור אותו מהר מדי עם שני מודלים חדשים בשבוע

כמה שבועות אחרי, גוגל עדיין חוגגת את הצלחתו של מודל הבינה המלאכותית החדש שלה ג'מיני 3 ואת הגרסה המתקדמת שלו Gemini 3 Pro (הידוע גם כ-Gemini Deep Research) וגם את המודל הגרפי Gemini 3 Pro Image (הידוע גם כ-Nano Banana Pro). 
מנגד, סם אלטמן, מנכ"ל OpenAI, שכזכור הכריז על מצב "קוד אדום" בחברה, הוביל בימים האחרונים שתי מכות נגד: בהתחלה זה היה מודל GPT 5.2 ששוחרר בשבוע שעבר, ואתמול (ד') החברה הפתיעה עם הצגת מודל התמונות GPT Image 1.5 שמתחרה ראש בראש מול "ננו בננה", הלהיט הבלתי מעורער של גוגל. בשני המקרים היציאה לשוק של המודלים הוקדמה לעומת התכנון המקורי, ולפי כמה דיווחים התוצאה רחוקה מלהיות מושלמת.
מהבטחה אדירה למשבר שמערער את עולם ה-AI: שלוש שנים ל-ChatGPT
במקום להוביל, OpenAI משלימה פערים 
אם כל זה נשמע כמו סקירה חשבונאית של שמות ומספרי דגם, זה לא במקרה. גוגל זוכה בימים האלה להיות חביבת הקהל, בעוד OpenAI מתגוננת ומגיבה, אבל לא מצליחה לחזור ולהוביל את עולם הבינה המלאכותית, כמו שהיינו רגילים לראות אותה בשנים קודמות.
בואו נתבונן לרגע ב-GPT Image 1.5 החדש, שעליו שם אלטמן את יהבו. אחרי ש-OpenAI החליקה על הננו-בננה, היא מאמצת עכשיו את המאפיינים שהפכו אותו לוויראלי. למשל, מעכשיו יש לשונית תמונות בסרגל הצד של ChatGPT, עם עיצוב של סטודיו יצירה ועם תבניות ומסננים. כל זה הופך את יצירת התמונות לזמינה תמיד, קלה מתמיד ותכלס די מהנה.
"אנשים רבים השתמשו ב-ChatGPT כדי להפוך הנחייה טקסטואלית לתמונה", כותבת פידג'י סימו, מנהלת היישומים של OpenAI וסגניתו של אלטמן, בבלוג של החברה, "זוהי דרך מקסימה לראות מה הטכנולוגיה יכולה לעשות, אבל ממשק הצ'אט לא תוכנן לכך במקור. יצירה ועריכה של תמונות הן סוג אחר של משימה וראוי שיהיה לזה מרחב ייעודי".
גלריה
שילוב של כמה תמונות ואלמנטים לתמונה אחת בננו בננה פרו
(גוגל)
נזכיר כי פריצת הדרך של ננו בננה הייתה ביכולת של המודל לשכפל ולשפר תמונות קיימות. במודלים קודמים, הנחיות כמו שינוי בתאורה או שיפור הבעת הפנים של הדמות הביאו לגי'נרוט מחדש של התמונה ולניתוק הקשר הוויזואלי לתמונה המקורית. זה גם מנע ברוב המקרים יצירת רצפי תמונות שכן הדמויות בכל תמונה נראו שונות קמעה. 
יכולות עריכה משודרגות
כל זה השתנה משמעותית במודל ננו בננה וכעת OpenAI כאמור מצמצמת פערים. במודל החדש החברה שמה דגש על יכולות שיפור איכות תמונות וגם שינוי מאפיין של תמונה, תוך שימור תווי הפנים ותנאי התאורה הקיימים. 
המודל החדש מציג יכולות עריכה משופרות, בהן הוספת אלמנט, מחיקת אלמנט, שילוב כמה אלמנטים, מיזוג אלמנטים ושכפול אלמנטים - כל מה שמצופה מתוכנת עריכה גרפית ושהיה כל כך קשה לעשות עד כה עם AI. הוא גם מסוגל לשלב טוב יותר טקסט בתמונות, כולל טקסט צפוף ואותיות קטנות, ליצירת דיאגרמות ופוסטרים חכמים, לוגואים עקביים, וקטלוגים - לפחות כמו ננו בננה. OpenAI מבקשת להגיד עכשיו: כל מה שיש לה, אני יכולה טוב יותר.
לפי נתוני OpenAI , המודל החדש מהיר פי ארבע מקודמו ומחיר ייצור התמונות זול יותר ב-20% מקודמו. גם חיפוש GPT ישתנה מעתה, והוא ישלב תשובות ויזואליות בתוצאות החיפוש. עם זאת, החברה מציינת בהכרזה שלה: "הרצנו מחדש רבות מהדוגמאות מהשקת הגרסה הראשונה. הגרסה הזו מהווה התקדמות משמעותית, עדיין יש מקום משמעותי לשיפור בגרסאות עתידיות".
מנכ"ל OpenAI, סם אלטמן ומנכ"ל גוגל, סונדר פיצ'אי
(צילום: Evan Vucci / AP)
ונקודה ישראלית: OpenAI בחרה לצטט את הילה גת, ראשת תחום מחקר AI בחברת Wix, שמשבחת את יכולות GPT Image 1.5 ואומרת: "התוצאה תומכת בזרימת עבודה מהירה משלב הקונספט ועד לפרסום בפלטפורמה כמו Wix. בהתבסס על הבדיקות שלנו ועל מקרי השימוש העיקריים שאנו רואים ב-Wix, העקביות והאיכות הן תחרותיות והופכות אותו לאחד ממודלי הדגל של יצירת תמונות כיום".
ההבטחות של אלטמן במבחן המציאות
אם כבר הזכרנו את GPT 5.2 - גם הוא הושק בעקבות הקוד האדום ב- OpenAI, אבל זכה לפחות תשומת לב בציבור מאשר המתחרה שלו – ג'מיני 3. למשל לא ראינו הצהרות שמדובר בבינה מלאכותית כוללת (AGI) או אפילו שמדובר בפריצת דרך. 
למעשה אפשר להגיד ש- GPT 5.2 הוא התקדמות הדרגתית נוספת שמשלבת את כל השיפורים של שתי הגרסאות הקודמות, במודל AI אחד מצוין ועוצמתי. הבעיה של אלטמן, ש-OpenAI כבר לא מובילה בפער גדול בתחרות, בניגוד להתחייבויות שלו בנושא - בהיקף 1.4 טריליון דולר - לבניית תשתית AI ענקית. 
כמיטב המסורת, OpenAI הציגה שלוש גרסאות של GPT 5.2: מודל Instant, שמותאם לשאלות מהירות, חיפוש מידע, כתיבה תרגום, מודל Thinking שמותאם לעבודה מורכבת ומובנית כמו כתיבת קוד, ניתוח מסמכים ארוכים, מתמטיקה ותכנון וגרסת GPT 5.2 Pro - "המודל החכם והאמין ביותר שלנו", שנועד לבעיות קשות במיוחד ולסיוע במשימות מחקר ומדע.
סם אלטמן מציג את GPT5. הרבה הבטחות
(צילום מסך)
בעת ההשקה מסרה החברה ש- GPT 5.2 טוב יותר מהמתחרים ביצירת גיליונות אקסל, בניית מצגות, כתיבת קוד, הבנת תמונה וגם הבנת הקשרים. החברה פרסמה תוצאות של 44 מדדי השוואה, שמהם עולה ש- GPT 5.2גובר על ג'מיני 3 ועל Claude Opus 4.5 של אנת'רופיק כמעט בכל מבחן חשיבה, ממשימות הנדסת תוכנה בעולם האמיתי וידע מדעי ברמת דוקטורט ועד חשיבה מופשטת וגילוי תבניות.
OpenAI גם ציטטה שורה של חברות שמשתמשות ב-GPT, בהן Notion, זום, שופיפיי ועוד, שציינו שבגרסה החדשה יש יכולת משופרת של חשיבה לטווח ארוך ושימוש בכלים שונים, משימות בתחום מדעי הנתונים, ניתוח מסמכים של סוכני AI, יכולת משופרת בפיתוח סוכני AI, מציאת באגים ומה לא.
מדדי ההשוואה אולי מראים על יתרון ל-GPT על פני ג'מיני, אבל הקרב צמוד וההובלה נוטה לכאו ולכאן בכל אחד מהמדדים. באתר LMarena ג'מיני 3 פרו עדיין מוביל, אבל צריך לציין שהאתר לא מדד עדיין את יכולות GPT 5.2 במרבית המבחנים. במבחן היחיד שבו הוא מושווה (פיתוח אתרים) הוא נמצא במקום השני כשדווקא Claude Opus 4.5 נמצא בראש וג'מיני רק במקום הרביעי.
באתר Mashable השוו את הביצועים שעליהם דיווחו שתי החברות במדדים השונים ומצאו...שאין הבדל משמעותי: לעיתים גוגל מקדימה בכמה נקודות, ולעיתים OpenAI מקדימה במעט. בשורה התחתונה מדובר בשני תותחים ה-AI המובילים בימים אלה, עם דגש על "ימים אלה". בשבוע הבא, אולי קודם, כל זה עלול להשתנות כשאחת החברות תציג שוב פריצת דרך חדשה שתהמם את המשתמשים ואת התעשייה.