פאנץ' בננה

תשכחו מכל מה שידעתם על עריכת תמונות דיגיטלית; הדבר הבא זכה כבר ברשת לכינוי "ננו בננה" (Nano Banana), ויש המכנים אותו אפילו "הפיצ'ר שיקבור את פוטושופ". מדובר אולי בטרנד הכי חם בבינה המלאכותית, הפעם מבית גוגל, של יצירה ועריכת תמונות איכותית במיוחד באמצעות כתיבת מספר משפטים, ותוך כמה שניות. רשמית, מדובר בפיצ'ר בשם Flash Image, שהוא חלק מהמודל הכי טרי של גוגל, ג'מיני 2.5. השם המוזר הגיע מתרבות ה"ממים" באינטרנט.
ה"ננו בננה", שנולד במעבדות דיפמיינד (DeepMind) — חטיבת הבינה המלאכותית של גוגל ולמעשה יחידת העילית של החברה כיום — הושק רק באוגוסט האחרון. ההתפשטות שלו חסרת תקדים: הוא החל כקמפיין שיווקי חכם, כאשר מנהלי המוצר בגוגל החלו לשתף ברשתות תמונות ואימוג'י של בננות; הרשת השתגעה, ובתוך חודש כבר נוצרו ונערכו כמעט מיליארד תמונות בעזרתו.

3 צפייה בגלריה 
ככה זה עובד: תמונת הדיוקן של דיוויד שרון (באמצע( הופכת באמצעות "ננו בננה" לרצף של סיטואציות על פי הנחיית טקסט בלבד


מי שאחראי על הפרויקט בדיפמיינד מזה 9 חודשים, וחולש על כאלף איש המעורבים בו ישירות או בעקיפין, הוא דיויד שרון, מבכירי גוגל, שגדל בארץ, שירת בצה"ל, למד בארה"ב וניהל בגוגל בעשור האחרון קבוצות פיתוח בעולמות הווידיאו והמדיה של יוטיוב. מתוקף תפקידו, שרון הוא גם האיש שמאחורי כלי AI חדש אחר, עוצר נשימה, ליצירת וידיאו, Veo 3, שמאפשר ליצור סרטונים ריאליסטיים באורך של עד כ-8 שניות, באמצעות הוראות טקסט או על בסיס תמונה, עם שילוב של צלילים ומוזיקה תואמים.
הופתעתם? מה הפך דווקא את "ננו בננה" ללהיט כזה, במה הוא שונה ממודלי AI אחרים בשוק ליצירת תמונות?
"מכל התכונות החדשות — העיקרית, שבה גם התאמצנו להתמקד, היא המענה לצורך של אנשים לראות בתמונות את עצמם או אנשים וחיות שהם אוהבים. ב'ננו בננה' ניתן לערוך תמונה של אדם — לשנות לו תסרוקת, להלביש אותו בחליפה, או בסארי הודי, או להציב אותו על רקע ג'ונגל — והפנים שלו נשארים מציאותיים בכל השינויים.
"זו קפיצת מדרגה דרמטית לעומת מודלים קודמים. גם אחרים ניסו את זה, אבל הבעיה היא, שכאשר אתה ממקם את עצמך או אנשים מוכרים בסצנה דמיונית, אתה רגיש לכל שינוי קטן בתווי הפנים. אז עבדנו המון על עקביות - שימור נאמן של תווי הפנים המקוריים גם במצבים משתנים. זה 'הרוטב הסודי' של המודל. יש לנו עוד במה להשתפר אבל אנחנו הכי טובים בזה בעולם כיום".
האתגר לבצע שינויים וירטואליים בדמויות של בני אדם הוא אחד הקשים בתעשייה: יש מה שנקרא "עמק המוות" — פרצוף אנושי לא אמין מייצר תחושה לא נעימה אצל הצופה. 
"אבל כשזה מצליח יש לכך הרבה שימושים, חלקם ריגשו אותנו בצוות במיוחד. למשל, המטפלת של הילדים שלי היא ממקסיקו, ו'ננו בננה' מאוד מצליח שם. כששאלתי אותה אם יצא לה לראות תמונות שנוצרו בתוכנה, היא לא האמינה שאני קשור לזה; היא סיפרה בהתרגשות, שמשפחתה ערכה מסיבה לכבוד לידת נכד מיד אחרי שהסבתא הלכה לעולמה. לפני האירוע הם הדפיסו במיוחד תמונה שנוצרה באמצעות מיזוג תמונות ב'ננו בננה', שבה נראית הסבתא שנפטרה מחזיקה בנכד.
"אז אנחנו ממוקדים אמנם ב'פאן', וזה באמת כיף, אבל יש גם אנשים שיכולים להתחבר מחדש כך לאהובים שאיבדו. אני, למשל, קרוי על שם סבא שלי, דוד, שנפל במלחמת ששת הימים; סבתא, שעלתה ממרוקו, מעולם לא התחתנה מחדש. בעזרת 'ננו בננה' הכנתי תמונה משוחזרת שלו מתמונת שחור-לבן ישנה. כשהראיתי לה, היא כמעט נפלה מהכיסא. כשאתה שומע סיפורים כאלה, על אנשים שמצליחים לחזור בזמן לרגע מיוחד בחייהם, זה נותן המון משמעות לעבודה שלך".
3 צפייה בגלריה 
(דיוויד שרון ב"ננו בננה" ׀ צילום: מתוך לינקדאין)
"גאה להיות ישראלי"
דיויד שרון, 41, נשוי ואב לשניים, כיום תושב מנלו-פארק שבעמק הסיליקון, סמוך למטה גוגל, נולד בלוס-אנג'לס להורים ישראלים — האב יזם ואיש עסקים והאם מעצבת אופנה. "גדלתי בסביבה מאוד ישראלית, עם אבא שנקרא אריאל שרון. ממש בועה, עד כדי כך שלא דיברתי בכלל אנגלית עד כיתה א'. את חופשות הקיץ היינו מבלים בארץ".
כשהגיע לגיל 12 חזרה המשפחה לישראל. דיויד היה חניך בצופים ולמד בתיכון חדש בתל-אביב. בצה"ל שירת בחיל הרפואה כמדריך בבה"ד 10. את רמת הלימודים בארץ הוא זוכר דווקא לטובה: "עשיתי 5 יחידות במתמטיקה, במחשבים ובפיזיקה, ובהמשך, כשהגעתי לניו-יורק ללימודי תואר ראשון במינהל עסקים ב-NYU — באתי מוכן, והקדמתי למעשה בשנתיים את כל האחרים". 
ב-2010, בתום הלימודים עבר לסידני שבאוסטרליה, שם הקים סטארט-אפ בן 20 עובדים בשם Ouffer, שהיה למעשה האתר האוסטרלי הראשון ב"גרופון" — חלוצת הרכישות הקבוצתיות הבינלאומית. אחרי חצי שנה, כשהסטארט-אפ נרכש, חזר דיויד לארה"ב, שם עבד תקופה בחברת הייעוץ "בוסטון קונסלטינג גרופ". הוא חזר לארץ כעובד החברה, וייעץ לחברות גדולות במשק. אחרי שנה וחצי חזר לארה"ב להשלים לימודי תואר שני בסטנפורד. ביום השני ללימודים הכיר את אשתו, פלורנס, יהודייה מצרפת. "היא התעניינה אם אני משתתף באירוע  סוכות של בית חב"ד בקמפוס. כמובן שרצתי לשם כדי לפגוש אותה".  
השנתיים האחרונות, מאז 7 באוקטובר, לא קלות לישראלים בחו"ל. גם על ראשי גוגל מופעלים לחצים אדירים להפסיק את שיתוף הפעולה עם ישראל. אתה מרגיש במצוקה הזו?
"אני מכריז על עצמי בגאווה כל הזמן שאני ישראלי. בקרב הצוות שלי לא הרגשתי עד כה בשום בעיה. אבל אגיד, עם זאת, שלגור בעמק הסיליקון, להיות בוגר של סטנפורד אחרי ההפגנות שם, ולנסוע בכבישים המהירים כאן ולראות שלטי ענק נגד ישראל — זה כואב. אחותי, שמתגוררת בניו-יורק, נכנסה ל'אובר' וכשהבת שלה דיברה איתה בעברית הנהג ירק וביקש שייצאו מהמכונית. זה מפחיד.
"אשתי, שנולדה בצרפת, ביקשה שנכניס את המזוזה פנימה, בעיקר בגלל החשש מהשליחים שמגיעים אלינו; היא באה מרקע אחר — כך עושים היום יהודים בצרפת, ובצדק: קודם כל פיקוח נפש. אני בא ממקום שמשאיר בגאווה את המזוזה בחוץ, כי הרי לא יכול להיות שלא אלבש את החולצה של הקבוצה שלי. "מצד שני, מתחולל פה גם תהליך הפוך, של התעוררות, של רצון עז לעזור לישראל. אנשים שעבדו לצידי המון שנים, שלא הזדהו בעבר כיהודים, פתאום באים ואומרים לי 'סבתא שלי יהודייה', והראייה שלהם על ישראל משתנה".
"אנחנו טסים בחללית"
ההתקדמות בתחום הווידיאו מסחררת והתחרות מטורפת. רק לפני פחות מחודש הכריזה OpenAI, יריבה חזקה במרוץ ה-AI, כי היא עובדת יחד עם Vertigo Films על סרט באורך מלא בשם Critterz, שיישען כמעט בלעדית על בינה מלאכותית. צוות של כ-30 איש בלבד צפוי להשלים את הסרט בתוך תשעה חודשים, ובתקציב מצחיק של כ-30 מיליון דולר. הוליווד בהלם. 
הנה, סרט עלילתי ראשון באורך מלא כבר בדרך. עד כמה אנחנו קרובים ליצירת סרטים בהיקפים גדולים שלהפקה שלהם לא נדרש צילום אמיתי אחד?
"אני מרגיש שבתחום הזה אנחנו נמצאים בחללית: כלומר, אנחנו טסים מאוד-מאוד מהר, אבל בגלל שהחלונות סגורים, לא ברור לנו אם עברנו כבר את מאדים או שרק יצאנו מכדור הארץ. כששואלים אותי כמה זמן ייקח להגיע לשם, אני יודע להגיד רק 'מאוד מהר' אבל לא כמה מהר". 
אם מנכ"ל גוגל, סונדאר פיצ'אי, יטיל עליך כיום משימה ליצור בתוך שנה סרט מלא מבוסס AI — אילו בעיות נותרו לכם לפתור בדרך לשם?
"זה יחייב אותנו לחשוב כמו קולנוענים. האתגר הראשון, שבו לדעתי רק בני אדם ימשיכו לעסוק, הוא התסריט, שתמיד יהיה מפתח לסרט רלוונטי, מרגש ומעניין. רק אחריו מגיע האתגר הטכני, של אורך ה'שוט' — קטע רציף שצולם ללא הפסקה, שהוא אבן הבניין הבסיסית של כל סרט. אנחנו מגיעים היום ב-AI ל'שוט' של 8 שניות, כך שלכאורה אין בעיה - ה'שוט' הממוצע בקולנוע הוא בן פחות מ-8 שניות. אבל הבעיה העיקרית היא לחבר את ה'שוטים' ביחד וליצור עקביות ורציפות בדמויות, בקולות שלהן, באובייקטים שמסביבן, בפסקול של הסרט. כל זה עדיין מאתגר.
"תלוי גם מהן הדמויות שמככבות בסרט. יש דמויות בדיוניות עם פחות פרטים, שבהן אולי פחות תבחין בשינויים בין ה'שוטים', בדמויות אנושיות למשל זה יבלוט יותר. חשוב גם הקהל שאתה פונה אליו: קהל מבוגר רגיש יותר לשינויים כאלה".
יש כמה חברות שכבר עוסקות בפיתוח כלים ליצירת סרטים ב-AI, בהן לייטריקס הישראלית. יכול להיות שהעובדה שגוגל עמוק בתמונה פשוט תחסל אותן?
"אני לא חושב במונחים כאלה: השוק ענק ויש המון נישות שאפשר להיכנס בהן. אנחנו נמצאים היום ממש בהתחלה; לגמרי לא ברור עדיין מי יצליח ומי לא, ואיך הכל ייראה בעוד שנה או שנתיים: מה שאנחנו עושים כאן היום בשנה אחת לא עשינו במשך עשר שנים ביוטיוב". 
תסכים איתי שההתפתחויות בתחום הטיפול בתמונות ובווידיאו הן גן עדן למפיצי הדיפ-פייק והפייק-ניוז, שמקבלים פתאום כלים חלומיים להפוך שקר לאמת.
"העיקרון שלנו הוא תמיד לנהוג בתעוזה אבל באחריות. מצד אחד, אנחנו מנסים לקלוע לצורכי המשתמש, ואני חושב שאנחנו עומדים בזה הרבה יותר מבעבר. אבל כאן נכנסת האחריות. על גוגל מוטלת אחריות מאוד גדולה כשהיא משיקה כלי כזה, ואנחנו עושים הרבה כדי להגדיר ולנסח לו גבולות. יש אופרציה גדולה שעוסקת בנושא — צוותי מדיניות, צוותי ואלידציה, וגם 'צוות אדום' מיוחד, ואנחנו מקיימים על כך הרבה שיחות. אחד האנשים שעובדים לצידי הוא בכיר לשעבר ב-CIA. גם אחרי ההשקה אנחנו כל הזמן במעקב; רואים מה יוצר הסלמה, מה אומרת העיתונות, מה אומרים ברשתות החברתיות, וכשצריך מבצעים שינויים גם בזמן אמיתי".
איך אדע שהתמונה שאני רואה היא תוצר של AI ולא תמונה מציאותית?
"ראשית, בכל התמונות והסרטונים שנוצרו במערכת שלנו מוטבע 'סימן מים' גלוי, שמצביע על כך שהן נוצרו על ידי בינה מלאכותית, וגם 'סימן מים' דיגיטלי מוצפן, בלתי נראה, המכונה SynthID. כשיש תמונה שמגיעה לרף חשיבות כזה שדורש בדיקה - אנחנו בגוגל נדע לבדוק ולומר אם זה נוצר עם AI.

3 צפייה בגלריה 
כך הופך הפרפר לשמלה בהוראת טקסט פשוטה

"בנוסף, יש לנו 'צוות אדום' נרחב, שבעזרתו אנחנו בודקים באופן יזום את המערכות שלנו כדי לאתר ולתקן בעיות פוטנציאליות לפני שהן מתעוררות. אנחנו גם מקיימים כל הזמן הערכות כדי להבין כיצד למנוע שימוש לרעה בכלים שלנו, ואוכפים את המדיניות נגד תוכן לא בטוח. גוגל הקימה 'מעקות בטיחות' גבוהים למדי סביב Veo 3. כך, למשל, לא ניתן לייצר באמצעותו דמויות פוליטיות, סלבס וגם לא פורנו. 
"בנוסף, אנחנו מפתחים עכשיו כלי שיאפשר לכל אחד לבדוק במהירות אם לפניו תמונה שנוצרה על ידי AI. כרגע זה בבדיקה. יש כאן גם שאלות פילוסופיות לא פשוטות: נניח שהוספת לתמונה פילטר, הסרת עץ שהסתיר את הנוף או הוספת עציץ - האם היא עדיין נחשבת 'אמיתית?'"
אירנה הלוחשת למודלים
את התפקיד הראשון שלו בגוגל, כמנהל מוצר ב'יוטיוב' (שהיא חלק מגוגל), קיבל שרון בזכות ידידה ישראלית. "היא למדה איתי בסטנפורד, עבדה בגוגל והמליצה עליי. באותה תקופה, אם לא היה לך תואר במדעי המחשב לא היית מוזמן אפילו לראיון עבודה. איכשהו קיבלו אותי בזכות הקורסים מסטנפורד וכיוון שהתמחיתי בתחום פורץ דרך".
שמונה שנים כיהן דיויד שרון כמנהל מוצר ביוטיוב — פלטפורמת הווידיאו הגדולה בעולם. "ואז, לפני שלוש שנים, הבנתי שלבינה המלאכותית יש אותו פוטנציאל שהיה בזמנו למובייל, שאנחנו בתחילתו של גל ענק. זה נראה לאנשים סביבי קצת מטורף, לנטוש את המקום הבטוח שהגעתי אליו ביוטיוב, אבל אמרתי לעצמי: אני צריך לקחת שוב סיכון. זה הדבר הבא. בהתחלה אף אחד בגוגל לא רצה לממן את זה. כמה חודשים אחר כך יצאה OpenAI עם צ'אט GPT".
"ננו בננה" היא הוכחה נוספת לכך, שה-AI הופך לכלי עריכת תמונות רב-תכליתי וידידותי, שמאיים לשנות את המדיה הדיגיטלית מהיסוד. מעבר לעקביות שנשמרת בהצגת דיוקנאות וטקסטים על גבי שלטים/אריזות גם במהלך שינוי סצנות, היא מאפשרת גם סילוק אלמנטים מתמונות ("הסר את הכוס שמאחורי הדמות"), עריכה עדינה ("הזז את הכיסא מעט שמאלה"), מיזוג תמונות (תמונה שלכם ותמונה של מעיל אופנתי, שהופכת לאחת), וגם החלפת רקע בהוראה קצרה. מעצבי פנים יכולים לבחון בעזרתה תוספת אלמנטים לחדר.
"ננו בננה" יצאה כמעט במקביל להופעת מחולל הווידיאו Veo 3, שנוצר בצוותו של שרון בגוגל. זה מאפשר ליצור סרטוני וידיאו באורך 8 שניות באיכות קולנועית, כולל אודיו, באמצעות הנחיית טקסט פשוטה. הסרטונים יכולים לכלול דיאלוגים, רעשי סביבה, אפקטים ומוזיקת רקע.
Veo 3 מתחרה ישירות ב-Sora 2 של OpenAI, ששמטה לסתות עם השקתה וגרסתה החדשה הוכרזה ממש בתחילת השבוע. שתיהן מקרבות אותנו עוד יותר ליצירת סצנות בינה מלאכותית בווידיאו הנאמנות לחוקי הפיזיקה, וקשה כבר להבחין בינן לבין המציאות. שתיהן מאפשרות גם להפוך תמונות לסרטונים דינמיים, להנפיש ולהכניס חיים בחפצים ובציורים, ולשלב סאונד ודיבוב של דמויות. יש כבר יוצרים, שמשלבים את שני המודלים: משתמשים ב"ננו בננה" כדי ליצור תמונת בסיס מדויקת, ולאחר מכן, מזינים אותה לתוך Veo 3 כדי "להחיות" אותה ולהפוך אותה לסרטון וידיאו נע ומדבר. בניגוד ל-Veo 3 הבשלה, גרסת Sora 2 פועלת בינתיים רק באייפון, טרם שוחררה לכלל הציבור, והיא תשולב באפליקציה חברתית חדשה שתזכיר את טיקטוק. 
מי תורם יותר לעבודה שלכם? מהנדסי המחשבים או אנשים שבאים מעולם היצירה והאמנות? 
"כולם תורמים. ותתפלא, הרבה מהקסם היצירתי בא דווקא מהחוקרים ואפילו מאנשי השיווק. למשל, את הפיצ'ר ב'ננו בננה' שמאפשר לך להעלות תמונת סלפי ולקבל מיד הרבה תמונות שלך מעוצבות בסגנונות שונים — פיתח בכלל איש שיווק שלנו, ששיחק בפיצ'ר 'קנבס' באפליקציית ג'מיני: הוא עשה 'וייב קודינג', כלומר כתב כמה משפטים בשפה פשוטה, שיצרו למעשה תוכנה לכל דבר. המהנדסים באו אחר כך ורק שיפרו את זה קצת.
"לפעמים גם עולים על משהו במקרה לגמרי: אחד המעצבים שלנו, למשל, שיחק עם תמונה שבה נראו שתי דמויות, וקישקש X על אחת מהן. הוא העלה את התוצאה לאפליקציית ג'מיני והמודל חתך מהתמונה את הדמות שסומנה ב-X. ככה, בלי שהתבקש או קיבל הוראה כלשהי. בפעם אחרת — שירטטנו חץ על חלון פתוח בתמונה, והמודל הבין מעצמו שצריך לסגור אותו. זה פשוט קרה, והתגובה של כולנו הייתה 'או-מיי-גאד'. לא בנינו את זה ולא ציפינו לזה.
"זה חיזק אצלי את ההבנה שבעולם ה-AI אתה מגלה במוצר יכולות, חוזקות וחולשות בלי קשר למה שחשבת או פיתחת במקור. צריך לזה ראש מאוד גמיש. יש לנו עובדת בשם אירנה בלוך — יהודייה ילידת אוקראינה — שאני קורא לה 'הלוחשת למודלים': מכל מודל חדש שמגיע לשולחן שלה היא מצליחה להוציא דברים מדהימים, שנותנים לנו השראה. היא האישה הכי יצירתית שאני מכיר". 
לסניף בישראל יש משקל משמעותי בפרויקטים הללו?
"בוודאי. יש לנו קבוצה גדולה של מהנדסים בארץ, חוקרים נהדרים, שעובדים על מולטימדיה בג'מיני. אני עובד בעיקר עם צוות בראשותה של יעל קרוב, דירקטורית הנדסה בגוגל AI, שעוסקת בתחום הבינה המלאכותית כבר יותר מ-25 שנה. הם מאוד יצירתיים בדרך שבה הם פותרים בעיות. אני לא מדבר רק על כישרון הנדסי, אלא על 'ראש גדול' — כל אחד חושב כמו מנכ"ל: איך המוצר צריך להיראות, איך להביא אותו לשוק".
וברוח אחרת לגמרי — תגיד, צוקרברג עוד לא הציע לך איזו בוכטה הגונה כדי שתעבור למטא?
"תשמע, אתה יכול להעביר לו את מספר הטלפון שלי. נראה מה יש לו להציע".