וידאו ורובוטים: העתיד של הבינה המלאכותית

אפילו מומחים בעלי שם לבינה מלאכותית שפשפו את עיניהם בתדהמה כשראו חלק מהפיתוחים בתחום שיצאו לאוויר העולם בשנה האחרונה. יישומים כמו DALL-E2 של OpenAI ואימג'ן של גוגל, שמסוגלים לייצר תמונות ריאליסטיות לחלוטין על בסיס פקודה טקסטואלית כמו "זוג רובוטים בארוחת פאר כשמגדל האייפל ברקע", הם לא פחות מפריצות דרך שמעידות על ההתקדמות האדירה שנעשתה בתחום בשנים האחרונות.
6 צפייה בגלריה 
רובוט הומנואידי מוזג קפה
(צילום: shutterstock)

שתי הדוגמאות האלה הן רק קצה הקרחון של תחום שפשוט מבעבע מרוב התרחשויות בשנה האחרונה: LaMDA, מודל השפה הענק של גוגל, הגיע לתוצאות כל כך משכנעות, עד כדי כך שאחד המהנדסים של החברה טוען בתוקף שמדובר למעשה בבן אדם; מטא עובדת במרץ כדי לאפשר למשתמשים לברוא עולמות וירטואליים תלת-ממדיים בפקודה קולית; חברת DeepMind מבית גוגל הצליחה למפות את המבנה של כמעט כל החלבונים שידועים למדע; חברות כמו Mentee Robotics ו-Unlimited Robotics הישראליות מפתחות רובוטים הומנואידים (דמויי אדם) שיעזרו לנו במטלות הבית; ועוד לא דיברנו על המכוניות האוטונומיות שכבר מחכות על קו הזינוק.
מה הוביל להתקדמות המטאורית הזאת ולאן הבינה המלאכותית תיקח את האנושות בשנים הקרובות?
"המפתח לפריצות הדרך שראינו בשנתיים האחרונות בתחום מודלי השפה וראיית המחשב היה היכולת לאמן את המודלים האלה על כל המידע שקיים באינטרנט, או רובו", מסבירה בשיחה עם ynet ד"ר טלי דקל, מומחית לראיית מחשב ממכון ויצמן וחוקרת בגוגל. "כוח החישוב, שעד עכשיו היווה מחסום, השתפר מאוד בשנים האחרונות וזה מה שאיפשר לאמן מודלים על הרבה מאוד דאטה".
ד"ר טלי דקל
התפתחות נוספת, לדבריה, הייתה הגדלה של מספר הפרמטרים - הרכיבים במודלי הבינה המלאכותית שאחראים על עיבוד המידע. "אם פעם מודל היה מורכב ממיליון פרמטרים, היום במודלים הגדולים מדובר בכמה מיליארדים", היא מסבירה, "הגדלת הקיבולת של המודלים, לצד הגדלת הדאטה, הם שהובילו לפריצות הדרך האלה".
>>הצטרפו לקהילת הטכנולוגיה שלנו בפייסבוק<<
6 צפייה בגלריה 
"זוג רובוטים בארוחת פאר כשמגדל אייפל ברקע". תמונה שנוצרה על ידי Imagen
(צילום: גוגל)
6 צפייה בגלריה 
תמונה שנוצרה על ידי DALL-E2
(צילום: OpenAI)
אם נכנסתם לאינטרנט בחודשים האחרונים, סביר להניח שנתקלתם בתוצרים של DALL-E2, מודל הבינה המלאכותית של חברת OpenAI. לפני שגוגל ומטא הציגו מודלים דומים, הייתה זו OpenAI שהדגימה לעולם כיצד בינה מלאכותית יכולה ליצור תמונות בסגנונות שונים על בסיס פקודה טקסטואלית בלבד. מדובר בקפיצת מדרגה משמעותית בהשוואה לגרסה הראשונה של הכלי שהושקה בסך הכל ב-2021 והפיקה תוצאות נחותות בהרבה.
OpenAI שחררה את DALL-E2 בהדרגה, בין היתר בגלל חשש לשימוש לרעה, אך כעת הוא זמין לציבור הרחב. אפשר כבר לדמיין כיצד כלים מסוגו יוכלו בקרוב לחולל מהפכה בתחום העיצוב הגרפי. בעצם, התהליך הזה כבר התחיל: ביוני האחרון השתמשו עורכי המגזין קוסמופוליטן ב-DALL-E2 בשביל ליצור שער לגיליון. הם הזינו את הכיתוב "שוט בזווית רחבה מלמטה של אסטרונאוטית עם גוף נשי אתלטי הולכת בביטחון לעבר המצלמה במאדים ביקום אינסופי, סינת'ווייב אמנות דיגיטלית", וקיבלו את התוצאה כעבור 20 שניות בלבד.
6 צפייה בגלריה 
שער המגזין קוסמופוליטן שנוצר על ידי DALL-E2
(צילום: קוסמופוליטן)
חברת OpenAI, שעל מייסדיה נמנה אילון מאסק (שבינתיים פרש ממנה), הפכה בשנים האחרונות לאחד הכוחות המשמעותיים והמסקרנים בתחום הבינה המלאכותית. היא עלתה לכותרות בסוף העשור בזכות מודלי השפה הענקיים שפיתחה. האחרון שבהם, GPT-3, הוא מודל שפה גנרטיבי עוצמתי שיכול לכתוב בעצמו מאמרים ואפילו ספרים. בעקבותיו הושקו מודלים ענקיים של חברות אחרות, למשל Jurassic-x של AI21 הישראלית ו-PALM של גוגל. המודלים האלה יכולים לכתוב תכנים בעצמם, להשיב לשאלות, לתת למשתמשים המלצות לשיפור הכתיבה שלהם ואפילו להסביר בדיחות.
פרופ' שי שלו שוורץצילום: מובילאיי
"גם חיות יודעות לראות תמונות ולזהות מה מופיע בהן, אבל כשאתה מגיע למודלים של AI שמבינים טוב שפה אתה בעצם קופץ מדרגה ביכולות האינטליגנציה המלאכותית", אומר שי שלו שוורץ, פרופסור בפקולטה להנדסה ומדעי המחשב באוניברסיטה העברית וסמנכ"ל הטכנולוגיות של מובילאיי. "אנחנו יכולים לשוחח עם המודל, לחפור עמוק יותר ולנסות להבין מה הוא יודע ומה הוא לא יודע. זה פותח פתח למשהו מאוד מעניין".
השאלה המתבקשת, אם כך, היא מה השלב הבא? אחרי השפה והתמונות, היכן תתחולל מהפכת ה-AI הבאה? אם אתם שואלים את דקל, התשובה היא - בתחום הווידאו. במסגרת עבודתה במכון ויצמן ובגוגל בוחנת דקל כיצד ניתן לבצע מניפולציות בסרטונים באמצעות בינה מלאכותית והתוצאות, בינתיים, מדהימות למדי: במסגרת המחקר שלה היא לקחה סרטון שבו נראים שלושת ילדיה קופצים לבריכה, כל אחד בהפרש של כמה שניות זה מזה. באמצעות AI היא הצליחה לשנות את הסרטון כך שיראה את שלושת הילדים קופצים למים במקביל, "עם כל ההשפרצות של המים, ההשתקפויות בבריכה והצל שלהם".
עבודה של ד"ר טלי דקל במסגרת מכון ויצמן
 
במסגרת עבודה אחרת במכון ויצמן, הצליחו דקל ועמיתיה לשנות מאפיינים מרכזיים בסרטונים קצרים באמצעות פקודות טקסט. כך למשל, הם הפכו כלב עם פרווה שחורה-חומה לדלמטי והוסיפו לו חברבורות של נמר. בסרטון אחר, פקודת טקסט הפכה את הכתמים על עורה של ג'ירפה לזכוכית צבעונית, למחמם צוואר ולרעמת שיער בצבעים שונים. דומה מאוד ל-DALL-E2, רק בווידאו. אפשר לדמיין את ההתלהבות שבה יקבלו בתעשיית הבידור כלים מהסוג הזה, שיאפשרו לחסוך כסף וזמן על ימי צילום ועריכה ולשנות מאפיינים של סרטים, סדרות ופרסומות בכמה לחיצות כפתור.
מחקר של ד"ר טלי דקל, מכון ויצמן
 
דקל מנסה לצנן את ההתלהבות ומסבירה שיש עוד הרבה בעיות בלתי פתורות בכל הקשור לעיבוד וידאו. "כמות הדאטה הרבה יותר גדולה וגם המרחב והזמן לא מתנהגים בסרטונים כמו בתמונות", היא אומרת, "בשביל שנראה פריצת דרך מאוד משמעותית בתחום תצטרך להיות כאן עבודה הרבה יותר עמוקה על איך לעבד מידע בזמן, לייצג תנועה ולהוריד את המידע העודף שיש בווידאו. אבל אני בטוחה שזה יקרה".
הדרך הארוכה לבינה מלאכותית כללית
רוב מודלי הבינה המלאכותית יודעים היום לבצע היטב משימה אחת ספציפית: GPT-3 אולי יידע לכתוב עבורכם סיפור מצוין בסגנון של ארנסט המינגווי, אבל הוא לא יידע לזהות תמונה של חתול אם תראו לו כזאת. לכן, אחת המגמות בתחום היום היא פיתוח של מודלים מאוחדים שמשלבים יכולות בכמה תחומים, למשל וידאו, תמונות, שפה וקול. מודלים כאלה יאפשרו בין היתר לבנות צ'אטבוטים מתקדמים שיכולים להתכתב עם המשתמשים, לדבר איתם בעל פה וגם "לראות" אותם ולהגיב לתנועות הפנים שלהם.
המודלים המאוחדים יהיו אבן פינה בדרך ל-AGI, בינה מלאכותית כללית (שמכונה לפעמים גם "בינה מלאכותית חזקה") שנחשבת לגביע הקדוש של התעשייה ומשמעותה בינה מלאכותית ברמה אנושית. מומחים מעריכים שאנחנו במרחק של שנים ארוכות מ-AGI, אבל כשהיא תגיע היא תוכל לקחת על עצמה חלק מהמשימות שבני האדם מבצעים היום, לטוב ולרע.
6 צפייה בגלריה 
מכונית של מובילאיי. בינה מלאכותית בחיים האמיתיים
(צילום: מובילאיי)
"לפני 15-10 שנה חוקרי ראיית מחשב וחוקרי עיבוד שפה טבעית (NLP) לא ידעו לדבר אחד עם השני, כי הם השתמשו בשיטות אחרות לגמרי", אומר שלו שוורץ, "בשנים האחרונות הייתה קונסולידציה של הרבה מהתחומים בבינה מלאכותית -  כולם היום משתמשים באותם הכלים והכלי המרכזי הוא כמובן למידה עמוקה (Deep Learning). זה סולל את הדרך ל-AGI, כי פתאום אותו מודל יכול ללמוד גם שפה וגם ראיית מחשב. אנחנו מתחילים לראות דברים כאלה. DALL-E2, למשל, הוא דוגמה למודל שמשלב טקסט ותמונה".
פרופ' שי שלו שוורץ: "כיום רוב מערכות ה-AI יודעות לבצע ממש טוב משהו מאוד-מאוד ממוקד. רובוט שהמשימה שלו היא להפוך המבורגרים במסעדה יודע לעשות את זה ממש טוב, אבל אם תיתן לאותו רובוט לעשות פעולה קצת אחרת זה יהיה טוטאל-לוס"
טרנד נוסף ששלו שוורץ מצביע עליו הוא מעבר ממודלים של בינה מלאכותית שיודעים לבצע משימות שרוב בני האדם מסוגלים לבצע, למודלים שיודעים לבצע משימות שמעט מומחים אנושיים יודעים לעשות. "מתחילים להיות דברים שאפילו מעבר לכך - משימות שאף בן אדם לא מסוגל לבצע ומערכת בינה מלאכותית כבר מסוגלת", הוא מספר, "רואים דברים כאלה בתחום האלגו-טריידינג (מסחר מבוסס אלגוריתם בשוק ההון - י.מ) למשל. מערכות הבינה המלאכותית מצליחות לזהות דפוסים נסתרים בתוך הדאטה שאפילו בן אדם לא מצליח לעלות עליהם. זה מוביל במובן מסוים לעליונות של הבינה המלאכותית על בני אדם. זה כבר לא רק AGI, אלא בינה מלאכותית על-אנושית".
ד"ר רועי צזנה, חוקר במרכז בלווטניק באוניברסיטת תל אביב ועתידן בחברת הבינה המלאכותית SparkBeyond, חוזה שהזינוק ביכולות ה-AI ישפר באופן משמעותי את השירותים שאנחנו צורכים: "בינה מלאכותית תהיה בכל מקום ותאפשר לכל שירות לעבוד ברמה גבוהה. אתה לא תרצה לקבל שירותים משום סוג אחר כי הבינה המלאכותית תוכל להתאים הכל ספציפית עבורך. זה אומר שלכל אחד מאיתנו יהיו בינות מלאכותיות שישימו לב אליו ויתייחסו לצרכים שלו ולרצונות שלו, לפעמים לפני שהוא עצמו יודע שהוא בכלל רוצה או צריך משהו". 
צילום: דן עופר
"אתה לא תצטרך להגדיר לשעון המעורר את השעה שבה אתה רוצה לקום", מנבא צזנה, "גוגל יידע מתי להעיר אותך כי הוא יתממשק עם לוח הזמנים, האימייל ודפוס העבודה שלך והוא יידע מתי אתה צריך להגיע למשרד". בעתיד הרחוק יותר, הוא מעריך, בינה מלאכותית תשמש כמעין רופא פרטי של המשתמשים: "היא תעקוב אחרי המדדים בגוף שלנו ואם היא תזהה שינוי, עוד לפני שתשים לב לזה בעצמך היא תמליץ לך לא לנסוע למשרד כדי לא להדביק עובדים אחרים".
הבינה המלאכותית יוצאת אל הרחוב
רוב מערכות הבינה המלאכותית, אומר שלו שוורץ, פועלות בעולם הווירטואלי: מנוע החיפוש של גוגל מבוסס על מודל שפה שפותח על ידי החברה, מנגנון ההמלצות מבוסס ה-AI של טיקטוק נחשב ל"רוטב הסודי" של הרשת החברתית וגם אפליקציית הניווט ווייז, הסייעת הקולית סירי ועוד שירותים רבים באינטרנט מבוססים על בינה מלאכותית.
ד"ר טלי דקל: "אנחנו חייבים לשאוף להבנה מעמיקה של כיצד ואיך המודלים נכשלים, את ההטיות שהם מכילים ולמה בכלל הם מסוגלים. היכולת לייצר שקיפות היא קריטית על מנת לשלב את כוחם העצום בטכנולוגיות ומוצרים אמיתיים"
"אחת המגמות בתחום היום היא המעבר של הבינה מלאכותית מהעולם הווירטואלי אל העולם האמיתי", אומר שלו שוורץ, "רכב אוטונומי זאת כמובן דוגמה מצוינת, אבל מדובר עדיין בטיפה בים. אני חושב שבחמש-עשר השנים הבאות נראה הרבה יותר פעפוע של בינה מלאכותית מהעולם הווירטואלי לעולם האמיתי. אחת הדוגמאות הכי בולטות למגמה הזאת היא רובוטיקה".
רובוטים הם לא דבר חדש: כבר שנים שהם מרכיבים מוצרים במפעלים, שואבים את האבק בבתים שלנו ואפילו מכינים פיצה וקפה. אבל רובוט הומנואידי, שיודע לבצע בהצלחה מגוון רחב של משימות, עדיין לא ראינו. "היום רוב מערכות ה-AI יודעות לבצע ממש טוב משהו מאוד-מאוד ממוקד", מסביר שלו שוורץ, "רובוט שהמשימה שלו היא להפוך המבורגרים במסעדה יודע לעשות את זה ממש טוב, אבל אם תיתן לאותו רובוט לעשות פעולה קצת אחרת זה יהיה טוטאל-לוס".
6 צפייה בגלריה 
הרובוט ההומנואידי Ameca
(צילום: AFP)
בדיוק על הבעיה הזאת מנסה שלו-שוורץ להתגבר במסגרת חברת Mentee Robotics, שייסד ביחד עם ד"ר ליאור וולף ופרופ' אמנון שעשוע במטרה לפתח רובוט הומנואידי מתקדם. הוא מצביע על כמה טכנולוגיות שהוא מאמין שיובילו לפריצת דרך בתחום בשנים הקרובות: טכניקת בינה מלאכותית בשם Reinforcement Learning (למידה באמצעות חיזוקים), שדורשת מעט דאטה; תוכנות מתקדמות, למשל מנועי משחק, שמאפשרות לבחון את הרובוטים בסימולציה של העולם האמיתי; וטכניקת sim2real שמאפשרת לבחון בעולם האמיתי רובוט שנבדק בסימולציה. "המהפכה הזאת תאפשר לדברים לעבור מהעולם הווירטואלי לעולם האמיתי בקצב הרבה יותר מהיר", אומר שלו שוורץ, "נוכל להאיץ תהליכי פיתוח ולקצר אותם מעשרים שנה לשנה-שנתיים".
לקחת את ה-AI לבית הספר
בין אם מאחורי המסך ובין אם בעולם האמיתי, בשנים הקרובות הבינה המלאכותית הולכת לשחק תפקיד יותר ויותר משמעותי בחיים שלנו. אחת השאלות הגדולות שמעסיקות כיום את החוקרים בתחום היא אם כדי להגיע לפריצות הדרך הבאות, מספיק להגדיל את המודלים עוד ועוד או שיש צורך בשינוי פרדיגמה. דקל אומרת שלצד המשך הגדילה, "אנחנו חייבים לשאוף להבנה מעמיקה של כיצד ואיך המודלים נכשלים, את ההטיות שהם מכילים ולמה בכלל הם מסוגלים. היכולת לייצר שקיפות היא קריטית על מנת לשלב את כוחם העצום בטכנולוגיות ומוצרים אמיתיים".
שלו שוורץ מסכים: "המודלים יהיו יותר גדולים ולכן יהיו יותר ויותר חכמים, אבל אני חושב שיש משהו מעבר לזה". הוא מזכיר שני מושגי יסוד מתחום הבינה המלאכותית - למידה מפוקחת, שבה למשל מציגים למודל תמונה ומסבירים לו שמדובר בחתול, ולמידה בלתי מפוקחת, שבה מציגים למודל תמונות בלי להסביר לו מה מופיע בהן. "כשילד נולד, רוב הלמידה שלו היא בלתי מפוקחת. כשהוא מגיע לבית ספר, מלמדים אותו מעט מאוד דוגמאות ובעיקר מלמדים אותו אבסטרקציות (הפשטות) ולוגיקה. מה שאנחנו צריכים לעשות עכשיו זה לקחת את המודלים לבית הספר. בחברת AI21 (שבה מכהן שלו שוורץ כיועץ וחבר דירקטוריון - י.מ) התחלנו לפתח כיוונים כאלה. הרעיון הוא לקחת מודל שפה גדול ולהכניס לתוכו הפשטות. זאת טכניקה שלדעתי נראה יותר ויותר בחמש השנים הקרובות - ככה ניתן ללמד מערכות AI כמו שאנחנו מלמדים בני אדם".