OpenAI חשפה הערב (יום ה') את Sora - מודל בינה מלאכותית שיכול ליצור סרטונים באורך של עד כדקה על בסיס פקודות טקסטואליות (פרומפטים). החברה לא משחררת את המודל לשימוש נרחב עדיין, ולפי ההודעה שפרסמה הוא זמין מהיום ל"צוותים אדומים" שיחפשו בו חולשות ונקודות תורפה, וכן למספר מצומצם של אמנים, מעצבים וקולנוענים במטרה לקבל מהם פידבק.
1 צפייה בגלריה
Sora
Sora
Sora
(צילום: OpenAI)
"Sora מסוגל ליצור סצנות מורכבות עם דמויות רבות, סוגים ספציפיים של תנועה ופרטים מדויקים של הסובייקט והרקע. המודל מבין לא רק מה המשתמשים ביקשו בפרומפט, אלא איך הדברים האלה קיימים בעולם האמיתי", אומרים ב-OpenAI.
לצד זאת, בחברה מודים כי למודל יש גם חולשות: "הוא עשוי להתקשות בסימולציה מדויקת של התנאים הפיזיים בסצנה מורכבת, וייתכן שלא יבין מקרים מסוימים של סיבה ותוצאה. למשל, אדם יכול לקחת ביס מעוגייה, אבל לאחר מכן על העוגייה לא יופיע סימן של נגיסה". בנוסף, המודל יכול להתבלבל בפרטים שקשורים למרחב, למשל בין ימין לשמאל, או להתקשות במעקב אחרי הוראות מדויקות בנוגע לתנועה.
ריפרש
המלחמה על ההייטק / עם ליעד אגמון
47:31
ב-OpenAI אומרים כי Sora מייצר סרטונים בבת אחת (בניגוד למודלים אחרים, שיוצרים כמה פריימים מרכזיים ולאחר מכן ממלאים את הרווחים שביניהם). הוא מסוגל ליצור סרטונים גם על בסיס תמונות סטילס, או להאריך סרטונים קיימים ולהוסיף להם פרטים. בדומה למודלי השפה מסדרת GPT, גם הוא מבוסס על ארכיטקטורת טרנספורמר שפותחה על ידי מהנדסים מגוגל בעשור שעבר.
"Sora משמש כתשתית למודלים שיכולים להבין ולסמלץ את העולם האמיתי, יכולת שאנחנו מאמינים שתהיה אבן דרך חשובה לקראת השגת AGI (בינה מלאכותית כללית)", אומרים ב-OpenAI. המטרה המוצהרת של החברה היא להשיג בינה מלאכותית כללית - AI עם יכולות שמשתוות או עולות על אלה של בני האדם - באופן שייטיב עם האנושות.
OpenAI פרסמה שורה ארוכה של סרטונים שנוצרו על ידי המודל, ולמרות שהתוצרים האלה נבחרו בוודאי בקפידה, צריך להגיד שהם מרשימים מאוד. אם לשפוט לפי הדוגמאות שפורסמו, בניגוד למודלים אחרים, Soma מצליח ליצור פנים אנושיות שנראות טבעיות לחלוטין, בלי לגלוש למחוזות ה-Uncanny Valley ("עמק המוזרות") - מונח שמתאר את הרתיעה של בני אדם כשהם צופים בהעתק דיגיטלי או מלאכותי שאינו מושלם של בני אנוש.
OpenAI אינה השחקנית היחידה בתחום יצירת הווידאו באמצעות בינה מלאכותית, שמסתמן כאחת החזיתות הלוהטות בעולם ה-AI. מודלים של החברות Runway, פיקה ו-Stability AI כבר זמינים ברשת, ולאחרונה הציגה גוגל מודל משלה בשם לומייר - שפותח ברובו בישראל - אך טרם שחררה אותו לציבור. גם מטא הציגה בעבר מודל ליצירת סרטונים על בסיס פקודות טקסטואליות, וסביר להניח שחברות נוספות עובדות על כלים דומים מאחורי דלתיים סגורות.