חברת מידג'רני (Midjourney) פתרה החודש בעיה שהטרידה משתמשים רבים שהתנסו במחוללי התמונות שכבשו את הרשת בשנה האחרונה: אצבעות. הגרסה החמישית של מודל הבינה המלאכותית שנושא את שם החברה מצליחה לייצר אצבעות אנושיות מושלמות, חמש בכל יד. זה אולי נשמע כמו עניין פעוט או שולי, אבל מדובר באחד הדברים שמפרידים בין תמונה נחמדה לשיתוף באינסטגרם לבין תוצר מקצועי לחלוטין שניתן לפרסם כיצירת אמנות, כחלק מקליפ לשיר או בקמפיין שיווקי.
עוד כתבות שיעניינו אתכם:
התמונות שמסתובבות בטוויטר, בקבוצת הפייסבוק "Midjourney AI Israel - מידג'רני ישראל" ובמקומות אחרים ברשת לא מותירות מקום לספק: גרסה 5 של מידג'רני היא קפיצת מדרגה. כל מי שמוכן לשלם דמי מינוי שמתחילים ב-10 דולר לחודש יכול ליצור כעת תמונות מפוברקות שנראות ריאליסטיות לחלוטין - פגישה בין נשיא רוסיה ולדימיר פוטין לנשיא אוקראינה וולודימיר זלנסקי, ישראל כפי שתיראה כביכול בשנת 2050, או דונלד טראמפ במעצר. הכל פרי דמיונם של היוצרים, כמובן.
"גרסה 5 באמת מדהימה ברמת הריאליזם שהיא מצליחה לייצר", אומר אורי בז'רנו, אחד היוצרים הבולטים בסצנת אמנות ה-AI הישראלית, "זה אפילו קצת מפחיד כי היא מצליחה לייצר בשניות דברים שנראים ממש ריאליסטיים".
הריאליזם הזה, כאמור, מתבטא בין היתר באצבעות - איברים שהגרסאות הקודמות של מידג'רני התקשו ליצור בצורה מדויקת. "יצירת ידיים תמיד הייתה מאתגרת מכיוון שמדובר באיברים מורכבים עם מגוון רחב של צורות, גדלים וטקסטורות", מסביר סהר מור, מנהל מוצר בחברת סטרייפ (Stripe) ומי שעומד מאחורי הניוזלטר AI Tidbits שעוסק בבינה מלאכותית. "הגרסה האחרונה של מידג'רני מגשרת בהצלחה על הפער הזה".
"המודלים האלה חיים בעולם של פיקסלים (פיקסל הוא היחידה הבסיסית ביותר בגרפיקה ממוחשבת - י"מ)", מוסיף אופיר ביבי, סגן נשיא למחקר בחברת לייטריקס שמפתחת אפליקציות לעיבוד תמונות וסרטונים. "לנו כבני אדם אצבעות ממש חשובות כי אנחנו משתמשים בהן בעולם הפיזי כל הזמן, אבל הן תופסות פחות פיקסלים והמודלים האלה ראו פחות פיקסלים שלהן מאשר של פרצופים למשל".
ההערכה היא שבשביל להתגבר על הבעיה הזאת, מידג'רני אימנה את המודל שלה באופן ספציפי על הרבה תמונות של כפות ידיים. "המודלים האלה לא יכולים להיות טובים בהכל כל הזמן, צריך לתת להם פוקוס במקומות מסוימים", אומר ביבי, "אז אפשר להסביר להם שחשוב לנו שהם יצליחו במשימה הספציפית הזאת, של מבנה שלד שלם שהוא נכון".
אבל לא כולם אוהבים את הריאליזם שגרסה 5 של מידג'רני הביאה איתה. בז'רנו אומנם שותף להתלהבות מהידיים בעלות עשר האצבעות שהמודל מצליח סוף סוף ליצור, אבל לדבריו הדימויים המציאותיים של מידג'רני 5 מגיעים על חשבון הגוון האמנותי יותר שבא לידי ביטוי בגרסאות הקודמות: "גם אני וגם אנשים אחרים מרגישים שגרסה 5 הופכת את התוצרים לריאליסטיים מדי. לכן חלק מהאמנים בוחרים בפרויקטים מסוימים להשתמש דווקא בגרסה 4".
הסתייגות נוספת נוגעת לחשש משימוש לרעה בטכנולוגיה. בעזרת מידג'רני 5, שהשימוש בה עולה כאמור כמה דולרים בודדים לחודש, שחקנים זדוניים יכולים ליצור בקלות רבה יותר מאי פעם תמונות מפוברקות שעלולות להשפיע על דעת הקהל, לאיים על יציבות של מדינות ולהטות בחירות דמוקרטיות. אם היום קשה אך אפשרי להבדיל בין תמונה אמיתית למזויפת, מה יהיה בעוד חצי שנה, שנתיים או חמש שנים?
חיות פרא
מחוללי תמונות, או מודלים של Text-To-Image כפי שהם נקראים בעגה המקצועית, מאפשרים למשתמשים להקליד תיאור של תמונה - אמנותית או פוטו-ריאליסטית - ולראות אותה על המסך תוך שניות. הכלים האלה פרצו לתודעה הציבורית לפני פחות משנה כאשר חברת OpenAI השיקה את מחולל התמונות שלה DALL-E2. קצת אחריו הגיעו לחיינו גם Stable Diffusion ו-Midjourney. הכלים האלה הם למעשה מודלים ענקיים של בינה מלאכותית שהתאמנו על דאטה-סט (מאגר מידע) עצום של תמונות וכיתובים, מה שמאפשר להם ליצור כמעט כל דימוי שתעלו על דעתכם.
כפי שמעידה הגרסה החמישית של Midjourney, המודלים האלה ממשיכים להשתפר ולהשתכלל מאז שהופיעו לראשונה בחיינו לפני זמן לא רב, אבל הם עדיין רחוקים מלהיות מושלמים. אחת הבעיות המרכזיות שלהם היא היעדר שליטה: אם תבקשו ממחולל תמונות ליצור עבורכם תמונה של פרה מעופפת בחלל, רוב הסיכויים שהקומפוזיציה תהיה מאוד שונה ממה שדמיינתם. ייתכן שרציתם פרה יותר גדולה, אולי רציתם אותה בצד שמאל ולא בצד ימין של התמונה, ויכול להיות שהסגנון האמנותי שהמחולל בחר בו אינו לטעמכם. תצטרכו להזין עוד ועוד פרומפטים (הפקודה שהמשתמשים נותנים למודל, שהיא למעשה תיאור טקסטואלי של התמונה) עד שתתקבל תוצאה שתשביע את רצונכם.
"מודלים גנרטיביים (מודלים של בינה מלאכותית שיוצרים תוכן בעצמם - י"מ) הם חיות פרא", מסביר ביבי, "אתה יכול לבקש מהם משהו, אבל מה שהם ייצרו לא יהיה בהכרח מה שרצית. אם אנשים מאוד התלהבו מ-ChatGPT כי אפשר לנהל איתו שיחה ארוכה ולבקש ממנו לתקן את התשובות שהוא נותן, במודליות הוויזואלית זה עובד אחרת - אי אפשר ממש לתקן את מה שקיבלת". בז'רנו מסכים: "במידג'רני אין לך הרבה שליטה. לפעמים אתה צריך ליצור תמונה שוב ושוב ושוב עד שאתה מגיע למה שאתה רוצה".
מוקדם יותר החודש הציגו חוקרים ממיקרוסופט פתרון אפשרי לבעיה: מדובר בכלי חדש בשם Visual ChatGPT, שמחבר את ChatGPT למודלים מסוג Text-to-Image, כך שהמשתמשים יכולים לשוחח עם הצ'אטבוט בשפה טבעית ולבקש ממנו לערוך שיפורים בתמונות. לדברי מור, מדובר בפריצת דרך ש"מורידה באופן דרמטי את הרף לאימוץ טכנולוגיות מתקדמות, בזמן שהצורך בפיתוח מומחיות בניסוח פרומפטים הופך לפחות ופחות נחוץ".
Visual ChatGPT מצטרף לקונטרול נט (ControlNet), פיתוח שהוצג בפברואר על ידי שני חוקרים מאוניברסיטת סטנפורד, לוומין ז'אנג ומאניש אגרוולה. כפי שמשתמע משמו, קונטרול נט אמור להעניק למשתמשים יותר שליטה על התוצר הסופי: הוא מאפשר להם לאייר את קווי המתאר של האובייקט שהם מעוניינים שהמודל ייצור עבורם, או להעלות תמונה שהמודל יתבסס עליה. החיסרון: נכון לעכשיו הוא נגיש רק למשתמשים ב-Stable Diffusion.
"יום אחרי שהעבודה הזאת יצאה מהאקדמיה כל הקהילה רעשה וגעשה ואחרי שבועיים כבר היו יישומים שלה", מספר ביבי. גם בלייטריקס אימצו במהירות את הכלי החדש וביססו עליו פיצ'ר בשם AI Scenes, שמאפשר למשתמשי אפליקציית PhotoLeap להעלות תמונות ולעבד אותן באמצעות בינה מלאכותית בלי לוותר על הקומפוזיציה המקורית. תוכלו למשל להעלות תמונה של הכלב שלכם וה-AI יהפוך אותו לסוס בסצנה בסגנון ימי הביניים. "זאת פריצת דרך מאוד חשובה עבור אנשים שלא רוצים רק ליצור תוכן, אלא לערוך תוכן קיים", מסביר ביבי.
אתגר נוסף בתחום מחוללי התמונות הוא התאמה אישית של התוצרים: נניח שאתם רוצים ליצור תמונות של עצמכם בסצנות שונות - למשל בשריון מימי הביניים או בחליפה של אסטרונאוטים - המודלים לא התאמנו על תמונות שלכם ולכן הם לא יוכלו לספק לכם את מבוקשכם. אותו דבר לגבי מותג שרוצה ליצור תמונות מבוססות AI שבמרכזן מוצר חדש שטרם נחשף לשוק.
גם לבעיה הזאת יש פתרון: חוקרים בגוגל פיתחו כלי בשם Dream Booth, שמאפשר ליצור מודל של אובייקט ספציפי - בן אדם או חפץ - באמצעות 20-30 תמונות שלו, ולשלב אותו במחולל תמונות קיים. הפיתוח הזה הוביל בסוף השנה שעברה להשקה של אסטריה (Astria), כלי ישראלי שמבוסס על Dream Booth ו-Stable Diffusion ומאפשר למשתמשים ליצור תמונות מותאמות אישית בתשלום. גם לייטריקס הציגה לאחרונה פיצ'ר עם יכולות דומות בשם AI Avatars.
מחוות השרתים לטלפון שלכם
ביבי מצביע על בעיה נוספת, שפחות נוגעת למשתמשים אבל מטרידה מאוד חברות ומפתחים: מחוללי תמונות הם מודלים גדולים מאוד שבשביל לאמן ולהריץ אותם נדרש כוח חישוב עצום ויקר. זה אומר שתהליך העיבוד לא מתרחש במחשב או בטלפון שלכם, אלא בחוות שרתים של ספקיות הענן הגדולות. "אנחנו רוצים להיות מסוגלים להריץ את המודלים האלה על מכונות יותר חלשות, ואולי בסופו של דבר אפילו בטלפונים ניידים", מסביר ביבי, "כחברה שתמיד ניסתה שהאלגוריתמים ירוצו במכשירי הקצה, זה משהו שמאוד מעניין אותנו בלייטריקס".
הבשורה המשמחת מבחינת המשתמשים היא שבתעשייה ובאקדמיה עובדים בימים אלה במרץ על פיתוחים חדשים שיהפכו את מחוללי התמונות למשוכללים, עוצמתיים ויעילים יותר. "פיתוחים גדולים שמובילים לקפיצת מדרגה בתחומי ההתאמה האישית, השליטה או האיכות הטכנית, קורים פעם או פעמיים בחודש", מספר ביבי, "זה קצב היסטרי".
מור מסכים: "המהירות שבה תחום הבינה המלאכותית היוצרת (גנרטיבית) רץ קדימה היא מדהימה, והקצב רק מתגבר". לדבריו, להחלטה של OpenAI לשלב יכולות עיבוד תמונה ב מודל השפה GPT-4 צפויה להיות השפעה דרמטית על התחום: "תהיה טרנספורמציה נוספת - חוקרים ומפתחים ירתמו את היכולות המתקדמות של GPT בתחום הבנת השפה לעיבוד והבנה של תוכן ויזואלי".
החזית הבאה: וידאו
במקביל לעבודה על שיפור המודלים הקיימים, ישנה התקדמות משמעותית בפיתוח מה שנראה כמו החזית הבאה של הבינה המלאכותית היוצרת - מודלים של בינה מלאכותית ליצירת סרטוני וידאו. מטא וגוגל הציגו מודלים כאלה כבר בשנה שעברה, אך לא שחררו אותם למשתמשים. החודש הציגה חברת Runway מודל שמסוגל לייצר סרטונים באורך של שלוש שניות ומודל נוסף בשם ModelScope שוחרר לרשת. גם סם אלטמן, מנכ"ל OpenAI, חשף לאחרונה כי החברה עובדת על מודל וידאו משלה.
"בהתחלה חברות הלכו יותר בכיוון של Text-to-Video (יצירת סרטונים באמצעות פקודות טקסטואליות - י"מ)", אומר ביבי, "זה עובד, אבל הרבה אנשים חושבים שזה נראה יותר כמו קובץ גיף מאשר וידאו. אני חושב שהתחום שכרגע תופס יותר תאוצה זה Video-to-Video, זאת אומרת מודלים שמאפשרים להעלות וידאו כחומר בסיס ולעשות לו עריכות מאוד מאוד עמוקות. למשל לקחת סרטון ולגרום לו להיראות כאילו הוא צולם בעולם אפוקליפטי. מדובר בעריכה של כל הפיקסלים בווידאו ואני חושב שאנחנו מתקרבים לשם".
לדברי מור, "על אף שלמודלים הנוכחיים יש מגבלות בכל מה שנוגע לאורך ולאיכות הסרטונים, לאור קפיצות המדרגה שראינו בתחום מחוללי התמונות בשנה אחרונה יש מעט מאוד ספק בכך שמודל קוד-פתוח איכותי של Text-To-Video יופיע תוך חצי שנה".
"אני חושב שהווידאו הולך להתפוצץ מאוד-מאוד בקרוב", מוסיף בז'רנו, "אתה תוכל לייצר מטקסט וידאו ברמה מאוד גבוהה. זה יקצר תהליכים. אני לא יודע אם זה יהפוך את העבודה של בני אדם למיותרת, אבל אני חושב שמי שלא יידע להשתמש בכלים האלה, יהפוך ללא רלוונטי. הטכנולוגיה לא תחליף את האנשים, האנשים שיודעים להשתמש בה יחליפו את אלה שלא יודעים".