כשהפייק נראה אמיתי מדי: הפיתוח הישראלי שנלחם בשיטפון סרטוני ה-AI

משוכנעים שאתם יודעים לזהות תמונות או סרטונים שנוצרו באמצעות AI? מחקרים מראים שאנחנו צודקים בתשעה מתוך עשרה מקרים, אבל ככל שהטכנולוגיה משתפרת - זה הולך ונעשה קשה יותר. 
3 צפייה בגלריה 
תמונה שנוצרה על ידי AI. הכלים הופכים למתוחכמים יותר ויותר
(צילום: Zefr)
פיתוח ישראלי ראשון מסוגו, שהוצג ביום רביעי האחרון בכנס AI Week באוניברסיטת תל אביב, מאפשר לזהות תמונות וסרטוני AI באמצעות AI, ברמת דיוק של 90%, בדומה ליכולת של בני האדם. ואפשר להניח שעם שיפור הטכנולוגיה, רמת הדיוק תעבור את זו האנושית.
בינה מלאכותית מול בינה מלאכותית
למה זה חשוב? למשל אם רוצים להתמודד עם התופעה המטרידה של תמונות וסרטונים שמיוצרים על ידי AI בכמויות עצומות ומפיצים תכנים פליליים, תכני אלימות ושנאה. הרשתות החברתיות אמנם מנסות להתמודד עם התופעה, אבל כשמדובר במאות מיליוני פוסטים ביום, סינון התמונות והסרטונים על ידי בני אדם הופך יקר מאוד ובעיקר לא עומד במעמסה. בינה מלאכותית היא הפתרון היחיד לזיהוי סרטוני בינה מלאכותית.
אור לוי, סגן נשיא למדעי הנתונים בחברת Zefr שפיתחה את הטכנולוגיה, אומר שמדובר למעשה במבחן טיורינג הפוך. במבחן טיורינג המקורי אדם בוחן טקסט ומנסה לקבוע אם מדובר באדם שכתב אותו או במכונה. במבחן של Zefr הבינה המלאכותית היא זו שצריכה לזהות אם הסרטון שלפניה נוצר על ידי אדם או על ידי מכונה. 
לוי אומר שהחברה עובדת עם כל הרשתות החברתיות הגדולות, בהן פייסבוק ואינסטגרם של מטא, יוטיוב ולאחרונה גם סנפצ'אט - אבל הלקוחות המשלמים הם המפרסמים בפלטפורמות האלה. 
3 צפייה בגלריה 
רשתות חברתיות
(Getty Images)
חברות שמפרסמות נעליים למשל, לא רוצות שהפרסומת תופיע לצד סרטונים שמראים שימוש בנשק ובאלימות, וחברה שפונה לקהל יעד של ילדים לא רוצה סרטונים שמעודדים צריכת אלכוהול. הטכנולוגיה של Zefr גם מאפשרת לזהות את התוכן של התמונות והסרטונים וכעת גם לזהות שימוש ב-AI.
תופעה שתופסת תאוצה
השימוש בווידאו מג'ונרט, כלומר נוצר באמצעות AI, ברשתות החברתיות עולה בקצב מהיר. כך למשל בחודש אוקטובר האחרון כמות הסרטונים שיוצרו באמצעות "סורה" (Sora), מערכת יצירת הסרטונים של OpenAI עלתה פי שבעה בעקבות השקתה של סורה 2.  
למעשה, אחד מכל 25 סרטונים שאנחנו רואים היום ברשתות החברתיות נוצר באמצעות AI והמספר הולך וגדל. הכלי המוביל ביצירת סרטוני AI הוא סורה, אחריו Runway ובמקום השלישי Veo 3 של גוגל. קרוב ל-14% מסרטוני ה-AI מפרים את מדיניות הרשתות החברתיות, כשההפרה הנפוצה ביותר היא הצגת פעולות טרור וכלי נשק באור חיובי. 
למשל ניתן לראות זאת בסרטונים שמציגים את התקיפה של מגדלי התאומים כסרטים של דיסני, פיקסר, משחק מחשב או אפילו משחק קופסה. הילדים אולי יתלהבו מהסרטונים, אבל המסר שעובר מכל זה, שהמחבלים הם הטובים וארה"ב היא הרעה, הוא בעייתי בלשון המעטה.
  @_kurt_cobain_69 This is crazy #fyp #viral #911 #sora #ai ♬ original sound - Kurt cobain   
  @ai.il.expert Nova Festival 2023 Part 01  Based on a true Story Generated with AI Subscribe for more content  #aimovie #NOVA #israel🇮🇱 #השביעיבאוקטובר #fyp ♬ original sound - AI IL EXPERT   
בסדרת סרטונים אחרים, קשים לצפייה במיוחד, מוצגים אירועי ה-7 באוקטובר ומסיבת הנובה כאילו מדובר בסרטונים תיעודיים. הדמויות הנחטפות הן צעירות בלונדיניות בלבוש קצר, כאילו היו נסיכות דיסני, המחבלים הם דמויות אפלות, וקולה של "חטופה", באנגלית אמריקאית קולחת, מתאר אירועים טראומטיים כאילו היו סרט אקשן. אם יוצר הסרטונים האלה התכוון ליצור אהדה לישראל, הוא עשה עבודה גרועה.
כלי סינון התכנים של Zefr מזהה אם מדובר בהפרות של כללי הקהילה של הפלטפורמה, למשל אם מוצג נשק או פעילות טרור (כאמור אלו הסרטונים הפוגעניים הנפוצים ביותר), או אם מוצג שימוש בסמים או באלכוהול. "המפרסמים לא רוצים להריץ קמפיינים של פרסום ביחד עם וידאו מג'ונרט, שזה סוג של ספאם מודרני שנועד למשוך קליקים וכסף מהמפרסמים", אומר לוי. "אנחנו מזהים את הסרטונים האלה ומוציאים אותם מהקמפיין".
אתגר אמיתי 
איך זה עובד? החברה פיתחה מודל לזיהוי תכני וידיאו מג'ונרטים בטכנולוגיית vision-language models (VLM) המבוססת על מודל שפה גדול רב-מודאלי (שקולט טקסט, תמונה וצליל) המכונה MLLM. 
המודל אומן על בסיס נתונים של עשרות אלפי סרטוני וידאו אמיתיים ומלאכותיים, והוא מבוסס על מודל קודם לזיהוי תמונות AI של Zefr, ששימש בין השאר לזיהוי טרנד של שימוש ב-AI להסתה נגד מותגים שתמכו בישראל בזמן המלחמה. "זיהוי וידאו הוא בעיה מאוד מאתגרת כי המודלים משתפרים במהירות מסחררת וכל פעם יוצא מודל חדש שהוא יותר ויותר מציאותי, ועדיין הצלחנו להגיע לאחוזי דיוק מאוד יפים", אומר לוי.
3 צפייה בגלריה 
אור לוי
(צילום: adverifai)
אי אפשר היה פשוט להסתפק ב"סימן מים", ה-watermarks שכלי ה-AI מוסיפים לתמונות?
"אני יכול להגיד לך, שלפי הנתונים שלנו ברשתות החברתיות, רק ל-7% מסרטוני הווידאו יש סימן מים, ובמודלים של קוד פתוח אין בכלל. אז זה אחוז יחסית קטן, אבל הוא יכול לשמש אותך לצורך אימון המודל. 
"בחלק מהמקרים יש תיוג EXIF בקובץ, אבל ברשתות החברתיות הם מסירים את כל המטא-דאטה ומנסים לעבוד עם התקן שלהם שזה C2PA: ברגע שמישהו זיהה שווידאו נוצר באמצעות AI, הם רושמים לו טביעת אצבע ואז גם אחרים יודעים לזהות אותו. אבל זה עדיין בחיתולים".
לוי הציג את הטכנולוגיה החדשה במאמר, שהתקבל לפרזנטציה בכנס ראייה ממוחשבת ICCV 2025 שהתקיים השנה בהונולולו, הוואי, וגם התפרסם בכתב העת The Register. "מאוד אהבו שם את הרעיון של מבחן טיורינג ברוורס, שבו המכונה יודעת להגיד אם הקלט שקיבלה נוצר על ידי בן אדם או מכונה. 
"המודל מציג ביצועים מאוד יפים בהשוואה למה שיש היום בתחום ואנחנו עושים את זה בסקייל מטורף - מאות מיליוני סרטוני וידאו ביום. אז השילוב של כל הדברים האלה זו התרומה, החדשנות של המאמר", הוא אומר.