עברו לא מעט שנים עד שהגעתי לתחום של עיבוד שפה טבעית ובינה מלאכותית. לפני כן עשיתי תואר בביואינפורמטיקה באוניברסיטת תל אביב ועבדתי בתעשיית הסייבר. אחד הדברים שנהניתי מהם במיוחד לאורך הדרך היה פיצוח תעלומות, זיהוי תבניות בעלות משמעות בתוך ה"רעש" של הנתונים. בביואינפורמטיקה מנסים בין היתר לפענח את הדנ"א, שהוא רצף ארוך של מולקולות המקודד את המידע התורשתי שלנו. בעבודתי בתעשייה ניתחתי תקיפות סייבר של ארגונים ענקיים תוך כדי מעקב אחרי ראיות וחקירת קבצים זדוניים לא מוכרים. יש משהו מספק מאוד כאשר ברצף של תווים או אירועים שנראה אקראי לחלוטין ובלתי ניתן להבנה נחשפת משמעות חבויה.
מודלי שפה גדולים, כמו Gemini ו-ChatGPT, הם כנראה החידה הקשה ביותר שחקרתי עד כה. מודלים כאלו מבוססים על רשתות עצביות מלאכותיות שפותחו בהשראת תהליכים המתרחשים במוח האנושי, ומקודדות כמויות ידע עצומות על שפה ועל העולם. רשת כזאת היא בפועל פונקצייה מתמטית מורכבת שבה טריליונים של פרמטרים. הפונקצייה הזאת ממפה טקסט שאנחנו מכניסים למודל כקלט לטקסט שהמודל מייצר כפלט.
כאשר אנחנו מכניסים שאלה כמו "מי היה ראש הממשלה הראשון של ישראל?" המודל מבצע חישוב פנימי, שבו הוא שולף את הידע שמקודד בפרמטרים שלו ומייצר לנו תשובה (״בן גוריון״). אך כיצד התהליך הזה מתבצע? מה קורה במהלך החישוב של המודל? איזה ידע מקודד במודל, וכיצד הוא מתחבר בזמן החישוב לכדי תשובה? השאלות האלה הופכות לקריטיות ככל שההסתמכות שלנו על מודלים בחיינו גדלה.
במעבדה שלי אנו חוקרים תחום שנקרא interpretability (פרשנות), השואף להסביר את החישוב הפנימי של מודלים המבוססים על רשתות נוירונים. כפי שבמדעי המוח מנסים להסביר כיצד המוח האנושי פועל, באמצעות interpretability מנסים להסביר כיצד הבינה המלאכותית פועלת. זה אולי יפתיע לא מעט קוראים שבכלל קיים צורך כזה, הרי אנחנו בני האדם יצרנו את הבינה המלאכותית – איך יכול להיות שאנחנו איננו מסוגלים להסביר אותה? התשובה בקצרה היא שהמודלים האלו נוצרים באמצעות אלגוריתמי למידה מנתונים, ואין דרך קלה לדעת מה הם למדו בפועל. כאנלוגיה אפשר לחשוב על תינוקות – הם נחשפים להרבה מאוד מידע על העולם בכל יום, אך אין אנו יודעים בדיוק מה הם יודעים וכיצד הם חושבים.
כדי להבין טוב יותר מודלי שפה וכדי לשלוט בהם אנחנו מפתחים שיטות מתקדמות להציץ לתוך ה"מוח" של המודל ולראות מה קורה שם. אנחנו חוקרים כיצד ידע מקודד בפרמטרים של המודל, וכיצד המודל משתמש בו תוך כדי חישוב. כך למשל גילינו שבמודלים קיימים פרמטרים מסוימים אשר מתפקדים כמעין "זיכרונות" שהמודל מאכסן בהם ידע שאותו הוא שולף כמו הגדרה ממילון. כדי להבין איך מידע זורם תוך כדי החישוב אנחנו מתערבים בו בצורות שונות ובודקים את האפקט של ההתערבות על הפלט של המודל. למשל, אם מצאנו אזור במודל שאחראי לידע מסוים, אנחנו יכולים להגביר את האזור הזה או למחוק אותו, ובכך לשלוט במודל כרצוננו.
מלבד פיתוח שיטות interpretability, משתמשים במעבדה שלי בשיטות אלו כדי לחקור שאלות רחבות יותר. לאחרונה הצגנו שיטה שמאפשרת למחוק ידע ספציפי מתוך המודל בצורה מדויקת, עם פגיעה מינימלית בידע וביכולות אחרות. מחיקה כזאת שימושית אם רוצים להגביל את הנושאים שהמודל מדבר עליהם ולמנוע שפה פוגענית, לדוגמה.
דוגמה נוספת היא מחקר בשיתוף פרופ' ליעד מודריק מאוניברסיטת תל אביב וד"ר אריאל גולדשטיין מהאוניברסיטה העברית בירושלים, שבו אנו משתמשים בשיטות interpretability כדי לעקוב אחר ״מחשבות״ של מודלי שפה בזמן שהם מעבדים קלט שמייצר סתירה עם הידע הפנימי שלהם. על בסיס ניתוחים אלו אנו בודקים אינדיקציות לקיום מודעות דומה לזו של בני האדם, אשר מזהים במודע מידע חיצוני הסותר את הידע שלהם ומעדכנים את אמונותיהם בהתאם.
בראייה קדימה הייתי רוצה שיהיו לנו שיטות interpretability מדויקות, קונסיסטנטיות ויעילות יותר. התחום עדיין מתקשה להסביר חישובים ארוכים, שהם הכרחיים למודלים לצורך פתרון בעיות מורכבות אשר דורשות הסקה ושימוש בכלים חיצוניים. בעולם שבו סוכנים מבצעים משימות עבורנו, חשוב שתהיה לנו היכולת "לפתוח את המערכת" בעת הצורך כדי להבין מה קורה בתוך המודל ולמה הוא מקבל החלטות מסוימות. היום אנשים מסתמכים על ההסברים שהמודל מספק בטקסט, אך חוקרים מצאו שלא כל טקסט שהמודל מייצר משקף באופן אמין את החישוב הפנימי שלו, וגם פירושנו שלנו את הטקסט לא בהכרח תואם את האופן שבו המודל משתמש בו. השאיפה היא להשתמש בתובנות ממחקר interpretability לפיתוח מודלים בעלי יכולות קוגניטיביות גבוהות יותר, אשר ניתנות לפירוש ולשליטה בידינו, בני האדם.
ד"ר מור גבע היא מרצה בכירה בבית הספר למדעי המחשב ובינה מלאכותית ע"ש בלווטניק באוניברסיטת תל אביב.
לאתר האישי של החוקרת: https://mega002.github.io
"חוקרים פרטיים" הוא מדור ב-ynet שנוסד ביוזמת האקדמיה הצעירה הישראלית שבו חוקרים מסבירים מדוע החליטו לעסוק בתחום המחקר שלהם. המדור נערך בסיוע פרופ' נעמה גבע-זטורסקי, פרופ' אורי בן-דוד ופרופ' ארז בן-יוסף מהאקדמיה הצעירה הישראלית.


