לא מד"ב: גוגל מתכוננת ליום שבו הבינה המלאכותית לא תציית לה

בעוד שוק הבינה המלאכותית העולמי דוהר לעבר אוטונומיה מלאה של "סוכנים חכמים" (AI Agents) המסוגלים לבצע משימות מורכבות ללא התערבות אנושית - החל מהגנת סייבר ועד לפיתוח תרופות - ענקיות הטכנולוגיה מתחילות להבין כי האיום הגדול ביותר עלול להגיע דווקא מבפנים. 
חטיבת דיפמיינד (DeepMind) של גוגל של חשפה אסטרטגיית אבטחה חדשה, תחת השם "תוכנית בקרה לבינה מלאכותית" (AI Control Roadmap). המטרה: לנעול ולנטר את מערכות ה-AI המתקדמות ביותר של החברה, מתוך נקודת הנחה קיצונית אך הכרחית המודל עצמו עלול לפעול כ"עובד סורר" בארגון.
גלריה
מנכ"ל גוגל, סונדאר פיצ'אי
(גוגל)
הרגל תמיד על הבלם
על פי הערכות בתעשייה בארה"ב, סוכני בינה מלאכותית צפויים לייצר ערך כלכלי עצום של כ-2.9 טריליון דולר עד שנת 2030. אולם, ככל שהיכולות הללו צומחות, כך גדל הסיכון הקיים במודלים שאינם מסונכרנים באופן מושלם עם כוונות המפעיל שלהם. 
בגוגל בחרו לזנוח את הגישה המסורתית המסתמכת רק על "יישור קו" של המודל, ובמקום זאת פיתחו גישת הגנה רב-שכבתית. במילים פשוטות, החברה מדמה את המערכת החדשה למורה לנהיגה ברכב בעל דוושות כפולות: הוא סומך על התלמיד, אך רגלו תמיד מונחת על הבלם, מוכנה להתערבות מיידית. 
התוכנית מבוססת על שלושה נדבכים מרכזיים: ראשית, פותח מודל איומים ייחודי הנשען על עקרונות הגנת הסייבר המקובלים בעולם, המפרק מתקפות אפשריות לטקטיקות קטנות ומאפשר לזהות התנהגות חשודה לפני שייגרם נזק. 
שנית, המערכת משתמשת במודלי AI אמינים אחרים בתור "מפקחים" המנטרים באופן רציף את שרשרת המחשבה ואת הפעולות של הסוכן האוטונומי. אם המפקח מזהה חריגה, הוא חוסם את הפעולה בזמן אמת. לבסוף, גוגל מודדת את יעילות ההגנה באמצעות מדדי כיסוי ומהירות תגובה קפדניים.
כחלק מפיתוח המערכת, אנשי דיפמיינד ניתחו מעל מיליון משימות קוד שבוצעו על ידי סוכני ה-AI שלהם. הממצאים הציגו תמונה מפתיעה: רוב האירועים שבהם נאלצה המערכת להתערב לא נבעו מכוונות זדון של המודל, אלא מפרשנות שגויה או מ"מוטיבציית יתר" של הסוכן להשיג את המטרה שהוגדרה לו, דבר שהוביל למשל למחיקת נתונים בשוגג.
מנכ"ל גוגל דיפמיינד, דמיס האסביס
(רויטרס)
השוטר הרע, ה-AI הטוב
האתגרים הללו אינם ייחודיים לגוגל, ומעסיקים את כלל השחקניות הגדולות. בארה"ב, חברת אנת'רופיק התייחסה לאחרונה לסכנות דומות של "אובדן שליטה" בסוכנים האוטונומיים שלה, כמו פלטפורמת קלוד קוד. 
אנת'רופיק מיישמת ארכיטקטורה המבוססת על סביבות עבודה מבודדות (Sandboxing) כדי למנוע מהסוכנים גישה לקבצים רגישים, גם אם הם מוצאים דרכים "יצירתיות" לעקוף את המגבלות המקוריות. במקביל, גם OpenAI הציגה לאחרונה מנגנוני אבטחה ייעודיים לסוכנים המשוטטים ברשת, במטרה למנוע זליגת מידע שקטות דרך קישורים חיצוניים ומניפולציות של הזרקת פקודות (Prompt Injection).
באיחוד האירופי, הרגולטורים דוחפים לאחריות תאגידית ושקיפות מלאה סביב הסיכונים האקספוננציאליים של הבינה המלאכותית, בעוד שבסין מתמקדים חוקרי ה-AI בבניית מודלי פיקוח ממשלתיים וארגוניים הדוקים שימנעו מהסוכנים לפעול בניגוד להנחיות המרכזיות.
עם זאת, יש לומר שלמרות הלהיטות של ענקיות ה-AI לפתח את ההגנות במקביל לפיתוח היכולות, בסופו של דבר הבינה המלאכותית עצמה מפותחת בלי יותר מדי התייחסות למגבלות פנימיות. הבקרה עדיין מתבצעת מבחוץ עם סוכן מפקח ולא על ידי סט של כללי פעולה (חוקה אות תקנון) שמובנים ב-AI. אנחנו רחוקים מאוד משלב חוקי הרובוטיקה שהגה אסימוב כדי למשטר בינה מלאכותית.
כך למשל כשאנת'רופיק הזהירה מפני המודלים "מיתוס 5" או "פייבל 5" שלה, שנחסמו ימים בודדים לאחר שיצאו לשוק - החברה ביקשה שיגבילו אותה מבחוץ, במקום לייצר את ההגנות תוך פיתוח המודלים האלה כחלק מוקשח של הוראות ההפעלה. 
ההכרזה של גוגל דיפמיינד מדגישה כי בניית מודל חכם היא רק חצי מהעבודה; המשימה האמיתית של השנים הקרובות תהיה לדעת כיצד לרסן אותו. בעולם שבו סוכנים הופכים לחלק בלתי נפרד מתשתיות המחשוב, התעשייה כולה נדרשת לאמץ תקנים אחידים. אבל גם גוגל, כמו אנת'רופיק ו-OpenAI, לא חשבה שהאיום מספיק חמור כדי לדרוש מהמפתחים להטמיע את ההגנות האלה בתוך המודל עצמו, במקום לעבוד (רק) עם שוטר AI חיצוני.