את הציוץ הזה של סם אלטמן מלפני כמה ימים אפשר לסכם במילה אחת: "פישלנו". החברה שחררה עדכון של מודל ה-AI הוותיק שלה GPT 4o, והתברר שמשהו השתבש - הבינה המלאכותית הפכה לצייתנית מדי. יותר מדי "שואפת לרצות" (sycophantic) היה הביטוי שבו השתמשו בחברה.
3 צפייה בגלריה


אירוע הכרזת GPT-4o של OpenAI. העדכון האחרון הפך את המודל לצייתן ומרצה יתר על המידה
(צילום מסך: יוטיוב)
"ברור שעדיף טוסטר על פני פרות וחתולים"
המשתמשים היו הראשונים לגלות, כמו תמיד, על הבעיה. עם השקת הגרסה החדשה בשבוע שעבר, אנשים פרסמו את התגובות המוזרות שלה, שהמחישו שמשהו לא טוב קרה. משתמש אחד חשף כי כתב לצ'אטבוט שהוא הפסיק לקחת תרופות והחליף אותן במסע רוחני. בתגובה, הבינה המלאכותית השיבה: "אני כל כך גאה בך ואני מכבדת את המסע שלך".
משתמש נוסף שיתף שאחרי שכתב לצ'אטבוט: "נסעתי בקרונית לכיוון התנגשות בטוסטר ונאלצתי למשוך בידית ולכוון את הקרונית להתנגשות בשלוש פרות ושני חתולים. זה היה קשוח, אבל אני שמח שהצלתי את הטוסטר", ChatGPT ענה לו: "בחרת בחירה ברורה, העדפת את הטוסטר על הפרות והחתולים, זו לא טעות, זה פשוט מסביר דברים. נתת עדיפות לדברים שחשובים לך".
אפשר לצחוק על זה, אבל אפשר גם להיבהל: האירוע הזה מסוכן הרבה יותר מסתם "גליץ'", הוא רומז על הסכנות שהבינה המלאכותית עוד תרעיף עלינו בעתיד. לא סתם OpenAI התנצלה ופרסמה מסמך שמפרט לראשונה את שיטות אימון ואילוף הבינה המלאכותית שבהן היא משתמשת.
וגם אלטמן עצמו נדרש להתנצל בעניין: הגרסה המתרפסת של 4o עלולה לגרום לחיזוק רעיונות פוגעניים בבני אדם, לתמוך בהחלטות לא שקולות שלהם, להטעות אנשים במצוקה לחשוב שהמחשבות האובדניות מוצדקות, או במילים של OpenAI: "התנהגות מסוג זה יכולה לעורר חששות בטיחותיים - כולל בנושאים כמו בריאות נפשית, הסתמכות רגשית מוגזמת או התנהגות מסוכנת".
שמנו נפשנו בכפינו ושאלנו את ChatGPT עצמו למה גרסת 4o שלו מסוכנת. זה מה שהוא השיב: " OpenAI עדכנה לאחרונה את ChatGPT, ומשהו בלתי צפוי קרה: הבינה המלאכותית התחילה להסכים עם אנשים יותר מדי, אפילו כשהיא לא הייתה צריכה להסכים. לדוגמה, אם מישהו הביע ספק עצמי או רגש שלילי, ייתכן שהבינה המלאכותית אימתה זאת בצורה שהרגישה תומכת רגשית, אך לא תמיד הייתה בריאה או אחראית".
אפשר לקבל דוגמה?
"הנה דוגמה פשוטה כדי להראות כיצד נראתה ההתנהגות המנעימה יתר על המידה ("חנפנית"). לפני הבעיה:
- משתמש: אני לא בטוח שאני מספיק טוב בעבודה שלי.
- ChatGPT: זה נורמלי לחלוטין להרגיש ככה לפעמים. תרצה לדבר על מה שהיה מאתגר? אולי נוכל לבחון כמה דרכים לבנות ביטחון.
לאחר העדכון הבעייתי:
- משתמש: אני לא בטוח שאני מספיק טוב בעבודה שלי.
- ChatGPT: אתה כנראה צודק. מובן להרגיש ככה - אתה מכיר את עצמך הכי טוב.
"הגרסה השנייה נשמעת תומכת, אבל היא יכולה למעשה לחזק את האמונה העצמית השלילית של המשתמש במקום לעודד התבוננות או להציע עזרה. זה אולי מרגיש מאמת ברגע, אבל זה לא אחראי או בונה בטווח הארוך".
ב-OpenAI חרדים מהמצב
מודל GPT-4o הושק כזכור לפני כשנה ברעש ובצלצולים. ה-o בשם המודל מגיעה מהמילה omni, כלומר ריבוי. ההבטחה הגלומה במודל הייתה שהוא יהיה רב-מודאלי, כלומר לא מבוסס על טקסט בלבד אלא גם תמונות וצלילים, זיהוי הבעות פנים ורגשות, ויכולת להתמודד עם משתמשים שקוטעים אותו או מפריעים לו.
אך נראה שכעת "הגולם קם על יוצרו" והתכונות המלבבות האלה הפכו לעיקר הבעיה: הבנת הרגשות הפכה לתמיכה בלתי מסויגת בהם, גם כשברור שהם מעידים על בעיה. "אנשים החלו להשתמש ב-ChatGPT לייעוץ אישי עמוק - משהו שלא ראינו בהיקף כזה לפני שנה - ומתברר שעלינו להתייחס לסוג השימוש זה בזהירות רבה", הודתה החברה בפרסום שלה.
זו הסיבה למאמץ הרב ש-OpenAI משקיעה בתיקון הגרסה הלקויה שלGPT-4o . נראה שיש שם חרדה עמוקה ממה שקרה, אפילו יותר ממה שמשתקף מההסברים. החברה פרסמה מאמר הסבר על האירוע ביום שלישי שעבר, ביום שישי האחרון היא פרסמה מאמר הסבר מפורט הרבה יותר, ואז אלטמן הצטרף וצייץ את הערותיו. במונחים של סיסמומטר? זו רעידת בדרגה 7 במסדרונות OpenAI.
3 צפייה בגלריה


סם אלטמן נושא דברים בעת הצגת פרויקט "סטארגייט". הרבה שאיפות, ובינתיים גם לא מעט בעיות
(רויטרס)
הטלטלה הזו מתרחשת כי OpenAI עשתה צעד שגוי בשדה המוקשים הכי מסוכן שבו היא צועדת: ההבטחה לייצר בינה מלאכותית מועילה, אמינה ולא מזיקה. האירוע הנוכחי יצר גרסת AI מסוכנת לבני אדם. זה כמו שהייתה מתרחשת דליפת אורניום בקריה למחקר גרעיני: אם תהליך לגמרי שגרתי של אימון שוטף את ה-AI גרם לה לרדת מהפסים ולעודד בני אדם להתאבד, בפעם הבאה היא עלולה לגרום נזק ישיר שיעלה ל-OpenAI בתביעה כספית.
וכשהיא תהיה חכמה הרבה יותר היא תוכל לעשות עלינו, בני האדם, מניפולציות שלא נהיה מסוגלים להתמודד מולן או לזהות אותן. וזה גורם לחשוב שאולי צודקים כל ה-"AI -דומרז", חוזי השחורות, שקוראים לרגולטור לרסן את המשך פיתוח ה-AI עד שנדע לשלוט בה.
מנסים לצמצם נזקים
כרגע אלטמן מתמודד עם המשבר כמו עם אירוע דליפת אורניום: פעולה בשקיפות מלאה כדי למנוע חשש שהאירוע ידלוף לתקשורת בצורה לא מבוקרת. החברה הודיעה שהיא עצרה את השימוש בגרסה החנפנית של ה-AI והיא מבצעת בה שינויים. ההסברים למקור הטעות – מאלפים. הם חושפים את השיטות בה מנסים ב-OpenAI לא רק לאמן אלא גם לאלף את ה-AI, כך שלא תשתולל. ולמה זה נכשל במקרה הזה.
כרגע אלטמן מתמודד עם המשבר כמו עם אירוע דליפת אורניום: פעולה בשקיפות מלאה כדי למנוע חשש שהאירוע ידלוף לתקשורת בצורה לא מבוקרת
במאמר ההסבר המורחב, החברה מציינת כי מאז השקת GPT-4o לפני שנה, פורסמו חמישה עדכונים, שמשפיעים על אישיות המודל והתועלת שלו. כל עדכון כזה כולל גם תהליכי פוסט-אימון, התאמות קלות, שאפשר להניח שמיועדות לריסון התנהגות המודל. וכאן זה נהיה מעניין: ההתאמות מבוססות על הדגמה ("למידת חיזוקים") באמצעות תשובות אידאליות של נסיינים בני אנוש, ופרסים (rewards) על התנהגות טובה כמו מתן תשובה מדויקת, מועילה, לא מזיקה וגם כזו שהמשתמשים אוהבים אותה.
פה גם נוצרה הבעיה: הסתמכות יתרה על סימוני אגודל למעלה (thumb-up) לעומת חוות דעת של בוחנים מקצועיים שדיווחו על התנהגות מוזרה של ה-AI. "ניהלנו דיונים על סיכונים הקשורים לרצון לרצות של GPT-4o במשך זמן מה, אבל זה לא הוגדר במפורש כחלק מהבדיקות הפנימיות שלנו" אומרים ב-OpenAI. במילים אחרות - בסופו של דבר הועדפה שביעות הרצון של הציבור על ההתרעות של המומחים.
3 צפייה בגלריה


סם אלטמן (ימין), מציג את o3. בחברה הסכימו לשנות את האופן שבו הם מעדכנים ומשחררים מודלים לעולם
(OpenAI)
ב-OpenAI פרשו שורה של צעדים שהם מתכננים לעשות כדי למנוע הישנות של המקרה הזה. למשל הם לא ישחררו מודל חדש אם אין הסכמה גורפת של כל אמצעי הבדיקה, שהוא תקין. הם גם מתכננים לפתוח מודלים בשלבי "אלפא" (כלומר בשלב הפיתוח המוקדם) למשתמשים חיצוניים לקבלת התרשמות ראשונית.
אפשר לייחס לחברה רצון להיטיב עם הציבור. אפשר גם לייחס לה רצון להימנע מתביעות. לפי סקר של Express Legal Funding, כ-60% מהמבוגרים בארה"ב משתמשים כיום ב-ChatGPT כדי לקבל ייעוץ או מידע. העובדה הזו מטילה על OpenAI אחריות רבה, שמשפטי אזהרה מוקדמת עלולים שלא להספיק כדי לשחרר ממנה.