שתף קטע נבחר

"אלגוריתמים עמוסים בהטיות, לא רק מגדריות"

מדוע אלגוריתם לזיהוי תמונות מסמן תמונה של אישה אפרו-אמריקאית כגורילה ואיך קורה שאלגוריתם למיון קורות חיים של אמזון מעדיף מועמדים גברים? הטיות של אלגוריתמים ומודלים מציפות שאלות של אתיקה, ומדעניות נתונים מחפשות את התשובות

ההמלצות שאנחנו מקבלים מנטפליקס או ספוטיפיי, איך הבנקים מחליטים למי לתת הלוואה, הפרסומות שאנחנו רואים ברשתות החברתיות ואפילו מיון ראשוני של קורות החיים שלנו: מאחורי כמעט כל פעולה שאנחנו עושים ברשת או מחוץ לה יש כמויות עצומות של נתונים שנאספים, עוברים ניתוח ומיושמים לצורך הפקת ידע. קוראים לזה מדע נתונים (Data Science), ומדובר במהפכה העכשווית הכי חמה - לא רק בעולמות הטכנולוגיה. בזמן שעוד ועוד תעשיות - מסורתיות וחדשניות - נכנסות לתמונה בניסיון להתמודד עם כמויות מידע בלתי נתפסות ולהפיק ממנו ערך עסקי אמיתי, יש עוד דרך ארוכה לעשות בכל מה שקשור לאתיקה של שימוש במידע של כולנו.

 

כמויות עצומות של מידע (אילוסטרציה: Shutterstock) (אילוסטרציה: Shutterstock)
כמויות עצומות של מידע(אילוסטרציה: Shutterstock)

 

איך קורה שאלגוריתם לזיהוי תמונות מסמן תמונה של אישה אפרו-אמריקאית כגורילה? איך קורה שאלגוריתם למיון קורות חיים של אמזון מעדיף מועמדים גברים על פני נשים? למה גוגל טרנסלייט מתרגם את המילה Doctor לרופא (בזכר)? ואיך אנחנו מצפים שהמכונית האוטונומית תקבל החלטות בלתי אפשריות - כמו האם לדרוס את האדם המבוגר החוצה את הכביש או לפגוע בבחורה הצעירה הנוהגת ברכב שממול? אלה רק כמה דוגמאות לאופן שבו מדעני ומדעניות נתונים פוגשים כבר היום דילמות אמיתיות שקשורות ביישומים השונים של המודלים והאלגוריתמים שלהם.

 

בכנס מדעניות הנתונים השנתי WiDS, שהתקיים אתמול (ג') בתל-אביב ונערך זו השנה השנייה מטעם Intuit ישראל, ההרצאות השונות עסקו, גם אם לא בצורה מפורשת, בחלק מהדילמות האלה. מדובר בכנס שפתוח לכל המגדרים, אבל שהדוברות בו הן נשים בלבד, שעוסקות ביישומים מגוונים של מדע נתונים - החל ממציאות מדומה, דרך עיבוד שפה טבעית (NLP) ועד לתעשיית הספנות. "המטרה של הכנס היא באמת לעודד יותר נשים לדבר בכנסים טכנולוגיים", מסבירה שיר מאיר לדור, מדענית נתונים ב-Intuit, שגרירת WiDS בארץ ומארגנת הכנס. "אני יודעת לספר על עצמי שמאז שנתתי את ההרצאה הראשונה שלי במיטאפ - הקריירה שלי התקדמה משמעותית, הצלחתי לבנות לעצמי ביטחון, וחשוב לעודד נשים נוספות לעשות את זה. עצם זה שאת רואה אישה שעומדת על הבמה ומדברת על העבודה שלה - זה כבר מעצים".

 

מימין: הילה גונן, שיר מאיר לדור ובת אנוש (צילום: יח
מימין: הילה גונן, שיר מאיר לדור ובת אנוש(צילום: יח"צ)

 

אחת ההרצאות בכנס עסקה בהטיה מגדרית בתחום של עיבוד שפה טבעית. הדוגמה הבסיסית להטיה הזו ניתנה באמצעות השירות הפופולרי גוגל טרנסלייט, שבתרגום מאנגלית (שפה לא ממוגדרת) לעברית, תירגם את המילה Doctor לרופא, ואת המילה Nurse לאחות. הילה גונן, דוקטורנטית למדעי המחשב באוניברסיטת בר אילן, הראתה איך גם כשמנסים להסיר או לנטרל הטיות ממודלים ומאלגוריתמים - הן עדיין נוכחות בהם בצורה מובהקת. "אלגוריתמים הם עמוסי הטיות, לא רק מגדריות. יש Bias נגד כל קבוצת מיעוט, וזה עצוב להגיד אבל זה באמת משקף את מה שיש בדאטה ואת מה שקורה בעולם. הסיבה שיש קשר למשל, בין שמות של אפרו-אמריקאים למילים עם סנטימנט שלילי, היא שככה נראים הנתונים, זה הדאטה שקיים וזה הדאטה שמתאמנים עליו. ואגב, צריך להבחין כמה מזה נגרם מהדאטה וכמה זה התוספת של האלגוריתם עצמו, כי אנחנו יודעים שיש נטייה לאלגוריתמים להחמיר את ההטיה".

 

איך מוצאים את האיזון בין אלגוריתם מדוייק לבין אלגוריתם הוגן?

"תלוי את מי את שואלת. אם תשאלי בעל עסק שככל שהמודל שלו יותר מדוייק הוא מכניס יותר כסף - כנראה שהטיה פחות תעניין אותו. אבל חברות כמו גוגל למשל, יכולות להרשות לעצמן להשקיע זמן ומחקר ומשאבים כדי לשפר את המוצרים שלהן. אני לא יכולה להתיימר להציע פתרון, אבל מוכרחים להבין שהטיות זה דבר שקיים בהרבה תחומים, ולכן אנחנו חייבים להיות מודעים לזה ולקבל את ההחלטות מתוך מודעות ומתוך אחריות".

 

בת אנוש, מנהלת האסטרטגיה והחדשנות ב-Intuit, מסבירה שהשיח בישראל סביב אתיקה של שימוש בדאטה נמצא עדיין בחיתולים. "אנחנו בישראל נורא חזקים בדאטה, אנחנו נחשפים בצבא לכמויות בלתי נתפשות של מידע ואנחנו עוברים הכשרה בדיוק לדברים האלה, והשאלות של איזה שימוש אנחנו עושים במידע, איפה לשים את הגבול, אילו עקרונות מנחים אותנו - פשוט לא נשאלות מספיק. צריך להיות מרחב שמתעסק בשיח הזה, כי בסופו של יום זה איזה מנהל מוצר או מדען נתונים או מתכנת, שיושב ומחליט האם המכונית האוטונומית תדרוס קשיש או נערה. אלה האנשים שפעילים בקבלת ההחלטות האלה, זה לא נעשה ברמה ממשלתית. ואנחנו צריכים להיות הרבה יותר פעילים בשיח הזה".

 

ממי הציפייה כאן לפעול בעניין?

"הציפייה היא מהתעשייה עצמה. זה קורה באקדמיה - אבל נשאר בתוכה, הרגולציה מדשדשת מאחור, אז מי שמוביל את השימוש בטכנולוגיה זו התעשייה וזה קורה בקצב מואץ ומבלי שנעצור לשאול את השאלות החשובות. השיח הזה צריך להתקיים בכל הרמות - מהמפתחים ועד אנשי הביזנס. החברות האלה הן הממשלות החדשות, והן מכתיבות לאן העולם הולך - אז השיח צריך להיעשות שם".  

 

 תגובה חדשה
הצג:
אזהרה:
פעולה זו תמחק את התגובה שהתחלת להקליד
אילוסטרציה: Shutterstock
אתיקה במדע הנתונים
אילוסטרציה: Shutterstock
מומלצים