הפועלים השחורים של הטכנולוגיה

חקר הבינה המלאכותית (Artificial Intelligence), או בשמה המודרני יותר של הטכנולוגיה המתקדמת, למידת מכונה (Machine Learning), הוא במילים פשוטות הניסיון להעניק למחשב תכונות אנושיות. כבר כיום אנחנו פוגשים באלמנטים שונים של הטכנולוגיה, שמסוגלת לבצע משימות שהיו שמורות לאדם, כמעט בכל פינה. בפשטות, חִשבו על שירות הסירי של חברת אפל או רשימת החברים שפייסבוק מציע לנו לחבור אליהם: אלו התוצרים של למידת מכונה.
עוד על אינטליגנציה מלאכותית:
היום שבו המחשב הביס את האנושות
רובוטים מגיעים לקחת לכם את העבודה
הטכנולוגיה – שנתפסת בעיני רבים כמדע בדיוני – נתקלה במהמורות מורכבות בתחילת דרכה, שאילצו את המהנדסים והמומחים בתחום לעצב גישה חדשנית. "בינה מלאכותית (Artificial Intelligence) הוא השם המקורי שבו היו מכנים את המדע העוסק בלימוד המחשב לבצע פעולות שעד אותו רגע הוא לא ידע", אומר ד"ר יונתן לזרסון, מומחה לטכנולוגיית ML, בעל תואר דוקטור במדעי המחשב מאוניברסיטת סטנפורד בארה"ב ומפתח בחברת הסטארט-אפ "זברה מדיקל".
"בשנות ה-50 של המאה הקודמת טכנולוגיית הבינה המלאכותית נחשבה להבטחה גדולה – עד הרגע שבו הגיע "החורף של ה-AI"י (The AI Winter) בשנות ה-80. למעשה לא הצליחו לייצר את המבוקש, וזו הייתה אכזבה גדולה מאוד לעוסקים בתחום. הבינה המלאכותית עברה תקופה קשה, וייתכן שהמעבר למונח "למידת מכונה" מבטא גישה יומרנית פחות לגבי התחום", מוסיף ד"ר לזרסון.
4 צפייה בגלריה 
למידת מכונה - הניסיון להעניק למחשב תכונות אנושיות
(אילוסטרציה: Shutterstock)
לא מדובר רק בשינוי מונח, אלא בשיטה שלמה שחישבה מסלול חדש. אם בעבר היו המהנדסים מתשאלים מומחים אנושיים כיצד לבצע משימה, ולאחר מכן מקודדים את המשימה לתוך המחשב – כיום נותנים המומחים למחשב את התשובה הסופית, ואינם מתיימרים להגיד לו כיצד לבצע את הפעולות הנדרשות.
תשובה למחשב? כן כן, זאת בדיוק השיטה. התשובה יכולה להיות מסווגת כתמונה של חתול או כלב, רמזור או כביש, או בכלל קטע שמע שתורגם מילולית. עוד ועוד דאטה שיסייע למחשב לזהות בעצמו את המבוקש. "המתודה שקיימת כיום היא לאסוף את הנתונים ולתייג את הדאטה – כלומר לתת את התשובה הנכונה שעליה המחשב צריך לענות. לאחר מכן המחשב מפעיל אלגוריתם שמקובל לכנותו רשת נוירונים – מדובר במיליוני פרמטרים שלומדים איך סטטיסטית להיות מסוגלים להבדיל בין כל התשובות האפשריות ולענות את התשובה הסבירה ביותר. את הלמידה עצמה המחשב עושה בעצמו", מסביר ד"ר לזרסון.
המומחים מאמינים שעלו על דרך המלך – אך מתברר שעל דברים טובים צריך לשלם מחיר גבוה. ומה הטרייד-אוף של הגישה החדשה ללימוד מכונה? היא מצריכה מאגרים דאטה עצומים – מיליוני רשומות נתונים שיסייעו למחשב ללמוד בעצמו ולהשתפר. בדיוק אותו צורך הוליד מקצוע חדש, שאינו דורש כישורים אקדמיים ושמתבצע אי שם במחשכים – מתייגי הדאטה. 
אז כיצד עובדות חברות הטכנולוגיה הגדולות בעולם, שזקוקות למיליוני פעולות תיוג נתונים מדי יום? בשתי מילים: מיקור חוץ (Outsourcing). פעולת התיוג, שפעמים רבות אינה דורשת מומחיות, הובילה את חברות הטכנולוגיה לפתוח מפעלי ענק למתייגים במדינות עולם שלישי, ובכך להשיג חיסכון ניכר בעלויות.
הסתכלו על התמונה הבאה: מתייג הדאטה, שיושב באפריקה או בסין, משתמש בעכבר המחשב ומסמן את כל האובייקטים המתקבלים בתמונה אחת – מכונית, לוחיות רישוי ומספרן, עצמים, כבישים ומדרכות. באופן סיזיפי זה עוברים המתייגים על אלפי תמונות ביום - תמורת 9 דולרים ליום עבודה. 
"באפריקה ובמזרח יש מספרים גדולים של אנשים שעוסקים במלאכת התיוג – אנחנו מתייגים מידע כדי ללמד מחשב לעשות משהו שעד היום רק אדם יכול היה לבצע. ככל שניתן למחשב דוגמאות רבות יותר עם תיוגים נכונים, ככה האלגוריתם שלנו יעבוד טוב יותר", מסביר ד"ר לזרסון.
4 צפייה בגלריה 
מתייגי נתונים - עבודה סיזיפית בשכר נמוך (אילוסטרציה)
(צילום: shutterstock)
"למעשה, חברות טכנולוגיה רבות צריכות לשלוח את המידע הרב שלהן לתיוג, דבר שמצריך בני אדם שיודעים לעשות מה שמחשב לא יודע לעשות – לתייג. לפעמים זו משימה פשוטה כמו להסתכל על ספרות של לוחית רישוי ולקודד אותן - אז גם בן אדם שאין לו השכלה פורמלית יכול לעשות את המשימה - או למשל לזהות עצמים בתמונות: כל המשימות שאנחנו כבני אדם טובים בהם בכל רחבי הגלובוס", הוא מוסיף.
וגם בתחום למידת המכונה, נדמה שהגלובליזציה מנצחת – בדיוק כפי שהתרחש כשמרכזי שירות טלפוני הועברו עם השנים למזרח הרחוק והפחיתו עלויות כבדות, ובדומה לעבודתם של מפתחים בחברות היי-טק ישראליות שיושבים כיום במזרח אירופה ועובדים בשעון ישראל.
"כמו כל עבודה בעידן הגלובלי, אנחנו יכולים לשלוח גם את עבודת התיוג למקום שבו הוא ייעשה באיכות טובה מספיק ובעלות הנמוכה ביותר. במובן הזה, מלאכת התיוג לא שונה מכל עבודה תעשייתית אחרת, שבה אם ניתן לשלוח למיקור חוץ - עושים את זה", אומר ד"ר לזרסון.
אחד האתגרים של תעשיית הטכנולוגיה, כפי שציין לעיל ד"ר לזרסון, היא השגת מסדי נתונים גדולים לשם אימון האלגוריתמים. השיטה שבה עובדים המומחים מצריכה כמויות גדולות מאוד של נתונים – משימת איסוף לא פשוטה כלל.
איך משיגים את הדאטה הנחוץ לתיוג? פעמים רבות הנתונים לקוחים ממחקרים גדולים שבוצעו בתחומי המדע השונים. לדוגמה, אחד ממאגרי התמונות הגדולים בעולם, אימג'נט, מחזיק במיליוני תמונות של אלף עצמים שונים, והוא נאסף במשך שנים על ידי הקהילה המדעית.
נתיב נוסף להשגת מידע הוא מה שמכונה בקהילה "קוד פתוח" (Open Source). "כשאני רוצה ללמד אלגוריתם איך לתרגם טקסט, זה נכון שאני יכול לחשוב על משפטים ולתרגם אותם. אבל אם חושבים מחוץ לקופסה, אחד ממסדי הנתונים הפופולריים לאלגוריתמים אלה הם הפרוטוקולים של הקונגרס הקנדי או הקונגרס של האיחוד האירופי", מתאר ד"ר לזרסון.
4 צפייה בגלריה 
המתייג מסמן למעשה את כל האובייקטים המופיעים בתמונה
(צילום: shutterstock)
"למה דווקא הקונגרסים הללו? כי שם כל התמלול נעשה במספר שפות, ולכן יש קורפוס של טקסט שמתורגם כמעט מילה במילה בכמה וכמה שפות. לא משקיעים כספים בשביל מאגרים אלה, ומקבלים בתמורה המון מידע. אם חושבים על זה, יש המון מאגרים כאלה בעולם. אולי זה לא בול מה שאני רוצה, אבל זה יכול להיות קרוב. אם אני רוצה לבנות מערכת שיכולה להמיר מטקסט שנאמר לטקסט כתוב, אז אפשר להתחיל מכתוביות לתוכניות הטלוויזיה", הוא מוסיף.
מלאכת התיוג דורשת לעיתים הכשרה ומיומנות רבות. במצב כזה תשעה דולרים ביום ודאי אינם מספיקים לביצוע המשימה. בזברה מדיקל, סטארט-אפ ישראלי שבו עובד ד"ר לזרסון, מנסים מומחי הבינה המלאכותית ללמד את המחשב לאבחן מחלות על ידי צפייה בתמונות ונתוני צילומים כמו רנטגן, CT או MRI - מה שעתיד לקצר את העומסים הכבדים בבתי החולים ובתורים לצילומים. במקום פענוח של רופא אחד, האלגוריתם ישמש כוועדה של עשרה רופאים מבחינת המומחיות והידע שלו. 
"לפעמים אנחנו צריכים תיוגים שדורשים רופא מוסמך – אז אנחנו פונים למתייגים שהם רופאים מוסמכים בארה"ב או בהודו – כלומר אנחנו גם עושים מיקור חוץ, ומוכנים לשלם על זה. בנוסף, כדי להשיג את הנתונים אנחנו יוצרים שותפויות עם בתי חולים בארץ ובעולם, מכיוון ששם אנשים הגיע לצילום, נבדקו ופוענחו – אז אנחנו יכולים להסתמך על אינפורמציה זו", הוא מתאר.
ברחבי העולם מסקרים את תופעת המתייגים במדינות העולם השלישי, ועולה השאלה האתית: האם מדובר בהתחלה טובה ובהזדמנות עבור אותם תושבים, שפעמים רבות רעבים ללחם? או שמא מדובר בניצול מצד חברות טכנולוגיה בעלות אמצעים כמעט בלתי מוגבלים? מצד אחד, אותם מתייגים נחשפים לטכנולוגיה מתקדמת והופכים למומחים בשרשרת הבינה המלאכותית, ומצד שני הם אלה שמשלמים את המחיר הכבד ביותר של הגלובליזציה.
4 צפייה בגלריה 
במקרים מסוימים דרוש איש מקצוע כמו רופא כדי לתייג
(אילוסטרציה: Shutterstock)
אז כיצד דואגים לאנשי הצללים של טכנולוגיית ה-AI, אותם אנשים שגורמים לאלגוריתמים מורכבים לעבוד? לשיטתו של ד"ר לזרסון, מדובר בשיח לא חדש במיוחד שאנחנו כחברה עוסקים בו בשלושים השנים האחרונות. בין אם מדובר בייצור נעליים בסין עבור דולר ביום או בצ'יפים של אפל במזרח, כל זה מוכרע כנראה על ידי הגלובליזציה.
ד"ר לזרסון מאמין שהנושא שכן דורש העמקה נרחבת סביב סוגיית התיוג הוא כיצד אנחנו כחברה דואגים שלא נכניס על ידי פעולת התיוג את החולאים של החברה האנושית אל המחשב. 
"למעשה, אנחנו מביאים איתנו לאומנות התיוג את המטען התרבותי שלנו – שכולל גם גזענות, שוביניזם ועוד הנחות שאנחנו עושים שהן לא תמיד הוגנות. למשל, אם אנחנו רוצים לתרגם טקסט מאנגלית לעברית, אז המתרגם שנותן את התשובה למחשב עשוי לתרגם מקצועות שהוא תופס כיותר נשיים ללשון נקבה, ובכך ליצור אותה הטיה גם אצל המחשב.
"בצורה הזו המתייגים יכולים ליצור השפעה או להנציח כל מיני דעות קדומות שיש בציבור, ומזה אנחנו צריכים להיזהר – כשאנחנו נותנים לאנשים לתייג את הדאטה שלנו, אנחנו חושפים את המערכות שלנו לדעות קדומות של האנושות – וזה מטריד", הוא מסכם.