שתף קטע נבחר

הכי מטוקבקות
    זירת הקניות
    נראה לכם שאפשר לזהות סרקזם?
    לפעמים קשה לנו לדעת אם האדם שמשוחח איתנו בצ'ט, בטלפון או פנים מול פנים מדבר ברצינות או משתמש בסרקזם. חוקרים מהאוניברסיטה העברית פיתחו יישום למחשב שמנסה לבצע את המשימה הקשה - ולזהות סרקזם

    "קניתי את הטלפון הזה. אני באמת צריך פטיש חדש לשניצל". ביקורת כזאת שנכתבת על מוצר משקפת בבירור את דעתו של המבקר ולא מותירה מקום לפרשנות. אך מה לגבי "אהבתי את העטיפה של הספר" - האם מדובר באדם שאוהב את הספר, או שהוא מציין שאהב את העטיפה כי זו הביקורת הטובה היחידה שיש לו?

     

    מחקר חדש של חוקרים באוניברסיטה העברית בירושלים מנסה לענות על השאלה הזאת, ולנסות לפענח כיצד מזהים סרקזם. אורן צור ודמיטרי דוידוב, דוקטורנטים במכון למדעי המחשב, חוקרים את הנושא של ביקורות מוצרים, בהנחייתו של פרופסור ארי רפופורט שעוסק בבלשנות חישובית ועיבוד שפה טבעית.

     

    בראיון ל-ynet, רפופורט מסביר שאם יש למשל 5,000 ביקורות על צופן דה וינצ'י באתר אמזון, ייתכן שדווקא ביקורת מספר 1,013 שקבורה אי שם היא היעילה ביותר, ויכולה לעזור ללקוח לקבל החלטה על הספר.

     

    עבודת החוקרים עוזרת למצוא את הביקורות היעילות ביותר, ובפיתוח שהושלם לאחרונה ושמוצג היום (ג') בצורה רשמית בכנס הבינלאומי לבלוגים ומדיה חברתית בארצות הברית (icwsm), אפשר לזהות גם אילו מן ההערות הן סרקסטיות.

     

    סרקזם נוקב בטוויטר

    מדובר באתגר לא קל בכלל. הרי אנחנו לא תמיד מבינים כאשר משהו נאמר אלינו באופן אירוני ולא יודעים תמיד להגדיר זאת. האתגר מסתבך כאשר מדובר בטקסט כתוב, מאחר ששם נעדרים טון הדיבור ושפת הגוף שעוזרים לזהות כוונה של בן שיחתנו. בסוג של הלצה שגובלת בהזדמנות עסקית, הוצע בעבר

    להורדה סימן פיסוק לסרקזם שיפתור את הבעיה ויגיד - "זה היה סרקסטי". 

     

    רפופורט מסביר שבחקר שפה קשה לזהות רגשות בטקסטים. "כשאתה מביע משהו, אפילו אם זה רגש ברור כמו שמחה או עצב, הרבה פעמים אתה מביע אותו בצורה מעודנת שתלויה בהקשר", הוא אומר.

     

    "כשמדברים על סרקסטיות או אירוניה או הומור בכלל, זה תלוי גם בהנחות שיש לך על איזה ידע יש לאנשים שאתה מדבר עליהם, מה הם יודעים על העולם ואם אתה יכול להשתמש ברמיזות על דברים אחרים". כך, בדוגמת עטיפת הספר - אנחנו יודעים שלא שופטים ספר לפי הכריכה שלו, ומניחים שאם הכריכה טובה - הספר כנראה לא טוב.

     

    הסכמה סרקסטית רחבה

    אז איך מצליחים ללמד מחשב לעשות משהו שכל כך קשה לנו לעשות בעצמנו? סטטיסטיקה. רפופורט מסביר שלוקחים שלושה עד חמישה אנשים ונותנים להם לקרוא טקסט.

     

    מדוע כל כך מעט? לדברי רפופורט במשימה מסוג זה לא צריך ידע מיוחד ולכן מספיקה הכמות הזאת. הם מתבקשים לסמן את המקומות הסרקסטיים. במקרים מסויימים מגיעים להסכמה של 80-90 אחוזים, מה שהופך את העניין לתופעה שמחשב יכול ללמוד ממנה, על פי רפופורט.

     

    החוקרים בחנו 66,000 ביקורות מתוך אתר אמזון על מוצרים שונים בקטגוריות שונות, וכן מילוני הודעות בשירות טוויטר בנושאים שונים ואקראיים. לאחר שהנתונים נאספים ומאות הודעות נבדקועל ידי בני אדם, החוקרים תייגו אותם, והזינו את הממצאים למחשב. 

     

    החוקרים ניסו לבנות תבניות של משפטים, כדי לנסות לזהות תבניות במשפטים סרקסטיים על פי חישוב מתמטי, וכן לתת משקל לסימני פיסוק כמו סימני קריאה, סימני שאלה, מרכאות וכמובן שלוש נקודות, שבשילוב עם מאפיינים אחרים עוזרים לזהות סרקזם.

     

    בהמשך, נותנים למחשב ללמוד ולתייג בעצמו דוגמאות לסרקזם מטקסים גדולים יותר וללמד את עצמו. "זה אמנם נשמע מפוקפוק, ושהמערכת תלמד את הטעויות של עצמה, אבל אם אתה עושה את זה נכון מבחינה מתמטית אתה תשפר את הדיוק שלך".

     

    רפופורט מציין תופעה שהפתיעה אותם בזמן המחקר. בגלל שהטקסט בטוויטר קצר ומוגבל ל-140 תווים, ובגלל שהנמנעים לא מקבלים את כל ההקשר, מביעים אותו בצורה יותר נוקבת שיותר קל לזהות, הוא מסביר. זאת, לעומת טקסטים ארוכים כמו ביקורות שבהם הסרקזם דורש קריאה של כל הטקסט ולפעמים גם

    היכרות עם המוצר - נושא הביקורת.

     

    עברית שפה קשה - לעיבוד

    הטקסטים שנבדקו היו בשפה האנגלית בלבד. מטעמים פרקטיים, לדברי רפופורט. טקסטים בטוויטר, נגישים בעיקר בשפה האנגלית בכמות שמספיקה לבסס עליה מחקר.

     

    האם יש הבדלים בין סרקזם בשפות שונות? רפופורט אומר שבגלל מבנה התחביר השונה בשפות שונות, כך גם הצורה שבה מובע סרקזם הוא שונה, והוא צופה שיקבל אחוזי דיוק שונים בשפות שונות, כאשר יבחן אותן. לא רק זאת אלא שאף באותה שפה יש רמות שונות של סרקזם בטקסטים שונים - נמצאו הבדלים בין בביקורות ספרים מאשר ובמוצרי אלקטרוניקה באנגלית.

     

    יש כוונה לנסות ולבחון את זיהוי הסרקזם גם בשפות שונות בהן גרמנית ואפילו עברית. זאת למרות שעברית "היא השפה הקשה בעולם לעיבוד ממחושב" על פי רפפורט - בין השאר כי אותיות השימוש לא מופרדות מהמילים, למשל במילה "וכשנבוא" ובגלל ההבדלים בין כתיב חסר לכתיב מלא - שלא קיימים בשפות אחרות שבהן אין ניקוד.

     

    יש אוספים עשירים של טקסטים בעברית, אומר רפופורט, ובעקר תרגומים של התנ"ך. אך יש מעט טקסטים בעברית מודרנית שאפשר לנתח. מצד שני, הבניינים וההטיות שיש בעברית מאפשרים יצירתיות מילולית שלא קיימת בשפות אחרות.

     

    נראה אתכם מזהים את זה!

    בשלב זה לא ניתן לנסות את הפיתוח של החוקרים באתר אינטרנט או אמצעי פתוח אחר, ויתכן שהאוניברסיטה אף תמסחר אותו. ובכל זאת, הגולשים שנחשפו למחקר מנסים להעמיד אתגרים בפני החוקרים. אורן צור, שהיה שותף במחקר, סיפר עליהם בבלוג שלו.

     

    המחקר התפרסם באתרים זרים בימים האחרונים וצור כותב כי "בכל אתר שהוזכרנו משתרך שובל ארוך של הערות סרקסטיות שמטילות ספק או מבקשות: "נראה אם תזהו את זה XXX". והנה לנו, אחרי שהמחקר כבר בוצע, אוסף איכותי של דוגמאות אימון חינם אין כסף. מישהו אמר אירוניה?"

     

    לפנייה לכתב/ת
     תגובה חדשה
    הצג:
    אזהרה:
    פעולה זו תמחק את התגובה שהתחלת להקליד
    המחשב ידע אם אתם רציניים. אילסוטרציה
    צילום: Index Open
    פרופ' ארי רפופורט מביה"ס למדעי המחשב באוניברסיטה העברית
    צילום: דגלס גתרי
    מומלצים