שתף קטע נבחר
הכי מטוקבקות

    פרופ' משה קופל

    תוכנה המזהה את המגדר של הכותב ע"פ ניתוח הכתב

    התוכנה שפיתח קופל מנתחת הרכב טקסט ולפיו מזהה מאפיינים של הכותב. באמצעות התוכנה, ניתן לזהות את מגדר הכותב, במידה ואנגלית אינה שפת האם שלו, ניתן לזהות איזו שפה הוא דובר (ע"י ניתוח טקסט שכתב באנגלית). בנוסף, ניתן לקבוע האם טקסטים נכתבו ע"י אותו אדם ע"י זיהוי הסגנון שלו.

    התוכנה היא תוצר של ניתוח שעשה קופל להמון טקסטים. הוא חיפש מאפיינים סגנוניים בכתיבה נשית וגברית, והתעלם לחלוטין מתוכן הכתוב. הוא מצא שנשים משתמשות יותר במילות קישור וחיבור כמו the, it, but וכו', הן משתמשות יותר בכינויים ובמילות שלילה. גברים, לעומת זאת נוטים להשתמש במילים ספציפיות כמו this, that וכו', בנוסף, גברים משתמשים יותר במספרים. התוכנה בודקת את שכיחות המילים האופייניות לכל מגדר וקובעת, לפי נוסחה שהוגדרה, את מגדרו של הכותב.

    כדי לזהות מהי שפת האם של הכותב ניתחו טעויות נפוצות בטקסטים באנגלית שנכתבו ע"י אנשים בעלי שפות אם שונות. הם גילו שדוברי רוסית נוטים לדלג על ה הידיעה, הצרפתים ממציאים מילים חדשות שהסיומת שלהן היא ly, והספרדים לא משתמשים בצורה to ז"א במקום לכתוב to go הם יסתפקו ב- go.

    בנוסף, התוכנה יכולה לנתח האם טקסט הוא חיובי או שלילי. באמצעות ניתוח מילות מפתח ניתן לסרוק המון טקסטים ולקבוע למשל מידת פופולריות של אדם או מוצר. התוכנה יכולה לסרוק במהירות צ'טים או בלוגים באינטרנט ולתת תמונה מהימנה לגבי מידת האהדה שזוכה בה אדם. ביישום הזה של התוכנה מתעניינים אנשי שיווק רבים.

     

    בעקבות המצאתו, פנו אל קופל כלי תקשורת בעולם שביקשו לבחון את התוכנה. באחד הראיונות, הוא קיבל שלושה טקסטים, התוכנה זיהתה שאחד מהם נכתב ע"י גבר, השני על ידי אישה ובטקסט השלישי הבחינה התוכנה שהטקסט נכתב ע"י גבר שכותב בכוונה בסגנון של אישה. התברר שהוא נכתב ע"י טרנסג'נדר.

    במקרה אחר, הוא קיבל שני טקסטים והתוכנה קבעה שהם נכתבו ע"י אישה. התברר שהראשון היה של ג'ורג' אליוט - שם עט של אישה שכתבה במאה ה- 19 תחת שם של גבר. הטקסט השני היה קטע מסיפור של המינגווי שבו הדוברת הראשית היא אישה. כשהסירו את דברי האישה וניתחו רק את מלותיו של המינגווי קבעה התוכנה שמדובר בגבר.

     

    אחת התעלומות שנפתרו באמצעות תוכנת המחשב עסקה בכתביו של הרב בן איש- חי, שהיה הרב הראשי בבגדד לפני 100שנים. הוא פרסם ספר וטען שזה ספר שהיה גנוז והוא מצא ופרסם אותו, אך לא כתב אותו בעצמו. התוכנה, שמסוגלת להשוות בין טקסטים ולקבוע האם הם נכתבו ע"י אותו אדם, קבעה שלמרות שהוא לא הודה בכך, הרב בן איש- חי אכן כתב את אותו ספר. ליישום זה של התוכנה חשיבות רבה משום שקיימים המון טקסטים שלא ניתן לדעת בוודאות מי כתב אותם.

     

    פרופ' משה קופל, מאונ' בר אילן התארח בתכנית מספר 136

    פורסם לראשונה 01/09/2004 11:12

     

    לפנייה לכתב/ת
     תגובה חדשה
    הצג:
    אזהרה:
    פעולה זו תמחק את התגובה שהתחלת להקליד
    באדיבות "חדשות המדע" ערוץ 8
    פרופ' משה קופל
    באדיבות "חדשות המדע" ערוץ 8
    באדיבות "חדשות המדע" ערוץ 8
    תוכנה לזיהוי מיגדרי באמצעות סגנון כתיבה
    באדיבות "חדשות המדע" ערוץ 8
    באדיבות "חדשות המדע" ערוץ 8
    האם ג'ורג' אליוט הייתה עומדת במבחן?
    באדיבות "חדשות המדע" ערוץ 8
    מומלצים