שתף קטע נבחר
 

הספינקס של אוניברסיטת קרנגי-מלון לא מפסיק לדבר

פריצת הדרך החדשה ביותר בתחום התרגום היא מחשב שמסוגל ללמוד לבד כל שפה, אפילו קרואטית

באוניברסיטת קרנגי-מלון ביקרנו במעבדה בה מתעסקים בבינה מלאכותית, עם דגש על חיבור שלה לצורה המפורשת ביותר של תבונה אנושית - דיבור בשפה טבעית. אלן בלק, שעומד בראש אחד הפרוייקטים המעניינים של המכון לטכנולוגיות שפה (Language Technologies Institute), לא מנסה לעבור את מבחן טורינג ולכן הוא לא מבקש מהמחשב להמציא את המשפטים שמדמים דו-שיח עם בן אנוש. הוא מניח לשני אנשים לדבר בשפות זרות זו לזו ומבקש מהמחשב "רק" לתרגם ביניהם. לשם כך חיברו החוקרים שלוש מערכות בינה מלאכותית, שביחד מגשרות על פני הפער הלשוני וגם מחברות את הידע והטכניקות של ענפי מחקר שונים במחלקות שונות של המוסד.
תרגום אוטומטי בין שפות זרות אינו דפדוף מהיר במילון אלקטרוני והחלפה של מילים זו בזו. בכל שפה כמעט לכל מילה יש מספר משמעויות, הנבחרות בהקשר של המשפט השלם, שהוא יחידת המידע הבסיסית. למרבית המילים הטיות שונות בהתאם לנסיבות (בעברית, למשל, שלושת אותיות השורש של פעל הם כחומר ביד היוצר והן מקבלות צורות שונות ומשונות לפי הזמנים, הגופים, הבניינים וחוקי היוצאים מהכלל. על כך תוסיפו את אותיות העזר בהתחלת המילה ותבקשו ממחשב למצוא את סידרת המילים באנגלית שמעבירה את התוכן של המילה "ולכשתשדרגנה" - בהנחה ש"שדרוג" היא מילה עברית לגיטימית!) ואין מיפוי מדויק משפה לשפה איך ההטיות מתורגמות ואיך המשמעות משתנה כתוצאה מההטיה. ברמת המשפט חלים חוקי תחביר שונים, שמורכבותם לא נופלת מהמורכבות של הסמנטיקה. ועוד לא נכנסנו לתחום התרבותי של דימויים, השאלות, ביטויים מקובלים (לא בהכרח הגיוניים), רבדים היסטוריים ווריאציות מקומיות-חברתיות של ניבים ומבטאים שונים. הרבה לפני שמחשב יוכל לנהל שיחה עצמאית ולעמוד במבחן טורינג, יצטרכו החוקרים לפתור את סבך הבעיות שקשורות בתרגום טקסט פשוט משפה לשפה גם בלי לטפל באספקט הקולי של השפה - דיבור ושמיעה.
מנוע התרגום של קרנגי-מלון נקרא Tongues והוא מיצג את המצב הנוכחי באומנות הלא-מושלמת של תרגום-מכונה. הוא רחוק מיישום אוניברסלי, אבל גרסאות מסחריות שלו כבר משמשות מספר אתרי תרגום באינטרנט. באתרים אלה אתם יכולים להעלות לשרת קובץ בשפה אחת (מערבית בדרך כלל) ולקבל קובץ מתורגם לשפה אחרת להורדה. התרגום לא ראוי לצריכה אנושית במצבו הגולמי, אבל קורא אינטליגנטי יכול להבין את מה שהמכונה תרגמה בצורה צולעת ולערוך את הטקסט מחדש. באתרים מסוימים אפשר גם להזמין עריכה אנושית של חומר הגלם תמורת תשלום נוסף. כדי להפוך את Tongues למכונת תרגום-דיבור עצמאית וניידת, חיברו החוקרים למנוע שני מודולים לקלט ופלט "אנושי": תוכנת הבנת דיבור בשם Sphinx ותוכנת סינתזה של דיבור בשם Festival.
Sphinx היא פלטפורמת הבנת דיבור "פתוחה", שנמצאת בפיתוח מזה תריסר שנים וכמו Tongues גם היא העניקה השראה למספר גדול של מוצרים מסחריים. במקום אחר בסקירה זו אנו דנים יותר לעומק במורכבות של הבנת דיבור גם כאשר המחשב "מבין" משפטים רק במשמעות המכנית ביותר של המושג הבנה. (למשל, כשהוא שומע את המשפט "כואבת לי הבטן", אין לו מושג מה זה כאב והבטן מוכרת לו רק כחלק נומינלי מהגוף האנושי. אבל ניתוח של מאות אלפי משפטים דומים מעיד על כך שהתגובה הראויה היא "אז לך לרופא" - וזה מה שיגיד המחשב לחולה המדומה). מה שחשוב לזכור הוא, שלימוד מכני הוא תהליך מכני, שמחשבים יכולים לעשות במהירות רבה. ללמד את תוכנת Sphinx קרואטית היה תרגיל שנמשך מספר שבועות, בהם סטודנטים מעטים הזינו את המחשב בכמויות מסיביות של טקסטים כתובים ותרגלו איתו את זיהוי המילים המדוברות.
תוכנת הסינתזה Festival פשוטה יותר להבנה וליישום, משום שהיא צריכה בעצם רק ללמוד את חוקי ההגייה של מילים כתובות ולתרגל את ההטעמה הראויה לכל שפה חדשה. מה שקשה באמת זה השלב בו צריך ללמד את המערכת לתרגם משפטים שלמים משפה לשפה. הטכניקה שאומצה לכך נקראת "תרגום מבוסס-דוגמאות". החוקרים הזינו את Tongues בטקסטים זהים באנגלית ובקרואטית מתוך אתרים דו-לשוניים באינטרנט. התוכנה ניתחה את המשפטים מבחינה סטטיסטית ולמדה כך איך להתאים בין צורות התבטאות אופייניות לשפות השונות. את כל שלושת התוכנות דחסו החוקרים לנפח הדיסק של מחשב מחברת ויצאו לקרואטיה לבדוק איך זה עובד במציאות. בשיחות עם אנשים ברחוב המחשב תרגם משפט ממוצע, שאורכו כ-10 שניות, תוך דקה וחצי וב-50 אחוז מהשיחות המקומיים הבינו את השאלה והחוקרים השיגו את המידע המבוקש - כמו הוראות כיוון למסעדות, שעות פתיחה של מוזיאונים ודוגמאות אחרות של שיח תיירים. האתגר עכשיו הוא להאיץ את המערכת פי 10 כדי לקבל תרגום "בזמן אמת", לשפר את ההבנה מ-50 ל-80 אחוז ולכווץ את הגודל הפיזי לממדים של מחשב כף-יד. מטרות אלה יושגו, כנראה, תוך 5-6 שנים.

לפנייה לכתב/ת
 תגובה חדשה
הצג:
אזהרה:
פעולה זו תמחק את התגובה שהתחלת להקליד
צילום: פי סי מגזין
ממציא הספינקס פי סי מגזין
צילום: פי סי מגזין
צילום: פי סי מגזין
מתוך: PC Magazine
צילום: פי סי מגזין
מומלצים