מתי הטלפון הסלולרי יבין אותנו?

הקלדת הודעות SMS היא עדיין מלאכה קשה. למה הטלפון לא יכול להבין את שפת בעליו גם מבלי שיידבר בצורה ברורה וממקום שקט?

איתן פיטוסיפורסם: 29.05.06 , 11:40

הקלדת הודעות באמצעות הטלפון הקטנטן היא עדיין משימה מייגעת ומעצבנת. מנגנון השלמת המילים האוטומטי והמקלדות המלאות, שנכללות כיום בטלפונים מסוימים, מנסים להקל עלינו, אבל זה לא מספיק. למה, לעזאזל, אי אפשר פשוט לדבר אליו? לא הגיע הזמן שהטלפון יתחיל להקשיב לנו?

טכנולוגיית הזיהוי הקולי תמיד הייתה "הדבר הבא", ונדמה שתמיד תישאר כך. העיכוב נובע מהפער שבין הציפייה לפריצת דרך בתחום, לבין המציאות האכזרית, שעיקרה שיפור בלבד של טכנולוגיה קיימת, שנכונה לרוב ענפי הבינה המלאכותית.

הציפייה לפתח מערכות בעלות יכולת אינטלקטואלית של ממש "להבנת" המשתמש התרסקה אל קרקע המציאות. זו מכתיבה כיום שיטות מתוחכמות יותר של זיהוי תבניות, ואלגוריתמים יעילים יותר, אבל לא מכילה אף קמצוץ של מה שנהוג לכנות "הבנה".

זיהוי קול מוגבל

לרשותן של מערכות הזיהוי הקולי עומדים היום משאבים, שלפני עשור נחשבו דמיוניים. אף שאינן חפות מטעויות, המערכות הללו מבצעות משימות באיכות זיהוי קול משביעת רצון. הבעיה היא, שהמערכות הקיימות יכולות לזהות את קולנו בטווח פעולות מוגבל יחסית – למשל, לשם חיוג קולי של מספר טלפון.

טלפון הרכב של מוטורולה, הספיריט, לדוגמה, מצויד ביכולת חיוג קולי, שיודעת לקלוט רצף של מספרים בלי להכיר את תבנית הקול של המשתמש, וגם אם הספרות נאמרו ללא הפסקות בין סיפרה לסיפרה. מערכת עדכנית תוכל בוודאי להגיע לאחוזי דיוק טובים יותר בתנאים סביבתיים טובים פחות, אבל גם היכולת הנוכחית של הספיריט מרשימה לטובה.

דיאלוג ממוקד

גישת זיהוי אחרת היא "למידת" המשתמש, לימוד העדפותיו, והיעזרות במידע נוסף כדי לספק איכות זיהוי גבוהה יותר. פתרונות מהסוג הזה אמנם השתפרו בשנים האחרונות, אבל עדיין מתקשים לשרת כמות עצומה של משתמשים, כמו משתמשי הסלולר.

הפתרון שמציעות המערכות הנוכחיות הוא צמצום טווח הבעיה. כך, למשל, מרכז הקולנוע סינמה סיטי השיק שירות טלפוני חדש להזמנת כרטיסי קולנוע באמצעות דיבור, בלי לנווט בין תפריטים. המערכת מפנה למתקשר סדרה של שאלות כדי למקד את טווח האפשרויות. המתקשר משיב בקולו איזה סרט ירצה לראות, מתי, ולכמה כרטיסים הוא זקוק – וכך משלים את הליך ההזמנה.

בתחום הסלולרי קשה לממש זיהוי אישי שמבוסס על למידת המשתמש. לעתים קרובות, המשתמש מתקשר ממקום רועש (למשל, במהלך נסיעה) – עובדה המקשה על יכולת הזיהוי. לצורך זיהוי קול ספציפי והבנתו מכל מצב ייאלצו מערכות הזיהוי לצפות מראש למה הוא זקוק, כדי להגיע לאחוזי זיהוי מכובדים.

מערכת הניווט הקולי של פלאפון, למשל, גורמת למשתמש להתמקד: הוא מתבקש לבחור עיר, רחוב ומספר. התהליך מתנהל בצורה של דו שיח, שבכל שלב המשתמש בוחר פרט נוסף, שיקל על זיהוי הפרט הבא. מעט מסורבל, אבל יעיל.

הקץ לאותיות הקטנות

חברת סטארט אפ קטנה בשם סימנטריקס (SEMANTRICS) מנסה לפתח ממשק קולי אינטואיטיבי, שיאפשר למשתמש לדבר עם המערכת באופן טבעי וזורם, במקום דו שיח שפוגע בשטף ההפעלה. את היעד הזה מקווה החברה להשיג, בין השאר, בעזרת פירוק המידע הקולי להברות או לחלקי מילים.

בסימנטריקס טוענים לשיפור של כ-10 אחוזים בדיוק המעבר מקלט קולי להברות. ההישג המשמעותי בטכנולוגיה שלהם מתבטא במה שמוגדר על ידם כ"הבנת השפה הטבעית": תוך כדי פעילות לומדת המערכת כל העת מבני משפט מורכבים יותר ויותר, ומסוגלת לזהות אפילו משפטים שאינם נכונים מבחינה דקדוקית פורמאלית. בשלב הראשון יבקש הממשק מהמשתמש להקריא ברצף שם עיר, רחוב ומספר. בשלב הבא היא תבין משפטים בנוסח "אני רוצה להגיע ל..." או "נוסע לרחוב ז'בוטינסקי 11 בתל אביב".

לא מחייב שימוש בתבניות משפט בסיסיות

הזיהוי עצמו מבוסס על "הבנה" של קונטקסט ארוך של משפט או מספר משפטים, ולא מחייב את המשתמש להשמיע תבניות משפט בסיסיות או מוגדרות מראש. כרגע עובדת סימנטריקס על גירסת ניסוי עבור טלמאפ, שעומדת מאחורי מערכות הניווט הלווייני של סלקום, פלאפון ומירס.

בחברה מעונינים להרחיב את הזיהוי כך שנוכל לשלוח גם הודעות SMS בשפה מדוברת, בלי להדגיש את המילים בהטעמה מיוחדת אלא ברצף ובקול טבעי לחלוטין.

בסופו של דבר, יש לקוות, הטכנולוגיה הזו וטכנולוגיות דומות יהפכו את מיומנות הלחיצה על האותיות הקטנות של הטלפון להיסטוריה.

מצאתם טעות בכתבה? כתבו לנו