באילו נסיבות הדרך היחידה שלנו לתקשר היא דיבור? המצב השכיח ביותר הוא שיחת טלפון. לדוגמה, שירות המודיעין הטלפוני של ארצות הברית מטפל במיליארדים רבים של קריאות בשנה - כולן מאותו סוג (בקשה למציאת מספר טלפון). כיום נדרשים אנשים כדי לבצע כל חיפוש כזה, והתקציב הנדרש לצורך משכורת, הדרכה, משרדים וכו' הוא גדול מספיק כדי להוות אבן שואבת לכל מי שיוכל להחליף אנשים אלה בשירות ממוחשב.
החלפה כזו תוכל לתרום לא רק לספק השירות אלא גם למקבל השירות: מידע זול יותר המתקבל בצורה נוחה ומהירה יותר. בארצות הברית כבר פועל שירות כזה, בחיוג למספר 1-800-555-1212. כמה ארגונים גדולים מפעילים כלים דומים. לדוגמה, כמה חברות תעופה מפעילות בשנים האחרונות שירות טלפוני שעונה לשאלות כמו "מתי מגיעה טיסה XY311?", או "מה מזג האוויר בבוסטון?".
שירותים כאלה מחליפים כוח אדם אנושי, ובכך מורידים עלות כל שיחה מכשלושה דולר לפחות מעשרים סנט. הם גם מחליפים שירותים ממוחשבים המבוססים על תפריטים ("לחץ 1 למידע על מזג אוויר; לחץ 2 למידע על נחיתות"), שאינם אהודים על הציבור.
מדוע טכנולוגיה המצליחה לבצע משימות כאלה נכשלת בדרך כלל במשימות של הכתבת טקסט? עיקר התשובה נעוץ במגוון המצומצם של אינטראקציות אפשריות בין האדם לבין התוכנה. אם 90% מכל הפניות לקו טלפון מסוים של חברת תעופה עוסקות בלוחות זמנים, אז אפשר ליצור רשימה קצרה של טקסטים שעשויים להיאמר, ולהדריך את המחשב איך לטפל בכל צורה כזו.
לרשימה כזו של פניות ומשמעויותיהן נהוג להתייחס כשפה מצומצמת עם דקדוק קטן ומוגדר היטב. קיום שפה מצומצמת כזו הוא התנאי לשימוש מוצלח בטכנולוגיות הבנת הדיבור של היום. לכל פנייה החורגת מדקדוק זה תענה התוכנה כי הבקשה לא הובנה, וכאן קיימת הזדמנות להסביר לפונה באיזה שאלות יודעת התוכנה לטפל, ולהציע העברת השיחה לנציג שירות אנושי.
כאשר כל פרט הוא קריטי
הסיבות לשימוש בדיאלוג קולי בפרוייקט קלאריסה ממחישות סוג אחר של צרכים: למרות שהאסטרונאוט נמצא בקרבת מחשב, הוא עסוק בתפעול מערכות מורכבות כמו איסוף וניתוח דגימות אספקת המים של תחנת החלל, או בדיקת חליפות חלל. מטלות כאלו הן מורכבות ודורשות ריכוז והקפדה. עד להפעלת קלאריסה, אסטרונאוטים היו קוראים מסמכים ארוכים של הוראות ביצוע לכל מטלה, ומוודאים ביצוע כל צעד.
תהליך זה הוא מייגע ודורש העברה תכופה של תשומת הלב בין המכשור המשמש למשימה לבין הנייר או צג המחשב שעליהם מופיעות ההוראות, והוא נעשה אפילו קשה יותר בתנאים של נפילה חופשית, כאשר האסטרונאוט, המחשב והציוד "צפים" בחדר. הממשק הקולי מאפשר לאסטרונאוט לקבל הדרכה מפורטת לכל צעד בלי להסיר את עיניו מהמכשור, לומר את תוצאות המדידות שהוא מבצע, כמו גם לקפוץ לחלק אחר של המסמך ולחזור למקום שבו היה.
קלאריסה מגיעה לרמה גבוהה של אמינות, אבל היא לפעמים טועה בהבנת הבקשות שמפנים אליה האסטרונאוטים - אחרי הכל, גם בשיחה בין בני אדם מתגלעות אי-הבנות. בצורה דומה להתאוששות מאי-הבנות בשיחות אנושיות, האסטרונאוט יכול לגלות טעויות לפי תגובתה של קלאריסה לדבריו, ולתקנן על ידי אמירה כמו "לא, דלגי לצעד 14".
מעניינת במיוחד הדרך שבה בחרה נאס"א להחליט מתי אמירה מסוימת מופנית לקלאריסה. אין צורך בסירבול של אמירת מלה מיוחדת בתחילת המשפט - קלאריסה פועלת עם "מיקרופון פתוח" ומנסה לפענח כל מה שנאמר בסביבתה. נאס"א, בשיתוף עם חוקרים מחברת XEROX, הקדישה מאמץ מיוחד להבדלה אוטומטית בין משפטים המופנים לקלאריסה לבין כל אמירה אחרת. הפתרון שנבחר מבוסס על רעיונות שהוכיחו את כוחם בסינון דואר אלקטרוני וזיהוי "דואר זבל" (ראו "הכומר והבינה ההסתברותית").
כל משפט מועבר דרך מסנן המעריך את ההסתברות כי משפט זה אכן דורש התייחסות. המסנן פועל על ידי למידה של משפטים שסיווגם (כרלוונטיים או לא) כבר ידוע, ואיסוף סטטיסטיקות על השכיחות של הופעת מילים וצירופי מילים שונים בכל סוג של משפט.
מחשבים מדברים - ומחשבים מקשיבים - כבר ממלאים צרכים חשובים, מתהליכים יום-יומיים כמו חיפוש מספר טלפון ועד תהליכים הקריטיים לחיי אדם כמו וידוא תקינות חליפות חלל. בעוד זמן לא רב, נראה שלביטוי "דבר אל הקירות" תהיה משמעות שונה לגמרי ממשמעותו כיום.