הטכנולוגיות החמות: כריית טקסט

מסקנות ועדת החקירה של הקונגרס האמריקאי לבדיקת מחדלי המודיעין במניעת אירועי ה-11 לספטמבר 2001 חשפו את מה שכל בירוקרט מנסה להסתיר. המערכת קיבלה מספיק פיסות מידע מבודדות, שהיו צריכות לעורר את פעמוני האזעקה בזמן, אבל אף אחד לא חיבר את הפיסות זו לזו על מנת להתרשם מהתמונה הכוללת

PC Magazine פורסם: 25.08.03, 20:17

מסקנות ועדת החקירה של הקונגרס האמריקאי לבדיקת מחדלי המודיעין במניעת אירועי ה-11 לספטמבר 2001 חשפו את מה שכל בירוקרט מנסה להסתיר. המערכת קיבלה מספיק פיסות מידע מבודדות, שהיו צריכות לעורר את פעמוני האזעקה בזמן, אבל אף אחד לא חיבר את הפיסות זו לזו על מנת להתרשם מהתמונה הכוללת - משום שכל אחת לחוד לא הייתה מספיק מבהילה כדי להצדיק (בעיני הבירוקרטים לפחות) יציאה מהשגרה.

 

זיהוי תבניות

 

למוח האנושי יש יכולת מופלאה לזהות תבניות, לקלוט משמעות ולחבר סדרה של רמזים להוכחה משכנעת אחת, אבל הוא מאוד מוגבל מבחינת כמות המידע שהוא מסוגל לעבד בזמן נתון. מחשבים יכולים לטחון, לגרוס, לעבד וללוש מידע אלפי פעמים מהר יותר, אבל קשה להם לראות את מה שכל תינוק קולט מגיל אפס כמעט.

 

צריך ללמד אותם, במיליוני שורות קוד ובסיוע טרה-בייטים של דוגמאות, את מה שהאבולוציה הטמיעה במוח הביולוגי מכוח הברירה הטבעית. למרות זאת, המסקנה המרכזית של דו"ח הוועדה היא, שיש צורך בפיתוח מערכת מחשב (או, ריאלי יותר, Grid של מחשבים)

המסוגלת למצות משמעות מתוך ניתוח מילולי של כל מקורות המודיעין.

 

כמו כורה במעבה האדמה

 

זן התוכנות שאמורות למצות משמעות מטקסטים קרוי "כריית טקסט" (Text Mining). הדימוי של מכרה מגיע מתוכנות ה-Data Mining, המשמשות למיצוי תובנות עסקיות מתוך נתונים מספריים. כמו כורה במעבה האדמה, התוכנה אמורה לחפור כחפרפרת בהרים של נתונים חסרי משמעות כדי לזהות "יהלומים" רבי-ערך המתגלים באקראי.

 

בניגוד לחיפוש מידע במסד נתונים ממוין ומסווג, תהליך הכרייה לא יכול להיעזר באינדקסים ובמראי-מקום מקוטלגים מראש. צריך לקחת כל נתון בפני עצמו - כל מילה במקרה של Text Mining - ולבחון אותו בחינה סמנטית, כלומר מה פירוש המילה הבודדת, ובאיזה הקשר הוא מופיע.

 

היררכיה של הבנה

 

אחר כך צריך לבחון את ההקשרים ביחס לתבניות ידועות של משמעות, שזו הצורה בה אנו מבינים משפטים שלמים ומסוגלים להבין את משמעותם גם אם לא כל המילים מוכרות לנו. (כל מי שקורא טקסט בשפה שהוא מכיר רק חלקית יודע זאת. אפשר להבין את העיקר בלי לחפש במילון כל מילה חדשה).

 

בצורה דומה בונים היררכיה של הבנה. ממילים למשפטים, ממשפטים לפסקאות, מפסקאות למסמכים, וממסמכים לתיקי חקירה. בכל רובד היררכי נעשה מיצוי משמעות של הפרטים שנחשפו ברובד הנמוך יותר וקווי המתאר של התמונה הכללית מתחזקים על חשבון "הפיקסלים" הבודדים.

 

מתי הפעמונים יצלצלו

 

למשל, התוכנה צריכה לדעת לזהות ולשלוף ממשפט ארוך מילה שמציינת שם, קבוצת מילים שאומרת מספר וקבוצה אחרת שמזוהה כשעה, על מנת להבין שמדובר בשיחת טלפון (כנראה). ממשפטים אחרים שנותחו בצורה דומה, רובד הבנת הפסקה צריך למצות את הניחוש הסביר לגבי נושא השיחה, הדחיפות שלה, ואפילו אם הושגו בה הסכמות כלשהן (בלי להבין דבר, רק פשוט מתוך ניתוח סמנטי שמתייחס לשימוש במילים בעלות תוכן חיובי, כמו "כן", "מסכים" "טוב" וכדומה).

 

ברובד המסמך אמור להתברר הקשר בין השיחה, שכנראה התרחשה, והסברה שכנראה התקבלו בה הסכמות שונות, לבין מה שיכול להיות הנושא או המושא שלה. שוב, לא בטוח שכל פרט נכון אבל קל לראות את התבנית וליחס לה משמעות סבירה. מספר טיסה לבדו אינו נתון חשוד, וגם המילה אולר לבדה נשמעת די תמימה, אבל כאשר השניים נאמרים בהקשר זה לזו, גם המחשב האטום ביותר צריך להידרך. ואם השיחה התקיימה עם מישהו שקיבל לא מזמן רשיון טיסה, או ששהותו במדינה מפוקפקת, נורות ההתראה צריכות להבהב והפעמונים לצלצל.

 

לרכישה מעל המדף

 

מיצוי משמעות מטקסט לא מפורמט הוא תחום העיסוק של מספר חברות צעירות, דוגמת Autonomy ו-ClearForest, ושל כמה ממרכזי המחקר התעשייתיים המפורסמים ביותר, כמו Bell Labs ו-PARC. קונספטואלית מדובר בהרחבת הטכניקות של זיהוי טקסט וזיהוי דיבור, שאתם מכירים ממוצרים מסחריים, דוגמת ViaVoice של יבמ, וזמינים לרכישה "מעל למדף". במוצרים אלה עקרון הזיהוי הוא סטטיסטי.

 

אחרי שמפתחי התוכנה ניתחו אלפי שעות דיבור, מאות אלפי עמודי טקסט ומיליוני מילים בעשרות שפות, נוצרו התבניות לפיהן התוכנה מסוגלת לשייך משמעות למקבצים מסוימים של מילים. רוב הטכנולוגיה הספציפית לכריית משמעות מודיעינית מניתוח טקסט נשארה סודית ביותר, כמובן, ולכן רבים המפקפקים ביעילות הגישה. במיוחד אם רוצים ליישם אותה בצורה גורפת, ללא התמקדות מראש על אנשים חשודים או אירועים מחשידים.

 

טרה בייט ליום

 

הכוונה המקורית של מפתחי הרעיון הייתה לסנן במערכת כריית הטקסט את כל מה שעובר בדואר האלקטרוני דרך כל שרתי הדואר הציבוריים בארה"ב. מדובר, בהערכה זהירה, בסדר גודל של טרה-בייט ליום. אין בעיה לערוך חיפוש פשוט בכמות כזאת של מידע, אבל ניתוח טקסט דורש כמה סדרי גודל נוספים של עוצמת מחשב.

 

למעשה, כל רובד נוסף של תימצות והפקת רמזים ברמה גבוהה יותר של מיקוד מכפיל את מורכבות הבעיה פי אלף לפחות. הקושי האמיתי אינו ברבדים הבסיסיים יותר, שם הסטטיסטיקה עובדת לא רע, אלא כאשר התוכנה צריכה לקלוט את התמונה כולה ולסמן את התיקים שדורשים מבט אנושי ואינטליגנציה אמיתית. מכל מאות מיליוני ההודעות שהמערכת תבחן מידי יום יהיה עליה לברור את העשרות או המאות שיובאו לתשומת-לב של אנליסטים בשר ודם.

 

עוצמה דמיונית

 

לשם כך נדרשת כמות דמיונית של עוצמת מחשב, שהדרך היחידה לממש אותה היא במערך Grid עצום, המקיף אלפי מחשבים המותקנים בכל נקודות הגישה של אינטרנט. זה אפשרי ויצרני המחשבים אפילו מחייכים בצפייה לגל ההזמנות של חומרה חדשה. אבל הספקנים לא השתכנעו ובמקום לראות סיכוי למלחמה בטרור הם רואים סיכון לזכויות הפרט. והם לא שוכחים להזכיר, שכל תוכנת הצפנה פשוטה יכולה להכשיל את המערכת הגרנדיוזית. לביון אנושי, כפי שהאמריקאים לומדים בעיראק בדרך הקשה, אין תחליף. גם אם המחיר הכספי אינו מהווה שיקול.