שתף קטע נבחר

 

קל למצוא, קשה לחפש

על קשיי החיפוש בשפה העברית וכיצד ייראה מנוע החיפוש העברי המושלם

עבור מנועי חיפוש, אין דבר מורכב יותר משפה טבעית, כלומר, שפת בני האדם, והשפה העברית קשה להם במיוחד.
מנועי חיפוש מתמודדים עם עשרות מיליוני מסמכים בשפה טבעית, שכל אחד מהם מכיל עשרות עד עשרות אלפי מלים. המשתמש רוצה לאתר בהם את רק המידע המבוקש לו בהקשר מסוים.
בשלב זה, מנועי חיפוש בסיסיים מספקים למשתמשים רשימת תוצאות של המסמכים הרלוונטיים ומערכות יותר מתקדמות מציעות להם רק את הקטעים הרלוונטיים מתוך מסמכים אלה. אציין כמה כלים חיוניים לניסוח שאילתא שראויים להופיע בכל מנוע חיפוש בסיסי.

האם מנוע החיפוש מפרש כל מלה בנפרד או מחפש מלים ברצף?

המשתמש מקליד במנוע החיפוש את המלים "מגדלי תאומים". אם מנוע החיפוש יחפש רצף מלים, נקבל בין התוצאות גם את המשפט "התאומים יגאל וצחי הם מגדלי פרחים ידועים". כך פועל מנוע החיפוש "גוגל". אם נקליד בו את המלים "מטוס ללא טייס", נקבל ברשימת התוצאות גם מסמכים שמכילים משפטים כמו "זהו פלא של מטוס, ללא טייס מנוסה". במקרה זה, מנוע החיפוש אינו "מבין" שהמשפט שנמצא שונה מבקשת החיפוש.

האם מנוע החיפוש מאפשר לחפש מלים הסמוכות זו לזו?

נניח שאני רוצה לחפש שתי מלים בקירבה מסוימת זו לזו. מנוע החיפוש אמור לאפשר לי להקליד את המלים "פיגועים בקרבת ירושלים", כאשר "בקרבת" הוא אופרטור שמורה למנוע החיפוש להציג רק מסמכים שכוללים את שתי המלים האלה במרחק של עד 20 מלים זו מזו.

האם מנוע החיפוש מבין צירופי מלים?

אם אקליד במנוע החיפוש שאילתא כמו "תאונת פגע וברח", "בת ים" או "בית ספר", האם המערכת תדע שמדובר בצירופי מלים? נניח שאני מבקש שמנוע החיפוש ימצא את כל המסמכים שמכילים את המלים "בית ספר" מלבד אלה שמכילים את המלים "בית ספר יסודי". רוב מנועי החיפוש לא מספקים כיום את אפשרות החיפוש הזו.

כתיב חסר ומלא ואותיות מתחלפות

אם אקליד במנוע חיפוש את המלה "תוכניות", האם רשימת התוצאות תכלול את כל המסמכים עם "תכניות"? אם אחפש אחר "גראפי", אקבל גם מסמכים עם "גרפי"? מנוע חיפוש בסיסי בעברית אמור לאפשר לי למצוא כל מסמך בכתיב מלא או חסר.

בודק איות

כמה משתמשים יודעים איך כותבים סצנריו? סנריו, צנריו, צנריו ואולי צסנריו? מנוע חיפוש טוב בעברית אמור לכלול בודק איות כמו זה שמשולב בגירסה האנגלית של גוגל? אם אקליד בטעות "מטןס" במנוע חיפוש זה, הוא אמור לשאול אותי "האם התכוונת למטוס?"

מורפולוגיה

מורפו – מבנה, לוגיה – תורה. מבנה המלה בעברית. לכל ערך יסוד בעברית יש עד 2000 צורות הטיה שונות. אם מנוע החיפוש העברי לא ידע לזהות את כל ההטיות האלה, המשתמש שמחפש מידע יקבל 90 אחוז בלבד מכל התוצאות האפשריות.
למשל, הקלדת השאילתה "חטיפת מטוס" במנוע החיפוש תביא להצגת כל המסמכים שכוללים את המלים הללו אך לא מסמכים שבהם המלים האלה מופיעות בהטיה שונה כמו "החטיפה" או "שחטפתי" או "וכשהחטיפות".
אפשר, אמנם, להשתמש באופרטור *, שמורה למנוע החיפוש לאחזר מלה בסיסית יחד עם כל אות נוספת. למשל, אם אקליד במנוע חיפוש את המלה * בית *, רשימת התוצאות תכלול מלים כמו "והבית" ו-"ביתו", וגם מלים לא רצויות כמו "חביתה" ו"תרבית" אך לא מלים רצויות כמו "בתים" ו-"בתיהם". התוצאה – דף תוצאות עם נשורת של מסמכים שחסר מסמכים חשובים.
כדי להתגבר על הבעיות האלה, דרוש מנוע מורפולוגי בסיסי, שמזהה את ערך הייסוד של כל מלה בטקסט ויודע לקשר מלים אחרות אליו. מנוע כזה צריך לזהות את הקשר בין "וכשראוהו" ל"ראה" ובין המלה "ובפיהם" ל"פה".
אבל אולי אין די במנוע מורפולוגי בסיסי. האם מנוע כזה ידע מה ההבדל בין לבנה שמשמשת לבניין בתים לבין לבנה למאכל או לבנה, צבע של תקרה? האם ידע להבדיל בין הרכבת (שמתקרבת לרציף) להרכבת (ארון)? דרוש מנוע חיפוש מורפולוגי חכם שמתחשב בהקשר של המלה, אשר יודע שרכבת שמגיעה לרציף זו רכבת נוסעים.

סאונדקס וחיפוש שאילתות

מנוע חיפוש מתקדם צריך לתמוך בזיהוי פונטי של שמות (סאונדקס), כלומר, מנגנון שמזהה שמות שנשמעים אותו הדבר. כך, משתמש שיקליד "פיזיקה" יוכל לראות ברשימת התוצאות גם מסמכים עם המלה "פיסיקה". כמו כן, מנוע כזה צריך לאפשר לי לשמור שאילתות כדי להשתמש בהן מחדש בעתיד ואף לבצע חיפוש משולב של כמה שאילתות יחד (שאילתא 1 + שאילתא 2 + שאילתא 3).

תזאורוס והדגשת מלים


האם מנוע החיפוש כולל תזאורוס? האם התזאורוס מאפשר למשתמש להוסיף לו מושגים ולערוך בו שינויים? למשל, כאשר אני מקליד בוורד את המלה "בכבוד", היישום מיד מנחש אותי ומוסיף "ומקרב לב". אין זה רצוי שהתזאורוס יכפה את רצונו על המשתמש. נוסף על כך, מנוע חיפוש בעברית חייב להדגיש או לצבוע את מלות השאילתא במסמכים שנמצאו. מדובר בתכונה טריוויאלית אך היא עדיין אינה קיים במנועי חיפוש בעברית.

אשכולות של נושאים


מנוע חיפוש טוב כולל בדף התוצאות גם אשכולות של מסמכים על פי נושאים, נוסף על רשימת המסמכים שנמצאו, כפי שניתן לראות במנוע החיפוש "ויויסימו". האם מנוע החיפוש מאפשר לי לחפש מסמכים שדומים למסמך שנמצא? (תכונה שקיימת בגוגל).

העבר והעתיד


מנועי החיפוש הראשונים אפשרו לנו להקליד שאילתות ואחזרו הפניות למסמכים. אז, בשנות ה70, הלכנו עם ההפניות הללו לספריה העירונית כדי לשלוף את המידע. מנועי החיפוש בשנות ה80 כבר אפשרו לאתר מסמכים בתוך המערכת, ובעתיד, אני מצפה שמנועי חיפוש לא יציגו רשימה של מסמכים אלא יספקו לנו את המידע המבוקש באופן ישיר.
למשל, אם אקליד כיום שאלה בנוסח "מתי היו פיגועי אוטובוס בירושלים", מנועי החיפוש יאחזרו דף תוצאות עם 13 מסמכים רלוונטיים. מנועי החיפוש העתידיים יציגו לי רשימת פיגועים עם תאריכים.
כאשר נשאל את מנוע החיפוש העתידי "איזו קבוצת כדורגל ישראלית נצחה את צ'לסי" או "כמה פעמים נפגש עמרי שרון עם ערפאת", נצפה ממנו בעתיד לספק לנו תשובה קצרה -– למשל, "ארבע פעמים".

דברים שנשא פרופ' יעקב שויקה במסגרת ההרצאה "אחזור מידע – מורה נבוכים למשתמש הישראלי" ב-20 בפברואר במלון שרתון סיטי טאואר ברמת גן, לרגל השקת מנוע החיפוש הארגוני Verity בשפה העברית. פרופ' יעקב שויקה, מאוניברסיטת בר אילן, הוא בעל ניסיון רב בעיבוד ממחושב של שפות טבעיות, ובמיוחד של עברית, והוא מאבות המחקר בתחום בישראל.

.

לפנייה לכתב/ת
 תגובה חדשה
הצג:
אזהרה:
פעולה זו תמחק את התגובה שהתחלת להקליד
עברית קשה שפה, גם באינטרנט
מומלצים