שתף קטע נבחר

עוד שיפור בחיי הגולש העברי

מורפיקס, מנוע חיפוש חדש, מנסה להתגבר על הבעיות שהעברית מציבה בפני הגולשים

עברית שפה קשה ובאינטרנט היא בלתי אפשרית. מפתחי אתרים נאלצים לא אחת לכופף את חוקי הטכנולוגיה, כדי שיחולו גם על שפה השמית המורכבת.
המחפשים ברשת למדו להסתפק במעט. הגולש בעברית נאלץ להסתפק בחיפוש במאגר דל ומוגבל של אתרים, המקוטלגים באינדקסים של האתרים הישראלים הגדולים. בראשית ימי הרשת הסתפקו הגולשים בחיפוש אחר אתרים בנושא או בשם מסוים. הרשת (גם הרשת הישראלית) גדלה בשנים האחרונות והרגלי הגלישה השתכללו. למרות זאת, שיטות החיפוש בעברית נותרו דלות כשהיו.

קשה לחפש, בעיקר בעברית

החיפוש באמצעות אינדקס אתרים רחוק כיום מלספק שירות טוב ואיכותי. טכנולוגיה החיפוש התפתחה רבות בשנים האחרונות. באמצעות חיפוש באינדקס מחפשים הגולשים אתרי אינטרנט על פי נושא או שם. באמצעות מנוע חיפוש מחפשים הגולשים אחרי מידע מסוים בתוך אתרים.
שני אתרים ישראלים, שביקשו לספק לגולשיהם שירותי חיפוש מתקדמים, לא שיפרו במידה ניכרת את חוויית הגלישה של המחפש הישראלי, למרות הכוונות הטובות. וואלה מציע לגולשיו חיפוש ברשת הישראלית באמצעות Spider (ספיידר), שפותח על ידי אלטה ויסטה.
הספיידר, במלים פשוטות, היא תוכנה לחיפוש וקיטלוג אתרים ברשת.
גם אתר נענע פיתח תוכנת ספיידר, להרחבת יכולות החיפוש באתר. דרך דף החיפוש המתקדם באתר ניתן לחפש אתרים פרטיים, אתרים ישראלים, דפים ברשת, חדשות כתבות והודעות בפורומים.
החיפוש ברשת הישראלית, באמצעות וואלה ונענע, מספק תוצר מוגבל למדי. הספיידרים העבריים מציעים למחפשים קישורים שמובילים לדפי אינטרנט לא עדכניים או לקישורים שבורים, לקישורים רבים שמכילים טקסט ולתוצאות שאינן רלוונטיות.
כל אלו מייגעים את תהליך החיפוש ברשת הישראלית ומדמים אותה למגרש גרוטאות מקוון, שבו איתור מציאות אפשרי, אבל מדוע לטרוח?
בעיה נוספת שתורמת לחיפוש המסורבל והלא מדויק ייחודית לחיפוש בעברית, העשירה בנטיות ובצורות איות שונות ובהטמעת מלים ושמות לועזיים בדרכים לא אחידות (מוזיקה-מוסיקה). מנועי החיפוש מתוכנתים לזהות מחרוזות קבועות של אותיות וסימנים. טכנולוגיית חיפוש, שלא תתחשב במבנה הייחודי של העברית, תשמיט תוצאות רלוונטיות, רק בגלל היותן כתובות בהטיה אחרת, בכתיב מלא או חסר או באיות שונה.
הרשת הישראלית תפחה בשנה האחרונה, אתרים חדשים קמו ודפים רבים נוספו. אוצר תכנים זה חסום ברובו לגולש הישראלי ואינו נגיש לאנשים המחפשים מידע.

איך עובד מורפיקס

מורפיקס (Morfix), מנוע חיפוש חדש בעברית שהושק אתמול, אמור למלא חלל שנוצר בתחום החיפוש בעברית. הטכנולוגיה של מורפיקס, שפותח על ידי חברת מלינגו (לשעבר חלק מהמרכז לטכנולוגיה חינוכית), מבוססת על ניתוח מורפולוגי ותחבירי של מלות החיפוש ושל הטקסט באתרי החיפוש. הניתוח מאפשר לזהות את כל צורות הכתיב וההטיה של מלות החיפוש.
ניתן לחפש על פי מילה, שורש, מלים נרדפות או מחרוזת מדויקת. הניתוח המורפולוגי מזהה כל הטיה של מילות החיפוש (אשה/נשים/אשתי/נשותינו) ומזהה שורשים של מילים בכתיב מלא וחסר. מורפיקס בודק את כל אפשריות האיות של שמות לועזיים (למשל, פלסטין ופלשתין) ומנתח כל ערך על פי הקשרו (למשל, חיפוש טיל לא יעלה דף שבו נכתב "הטיל מסים").
מורפיקס מחפש אחר מלים נרדפות, כך שהקלדת טרנספורמטור במקום שנאי עדיין תציג את כל התוצאות המבוקשות. כל זאת ללא צורך בבחירת חיפוש מתקדם.
תוצאות החיפוש מציגות את הקישורים הרלווטיים על פי דירוג, כאשר ערכי החיפוש הקרובים יותר יזכו לציון גבוה יותר. מורפיקס מבוסס על תוכנת ספיידר מורכבת, שיודעת להיכנס גם לתוך דפים דינמיים ומסדי נתונים ברשת הישראלית, בתנאי שמנהלי מסדי הנתונים מאפשרים זאת.
מורפיקס מחפש גם בתוך פורומים, אך כדי להימנע מהצפת המחפשים בגבב השטויות הממלא את הפורומים בישראל, מעסיקה מלינגו עורכת, שתפקידה לנפות מהמאגר הודעות פורומים שאינן "איכותיות".
טכנולוגיית החיפוש משווה בין התוצאות ומוחקת דפים כמעט זהים, כדי למנוע ניפוח מלאכותי של דפי התוצאות. תכונת חיפוש עברית-אנגלית, שמפותחת כעת במלינגו, תאפשר תרגום אוטומטי לאנגלית של שאילתות בעברית ותפנה את החיפוש למנועי חיפוש, כמו Google או אלטה ויסטה. "הגענו למסקנה שלא ישתלם לנו לפתח מנוע חיפוש שיפעל גם עם אתרים באנגלית", אומר יוני נאמן, מנכ"ל מלינגו.
נאמן מבהיר כי השקת גרסת הבטא של מנוע החיפוש אינה מיועדת להתחרות בפורטלים הגדולים, אלא לשתף אתם פעולה. המשא ומתן עם הפורטלים, על הטמעת טכנולוגיית החיפוש של מורפיקס, עדיין לא הגיע לכלל סיכום.
בקרוב תחל מלינגו בפיתוח מנוע בערבית, הדומה לעברית מבחינה מורפולוגית. הפיתוח ייארך שנה עד שנה וחצי. בעתיד מתכוונת מלינגו להוסיף מנועי חיפוש ייעודיים ברשת, למשל מנוע חיפוש ייעודי לדפי חדשות ברשת.
מיחשוב העברית של מורפיקס מבוסס על מילון "רב מלים", שפיתח את תוכנת "רב מלים" ומבוסס על 10 שנים של פיתוח במסגרת מלכ"ר של המרכז לטכנולוגיה חינוכית.
כיום יש במורפיקס 150,000 דפים, והמטרה של מפתחי המנוע היא להגיע לכמיליון דפים תוך חודשיים-שלושה.

רק ברשת הישראלית

הגודל הקטן יחסי של הרשת הישראלית פועל לזכות מלינגו. במקום מיליארדי עמודי אינטרנט, שמנועי החיפוש הבינלאומיים צריכים להתמודד איתם ומכסים חלק קטן מאוד מן הרשת, מורפיקס צריך לכסות את הרשת הישראלית בלבד, שנפחה אינו עולה על כמה מיליוני דפים.
מהו המודל העסקי של מלינגו? עם השקת מנוע החיפוש ברשת מתחילה החברה לשווק גרסה של מנוע החיפוש לאתרי אינטרנט ולרשתות אינטראנט של חברות. הגרסה של מנוע החיפוש לאתרים מתומחרת החל מאלפי דולרים ועד עשרות אלפי דולרים, על פי גודל התנועה באתר.
עיצוב אתר האינטרנט של מורפיקס הוא מינמליסטי ומזכיר את Google בתחילת דרכו. זמן איחזור התוצאות בזמן הבדיקה היה קצר במיוחד. ראוי לציין כי התוצאות שהוצגו בכל השאילתות שהוזנו היו מדויקות ואיכותיות, אם כי גם תכונת ההקשר במנוע חיפוש זה מוגבלת. המנוע לא ידע שהשאילתא "תיירות בבון" מבקשת לאתר מידע תיירותי בעיר הגרמנית ולא דילים ליונק שקרוב לאדם. כמו כן, נראה כי על מלינגו לשפר את רמת הדיוק בדירוג התוצאות. למשל, חיפוש המלים "אהוד ברק" הניב דף תוצאות שאתר משרד ראש הממשלה או אתר הבחירות הלא רשמי של ברק אינו בראשו.
גרסת הרשת של מנוע החיפוש תתבסס על הכנסות מפרסום, כאשר מלינגו תציע למפרסמים ולשותפיה מידע על דפוסי חיפוש של גולשים, בהתבסס על הניתוח המורפולוגי. נוסף על כך פיתחה החברה טכנולוגיית דיבור (Text to Speech), המתבססת על הפקת דיבור אוטומטי לקהל הרחב וכקריין לציבור העיוורים.
מלינגו החלה את דרכה בתוך המרכז לטכנולוגיה חינוכית (מט"ח), בפיתוח מילון ממוחשב לבתי ספר - "רב מילים". לפני מספר חודשים היא נרכשה על ידי בריטניקה קום. כיום היא חברה של בריטניקה ישראל, חברת בת של בריטניקה קום, שכוללת גם את חברת בריטניקה מערכות ידע (לשעבר "ברקת ניהול ידע") ו-BSmart, העוסקת בבניית אתרי תוכן לימודיים לשוק הבינלאומי והישראלי.

לפנייה לכתב/ת
 תגובה חדשה
הצג:
אזהרה:
פעולה זו תמחק את התגובה שהתחלת להקליד
מומלצים