דיגיטל  אינטרנט
קל למצוא, קשה לחפש
פרופ' יעקב שויקה
פורסם: 28.02.02, 17:46
תגובה לכתבה תגובה לכתבה
הדפיסו את התגובות הדפיסו את התגובות
חזרה לכתבה
לכתבה זו התפרסמו 36 תגובות ב-36 דיונים
1. מנוע חיפוש לא אמור לענות על שאלות
יאיר   (28.02.02)
אלא לנווט את הגולש למקום בו הוא יולכ לקבל אינפורמציה. אסור שמנוע חיפוש יידע לענות לך כמה נגמר בדרבי - בשביל זה יש אתרי ספורט. אתה מתכוון לסוכנות מידע, וכאלה כבר יש.
2. יופי !
ע.   (28.02.02)
3. נכון, אבל..
בועז   (28.02.02)
ניתוח מורפולוגי של שאילתות הוא חשוב, אך משתמש אינטיליגנטי יכול להסתדר בלעדיו באמצעות ניסוח של שאילתות מעט יותר ארוכות. ניתוח תחבירי אינטליגנטי של שאילתות שום מנוע חיפוש בן ימינו אינו מציע. התכונות שכיום אי פשר בלעדיהן הן: 1. בסיס נתונים גדול ככל האפשר, שיקיף את הנתח הגדול האפשרי של האינטרנט, ושיכלול מידע בפורמטים שונים (pdf, postscript וכו'). 2. אלגוריתמים יעילים ומהירים לחיפוש שממיינים תשובות לפי הרלוונטיות שלהן לכוונה של כותבה השאילתא. למרבה הצער, למרות כל חסרונותיו של גודל, בתכונות הללו אין לו מתחרים של ממש ובפרט בשפה העברית.
4. כתבה מעניינת כל הכבוד
ארנון   (28.02.02)
5. לא לשכוח מה זה מנוע חיפוש!
עידן ,   רעננה   (28.02.02)
מה שאתה כותב עליו, במיוחד בסוף, זה לא מנוע חיפוש אלא משהו משתקדם ממנו בסדר גודל. שאילתות חופשיות שפה טבעית, למשל, זה דבר שלא יודעים לעשות בצורה טובה גם באנגלית. מבחינתי, כרגע צריך בעברית מנוע חיפוש עם גודל בסיס נתונים של גוגל + מורפולוגיה ופונולוגיה בסיסיים. כמובן שגם פה צריך להיזהר.. אם משהו מחפש "התאבדות" אתה לא רוצה להחזיר לו "אבד כלב, המוצא הישיר יבוא על שכרו" וכ"ו.
6. הערה להערה של חיים (1)
חיים ,   ת"א   (28.02.02)
אתה מדבר בעצם על המצב כיום. כיום אין ביכולתנו לשים הגדרת חיפוש למידע ספציפי ורלוונטי. כל צירוף מילים יניב לנו אלפי תשובות, ברובן כלליות ולא רלוונטיות לדרישותינו. הצורך לאתר מידע מבוקש, בודד וספציפי, קיים אך אין לו מענה. ואין זה רלוונטי כלל אם אתה נמצא בדף הספורט, הכלכלה או המדעים. אם תרצה לשלוף מידע איזו קבוצה היתה אלופת אירופה בכדורגל לשנת 1959, כיום תקבל מאות אלפי קישורים לנושא "אירופה", "כדורגל" ו-"אלופה". בעתיד תוכל למצוא מסמך בודד, או מספר מסמכים, בהם נמצאת התשובה הברורה, ובה כיסוי, הסבר, כתבות, תמונות, שירים רלוונטיים למידע הספציפי.
7. הכותב לא מבין מהו מנוע חיפוש. שקודם ילמד, אחר כך יכתוב
halemo ,   ישראל   (28.02.02)
מנוע חיפוש אמור למצוא טקסטים בתוך מליוני מסמכים המכילים את אותו טקסט. מנוע החיפוש גוגל שניתן כאן בדוגמה, הוא אחד ממנועי החיפוש הטובים ביותר ברשת, וזה לא בגלל שהוא מוצא כמעט הכל, אלא גם בגלל שהוא נבנה בצורה חכמה ומנצל חוקים של חיפוש. לדוגמה: אם ברצונך למצוא מילה בודדת, הקש את המילה. אם ברצונך למצוא משפט מדוייק המכיל כמה מילים, כתוב את המשפט כאשר מקיפות אותו מרכאות בימין ומשמאל. לא תקבל משפטים מכילים את חלקי המילים, אלא את המשפט השלם והמדוייק. לגבי חיפוש של סטטיסטיקות, למשל כמה פעמים קבוצת כדורגל ניצחה את רעותה, הרי פה מדובר בחיפוש מידע סטטיסטי מדוייק וזה לא תפקיד של מנוע חיפוש לתת תשובות סטטיסטיות מדוייקות. צריך פשוט לדעת היכן לחפש את המידע הזה. למשל באתרי ספורטי שמחזיקים מידע מדוייק כזה. קיימת כבר שפת פשוטה לחיפוש מידע בבסיסי נתונים שנקראת SQL. אם קיים בסיס נתונים כלשהו המכיל מידע סטטיסטי, SQL יכולה למצוא בשאילתא פשוטה את המידע. אולי זה הסטארט האפ העברי (הכושל) הבא: לפתח מנוע חיפוש למידע סטטיסטי מדוייק. בכל מקרה, רצוי שהכותב יחרוש את כל המידע על מנוע חיפוש גוגל או מנוע חיפוש אחרי וימצא שם את החוקים של החיפוש. זה קל, פשוט וזה יפתור לו את הדילמות...
8. משמעות הדוגמאות המוצגות בכתבה
נועם ,   תל-אביב   (01.03.02)
פרופ' יעקב שויקה מדבר על מנועי חיפוש, אך לא ניתן להתעלם מהדוגמאות בהן הוא משתמש, כמו למשל: "מגדלי תאומים", "מטוס ללא טייס", "פיגועים בקרבת ירושלים", "תאונת פגע וברח", "חטיפת מטוס", "מתי היו פיגועי אוטובוס בירושלים". האם זה, כל מה שאנו הישראלים, מחפשים באינטרנט?
9. Dear Halemo
noe   (01.03.02)
למה להתבזות? לפני שגיבבת את ההודעה השטחית שלך, לא כדאי לבדוק מי הכותב? תציץ שוב למעלה. זה פרופ' שוויקה מבר אילן. לנסות ללמד אותו על איחזור מידע, יהיה מצדך כמו לנסות להסביר לאיינשטיין למה הוא לא מבין את תורת היחסות. תנסה להתאים את התגובות לרמה של המאמר. ובמקרה כמו זה שאינך יכיול. אל תגיב.
10. halemo היהיר וה"גאון"....
שפוי זמנית   (01.03.02)
אין לך שום סיכוי אי פעם להגיע לקרום כף רגלו של הפרופסור המכובד. הבנאדם כתב את המילון הממוחשב היחיד בעברית שמנתח כל מילה (כמעט) מבחינה מורפולוגית. ברגע שזה היה מוכן ועובד בצורה מדהימה ביעילותה, הם המשיכו הלאה לפרוייקטים של הקראת אימייל עברי (כי המחשב יכול להבין עכשיו מה נכתב, עפ"י ניתוח מורפולוגי של המילים בטקסט ובחירה בהגאת המילים הכי הגיוניות מבחינה תחבירית ולוגית). הצעד הבא משם זה לגרום למחשב "להבין" עובדות ע"י "קריאת" מאמרים בעיתון המקוון. וברגע שהעיתונים יעברו לפורמט XML, אז דליית כל פיסה עובדתית תהיה עניין הרבה יותר פשוט מהיום. אם יש מישהו שמסוגל להביא לחיים בינה מלאכותית _אמתית_ לעולם המחשבים העברי בפרט, אז זה הפרופסור הזה, לדעתי. יש לו הבנה _מוצקת_ של איך הדברים צריכים להעשות. 90% מהעבודה כבר נעשתה. המחשב מבין תחביר עברי. עכשיו הוא צריך לשבת ולקרוא את האנציקלופדיה ולתייק את העובדות ע"י אלגוריטם מתוחכם כלשהו. וזה יקרה. כמו כן חן חן לפרופסור על רב מילים המקוון, אני אהיה _הראשון_ מבין לקוחותיכם כשתעברו למתכונת תשלום בזמן הקרוב.
11. אגב, לגבי מנוע החיפוש המושלם
שפוי זמנית ,   ארה"ב   (01.03.02)
יש עוד כמה דברים חיוניים במנוע המושלם, לדוגמא: מעקב אחרי מילות החיפוש שהוכנסו אליו, ובחיפושים יותר מורכבים לשמור את כל "הנסיונות" שעשה גולש כלשהו (במחרוזות חיפוש דומות אבל שונות) עד שמצא את מבוקשו. ברגע שמישהו אחר מכניס אחת ממחרוזת החיפוש שההוא מקודם הכניס ולא מצא את מבוקשו, אז מנוע החיפוש יציע מחרוזת חיפוש דומה, יותר מוצלחת, מניסיון (של אחרים). כמו כן, בנוסף לשיטת הדירוג של גוגל (כמה שיותר אתרים מפנים אליך אתה יותר למעלה), יש לאפשר דירוג בשיטה של דירוג הגולשים. כלומר בכל מחרוזת חיפוש (לא טריביאלית) לאפשר למחפש לסמן למנוע החיפוש איפה הוא מצא בסוף את מבוקשו. אופציה אחרת - דירוג עפ"י כמות הזמן שהגולש בזבז באתר-תוצאת חיפוש אחד לעומת השני, בהנחה שאם הוא מבזבז באתר יותר מאשר שתי דקות, אבל פחות מרבע שעה אז הוא מצא אותו מעניין (או שהוא פשוט הלך לשירותים כמובן..) כמו בכל דבר בעולם, אין שום דבר מושלם. תמיד, אבל תמיד יש מקום לשיפור.
12. יש מנוע
יע ,   תל אביב   (01.03.02)
לחב' מוטיטXט יש מנוע זהה למתואR מזה 4 שנים !!!! לא מאמינים? טל אחד: 5276524-03 !!!!
13. תיקון שגיאה: "לבד מ" ו"מלבד"
אשר לבשן   (01.03.02)
אמנם פרופ' שויקה הוא פרופ' לבלשנות, אך נכשל בלשונו: פירוש "מלבד" הוא "בנוסף ל..". היה לו להשתמש בצירוף "לבד מ..": ... המסמכים שמכילים את המלים "בית ספר" לבד מאלה שמכילים את המילים "בית ספר יסודי".
14. 80 20
רענן אבידור ,   רמת השרון   (01.03.02)
מכירים את חוק ה-80 20? 80 אחוז מהעבודה נעשים ב 20 אחוז מהזמן וה-20 האחוזים הנותרים ב-80 אחוזים הנותרים? הכתבה מתארת את מנוע החיפוש האולטימטיבי. אין כזה. תנו לי לפחות את ה-80 האחוזים הראשונים. אין בעברית מנוע חיפוש אחד נורמלי. עדיף כבר להשתמש ב-Google לחיפוש בעברית.
15. כתבה מצוינת
אופיר ,   רעננה   (01.03.02)
כתבה אינטיליגנטית ומצוינת של אחד המומחים המרשימים ביותר בארץ. ולמגיב מספר 7, בורות היא לא תירוץ. פרופסור שויקה הוא מומחה בקנה מידע עולמי לחיפוש,איחזור , טקסטים ושפה טבעית. הערתך רק חושפת את בורותך ושחצנותך.
16. מצטרף לתגובה של 7
עופר ,   תל-אביב   (01.03.02)
17. תגובה למגיבים
אלי   (01.03.02)
אתם מתבלבלים בין המצב הקיים שכותב הכתבה מבין לאשורו לבין המצב שלדעתו צריכים מנועי החיפוש להתקדם. SQL אינה שפה לחיפוש טקסט, התכונת בודאי לחיפוש בעזרת ביטוי בוליאני.
18. ראיתי מנוע כזה..בחשבשבת נדמה לי
gashash   (02.03.02)
19. להחזיר את "הלמו" לכלא
זהב יקר   (02.03.02)
"הלמו" כותב (תגובה 7): "הכותב לא מבין מהו מנוע חיפוש". פרופ' שוויקה עוסק בחיפוש מידע בטקסטים כבר יותר משלושים שנה, כלומר עוד לפני שהלמו נולד. יש עוד שניים-שלושה או מאתיים-שלוש-מאות דברים שהלמו יכול ללמוד מפרופ' שוויקה. על החוצפה הזאת אני ממליץ להחזיר את הלמו לכלא, ללא הגבלת זמן.
20. אחי גדול! רואים שאתה פרופסור
אבי   (02.03.02)
21. תגובה לשפוי זמנית
יאיר   (02.03.02)
בחיי שבליל שטויות כאלה לא שמעתי כבר זמן רב. מה שאתה מתאר הוא ההפך הגמור מבינה מלאכותית. זה בדיוק הפחד הגדול של כולם, שאנשים יחשבו שאם מחשב ילמד עוד קצת מידע בעל פה הוא יהיה בעל בינה. זאת לא בינה. בינה זה לא להשתמש באלגוריתם שהוכנס לך לחיפוש קרוב ביותר. אתה יכול בכלל להבין את ההבדל? ותאמין לי, שדווקא אנשים כמו הלמו (עם כל הניסיון שיש לו) הם אלה שיודעים מה צריך כי הם לא פרופסורים גדולים ונכבדים שיושבים במגדל השן(למרות שיש לו תואר במחשבים), אלא האנשים שמשתמשים. אם תסתכל טוב על כל ההמצאות וכל הפיתוחים של השנים האחרונות שהצעידו את השוק אלפי צעדים קדימה, הם באו דווקא מאנשים כמו הלמו שהבינו את השטח. מה זה למשל איסיקיו אם לא כמה ילדים שהבינו שצריך תוכנה כזאת. דווקא כל הפרוייקטים של בינה מלאכותית כשלו עד היום כישלון חרוץ, כמו הסטארט אפים של כל הפרופסורים שחושבים שהם יוכלו גם להרוויח כסף כמו הילדים הקטנים. זה הסוד הגדול, רק הילדים הקטנים שחיים את השטח יודעים מה לעשות ואיך. הפרופסורים מנותקים וחבל שאתם לא מבינים את זה. ואני חוזר ואומר (כפי שכתבתי בהודעה מס.1) למנוע חיפוש יש תפקיד אחד חשוב. יש אפליקציות אחרות שמטרתן לענות על שאלות או לעשות דברים אחרים. אם הפרופסור החביב לא יודע את ההבדלים - שישאל את המשתמשים (הלמו למשל). ולגבי רלוונטיות של מנוע חיפוש, הרי שכאן נכנסת הבעיה הגדולה. ייתכן ו-10 אנשים שונים יקישו את המילה: "דוגמנות" למנוע. 3 יחפשו פרטים על סוכנויות דוגמנות, 2 יחפשו מידע על דומגנים ספציפיים ועוד 5 סתם ירצו לראות קצת ציציקים. ככה שמנוע החיפוש לא יוכל לתת לכולם מענה מדוייק. ככה זה, כולנו שונים וכל אחד מאיתנו מחפש דברים שונים בצורות שונות. כמו שלא כולנו בוחרים באותו הפונט בוורד או באותה רזולוציה במסך. המנוע האמיתי יבין את זה ויתן לנו כלים רבים להגדרה עצמית. יענו, מנוע כבקשתך. עד כאן
22. dear noa
יאיר   (02.03.02)
אני מציע לך מאוד להתייחס להודעות לפי תוכנן ולא לפי שם הכותב, תואר כזה או אחר לא מעניק חסינות מטעויות. מה גם שלא סתם ישב מישהו וטרח לכתוב ספר בשם: "המלך הוא עירום". אני לא טוען חלילה כי הפרופסור חסר ידע, אך לא יזיק לאיש לשמוע דיעות ורעיונות חדשים, כפי שכתבתי קודם, בעיקר מאנשי שטח שחיים את הנושא ומשתמשים בו המון. הרי כל החידושים וההמצאות הגיעו דווקא מהאנשים הקטנים.
23. מאז שגוגל בעברית בא אין מקום לתלונות
Retrovertigo   (02.03.02)
הוא פותר את רוב הבעיות. מה הבעיה להקליד "בת ים" במקום בת ים? בקרוב: מנוע חיפוש שקורא מחשבות ומציג אותם בדפדפן שלכם ממש.
24. נכון מאוד
יורם ,   ירושלים   (02.03.02)
מנוע חיפוש עברי עם פכונות פונטיות ועם "הבנה" למורפולוגיה וכו' הוא כלי חיוני. פרופ' שויקה אכן עוסק בנושאים הללו שנים - מדוע לא ציינתם את היותו ראש פרויקט מילון "רב מלים"?
25. תגובה ל- 7
ארז ,   רמת השרון   (02.03.02)
דר' שוויקה לא מבין במנועי חיפוש??? אתה מכיר אותו? הקראת באמת את הכתבה? שמעת אותו פעם? תוכן תגובתך מאשר שוב את הפיתגם "הפוסל במומו פוסל".
26. מנועי חיפוש בעברית ובכלל
פרופ' יהושפט גבעון ,   הרצליה, ישראל   (02.03.02)
סיכום דרישותיו של פרופ' שויקה הוא ממצה וחשוב, אלא שלצערי הושמטו ממנו ההבחנות בין דרישות טכניות פשוטות לבין קשיים עקרוניים הדורשים פתרון של בינה מלאכותית ששום מנוע חיפוש עדיין להצליח למצוא אותו... אפשר לחשוב על פתרונות מקורבים וצריך לדעת שיש גם קשיים עקרוניים..
27. לדעת מנועי חיפוש..
פרופ' יהושפט גבעון ,   הרצליה, ישראל   (02.03.02)
הלמו היקר, פרופ' שויקה פיתח מנועי חיפוש עוד לפני שאתה ידעת מהי מקלדת... והדוגמה שהבאת, גוגל, מראה עד כמה קל להיות מוטעה על ידי מוצר טכנולוגי. אם תבדוק את התוצאות של חיפושים מורכבים או "מתקדמים" במנוע הזה, תגלה שהוא רחוק מאד מלקיים ולו גם עשירית מן הדרישות שניסח פרופ' שויקה..
28. מקצה שיפורים בהצעתו של פרופ' שויקה
פרופ' יהושפט גבעון ,   הרצליה, ישראל   (02.03.02)
ואם כבר מוסיפים הצעות, כדי לחשוב גם על מאפייני תחומי הדעת, שהרי יש מאפיינים שונים לתחומי דעת שונים. למשל, המילים "מכאן", "נובע" ו"נסמן" מאפיינות יותר טקסטים העוסקים במתמטיקה מאשר טקסטים בהסטוריה... ועדיין, למרות כל הבלבול הפוסט-מודרני יש הרבה טקסטים כאלה והם נחוצים לכל מי שעוסק בלימוד של מקצועות רבים...
29. כל הבעיות פתורות "במורפיקס"
ליאורה ,   מודיעין   (03.03.02)
הכתבה של פרופ' שויקה מאלפת. הייתי רק מוסיפה הפניה מתאימה למנוע חיפוש מורפיקס. שם המנוע מדבר על כל הבעיות של שפה עשירה. "מורפיקס" הוא מורפולוגיה ו- "פיקס" כלומר תיקון בעיות מורפולוגיות. מנוע החיפוש מורפיקס מחזיר מרשת האינטרנט את כל המילים ורק את המילים הרלוונטיות, ללא צורך בעיבוד על ידי הגולש. כמו כן, ניתן לחפש על ידי שימוש בתזאורוס, וכמובן שגם עם הסאונדקס, ללא כל מאמץ. פשוט נסו ותוכחו !! www.morfix.co.il
30. תגובה ל-28: "המלך הוא עירום"
זהב יקר   (03.03.02)
יאיר היקר, המשפט שמופיע בתגובתך - לא סתם ישב מישהו וטרח לכתוב ספר בשם: "המלך הוא עירום" - מעיד על בסיס הידע הדל (ואולי עדיף לומר: בסיס הבורות) שעליו אתה יושב. להשכלתך: הביטוי המפורסם "המלך הוא עירום" מופיע באגדה בשם "בגדי המלך החדשים" שכתב הסופר הדני הנודע הנס כריסטיאן אנדרסן. רד לשטח (כלומר לספריה העירונית) והשלם השכלתך.
תגובות נוספות
חזרה לכתבה