מרושתים

למה רעיון הרשת הסמנטית עדיין לא ממריא?

ד"ר אשר עידן, בלוג "מרושתים"פורסם: 10.10.07 , 11:07

Web 3.0 הסמנטי כבר לא ממריא מזה כ-7 שנים. חברות ווב 2.0 לעומת זאת, כמו גוגל, Facebook ו-MySpace, כבר שוות מיליארדים.

מאמרי זה יצביע על הבעיה המרכזית של ווב 3.0 ואחר כך יעבור לפתרון הבעיה: Web 3.1, שמוסיף סינטקס (תחביר) ופרגמטיקה (הקשר וכוונות) לווב הסמנטי. מבנה העומק התחבירי וכוונות עומק מצביעות על הצורך להבין את הצדדים הלא מודעים של השפה.

מהם האלגוריתמים של התת-מודע?

לפי טים ברנרס לי, המייסד של ווב 1.0 ו-ווב 3.0, הווב הסמנטי מבוסס על שתי הנחות יסוד: משמעויות מילוניות יתורגמו לתת מערכות של XML כדי שייהפכו ל"שפות שמחשב מבין". היחסים בין מילים בהקשרים שונים יתורגמו לטקסונומיות (מערכות מיון), כמו למשל מערכת מיון של מזון שמתחלקת לשתי תת מערכות של מזון מזרחי ומזון אשכנזי, מזון

מזרחי מתחלק למזון תימני, עיראקי, תוניסאי וכו'. טקסונומיות אלו גם כן צריכות להיות מובנות על ידי מחשב.

מה שחומסקי ותלמידיו גילו ממש לאחרונה הוא עניין מאוד עמוק, ושיכול להתגלות בעל ערך כלכלי של מיליארדים, כמו האלגוריתם Page Rank של גוגל: בשפה הטבעית אין שני מנגנוני קידוד, האחד תחבירי שקובע את סדר המילים במשפט והשני סמנטי שקובע את משמעויות המילים שבמשפט - אלא מנגנון אחד! עצי המבנה הטקסונומי (כמו סוגי האוכל הנ"ל) ועצי הסדר התחבירי, הם מנגנון אחד. את תורת חומסקי מציג ג'ימי לין כאן.

לפי הסטארטפ הישראלי LinguisticAgents, ניתן כיום לבנות אלגוריתמים שיאפשרו למחשבים להבין את המנגנון המאוחד הסמנטי-סינטקטי-פרגמטי.

הסטארטפים Powerset ו- Mahalo, נושפים בעורפה של גוגל מהכיוון של NLP – Natural language Processing , עיבוד שפה טבעית. זאת משום שמתחילים להבין שגוגל היא לא חברת חיפוש, אלא חברה עם "מנוע פרסום" שכרגע הוא מאוד פרימיטיבי מבחינת הרלוונטיות שלו (רואים את זה מיד בפרסומות ב-Gmail) ואף על פי כן הביא לה שווי שוק שמתקרב ל-200 מיליארד דולר. זאת משום שהפוטנציאל של מנוע פרסום הוא 450 מיליארד דולר שהם המכירות של שוק הפרסום העולמי בשנת 2006.

הכשל המרכזי של הווב הסמנטי הוא שהוא יכול ליצור מנוע פרסום עם רלבנטיות של "כל ורק", הוא שסמנטיקה היא תנאי הכרחי אך לא מספיק להבנה. התנאי המספיק הוא שילוב של סמנטיקה עם תחביר ועם פרגמטיקה כדי ליצור את הווב הסמנטי-סינטקטי-פרגמטי.

מאינטליגנציה מלאכותית לתת-מודע מלאכותי

אולם כשמדברים על תחביר מיד עולה השם חומסקי. נועם חומסקי הופיע כמו מטאור בשנות החמישים של המאה ה-20, כשביקר את הביהביוריזם הלשוני ובעקבות "המהפכה הקוגניטיבית". הוא הציע תחליף: התחביר הטרנספורמטיבי-גנרטיבי הקרטזיאני. לפי גישה זו סדר המילים במשפט נקבע על ידי מבנה עומק ולא על ידי ההתנהגות הלשונית שעל פני השטח.

כשמדברים על מבנה עומק, מעמידים בהכרח את שאלת התת-מודע ובעקבותיה את שאלת הסובייקט. האם האדם הוא המשתמש בשפה באמצעות מבני עומק שמקורם ביולוגי ו"טבוע מלידה" כמו שחומסקי הפסיכולינגויסט חושב? או שאולי השפה משתמשת באדם באמצעות התת מודע כמו שלאקאן הפסיכואנליסט סבור? אם כך, האם מבנה העומק של חומסקי הוא לא מודע או שהוא תת מודע?

נקח לדוגמה את המשפט א' "עלים ירוקים צומחים על העצים". הוא נראה לנו תקין. אבל ניקח שני משפטים דומים: משפט ב': "רעיונות ירוקים צומחים על העצים". משפט זה נראה תקין דקדוקית אך לא תקין סמנטית, דהיינו מבחינת משמעות המשפט. זאת בגלל שאין במציאות רעיונות על העצים ולכן משפט זה הוא חסר משמעות. משפט ג': "על צומחים העצים עלים ירוקים". משפט זה נראה תקין סמנטית אך לא תקין מבחינה סינטקטית-תחבירית. משפט ד': "על צומחים העצים רעיונות ירוקים". משפט זה נראה לא תקין לא סמנטית ולא סינטקטית.

הפעילות הלשונית מתנהלת לפחות בשני צירים במקביל: בציר ה-X האופקי אנו כל הזמן מבינים סמנטית אלמנטים בשפה ובוחרים מתוך האלמנטים פריטים מסוימים. בציר ה-Y האנכי, אנו כל הזמן מצרפים סינטקטית זה לזה את האלמנטים הנ"ל. ציר ה-X נקרא ציר הברירה או מיטונימיה (זה ליד זה). ציר ה-Y נקרא ציר הצירוף, או מטאפורה (זה מפרש את זה).

חומסקי ויעקובסון פיתחו בהרחבה את ניתוח המכניזמים של המטונימיה והמטאפורה. הניתוח שלהם מוביל לדה סוסיר שבתחילת המאה ה20, הראה שיש להפריד בין הדיבור בפועל לבין השפה הנמצאת במבנה העומק התת-מודע. השאלה היא איך אפשר להפוך את התת מודע ל Machine Understandable Language? באמצעות מטפורות שלJava Scripts בשילוב מטונימיות של XML כדי ליצור את הAJAX של השפה הטבעית?

מכשולים פילוסופיים-מדעיים, טכנולוגיים ועסקיים: מקורט גדל עד פוסט-טיורינג

לפי עקומת ה-S של הטכנולוגיה, כל טכנולוגיה עוברת 4 שלבים (ראה תרשים):

1. השלב המושגי-פילוסופי-מדעי שאין בו כסף אך יש בו הכי הרבה חדשנות.

2. השלב הטכנולוגי שיש בו קצת כסף וקצת חדשנות.

3. השלב העיסקי שיש בו הרבה כסף ושיוצר בועה.

4. שלב הקומודיטי שאין בו כסף ואין בו חדשנות.

המכשול הגדול ביותר בשלב הפילוסופי-מדעי הוא משפט אי השלמות של קורט גדל מ-1930, שהצביע על טרייד-אוף טראגי בין יכיחות לעקביות בכל מערכת לוגית. לכן לדעתו, הנסיונות של ראסל ופרגה להעמיד את השפה הטבעית על שפות לוגיות נידון לכישלון. טיורינג פיתח זאת ממערכות פורמליות כלליות למערכות פורמליות בתחום המחשבים וקרא לבעיות הבלתי פתירות באמצעות מחשב בעיות NP-Complete. דרידה המשיך ופיתח זאת לגבי כל מערכת "מטפיסית" במובן שהיא מקיפה ויהירה מדי.

שני כיווני הפתרון לבעיה הפילוסופית-מדעית הם: ראשית, להקטין את היומרה של מערכות פורמאלית ולעבור ל"בינה מלאכותית 2.0" שהיא מערכות מומחה לא מקיפות מדי. דוגמאות טובות הן מערכות ורטיקליות כמו מנוע חיפוש האנשים Spock או כמו תיוג אוטומטי אלגוריתמי של ClearForest הישראלית שנרכשה על ידי רוייטר.

שנית, לנטוש את הדרך ללא מוצא של טיורינג ולעבור ללוגיקה קוונטית מהסוג שמציע Penrose. בשפה עממית אפשר לומר "מה שגורם לבידור הוא תמיד לא ברור", כמו בדיחה שלא יכולה להיכתב בשפה פורמלית ולא להיאמר על ידי מחשב, או באנגלית What is confusing is amusing.

המכשול הטכנולוגי בא לידי ביטוי במורכבות וחוסר היעילות של שני הכלים המרכזיים של ווב 3.0, שהם RDF ו-OWL. שניהם לא הצליחו להפוך פולקסונומיות ותגיות של ווב 2.0 לכאלה שמחשב יכול להבין אותם. אפשר אולי לבנות RDP-ים על ידי אלגוריתמים אוטומטיים, או על ידי ממשק GUI שבו האלגוריתמים נסתרים מהמשתמש אך פועלים ברקע. אבל זה רק כיוון וזה עדיין לא עובד.

המכשול העסקי לא קיים, אלא ההפך מכך, כיום יש צורך עסקי עצום בתחומים הבאים: חיפוש סמנטי של "כל ורק", אינטגרציה סמנטית בין יישומים, תרגום סימולטני ממוחשב. תחומים אלה יוצרים שוק של לפחות 300 מיליארד דולר בשנה.

מצאתם טעות בכתבה? כתבו לנו