תגובות Tech Talk: איך עובדות סייעות קוליות?

הרעיון הכללי מאחורי רשתות נוירוניות ולמידת מכונה / עמוקה הוא כעקרון: ביצוע מקסום של תוצאה רצויה ע"י שיפור הרשת (דמיינו מטריצה גדולה שכל תא בעמודה מסוימת הוא צומת בגרף שמחובר לכל השכנים הקרובים בעמודה שסמוכה אליו כאשר הכיוון הוא מתא עם אינדקס נמוך לגבוה) ע"ס המון אבל המון מידע שנכונותו ידועה מראש (אימון).
הסבר אינטואטיבי אחר: כמו שטביעת האצבע האישית שלנו מאופיינת ע"י קווים ומרחקים שהינם ספציפים לנו, נסו לדמיין שע"י הרבה פעולות מתמטיות (spatial, סביבתיות) שנבנות בשכבות ע"ג שכבות, אנחנו לוקחים ומאמנים (כלומר, יש יד מכוונת) מעין רשת לאמר לה: ככה נראה סוס ברוב התמונות, ככה נראה אדם יושב, ככה "נשמעת" שיחה אנושית וכו'.
למרות שהעולם של CNN ו DL הותאם בראשיתו לעולם הדו-ממדי של תמונות, יש טכניקות רבות להשליך אותו על NLP ומידע כללי שמגיע מסנסורים מכריית מידע (DM).
בסופו של דבר, כשאדם מנהל שיחה או מציג תמונה למכונה המאומנת, היא מבצעת תהליך דומה (מבחינה מתמטית) לזה שאומנה עליו ואם יש התאמה גבוהה (קורלציה) אז נקבל בהסתברות גבוהה, נאמר 84% שפה נמצא כלב. לגבי שיחה, זהו תהליך הפוך של סינטזה (אדם אנושי אומר X אז בהתאם לאימון שעברתי, אני כמכונה, אענה לו Y בהסתברות המקומית המקס').
ע"כ, ללא כל אותם אין סוף תמונות, שיחות ומאגרי מידע שנאספו (בד"כ צריך מעל מיליון לאימון רשת טובה), לא היינו מגיעים לתוצאות המדהימות... ושוב, זהו מודל סטטיסטי ולא לוגי-בינארי אז קחו זאת בחשבון!
אה... ועוד נק' אחרונה, הרשת גם לומדת ומתפתחת מהפידבק העצמי שאנחנו נותנים לה מעצם התשאול או ניהול השיחה!