שתף קטע נבחר

דבר אליה: המחשבים שמזהים שפה

מאז הולדת המחשב אנו מנסים לדמיין את היום בו נוכל להעביר פקודות למכשיר הדומם ללא צורך במקלדת. נשמע כי שנת 2014 עומדת להציג את ההתקדמות המשמעותית ביותר בתחום מאז "סירי"

טכנולוגיות לזיהוי קול ושפה אינן דבר חדש, ומלוות את מהפכת המחשוב כמעט מתחילתה. חברת IBM היתה אחת מהחלוצות בתחום, והציגה מערכות ממוחשבות לזיהוי קול ותרגומו לפלט ממוחשב עוד בשנות ה-50.

 

 

המערכת הראשונה לזיהוי קול שהציגה החברה בפומבי כונתה "Shoebox", והיתה מסוגלת לבצע פעולות אריתמטיות פשוטות בתגובה לפקודות קוליות. בשלב זה היא ידעה לזהות 16 מילים בלבד. בשנות ה-80 הציגה IBM את השלב הבא במהפכה, עם מערכת זיהוי קול שידעה לזהות כבר כחמשת אלפים מילים, כפי שניתן לראות בפרסומת המופלאה למעלה.

 

עוד סיפורים חמים – בפייסבוק שלנו

 

קופצים לסירי

בשנות ה-90 וה-2000 זכינו לראות את טכנולוגיות זיהוי הקול מגיעות למחשבים האישיים למענים קוליים ולטלפונים החכמים, אך נדלג ברשותכם לקפיצת הדרך המשמעותית הבאה בזמננו. זו הגיעה באוקטובר 2011 עם "סירי" של אפל, שהוטמעה באייפון S4 ובאלה שאחריו.

 

מלבד העובדה שסירי הניחה את היסודות לאינספור פארודיות משעשעות, ואפילו לסרט עטור שבחים, לא ניתן להתעלם מהעובדה שסירי הציגה נדבך חדש ומרתק בממשק שבין אדם ומכונה. בשלב זה התוכנה לא רק זיהתה את קול המשתמש (בעיקר באנגלית, מה לעשות), אלא גם ידעה לתרגם אותו לפקודות והצעות, מה שכבר מתחיל להידמות יותר לשיחה אנושית של ממש. והיא אפילו יודעת מה אומר השועל.

 

 

השקתה של סירי היוותה למעשה את יריית הפתיחה למירוץ ייצור טכנולוגית זיהוי השפה והקול המושלמת בין ענקיות הטכנולוגיה. שילוב של אלמנטים כגון למידה עמוקה, אינטליגנציה מלאכותית מתקדמת ומחשוב לביש, יכול להביא לכך כי שנת 2014 תהיה השנה בה טכנולוגיות זיהוי הקול ימריאו לשלב חדש לחלוטין.

 

מקליט ה-X

כמי שמנסה להתעלות על אפל בכל תחום אפשרי, היה צפוי כי גוגל לא תוותר על המירוץ לטכנולוגיית זיהוי השפה המושלמת במהרה. על מנת לנצח במערכה, מגייסת גוגל את משאבי האינטליגנציה המלאכותית העצומים שברשותה, בדגש על הפרויקטים המרתקים שנרקחים לאיטם במעבדות גוגל X המסווגות, אי שם בקליפורניה.

 

הגירסה העדכנית של מערכת ההפעלה אנדרואיד מכילה מערכת לזיהוי הקול המבוססת על "רשת נוירונית", מערכת למידה ממוחשבת שעובדת באופן דומה למוח האנושי, שכבר הוכיחה שיש ברשותה יכולות למידה משמעותיות. כל משפט הנקלט במערכת זיהוי הקול של האנדרואיד, נשלח ומעובד באחד משרתי העל של החברה שפזורים ברחבי העולם. בשלב זה, המערכת נעזרת באלגוריתמי הלמידה העמוקה על מנת לזהות את תוכן המשפט, תוך התייחסות לניואנסים שונים של השפה כגון מבטא או סלנג.

 

המיקרופון שהקליט אותי

גוגל לוקחת ברצינות את זיהוי הקול, וראייה לכך הינה הטמעה של אייקון מיקרופון קטן בליבו של קודש הקודשים של החברה, עמוד החיפוש וכן במכשירי אנדרואיד ובדפדפן כרום.

 

 

אולם הפיצ'ר החדש והחביב הזה התגלה במהרה גם כבקע דרכו יכולים להסתנן גורמים זדוניים לחייכם הפרטיים. הפעלת המיקרופון בגוגל כרום מפעילה חיווי בדמות אור אדום מהבהב על המסך המעיד כי מערכת ההקלטה מופעלת. הבלוגר הישראלי טל עטר גילה כי לאחר יציאה מהאתר המקליט, המחשב ממשיך "להאזין" למרות היעלמות החיווי.

 

הפירצה הזו מאפשרת לגורמים זדוניים להפוך את המיקרופון הביתי למכשיר הקלטה, או אפילו לתכנת את הדפדפן להתחיל את ההקלטה עם הגייתן של מילים מסוימות, כמו ""NSA או "איראן". הבלוגר החרוץ דיווח לגוגל על הבעיה, והחברה אמרה מצידה כי אין סכנה מידית למשתמשים.

 

 

סירי מתה, הכירו את ג'ארביס

אינטל מנסה להביא את מומחיותה בחומרה מתקדמת לעולם זיהוי השפה, והציגה לא מכבר שבב זיהוי קול ייעודי שיעלים את התלות בשרתי ענן איטיים ובחיבור לרשת. השבב, שכבר כונה על ידי חלק מעיתונאי הטכנולוגיה כ-"Siri-Killer", יהיה מסוגל להפעיל טכנולוגיות זיהוי שפה מתקדמות גם ללא גישה לאינטרנט, ובשלב ראשון יוטמע בטכנולוגיה הלבישה החדשה מבית אינטל, "ג'ארביס".

 

 

זהו משרת דיגיטלי, בלי קשר בשלב זה לדמות מסרטי "איירון-מן", שנועד להציב תחרות קשה לסירי. ג'ארביס הינו למעשה אזניית בלוטות' קטנה, אשר תהיה מסוגלת להתממשק עם מכשירי אנדרואיד ולשדר להם פקודות קוליות מרחוק.

 

גם ברעש

חברת Audience, המתמחה בטכנולוגיות זיהוי קול, הציגה בכנס CES שבב זיהוי קול נוסף, אשר יתמחה בזיהוי של דקויות שונות של צלילים, גם בתנאים של רעשי רקע.

 

השבב יאפשר הפעלה של זיהוי הקול במקומות רועשים במיוחד, ואפילו הפעלה של פקודות קוליות כאשר הטלפון במצב שינה. כך נוכל להפעיל תכונות שונות בטלפון בלחישה בלבד, בלי המבוכה שבדרך כלל כרוכה בצעקה לתוך עצם דומם במקומות ציבוריים.

 

מונולוגים מהטוסטר

ההתקדמות בטכנולוגיות זיהוי הקול מצביעה על עתיד במסגרתו מכשירים דוממים המבינים את השפה האנושית לא יהיו טלפונים בלבד. Nuance, החברה שאחראית לאלגוריתמי זיהוי הקול של סירי, מציעה בימים אלו לכל יצרן של מכשיר אלקטרוני רכישה של "רישיון זיהוי הקול".

 

הרישיון יאפשר התממשקות עם שרתי הענן של החברה, וגישה לתכונות זיהוי הקול והשפה המתקדמות שברשותה. המכשיר הראשון שכבר מחזיק ברישיון זה הינו השעון החכם Omate, שהוצג בכנס CES האחרון. המשמעות של הפרוליפרציה העולמית של טכנולוגיות זיהוי הקול הינה שבעתיד הקרוב יתכן וננהל שיחות נפש לתוך הלילה עם טוסטר המשולשים האהוב עלינו.

 

קפיצות הדרך הטכנולוגיות בזיהוי הקול והשפה הינן רק נדבך במהפכה גדולה יותר שעובר עולם הטכנולוגיה בימים אלו, שכוללת גם התקדמות בתחומי הבינה המלאכותית ואינטליגנציה גבוהה יותר של עולם העצמים הדוממים, במסגרת תפישת ה"אינטרנט של הדברים". ועדיין, סימן אמיתי להתקדמות בטכנולוגיות זיהוי השפה יהיה ביום שסירי ודומותיה ידעו להתמודד עם מבטא סקוטי. שיהיה בהצלחה.

 

 

 

 תגובה חדשה
הצג:
אזהרה:
פעולה זו תמחק את התגובה שהתחלת להקליד
מומלצים