שתף קטע נבחר

הדי ג'יי הדיגיטלי: איך עובדות תוכנות מוזיקה?

מחיפוש שירים מועדפים לפי מנגינות דומות, דרך סיווג קטעי מוזיקה לפי רגשות ועד עזרה בהלחנה - איך פועלות התוכנות שמשרתות את חובבי המוזיקה?

איזה שיר נשמיע עכשיו? קיימות הרבה דרכים למצוא מוזיקה ברשת. אם המחפש יודע את שם היצירה, או האמן, או מילים מתוך השיר, בדרך כלל לא יקשה עליו למצוא אתר שבו אפשר להאזין לשיר או לרכוש אותו (שלא לדבר על הורדת המוזיקה בצורה פיראטית).

 

גם אם כל מה שידוע הוא כמה מילים מתוך השיר, חיפוש מילים אלו עשוי לעתים קרובות לעזור בזיהוי השיר. בשני המקרים מדובר בחיפוש טקסטואלי בעזרת מנוע חיפוש רגיל או מנוע חיפוש המוקדש למוזיקה.

 

לזמזם ולחפש

אבל גם אם המחפש זוכר רק את המנגינה, הטכנולוגיות של היום מציעות כמה אפשרויות. אתר Midomi, למשל, מזמין את המשתמש לשיר או להמהם את השיר שהוא מחפש לתוך המיקרופון המחובר למחשב, ומשווה את הצלילים למאגר של שירים שתרמו גולשים אחרים. טכנולוגיית TrackID , המותקנת בחלק מהטלפונים הניידים של חברת Sony Ericsson, מאפשרת לטלפון להקליט את המוזיקה המושמעת ברקע ולזהות אותה.

 

ב-Midomi גם מציעים תוכנה שאפשר להתקין על טלפון נייד ולהפעילה בצורה דומה (ויש גם Shazam ID). עם רעשי רקע מינימליים תוכנות אלה מגיעות לדיוק גבוה מאוד, ויש להניח כי הן יכולות לנצח כמעט כל אדם בעולם בתחרות זיהוי שירים, בזכות מאגרי המוזיקה הענקיים (והגדלים בהתמדה) העומדים לרשות אתרי המוזיקה.

 

יכולתו של המחשב לזהות מוזיקה מתבססת על "טביעות אצבע של שמע": ניתוח מתמטי של המוזיקה המושמעת, כדי ליצור מאפיינים מספריים המתאימים לאותה מוזיקה גם אם ישתנה הקצב שלה, אם ישבשו אותה רעשים או שירה לא-מדויקת, אם כמה מכלי הנגינה יהיו חסרים וכו'.

 

טביעות האצבע מחושבות בעבור קטעים שונים של היצירה – למשל, הבית והפזמון – כך שהזיהוי יהיה אפשרי בלי לדרוש השוואה של שיר שלם לקטלוג של שירים ידועים. גם בני אדם, כמובן, יכולים לזהות מוזיקה מוכרת כאשר היא מבוצעת בקצבים או בעיבודים שונים. אף על פי שאיננו יודעים כיצד אנו עושים זאת, סביר שאיננו נעזרים בשיטות דומות.

 

איזו מוזיקה תמצא חן בעיני?

אתגר אחר בחיפוש מוזיקה הוא הרצון למצוא יצירות שעדיין אינן מוכרות ושיתאימו לטעמנו. מוכֵר מומחה בחנות תקליטים שנתקל באתגר כזה ישאל ודאי את הקונה איזו מוזיקה הוא אוהב, ויציע לו להאזין לאמנים או למלחינים דומים. המוכֵר אולי יוכל גם להיעזר בנסיונו הרב כדי להציע מוזיקה מז'אנר שונה, שהקונה עדיין אינו מכיר, אם הוא מצא בעבר כי אנשים בעלי טעם דומה לטעם אותו קונה אהבו גם ז'אנר נוסף זה.

 

כך גם במחשב: אם משתמשים רבים ידווחו על העדפותיהם המוזיקליות, תוכל תוכנה מתאימה למצוא תבניות העדפה משותפות. כאשר משתמש חדש יספר לתוכנה על חלק מהעדפותיו, תוכל התוכנה לזהות תבניות משותפות למשתמש זה ולמשתמשים אחרים, ומכאן לגלות הזדמנות להציג בפניו אמן שאינו מוכר לו.

 

אם אותו משתמש ידווח לתוכנה כי המלצה זו מצאה חן בעיניו, התוכנה תחזק את נטייתה להמליץ כך גם במקרים דומים בעתיד. אם המשתמש לא אהב את היצירה שהומלצה, תתחשב התוכנה גם בכך. כך משתפרת יכולת חיזוי ההעדפות ואיכות ההמלצות ככל שמשתתפים בתהליך משתמשים רבים יותר.

 

שיטה זו, של המלצות לפי ההעדפות שכבר ידועות עבור כל משתמש והדירוגים שסיפקו המשתמשים, נקראת לפעמים "סינון שיתופי" (Collaborative Filtering), ונעשה בה שימוש באתר Amazon, למשל. קיימים שירותי המלצות רבים בעבור מוזיקה, וביניהם חנות iTunes של חברת Apple, פנדורה (הזמינה רק בארה"ב), iLike, Last.fm ועוד. אותה שיטה משמשת גם להמלצות על דפי אינטרנט, סרטים וסוגי תוכן נוספים.

 

בנוסף ליתרונות של סינון שיתופי בשביל המאזינים, דרך ההנאה של "גילוי אמן לא ידוע" (כלומר שאינו מוכר לאותו מאזין), יש כאן יתרון פוטנציאלי גם לאמנים מתחילים, שקשה להם להגיע לפרסום ולהכרה בציבור הרחב ומסתמכים על המלצות מפה לאוזן.

 

איך מסווגים רפסודיה בוהמית?

ההשוואה בין המחשב למוכר מהחנות מטעה מבחינה מסוימת: בניגוד לאותו מוכר, כלי הסינון לעולם אינם מאזינים למוזיקה. די להם לדעת כי מי שאהב יצירה A ויצירה B לעתים קרובות ישמח להכיר את יצירה C, כאשר כל אחת מיצירות אלה מיוצגת בתוכנה כסמל בלבד (כמו "A"). המאזין האנושי, לעומת זאת, יכול להקשיב לשיר חדש, לסווג אותו לפי ז'אנר, קצב, התחושה שהוא משרה והאמנים שהוא מזכיר, ולהסיק מי עשוי להיות מעוניין לשמוע את אותו שיר.

 

כדי לחקות את המוכר האנושי, יש ללמד את התוכנה כיצד להאזין למוזיקה ולסווגה. על אחד הפיתוחים המעניינים בתחום זה דיווחו לאחרונה בכנס ICASSP International  שהתקיים בטייוואן באפריל 2009. המפתח, לוק ברינגטון (Barrington), המסיים את לימודי הדוקטורט שלו, הציג שיטה חדשה המאפשרת לזהות תכונות של יצירה מוזיקלית, כמו הז'אנר שלה ואפילו עד כמה היא רומנטית. לקריאה בהרחבה על השיטה - PDF.

 

למעשה, לפני שאפשר לסווג את המוזיקה יש צורך לעמוד באתגר מקדים: אופייה של היצירה משתנה לאורך הזמן, והיא עשויה לעבור, למשל, בין קטעים קצביים ועמוסים בצלילים לקטעים של שירה אטית ללא ליווי. ברינגטון מפנה אצבע מאשימה ללהיט "רפסודיה בוהמית" של להקת קווין – הוא אמנם אוהב את השיר, אך המעברים בין שירה ללא ליווי, שירה בליווי פסנתר שקט, סולו גיטרות, אופרת רוק ועוד מקשים מאוד על יצירת תוכנה שתסווג אותו. בעיה שקיימת גם ביצירות אחרות במידה אחרת.

 

ברינגטון מחלק את השיאים למקטעים, ולצורך כך שאל טכניקה מתחום הראייה הממוחשבת - "עירוב טקסטורות דינמיות" (Dynamic Texture Mixture). בראייה ממוחשבת, טקסטורה היא המרקם החזותי של קטע בתמונה. טקסטורות דינמיות הן מרקמים המשתנים עם הזמן. טכניקת DTM מאפשרת לתאר בצורה מתמטית קטע וידאו כעירוב בין טקסטורות שונות. ברינגטון הפעיל אותה שיטה מתמטית כדי לנתח את דגימות הצליל בשירים, כאשר הנקודה בזמן שבה מרקם דינמי אחד נעלם ומופיע מרקם דינמי אחר מזוהה על-ידי התוכנה כמעבר בין קטעים.

 

בבדיקה שהשוותה את הסיווג האוטומטי של קטעי שירים מול סיווג שנעשה על-ידי בני אדם, נמצא כי שיטת DTM היתה מדויקת יותר משיטות ממוחשבות אחרות בזיהוי נקודות מעבר בין קטעים בשיר, וכי היא מצאה דמיון בין קטעים שגם המסווגים האנושיים תיארו כדומים.

  

רוק רומנטי עם גיטרות

ברינגטון רוצה לתאר כל קטע לא רק לפי הז'אנר המוזיקלי אלא גם לפי כלֵי הנגינה והרגשות שהקטע מביע. לשם כך הוגדר מילון, הכולל כרגע כמאה מילים, שצירוף שלהן יכול לתאר כל קטע בשיר. לאחר שכל קטע בשיר תואר בעזרת מילים מתוך מילון זה, יהיה אפשר להשתמש בשיטות חיפוש מקובלות כדי למצוא שירים (למשל חיפוש של "רוק רומנטי עם גיטרות ופסנתר קצבי"). ברינגטון קורא למנוע חיפוש כזה "גוגל של מוזיקה".

 

כדי לשייך תיאורים מילוליים לכל קטע בשיר, יש להיעזר תחילה בסיווגים הנתרמים על-ידי מאזינים אנושיים. כמו במטלות למידה ממוחשבת אחרות, כאשר ידועים מספיק סיווגים נכונים, התוכנה יכולה ללמוד את ההתאמה בין המאפיינים המתמטיים של כל קטע לבין אותם סיווגים, וכך לסווג גם קטעים שלא נותחו על-ידי בני אדם

 

במקרה זה, מתברר כי אין די בצוות מחקר אחד לספק את הדרישה של "מספיק סיווגים נכונים" אפילו כאשר אותו צוות שכר סטודנטים לביצוע עבודה זו. לכן פיתח הצוות משחק לפייסבוק בשם "Herd-It" (המרמז על "שמעתי זאת" כמו גם על המילה האנגלית ל"עדר", בהתאם לאופיו החברתי של היישום), בהתאם לעקרונות "משחקים עם מטרה".

 

במשחק יש לסווג קטעי מוזיקה לפי ז'אנרים ולפי הרגשות שהם מעוררים. המשחק הוא תחרותי, וכדי לצבור נקודות יש להגיע להסכמה עם שחקנים אחרים, כך שסביר כי רוב המידע שאוסף היישום הוא אכן נכון ואמיתי. במקרה זה, יש גם תועלת נוספת בעבור השחקנים, העשויים לגלות מוזיקה שלא היתה מוכרת להם ושירצו לשמוע אותה שוב.

 

הקץ למוזיקת ההמתנה בטלפון

האפשרות כי תוכנה כמו זו של ברינגטון תגלה את הנוסחה לרומנטיקה במוזיקה עשויה לגרום אי-נוחות מסוימת, אף על פי שנוסחאות כאלה (בצורה פחות פורמלית ומתמטית) כבר שולטות בחלק מהמוזיקה המסחרית.

 

עם זאת, נוסחאות כאלה עשויות להביא להקלה במקום אחר. בקניונים, במעליות, בשדות תעופה ובבתי משרדים, כמו גם בהמתנה למענה טלפוני, אנו נחשפים לאותו רפרטואר מוגבל של מנגינות. הרפרטואר מוגבל, בין השאר, בשל הצורך לשלם ליוצרי המוזיקה. מערכת חדשה שאותה מפתחים באוניברסיטת גרנדה בספרד מבטיחה לשנות את הצלילים במרחב הציבורי, על-ידי יצירה אוטומטית של מוזיקה שלעולם אינה חוזרת על עצמה, ושמתאימה את עצמה לצורכי המקום על-ידי העברת התכנים הרגשיים הנדרשים.

 

המערכת נקראת Inmamusys – קיצור של "מערכת מוזיקה אינטליגנטית מרובת-סוכנים" (Intelligent Multi-Agent Music System). שאיפתם של המפתחים, בראשות מיגל מולינה (Molina), היא לשנות את הדרך שבה משתתפים מחשבים באינטראקציות בעלות תוכן רגשי, וליצור תהליכי הלחנה חדשים. כיום המערכת מאפשרת ל"מלחין" להסתפק בהחלטה על סוג המוזיקה המתאימה. סקרים הראו כי מאזינים לאותה מוזיקה אכן היו מסוגלים לזהות את סוג המוזיקה שאותו התבקש המחשב ליצור.

 

מאחורי הממשק הפשוט, הדורש רק לבחור את סוג המוזיקה, בנו המפתחים תוכנת בינה מלאכותית מורכבת מתהליכים רבים הבונים ייצוג מושגי של המוזיקה ה"מולחנת", ומתרגמים ייצוג זה לתווים ולביצוע. האינטראקציה של תהליכים אלה נותנת למערכת את התיאור "מרובת-סוכנים", באנלוגיה לקבוצה של סוכנים עצמאיים שלכל אחד יש מטרות משלו, היוצרים יחד את החלקים השונים של המנגינה מתוך משא-ומתן מתמיד.

 

מפתחי Inmamusys מנסים לחקות את תהליכי היצירתיות האנושית, אך אינם מבטיחים להתחרות במלחינים אנושיים: בעבורם, ובעבור הציבור הנאלץ להאזין למוזיקה במרחבים הציבוריים, די אם נוכל לשמוע מוזיקה שאינה חוזרת על עצמה, אפילו אם תישאר נוסחתית. בהקשר הרחב יותר, הרעיון של שיתוף פעולה בין אדם למחשב בהלחנה עשוי להביא לתשובה חדשה לשאלה איך נוכל למצוא מוזיקה שנאהב: אחת מהתשובות תהיה יצירה, בשיתוף של אדם ומחשב, של מוזיקה המשלבת רעיונות וסגנונות שהמחשב יודע כי הם מתאימים לטעמנו.

 

ישראל בנימיני עובד בחברת ClickSoftware בפיתוח שיטות אופטימיזציה מתקדמות. המאמר המלא התפרסם בגיליון יולי של מגזין גליליאו .

 

לפנייה לכתב/ת
 תגובה חדשה
הצג:
אזהרה:
פעולה זו תמחק את התגובה שהתחלת להקליד
מחשב - מצא לי שיר רומנטי
צילום: ablestock
מומלצים