למידת מכונית: אליפות המרוצים של אמזון

המכונית של סולה היפנית קירטעה לאורך מסלול המרוצים הצר בלאס וגאס. לעיתים היא סטתה מהנתיב ופעם אחת אפילו התנגשה בקיר. אבל בסופו של דבר יצאה כשידה על העליונה: היא השלימה סיבוב תוך 10.236 שניות, והוכתרה כאלופה לשנת 2019.
צפו בגמר ליגת הדיפרייסר
 (צילום: אמזון)
4 צפייה בגלריה 
מבט מקרוב. דיפרייסר
(צילום: יובל מן)
סולה, אגב, היא לא נהגת מרוצים, והמכונית שלה איננה מכונית מרוץ אמיתית. המתכנתת היפנית היא אלופת ליגת הדיפרייסר, מכונית המרוץ הקטנטנה והאוטונומית שאמזון השיקה בשנה שעברה. בשביל לנצח את יריביה בגמר שהתקיים בכנס re:Invent של חטיבת המחשוב ושירותי הענן של אמזון, AWS, בשבוע שעבר, היא נדרשה רק לצלול לעולם הבינה המלאכותית ולכתוב קוד מנצח.
לא מעט גבות הורמו כאשר מנכ"ל AWS, אנדי ג'סי, הכריז על הדיפרייסר לפני שנה: מה לאמזון ולעולם מכוניות המרוץ? אבל מאחורי המכונית, שגודלה כשל קופסת נעליים, עמדה מטרה פשוטה: להניע מפתחים ברחבי העולם להיכנס לעולם הבינה המלאכותית ולמידת המכונה בדרך מהנה. במקביל להשקת המכונית הניתנת לתכנות, שנמכרה תמורת 249 דולר, הקימה אמזון גם ליגת דיפרייסר, שפעלה בכנסים שקיימה ברחבי העולם וגם בעולם הווירטואלי.
תגמול ונזיפה
אם אתם מדמיינים צעצוע המזכיר את מכונית המרוץ שהייתה לכם בילדות, אתם טועים: אין כאן שלט-רחוק שבאמצעותו אפשר לכוון את הדיפרייסר ימינה או שמאלה. השליטה הראשונית נעשית באמצעות טאבלט קטן, ובעת המרוץ אפשר לקבוע אך ורק את המהירות. כל שאר ההחלטות מתקבלות באופן עצמאי על ידי המכונית, על פי מה שתוכנת בה מראש.
דיפרייסר מגיעה עם מודל בסיסי שמאפשר לה לנסוע באופן אוטונומי, אבל לאט למדי. כדי לשפר את הביצועים צריך לשנות את הקוד באמצעות טכניקה שנקראת Reinforcement Learning (לימוד באמצעות חיזוקים), בדיוק כפי שמאמנים חיות מחמד. למשל: נותנים למכונית "תגמול" כאשר היא נצמדת לימין במהלך פנייה חדה שמאלה, ונותנים לה "נזיפה" כאשר היא עושה זאת בקטע ישר. אחר כך מריצים סימולטור, שבאמצעותו היא לומדת ומשתפרת.
4 צפייה בגלריה 
סולה מקבלת את הגביע
(צילום: AWS)
"אני אוהב לומר שזה שילוב של אמנות ומדע", אומר מייק מילר, האחראי על מכשירים מבוססים בינה מלאכותית ב-AWS, "אתה יכול לתת למכונית תגמול על כך שהיא נצמדת לקו האמצעי של המסלול, אתה יכול לתת לה תגמול על זה שהיא נמצאת במיקום ספציפי על המסלול, ואולי אתה לא רוצה לתת לה תגמולים אם היא לא נוהגת בצורה ישרה מספיק. אין דבר אחד שהופך מכונית למהירה יותר".
לדברי מילר, ההתקדמות שנעשתה על ידי המתמודדים בשנה האחרונה הייתה מדהימה. "בכנס שבו השקנו את המכונית התוצאה הטובה ביותר הייתה סיבוב ב-51 שניות. זה היה די איטי. השיא הנוכחי (של האלופה היפנית סולה - י.מ.) הוא 7.4 שניות לסיבוב. זה משוגע".
מחזה מוזר
במרוץ הגמר שהתקיים בשבוע שעבר המסלולים היו ארוכים יותר, כדי לאתגר את המתחרים, כך שסולה לא יכלה לחזור על השיא שלה. כל מתמודד התחרה במשך 90 שניות בניסיון לסיים סיבוב בפרק הזמן הקצר ביותר. זה היה מחזה די מוזר: המכוניות התקשו לשמור על הנתיב וסטו שוב ושוב מהמסלול. מדי פעם איש צוות היה צריך לרדוף אחריהן ולהחזיר אותן למקום. בזמן הזה איבדו הפיינליסטים זמן יקר.
בסופו של דבר, "הסגנון האגרסיבי" של סולה, כפי שניסח זאת המנחה הרשמי של התחרות ראיין מירן, סייע לה לסיים סיבוב ב-10.236 שניות ולזכות בגביע. בתור פרס היא קיבלה מלגה בשווי 25 אלף דולר לקורסים של למידת מכונה. למקום השני הגיע פומיאקי, שהגיע לתחרות עם גישה סולידית יותר, וסיים בתוצאה 11.065 שניות.
4 צפייה בגלריה 
כנס Re:invent 
(צילום: אמזון)
את השלישייה חתם המתחרה רוג'ר, שהשלים סיבוב ב-12.156 שניות. מעניין ששלושת הפיינליסטים באים מהמזרח הרחוק - האלופה סולה וסגנה פומיאקי הם יפנים ועובדים באותה חברה, ורוג'ר הוא טייוואני.
"היה לי מזל", מצטנעת האלופה סולה, תושבת אוסקה שעובדת כמפתחת מערכות. הרומן שלה עם עולם הבינה המלאכותית, היא מבטיחה, ממש לא הסתיים בעקבות הזכייה: "אני רוצה להרחיב את הידע שלי ולעשות דברים נוספים בתחום הזה". 
מסלול מכשולים
השנה השיקה AWS דור שני של המכונית, דיפרייסר איוו, שמצויד בחיישן LiDAR שיכול לזהות עצמים בסביבה, ובשתי מצלמות חדשות מקדימה. "זה יאפשר לנו להוסיף בליגה של השנה הבאה, 2020, מרוצים מסוג חדש - למשל מסלול מכשולים ומרוץ אחד על אחד", מסביר מילר, "הליגה תגיע ל-30 הוועידות העולמיות שלנו".
האם טכניקת ה-Reinforcement Learning משמשת גם מכוניות אוטונומיות בגודל אמיתי?
"יצרניות של מכוניות אוטונומיות משתמשות בשיטות רבות, וזו בהחלט אחת מהן. אבל אנחנו רואים את הטכניקה הזאת גם מחוץ לעולם הרכב - למשל בתחום הפיננסים, או בתכנון של מערכות מיזוג אוויר בבניינים מורכבים, ולמעשה בכל מקום שבו אפשר להשתמש בסימולטור כדי לדמות את הסביבה, ואז לעשות ניסוי וטעייה".
4 צפייה בגלריה 
דיפקומפוזר. קלידים חכמים
(צילום: אמזון)
בנוסף לדור החדש של הדיפרייסר, הציגה אמזון השנה גם קלידים עם יכולות בינה מלאכותית - דיפקומפוזר (DeepComposer). מדובר במקלדת מידי, שאפשר לנגן עליה מנגינה של שמונה תיבות, להעלות לענן ולקבל בחזרה ליווי מלא - תופים, בס, גיטרה ועוד כלים.
המשתמשים יכולים לבחור בין ארבעה סגנונות - רוק, פופ, ג'אז וקלאסי - אבל הכי חשוב: הם יכולים ליצור מודל משלהם, המבוסס על המוזיקה האהובה עליהם. "התוכנה מזהה את תפקידי הכלים השונים", מסביר מילר, "וכאשר מנגנים על הקלידים מלודיה חדשה, היא מנסה לייצר ליווי שדומה לשירים שבחרנו".
אם לומר את האמת, לפחות מנקודת מבט מוזיקלית התוצאה לא מרשימה במיוחד. אבל מילר מבהיר שאמזון ממש לא מנסה ליצור תחליף למוזיקאים מקצועיים: "המטרה שלנו לא הייתה לבנות כלי שייצר מוזיקה מסחרית באמצעות בינה מלאכותית, אלא ללמד מתכנתים על בינה מלאכותית גנרית, על מנת שישתמשו בה בתחומים אחרים ויפתרו בעיות אחרות".
רעיונות מלקוחות
כמה אנשים עובדים על פרויקטים כמו דיפרייסר ודיפקומפוזר?
"אנחנו לא מוסרים מספרים, אבל באמזון יש אלפי מתכנתים שעובדים על בינה מלאכותית, אז מדובר בהשקעה רצינית. אנחנו משתמשים בבינה מלאכותית כבר 20 שנה - לצורך המלצות על מוצרים, לאופטימיזציה של שרשרת האספקה, לצורך חיזוי ועוד. כך שאנחנו יכולים לקחת את כל הידע הזה ולהעביר אותו בצורה הטובה ביותר למפתחים".
כך עובדים הקלידים החכמים של אמזון
 (צילום: אמזון)
אז בשנה הבאה אנחנו צפויים לראות מכשיר נוסף של אמזון שמבוסס על בינה מלאכותית?
"אין לי מה להכריז היום כמובן", הוא צוחק, "אבל מי יודע? אנחנו תמיד חושבים על רעיונות חדשים. אנחנו אוהבים לדבר עם הלקוחות שלנו ולשמוע על הרעיונות שלהם, על האתגרים שהם מתמודדים איתם, ולהבין אם יש איזושהי טכניקה חדשה שמעניינת אותם במיוחד". 
הכותב היה אורח AWS בלאס וגאס