שתף קטע נבחר

המחשב שהביס את כוכבי הפוקר

פלוריבוס, תוכנת מחשב המבוססת על בינה מלאכותית (AI), ניצחה שחקנים מהשורה הראשונה במשחק של שישה שחקנים. "אבן דרך בחקר ה-AI"

בשנות ה-90 האנושות ספגה מפלה כשהמחשב "כחול עמוק" הביס את אלוף העולם בשחמט דאז גארי קספרוב, לפני ארבע שנים תוכנת המחשב "אלפא זירו" ניצחה את לי סידול, אלוף העולם בגו – שנחשב למשחק מורכב יותר משחמט – ובסוף השבוע נרשמה התקדמות נוספת בעליונות של המכונה על פני האדם.

 

ניצחון למחשב בשני ניסויים. אילוסטרציה (צילום: shutterstock) (צילום: shutterstock)
ניצחון למחשב בשני ניסויים. אילוסטרציה(צילום: shutterstock)

 

תוכנה בשם פלוריבוס (Pluribus), שפותחה על ידי אוניברסיטת קרנגי מלון בפיטסבורג יחד עם מחלקת הבינה המלאכותית (AI) של פייסבוק, הביסה שישה מקצועני פוקר מהשורה הראשונה בעולם.

נו לימיט טקסס הולדם, הגירסה הפופולרית של הפוקר שבה שיחק המחשב מול המקצוענים, נחשבת למשחק מורכב מאוד עם אינספור אפשרויות ותרחישים שונים. מה שהופך את המשחק לקשה עוד יותר לפיצוח עבור מחשבים הוא שבניגוד לשחמט, למשל, פוקר הוא משחק של מידע חסר: אינך יודע באילו קלפים מחזיק היריב שלך, ואת ההחלטות במשחק אתה מקבל כשאינך רואה את התמונה המלאה לנגד עיניך. 

 

פלוריבוס ניצח את מקצועני הפוקר בשני ניסויים שונים. בניסוי הראשון נבחרו שני שחקנים מקצוענים: כריס פרגוסון, אחד השחקנים המפורסמים בעולם ואלוף העולם בשנת 2000, ודארן אליאס, שזכה בתארים רבים בסבב. כל אחד מהם שיחק 5,000 ידי פוקר בשולחן וירטואלי של שישה שחקנים, השחקן האמיתי וחמישה עותקים של פלוריבוס. המחשב ניצח את שני המקצוענים.

 

  

בניסוי השני נבחרו 13 שחקנים מקצוענים, כולם עם זכיות של מעל למיליון דולר בקריירה. פלוריבוס שיחק בכל פעם בשולחן יחד עם חמישה מהמקצוענים הללו. בסך הכול שיחק פלוריבוס מול החבורה 10,000 ידיים, וגם בניסוי הזה יצא מנצח.

 

"ביצועים על-אנושיים בפוקר" 

מדובר בהתקדמות משמעותית ביחס לעבר. לפני שנתיים הציגו תומאס סנדהולם ונועם בראון, צמד המפתחים של פלוריבוס, את ליבראטוס (Libratus), תוכנת פוקר שניצחה ארבעה שחקנים מקצוענים ב-120 אלף ידיים ששוחקו בפורמט של אחד על אחד. פלוריבוס לקח את המחשבים צעד אחד קדימה בפוקר כשניצח אנשים במשחק מרובה שחקנים.

 

סנדהולם, שחוקר את תחום המחשבים והפוקר כבר יותר מ-16 שנים, היה נרגש מהניצחון: "התוכנה הזו רשמה ביצועים על-אנושיים בפוקר – זו אבן דרך בחקר הבינה המלאכותית ותורת המשחקים. היכולת לנצח חמישה שחקנים אחרים במשחק כל כך מורכב פותחת הזדמנויות חדשות להשתמש בבינה המלאכותית למגוון רחב של בעיות בעולם".

 

מטה פייסבוק (צילום: shutterstock)
פייסבוק. ניצחון בפוקר(צילום: shutterstock)

 

בראון חושב שייתכן כי האופן שבו פלוריבוס שיחק יגרום למקצוענים עצמם לשנות את אסטרטגיית המשחק שלהם בעתיד. פלוריבוס הפתיע את השחקנים האנושיים עם כמה מהלכים לא אורתודוקסיים בעליל. כך למשל, הוא ביצע מפעם לפעם מה שמכונה בפוקר "דונק בט" (הימור חמור) – מהלך שמיוחס לרוב לשחקנים חלשים, שבו אתה רק משלם להימור בסבב הימורים אחד, ואז בסבב ההימורים הבא אתה הראשון להמר.

 

המהלך הזה נתפס לרוב בפוקר כחסר היגיון תיאורטי, אבל דווקא פלוריבוס, המתבסס על תיאוריה ואסטרטגיה בלבד, ביצע אותו הרבה יותר מיריביו. כמו כן, פלוריבוס לא חשש לבצע את מה שמכונה בפוקר "בלוף" – הימור כשאתה מחזיק יד חלשה כדי לגרום לשחקן היריב לקפל יד חזקה יותר.

 

אסטרטגיה מגוונת

דארן אליאס הסביר מה היה לפלוריבוס שלו שליתר מקצועני הפוקר אין: "היתרון הכי גדול שלו הוא היכולת להשתמש באסטרטגיה מגוונת. זה משהו שגם אנשים מנסים לעשות, אבל רוב בני האדם לא מצליחים לבצע זאת בעקביות".

 

מייקל גאגליאנו, שחקן שזכה בקרוב לשני מיליון דולר בפוקר בקריירה, התלהב מאוד מהניסוי: "זה היה מרתק לשחק נגד פלוריבוס ולראות את האסטרטגיות שהוא בוחר. הוא ביצע כמה מהלכים שבני אדם פשוט לא מבצעים, במיוחד בכל הקשור לגובה ההימור. בינה מלאכותית היא חלק חשוב בהתפתחות של הפוקר – זה היה נפלא לקחת חלק בצעד הגדול הזה אל עבר העתיד".

 

 

אחת התכונות שסנדהולם ובראון טיפחו אצל פלוריבוס היא היכולת להיות בלתי צפוי – תכונה חשובה מאוד לשחקן פוקר. אם לדוגמה פלוריבוס היה מהמר רק כשהוא מחזיק את היד הטובה ביותר, השחקנים האנושיים היו לומדים אותו מהר ויודעים כיצד להתמודד מולו. במקום זאת פלוריבוס מתוכנת לפי אסטרטגיה מאוזנת של הימור גם עם ידיים שאינן בהכרח מנצחות – מה שהופך אותו לקשה מאוד לחיזוי.

 

כדי לפתח את האסטרטגיה המושלמת עבורו, פלוריבוס שיחק במשך שמונה ימים נגד עותקים של עצמו. הוא בחן מהן התוצאות של כל מהלך שביצע – ומה היו התוצאות לו היה משחק אחרת. בתום התהליך הארוך הזה, הוא פיתח אסטרטגיית משחק אופטימלית עבורו.

 

שחקני פוקר מקצוענים רבים מנסים כיום להשיג לעצמם יתרון במשחק על ידי מה שמכונה "תיאוריית משחק אופטימלית" (Game Theory Optimal או בקיצור GTO). הדרך הכי פשוטה להסביר מהי מהי תיאוריית משחק אופטימלית היא באמצעות משחק אבן, נייר ומספריים. בואו נניח לרגע ששני אנשים משחקים ביניהם משחק רב של משחקי אבן, נייר ומספריים. אם אחד מהם אוהב מאוד את המספריים ותמיד בוחר להשתמש בהן – מהר מאוד השחקן היריב ילמד את זה, וישתמש באבן כדי לנצח אותו.

 

ברגע שלחובב המספריים יימאס להפסיד, הוא יתחיל להשתמש בנייר כדי לנצח את האבן. היריב כמובן יתאים את עצמו, ויוציא מספריים בעצמו כדי לנצח את הנייר. אם השניים ימשיכו לשחק עד אינסוף, הם יגיעו למצב אופטימלי ברגע ששליש מהפעמים יוציאו אבן, שליש נייר ושליש מספריים. במצב הזה הם בלתי ניתנים לניצול במשחק לטווח הארוך. מובן שמה שכל כך פשוט במשחק קל כמו אבן, נייר ומספריים הופך למורכב הרבה יותר במשחק עם המון אפשרויות ותרחישים כמו פוקר. שחקנים מקצוענים משתמשים כיום בתוכנות כמו PioSolver למשל, שמחשבות עבורם כיצד עליהם לנהוג בשלל מקרים במשחק על בסיס של תיאוריית משחק אופטימלית. 

 

 תגובה חדשה
הצג:
אזהרה:
פעולה זו תמחק את התגובה שהתחלת להקליד
מומלצים