מחקר ישראלי: צ'אט GPT הפתיע בענק ועקף רופאים בבחינות ההתמחות

ChatGPT קיבל לידיו משימה לפתור את מבחני ההסמכה לרישיון מומחה לרופאים – והצליח לעבור אותם ואף קיבל בחלק מהמקרים תוצאות טובות יותר מהנבחנים עצמם. כך עולה ממחקר ישראלי חדש שפורסם ביום שישי האחרון בכתב העת היוקרתי The New England Journal of Medicine AI. תוצאות המחקר, שהחל בבית החולים איכילוב, מספקות דוגמה נוספת להתקדמות המטאורית של הבינה המלאכותית ולדרך שבה תוכל להשפיע בעתיד על חיינו.
המחקר נערך על-ידי ד"ר ערן כהן, מתמחה בפסיכיאטריה במרכז הרפואי לבריאות הנפש לב השרון, יחד עם ד"ר אוריאל כץ, סטאז'ר בבית החולים וולפסון, בשיתוף פרופ' עידו וולף, מנהל המערך האונקולוגי באיכילוב, וההסתדרות הרפואית בישראל.
כך מכשירים רופאים באמצעות VR
 (PresicionOS)

"תחום הבינה המלאכותית תמיד עניין אותנו", מספר ד"ר כהן. "לפני כשנה רצינו לבדוק את היכולות של צ'אט GPT. היה על זה הרבה דיבור בזמנו, הגרסה החדשה שלו מאוד הצליחה, ושאלנו את עצמנו איך נוכל לבדוק את היכולות שלו ברפואה. ואז חשבנו כיוזמה אישית לעשות את זה על מבחני הרישוי שלב א' של רופאים מתמחים. לקחנו את חמשת המקצועות הבסיסיים שיש ברפואה – ילדים, פסיכיאטריה, כירורגיה כללית, גינקולוגיה ורפואה פנימית". 
3 צפייה בגלריה 
המטרה לעתיד: רפואה טובה ויעילה יותר
(צילום: shutterstock)
כאשר התקבלו התוצאות, גילו הרופאים להפתעתם כי ChatGPT הצליח לעבור את המבחנים בהצלחה. "הבנו שהוא מצליח לענות על זה, ולא רק זה – שהוא גם עובר. זאת הייתה פשוט סנסציה בשבילנו לראות שהוא מצליח לעמוד במבחנים", אומר ד"ר כהן. "התחלנו את כל התהליך לבד. הבנו שיש לנו ביד משהו שהעולם ירצה לדעת, ולא ממש ידענו מה לעשות עם זה".
לשם כך פנו השניים לפרופ' עידו וולף, מנהל המערך האונקולוגי באיכילוב. "הוא ידוע ברצונו לעזור למתמחים צעירים ולקדם את עולם המחקר", מסביר ד"ר כהן, "הוא הסכים לחנוך אותנו ולעזור לנו לקדם את זה להבשלה של המחקר שבסופו של דבר פורסם". בסיועו של וולף פנו השניים גם להסתדרות הרפואית בישראל, שסיפקה למחקר נתונים רשמיים של מתמחים במסגרת מבחני הרישוי שביצעו בשנת 2022. "הם הסכימו להשתתף ולחלוק איתנו את המידע. רוב המדינות בעולם לא עושות את זה. זה מאוד יפה שהם התגייסו", מוסיף ד"ר כהן.
3 צפייה בגלריה 
"תחום הבינה המלאכותית תמיד עניין אותנו". מימין לשמאל: ד"ר ערן כהן, ד"ר אוריאל כץ
(צילום: דוברות איכילוב)
אדם מול מכונה: מי יותר טוב?
כחלק מתהליך המחקר הזינו הרופאים לצ'אט GPT בשתי גרסאות שונות – 3.5 ו-4, את שאלות מבחני הרישוי שניתנו למתמחים במקצועות ילדים, כירורגיה כללית, גינקולוגיה, פסיכיאטריה ורפואה פנימית. כל צ'אט ניסה את המבחן 120 פעמים על מנת לאמוד את יכולותיו מספר פעמים בעקביות. התשובות שהתקבלו הושוו לאחר מכן לתוצאות של 849 מתמחים שנבחנו במבחן זהה.
"כל פילוג הנתונים היה מאוד מעניין. הבנו שלא רק שצ'אט GPT-4 מצליח לעבור את המבחן, אלא בחלק מהמבחנים הוא קיבל ציונים יותר גבוהים מהמתמחים", מרחיב ד"ר כהן. "שיפור היכולות בין שתי הגרסאות מדגים את הקפיצה המהירה וקצב התפתחות הבינה המלאכותית בטווח זמן של כשנה. זה אומר הרבה על האמינות של הצ'אט – גרסה 3.5 לא הצליחה בכלל לעומת גרסה 4. יש בסך הכול הבדל של שנה ביניהן. זו קפיצה טכנולוגית והישג היסטורי. הרי יש המון ביקורת: אנשים אומרים 'ברור שמודל שפה יכול לעבור את המבחנים', אבל הנה, רואים שגרסה 3.5 לא הצליחה".
ד"ר ערן כהן: "המחקר שלנו לא בא להגיד 'הצ'אט ייתר את הרופאים', הוא בא להראות איזושהי נקודת מבט של איפה הטכנולוגיה עומדת. הצלחנו לייצר מראה לאיפה אנחנו עומדים, לא איזושהי הצהרה. תראה איזה הבדל יש בין גרסה 3.5 ל-4, אז מה יהיה עוד שנה מהיום? צריך להתכייל לזה שאנחנו והטכנולוגיה לא באותם לוחות זמנים"
ואלו הנתונים המעניינים: צ'אט GPT-4 כמעט ולא נכשל במבחנים, לעומת אחוזי כישלון של 25% בקרב המתמחים בהתמחויות השונות. "מדובר במבחן שנעשה על כל החומר העיוני של ההתמחות. זה מבחן שלומדים אליו תקופה. לפני המבחן אתה לומד במשך שלושה חודשים אינטנסיביים, בחלק מההתמחויות לוקחים חודש חופש ללמוד לדבר הזה. בחלק מהקבוצות יש 30% כישלון, כלומר, זה דבר משמעותי שהצ'אט מעולם לא נכשל".
לעומת זאת, ממוצע הציונים בין הצ'אט למתמחים כמעט זהה, כאשר הצ'אט עקבי ומראה ביצועים יציבים, וציוניהם של המתמחים נעים בין ציון 85-30. עוד מעניין לגלות כי במקצועות רפואה פנימית ופסיכיאטריה, הצליח הצ'אט טוב יותר מרוב המתמחים. עם זאת, הצ'אט לא הצליח אף לא פעם אחת לעקוף את הציון של המתמחה עם הציון הגבוה ביותר. "הבינה המלאכותית עוד לא הצליחה להשיג את האנשים שהם מקצועיים בתחומם", אומר ד"ר כהן.
פרופ׳ עידו וולףצילום: מירי גטניו, דוברות איכילוב
האם בעתיד בינה מלאכותית תחליף את אנשי המקצוע בתחום הרפואה? לא בהכרח. "אנחנו ממש מתרגשים לשמוע איך העולם רואה ומקבל את זה", אומר כהן, ובמקביל ממהר להוסיף: "זה אומר הרבה, אבל לא בהכרח משליך על העתיד. המחקר שלנו לא בא להגיד 'הצ'אט שלנו ייתר את הרופאים', הוא בא להראות איזושהי נקודת מבט של איפה הטכנולוגיה עומדת.
"זה שהצ'אט יכול לעמוד בהצלחה מול מבחני הסמכה רק מראה את הבשלות של הטכנולוגיה ושצריך לדעת איך להשתמש בה. יותר הצלחנו לייצר מראה לאיפה אנחנו עומדים, לא איזושהי הצהרה. תראה איזה הבדל יש בין גרסה 3.5 ל-4, אז מה יהיה עוד שנה מהיום? צריך להתכייל לזה שאנחנו והטכנולוגיה לא באותם לוחות זמנים".
3 צפייה בגלריה 
לא רק הצליח לעמוד במבחנים, גם עבר אותם. צ'אט GPT
(צילום: shutterstock)
ובכל זאת, אילו הזדמנויות זה יכול לפתוח לעתיד?
"זה יוכל לקצר משמעותית את עבודת הרופא מבחינת מציאה ועיבוד של מידע. גם במחקר כתבנו על זה – שצריך להטמיע את הסינרגיה בין רופאים לבין בינה מלאכותית בשביל לייעל תהליכים. יש כל כך הרבה חומר, כל כך הרבה ספרים. הרשומות הרפואיות מתארכות משנה לשנה. פעם לפני כמה עשורים ידעו על שלושה חלבונים בדם, היום יש לי ספר שלם רק על חלבונים בדם. כל התחום נהיה עצום. חייבים לשלב איכשהו את הטכנולוגיה עם הרופאים כדי שבעתיד נוכל לתת רפואה טובה יותר".
ובינתיים, לנוכח התוצאות המדהימות של המחקר הזה, בהסתדרות הרפואית כבר בוחנים אפשרויות לנצל את מאגר המידע הגדול שקיים ברשותם לטובת מחקרים עתידיים. "אנו מתעתדים להוביל מחקר גדול ומקיף ביותר על הנושא בעתיד הקרוב", אומר פרופ' רון אלישר, יו"ר ועדת בחינות עליונה במועצה המדעית של ההסתדרות הרפואית בישראל. "במועצה המדעית קיים מאגר מידע ייחודי מסוגו בעולם של בחינות והתמחויות לאורך יותר מ-30 שנים, וקיימת יכולת עצומה להפיק מידע רלוונטי ומועיל".
פורסם לראשונה: 16:59, 16.04.24