חולה מגיע לחדר המיון עם קריש דם בריאות. מצבו משתפר - ואז מידרדר. הצוות הרפואי משער שהטיפול נכשל. בשלב הזה נכנסת לתמונה הבינה המלאכותית: לאחר שסרקה את התיק הרפואי, היא מציעה תיאוריה שונה לחלוטין. לחולה יש היסטוריה של זאבת (לופוס) - מחלה אוטואימונית שעלולה לגרום לדלקת בלב - וזה, לפי המודל, מה שמסביר את ההידרדרות. ההשערה מתבררת כנכונה.
זה לא תרחיש דמיוני שנלקח מתוך סדרת רפואה. זה קרה בחדר המיון של Beth Israel Deaconess Medical Center בבוסטון לפני זמן לא רב. מחקר חדש שפורסם בימים האחרונים בכתב העת החשוב Science טוען שמקרים כאלה עומדים להיות שגרה - והפער שהתגלה לטובת מודל ה-AI לא פחות ממדהים.
בסרטון הבא: כך רותם סטארט-אפ ישראלי AI להקלטת שיחות עם מטפלים בבריאות הנפש ולייעול הטיפול
יובל טל ואלון ברכה מ-Dive Health מתארים את הסטארט-אפ שמספק מענה בבריאות הנפש
( צילום: ירון ברנר)
שישה ניסויים, תוצאה אחת
המחקר, שאותו הובילו על ידי חוקרים מאוניברסיטת הרווארד ומ-Beth Israel Deaconess, בשיתוף חוקרי סטנפורד, לא הסתפק בבדיקה אחת. החוקרים ערכו שישה ניסויים שונים שבהם העמידו את מודל o1 של OpenAI - דור חדש של מודל "חשיבה מדורגת", שמסוגל לנמק בשלבים לפני שמגיע למסקנה - מול מאות רופאים ממגוון רמות הכשרה וניסיון: מתמחים, רופאים מומחים ואף רופאי משפחה. בכל הניסויים, ללא יוצא מן הכלל, עקף המודל את בני האדם.
3 צפייה בגלריה


הפער עקבי ומובהק בין מיון שמבוצע על ידי מודל AI לבין אבחנת רופא. אילוסוטרציה
(צילום: shutterstock)
הניסוי המשמעותי ביותר - זה שמדמה ביותר את המציאות הקלינית - נערך על 76 מקרים אמיתיים מחדר המיון של Beth Israel. המודל ושני רופאים מומחים קיבלו את אותם הנתונים בדיוק: רשומות רפואיות אלקטרוניות, מדדים חיוניים, ומשפטים ספורים שכתבה האחות בכניסה. שני רופאים נוספים, שלא ידעו מה מקורה של כל אבחנה, דירגו את התוצאות.
הפער שהתגלה היה עקבי ומובהק. בשלב הטריאז' (מיון ראשוני) - הרגע שבו המידע הוא מינימלי והלחץ הוא מקסימלי - זיהה המודל את האבחנה הנכונה או קרובה מאוד ב-67% מהמקרים. הרופא הראשון השיג 55%, הרופא השני 50%. ככל שהמידע גדל - גדל גם הדיוק של כולם, אך הפער נשמר: עם קבלת החולה ליחידה הפנימית, הגיע המודל ל-81.6%, לעומת 78.9% ו-69.7% לרופאים.
"זו המסקנה הגדולה עבורי", אמר ד"ר אדם רודמן מבית הספר לרפואה של הרווארד, שמוביל את כוח המשימה לשילוב בינה מלאכותית בתוכנית הלימודים, ומנהל את תוכנית הבינה המלאכותית במרכז Shapiro ב-Beth Israel Deaconess. "זה עובד עם הנתונים המבולגנים של חדר המיון האמיתי. זה עובד לצורך אבחון בעולם האמיתי", הוסיף.
גם נשמע כמו רופא
פרט מתודולוגי חשוב מגלה עד כמה האבחנה בין בינה מלאכותית לרופא אנושי אינה ברורה: הרופאים שדירגו את האבחנות התבקשו לנחש אם כל תשובה נכתבה על ידי רופא אנושי או AI. התוצאה: אחד מהם לא הצליח להכריע ב-83.6% מהמקרים, השני - ב-94.4% מהמקרים. "כלומר, הבינה המלאכותית לא רק שהיתה מדויקת יותר - היא גם נשמעה כמו רופא.
מאז שנות ה-50 של המאה הקודמת משמשים דיוני המקרה המורכבים שמפרסם כתב העת New England Journal of Medicine כאמת המידה לבחינת מערכות אבחון ממוחשבות. מדובר במקרי חולים אמיתיים, עמוסי פרטים מטעים ומסיחי דעת, הפרוסים על פני עשרות תחומי רפואה שונים. "הביצועים של הבינה המלאכותית לעומת מומחים אנושיים במקרים האלה הכו בהלם אנשים רבים", אמר פרופ' ארג'ון מנראי, מרצה בכיר לאינפורמטיקה ביו-רפואית בבית הספר לרפואה של הרווארד ואחד ממובילי המחקר.
על 143 מקרים בין 2021 ל-2024, כלל המודל את האבחנה הנכונה ב-78.3% מהמקרים. כשהרחיבו את הקריטריון לכלול גם אבחנות "קרובות מאוד" - הדיוק עלה ל-97.9%. בהשוואה ישירה עם GPT-4 על 70 מקרים, עקף o1 את קודמו: 88.6% לעומת 72.9%.
תומס באקלי, דוקטורנט בבית הספר לרפואה של הרווארד שהשתתף במחקר, ציין שהתוצאות מרמזות ש-o1 מגיע לקרוב לאבחון אופטימלי על מקרים מאתגרים אלה - שמשמשים כאמת המידה לבחינת יכולות האבחון של מחשבים מאז 1959.
פער מדהים בניהול הטיפול
הממצא המפתיע ביותר במחקר לא עסק באבחון אלא במה שהרופאים מכנים "management reasoning" ("הניהול הקליני" - כל ההחלטות שמגיעות אחרי האבחנה): אילו בדיקות להזמין, איזו אנטיביוטיקה לתת, כיצד לנהל שיחה על טיפול בשלב סופני. בחמישה תרחישים מורכבים שפותחו על ידי 25 מומחים, קיבל מודל ה-AI ציון חציוני של 89%. רופאים שהשתמשו במשאבים קונבנציונליים - כולל חיפוש בגוגל עדכני - השיגו 34% בלבד.
"הניהול הקליני הוא כנראה משימה מורכבת יותר מאבחון", הסביר ד"ר פיטר ברודר, רופא בתת-התמחות ב-Beth Israel שהשתתף במחקר. "היא דורשת התחשבות לא רק בממצאים אובייקטיביים, אלא גם בגורמים סובייקטיביים - מה ההקשר, מה הסיטואציה. לכן אין זה מפתיע שמודל חשיבה מצטיין בה".
ד"ר פיטר ברודר: "הניהול הקליני הוא כנראה משימה מורכבת יותר מאבחון. היא דורשת התחשבות לא רק בממצאים אובייקטיביים, אלא גם בגורמים סובייקטיביים - מה ההקשר, מה הסיטואציה. לכן אין זה מפתיע שמודל חשיבה מצטיין בה"
החוקרים מקפידים להדגיש את מה שהמחקר לא בחן - ומה שהמודל עדיין אינו מסוגל לו. כל הניסויים התבססו על קלט טקסטואלי בלבד. בפועל, הרפואה הקלינית עמוסה בנתונים שאינם טקסט: צילומי רנטגן, א.ק.ג, מדידות פיזיולוגיות, ואפילו האופן שבו חולה נראה, נשמע ומרגיש.
"רופאים חייבים להקשיב לחולה, לבדוק צילום חזה, לנתח א.ק.ג ואקו-לב", אמר פרופ' מנראי. "הם משתמשים בסוגים רבים מאוד של נתונים בקבלת ההחלטות הקלינית היומיומית". הוא ציין שצוותו עורך "מחקרים מקבילים על ביצועי המודלים בניתוח תמונות" ורואה שיפור מהיר - אך הנתונים טרם פורסמו.
ד"ר וויי שינג, מרצה מאוניברסיטת שפילד שלא השתתף במחקר, הוסיף הסתייגות חשובה: המחקר אינו כולל ניתוח של אילו חולים המודל מאבחן פחות טוב - קשישים? דוברי שפות שאינן אנגלית? בנוסף, לדבריו, קיים חשש שרופאים יתחילו להסתמך על תשובות הבינה המלאכותית במקום לחשוב באופן עצמאי - "מגמה שעלולה להתגבר ככל שהבינה המלאכותית תשתלב יותר בסביבה הקלינית", אמר ל"גרדיאן". ומסקנתו היא ש"המחקר אינו מוכיח שהבינה המלאכותית בטוחה לשימוש קליני שגרתי, ואין בו בסיס לכך שהציבור יפנה לכלי בינה מלאכותית זמינים כתחליף לייעוץ רפואי".
לא להוציא רופאים מהמשוואה
פרופ' מנראי וד"א רודמן קובעים נחרצות שהממצאים אינם תומכים בהחלפת רופאים. "בסופו של דבר", אמר פרופ' מנראי, "בני אדם רוצים שבני אדם ינחו אותם בהחלטות של חיים ומוות, ינחו אותם בהחלטות טיפוליות מורכבות, ידברו איתם על איכות חייהם". ד"ר רודמן אמר שאינו רוצה לראות חברות "AI רפואי" מנסות לצמצם את המעורבות הקלינית של רופאים. "הממצאים שלנו לא תומכים בזה", הוא אמר. "מה שהם תומכים בו הוא סדר יום מחקרי שאפתני".
במקום זאת, החוקרים מצביעים על שני תחומים שבהם הבינה המלאכותית יכולה כבר עכשיו לסייע לרופאים. הראשון: טריאז' בחדר המיון, שבו חולים מגיעים עם תסמינים לא ברורים ורשומות רפואיות מבולגנות. "אפשר לדמיין בקלות מערכת שרצה ברקע על הרשומה האלקטרונית ומנסה לזהות שגיאות באבחון או הזדמנויות שהוחמצו לפני שהן הופכות לנזק", אמר ד"ר רודמן. היישום הנוסף הוא חוות דעת שנייה: "אנחנו יודעים שרופאים שמקבלים חוות דעת שנייה מעמיתים משפרים את הטיפול. בינה מלאכותית יכולה לשמש ככלי כזה".
3 צפייה בגלריה


מודל AI עשוי לספק חוות דעת שנייה. בתמונה: חדר מיון ישראלי
(צילום: ChameleonsEye / Shutterstock)
ד"ר דייוויד רייך, מנהל קליני ראשי של מערכת בתי החולים Mount Sinai בניו יורק שלא השתתף במחקר, אמר ל-NPR שהשאלה הפתוחה המרכזית היא לא אם הטכנולוגיה מדויקת, אלא כיצד לשלב אותה בפועל בתהליכי עבודה קליניים "בדרכים שמשפרות את הטיפול". לדבריו, "המחקר הזה הוא קריאה מושלמת לפעולה".
ד"ר רודמן ופרופ' מנראי קוראים למחקרים מבוקרים נוספים שיקבעו כיצד הטכנולוגיה משפיעה על תוצאות המטופלים בפועל. "אנחנו עדים לשינוי עמוק באמת בטכנולוגיה שיעצב מחדש את הרפואה", אמר מנראי, וקרא לבחון את הטכנולוגיה בניסויים קליניים מבוקרים - לפני שתשתלב בשגרת הטיפול.
המחקר האמריקני מגיע בעיתוי מעניין גם מהזווית הישראלית. לפני ימים ספורים בלבד אישר משרד הבריאות לראשונה שימוש בכלי בינה מלאכותית לביצוע מיון פסיכיאטרי - מערכת LIV של הסטארט-אפ הישראלי Mentaily, שצמח מזרוע החדשנות ARC של שיבא. המערכת, שדמות אווטאר מנהלת בה שיחה עם המטופל בדומה לריאיון פסיכיאטרי ראשוני, השיגה בשני מחקרים קליניים על 385 מטופלים התאמה של כ-90% להערכות פסיכיאטרים - ויכולת זיהוי של כ-96% למצבים בסיכון גבוה. "המטרה היא לא להחליף את המטפל, אלא להעצים אותו", אמר ד"ר אסף כספי, סגן מנהל האגף הפסיכיאטרי בשיבא וממייסדי המיזם. לפי שעה, המערכת הישראלית משמשת ככלי עזר לרופאים.








