הרופא צדק ב-50% מהמקרים. ה-AI של OpenAI ב-67%.

יש תמונה שחוזרת על עצמה בסדרות רפואיות: חדר מיון מוצף, אחיות רצות, ורופא עייף שצריך לקבל החלטה קריטית תוך שלוש דקות עם מינימום מידע. הוא מסתכל על תוצאות בדיקות, על גיל המטופל, על רשומה רפואית, ומנחש. בדרך כלל הוא מנחש נכון. לפעמים לא.

זו הסצנה שחוקרים מ-Harvard Medical School ומ-Beth Israel Deaconess Medical Center בחרו לבחון מחדש, הפעם עם AI. התוצאות פורסמו ב-Science, אחד מהירחונים המדעיים היוקרתיים בעולם, ומה שהן מגלות מעורר שיחה בכל בתי החולים בעולם.

הניסוי: 76 חולים, AI, ושני רופאים שלא ידעו שהם מתמודדים

המחקר התמקד ב-76 מטופלים שהגיעו לחדר המיון של Beth Israel Deaconess Medical Center בבוסטון. החוקרים לקחו את הנתונים הגולמיים שהיו זמינים ברשומות האלקטרוניות בזמן האמת ונתנו אותם לשני רופאים פנימאיים בכירים ולשני מודלי AI: ה-o1 וה-4o של OpenAI.

"לא עיבדנו מראש את הנתונים כלל", הדגישו החוקרים. ה-AI קיבל בדיוק את אותו מידע שהיה זמין ברשומות הרפואיות ברגע האבחון. ללא עזרה, ללא הכנה מיוחדת, ללא ניקוי נתונים שמייפה את התמונה.

את האבחנות בדקו שני רופאים נוספים שלא ידעו מה הגיע מבן אדם ומה מ-AI. עיוור כפול, הסטנדרט המדעי הגבוה ביותר.

הממצא המרכזי: מודל ה-o1 הגיע לאבחנה מדויקת או קרובה מאוד ב-67% מהמקרים בשלב ה-triage הראשוני. הרופא הראשון הצליח ב-55%. השני ב-50%.

"בדקנו את מודל ה-AI מול כל בנצ'מארק אפשרי, והוא עקף גם מודלים קודמים וגם את הרופאים שלנו", אמר ארג'ון מנראי, ראש מעבד ה-AI בבית הספר לרפואה של Harvard ואחד ממחברי המחקר הראשיים.

"ההבדלים היו בולטים במיוחד בשלב ה-triage הראשוני," ציין המחקר. זה השלב שבו יש הכי מעט מידע על המטופל והדחיפות לקבל החלטה נכונה היא הגבוהה ביותר. בדיוק שם ה-AI הכה את הרופאים בפער של 12 עד 17 אחוזים.

הביקורת שצריך לשמוע

ד"ר קריסטן פנתגאני, רופאת חירום, לא שתקה. בפוסט מפורט שפרסמה מיד אחרי הפרסום, היא הסבירה את הפגם המרכזי שחלק מהכותרות החלקלקות פספסו: ה-AI הושווה לרופאים פנימאיים, לא לרופאי חדר מיון. שתי מומחיות שונות לחלוטין.

"אם אנחנו משווים כלי AI ליכולות קליניות של רופאים, נתחיל להשוות לרופאים שמתמחים בפועל בתחום הנבחן," אמרה. "לא הייתי מופתעת אם LLM יעקוף דרמטולוג בבחינת לוח של נוירוכירורגיה. אבל זה לא מידע שימושי."

יש גם ביקורת עמוקה יותר. "כרופאה בחדר מיון שרואה מטופל בפעם הראשונה, המטרה הראשית שלי אינה לנחש את האבחנה הסופית. המטרה שלי היא לקבוע אם יש כאן מצב שיכול להרוג אותו."

שני משחקים שונים. AI אולי טוב בשחמט, אבל הרופא משחק פוקר בחשכה.

מה ה-AI לא יכול לעשות?

החוקרים עצמם ציינו את המגבלה המרכזית: ה-AI קיבל רק נתוני טקסט. לא תמונות, לא CT, לא צילומי רנטגן. לא שפת גוף, לא ריח, לא הבחנות חושיות שרופא מבחין בהן כשמטופל נכנס לחדר וצועד אל מיטתו.

"מחקרים קיימים מצביעים על כך שמודלים בסיסיים מוגבלים יותר בהסקה מנתונים שאינם טקסטואליים," כתבו. רפואה היא לא רק ניתוח טקסט. היא כוללת אלגוריתמים שנבנים מניסיון, מאלפי מפגשים, מזיהוי דפוסים שלא כתובים בשום מקום.

ד"ר אדם רודמן מ-Beth Israel, אחד ממחברי המחקר, הדגיש גם שאין "מסגרת פורמלית לאחריות" על אבחנות AI. כשרופא טועה, יש מנגנון. כשה-AI טועה, מי אחראי? הסטארטאפ? בית החולים? אף אחד עדיין לא פתר את זה. ומטופלים, הוא אמר, עדיין "רוצים בני אדם שינחו אותם בהחלטות חיים ומוות."

אז לאן זה הולך?

המחקר לא מציע שה-AI ייכנס לחדר המיון ויחליף רופאים מחר בבוקר. הממצאים מדברים על "צורך דחוף בניסויים עתידיים להערכת טכנולוגיות אלה בסביבות טיפול אמיתיות." בתרגום לעברית: זה מבטיח מאוד, אבל צריך הרבה יותר מחקר לפני שנותנים לו את המפתחות, או את הסקרפל.

מה שברור כבר עכשיו הוא שה-AI מתאים לתפקיד עזר. לסייע לרופא בתיעדוף מקרים בשעות שיא, לזהות חריגות שקל לפספס בלחץ, לבדוק נדירויות שרופא לא נתקל בהן מזמן. לא כסמכות עצמאית, אלא כ-second opinion שתמיד זמין.

67% מול 50% הוא פער שלא ניתן לדחות בקלות. ואם המחקרים הבאים יאשרו את המגמה, ייתכן שתוך כמה שנים ה-AI בחדר המיון יהיה לא שאלה של "אם" אלא של "כמה אחריות נותנים לו". זה לא מסוכן. זה הגיוני. כמו ABS במכוניות, שגם הוא פעם נתפס כ"מחליף נהג" ואחר כך הפך לתקן.

ההשלכות הגדולות יותר

מחקר זה הוא חלק ממגמה רחבה יותר שמתרחשת בשקט בשנים האחרונות. AI כבר הוכח כמדויק יותר מרדיולוגים בזיהוי גידולים בממוגרפיה (במחקרים מסוימים). הוכח כמזהה רטינופתיה סוכרתית בצילומי עין טוב יותר מאופטומטריסטים. וכעת, מאבחן מצבי חירום ברמה גבוהה יותר מרופאים פנימאיים.

דפוס אחד חוזר: ה-AI לא מחליף את הרופא. הוא מאתגר חלקים ספציפיים מעבודתו שהם בעצמם ניתוח נתונים ומידע. החלקים שכרוכים בנוכחות פיזית, בתקשורת אנושית, בהכלה רגשית, עדיין שייכים לבני אדם.

אבל אלה החלקים שבתי החולים משלמים עליהם הכי פחות. אנליזת נתונים ואבחנה ראשונית הן האיזורים המעניינים ושם ה-AI נותן בראש.

השאלה שמערכת הבריאות תצטרך לענות עליה בשנים הקרובות היא לא "האם AI טוב?" אלא "מה אנחנו עושים כשה-AI טוב מספיק שאי אפשר להתעלם ממנו, אבל המסגרת המשפטית, הרגולטורית והמקצועית לא מוכנה לזה?"

זו שאלה שהמחקר הנוכחי לא עונה עליה. אבל הוא עוזר לקדם אותנו אל הרגע הזה.

הרופאים יכולים לנשום בינתיים. אבל כדאי שיתחילו ללמוד לעבוד עם ה״דבר הזה״, לא נגדו.