חוקרי הרווארד: ה-AI מוצלחת מרופאים באבחון בחדרי מיון
מחקר חדש מציג נתונים דרמטיים על עליונות מודל o1 של OpenAI באבחון רפואי לעומת מומחים אנושיים ● אך החוקרים מרגיעים שהטכנולוגיה לא תחליף רופאים בשר ודם וכן מתריעים מפני סוגיות אתיות ומשפטיות מורכבות
במחקר רחב היקף ופורץ דרך של אוניברסיטת הרווארד ובית החולים בית ישראל דיקונס בבוסטון, שפורסם בכתב העת היוקרתי Science, נחשפה מציאות טכנולוגית חדשה שיכולה לשנות את פני הרפואה כפי שאנו מכירים אותה. הניסוי המקיף בחן את יכולותיו של מודל שפה מתקדם מבית חברת OpenAI, המכונה o1 preview, לבצע מטלות מורכבות של חשיבה קלינית וקבלת החלטות בזמן אמת במסגרת שירותי רפואה דחופה.
בניגוד למחקרי עבר, שהסתמכו על שאלות תיאורטיות בסגנון מבחן אמריקני ובאווירה סטרילית, הפעם בחרו החוקרים להציב את הטכנולוגיה במבחן המציאות המורכבת של בתי החולים. המערכת הממוחשבת הוזנה בנתונים של 76 מקרים אמיתיים לחלוטין מתוך מערכת התיקים הרפואיים האלקטרוניים של מטופלים שביקרו במיון, בדיוק כפי שנכתבו, כולל רעשי הרקע, חוסר הסדר והמידע החסר שאופייניים לתיעוד של אחיות ורופאים בשלבי הקליטה הראשוניים. מטרת החוקרים הייתה לגלות האם התוכנה מסוגלת להתמודד עם העומס, הלחץ והעמימות המאפיינים את עבודת הצוותים הרפואיים במחלקות לטיפול דחוף – או כפי שהם מכונים בישראל חדרי מיון.
A new study from Harvard just found that AI diagnosed real ER patients more accurately than two attending physicians from elite med schools.
The model used? OpenAI's o1-preview… Released in September 2024.
The correct diagnosis at initial ER triage on 76 cases from a Boston… pic.twitter.com/vhebknEyeA
— The Rundown AI (@TheRundownAI) May 2, 2026
המערכת התעלתה על ביצועי הרופאים במספר שלבי טיפול
ממצאי הניסוי הציגו תמונה חד-משמעית ומפתיעה למדי באשר לעליונותה של המערכת. הטכנולוגיה נבחנה בשלושה שלבים שונים של תהליך הטיפול, והצליחה להתעלות על ביצועיהם של רופאים מומחים בכל אחד ואחד מהם. הפער המשמעותי ביותר נרשם דווקא בשלב הטריאז' הראשוני – רגע הקבלה למיון שבו המידע הרפואי אודות החולה הוא הדל והחלקי ביותר, והצורך לקבל החלטה מהירה הוא הגבוה ביותר. בשלב קריטי זה, מודל הבינה המלאכותית הצליח לקלוע לאבחנה המדויקת, או לאבחנה קרובה מאוד אליה, ב-67.1% מהמקרים, בעוד ששני רופאים מומחים שהתמודדו עם אותם נתונים במקביל הגיעו לדיוק של 55.3% ו-50% בלבד.
ככל שהתקדם הטיפול והתווסף מידע רפואי מהותי, הפער אמנם הצטמצם מעט, אך עדיין נותר מובהק לטובת המכונה: בשלב ההערכה הראשונית במיון, המודל רשם דיוק של 72.4% לעומת 61.8% ו-52.6% אצל הרופאים, ובשלב ההחלטה הסופית על אשפוז המטופלים במחלקות הרגילות או בטיפול נמרץ, המערכת השיגה 81.6% דיוק, בעוד המומחים האנושיים רשמו 78.9% ו-69.7% (בהתאמה).
העליונות הטכנולוגית לא נעצרה רק בשלב אבחון המחלה, אלא באה לידי ביטוי מובהק גם ביכולת לתכנן את המשך הטיפול. בניסוי נפרד שכלל חמישה מקרי בוחן קליניים מורכבים במיוחד, המערכת התבקשה לקבוע תוכניות טיפול מעשיות, הכוללות המלצות למרשמי אנטיביוטיקה מותאמים ואף קבלת החלטות רגישות הנוגעות להליכי סוף החיים. הציון החציוני שהשיגה הבינה המלאכותית במשימות אלו עמד על 89% הצלחה. לשם השוואה, קבוצה גדולה של רופאים אנושיים, שהסתייעו במשאבים שגרתיים ועדכניים כמו מנועי חיפוש, השיגו ציון של 34% בלבד, ואפילו קולגות שהשתמשו בגרסאות קודמות של מחוללי שפה (כדוגמת GPT-4) הגיעו רק ל-41% הצלחה.
חדות אבחנתית חסרת תקדים
כדי להמחיש את עוצמת החשיבה הקלינית של התוכנה בזמן אמת, החוקרים תיארו מספר תרחישים שבהם המכונה הפגינה חדות אבחנתית חסרת תקדים. בראיון שהעניקו לגרדיאן, תואר מקרה של מטופל שהגיע לחדר המיון כשהוא סובל מקריש דם בריאות ומתסמינים שהלכו והחמירו. בעוד שהרופאים האנושיים סברו בתחילה כי התרופות נוגדות הקרישה פשוט אינן משפיעות כראוי, ה-AI הצליבה את הנתונים וזיהתה פרט קטן בהיסטוריה הרפואית של המטופל – מחלת רקע של זאבת (לופוס). המערכת הסיקה באופן מיידי כי הזאבת היא זו שגורמת לדלקת החמורה בריאות – אבחנה שהתבררה כנכונה.
במקרה מאלף אחר, שפורסם במגזין Science News, מטופל שבעברו הייתה השתלת איברים, והיה מדוכא חיסון, הגיע לבית החולים עם תסמיני נשימה שגרתיים לכאורה. ד"ר אדם רודמן, ממחברי המחקר הבכירים מהרווארד, סיפר בהשתאות כי "המודל חשד מתחילת הדרך שמדובר בזיהום מסוכן של חיידק טורף, שדורש ניתוח, ככל הנראה 12 עד 24 שעות לפני שהרופא האנושי היה מתחיל בכלל לחשוד בכך".
לאור נתונים אלו, אין פלא שהתוצאות הפתיעו אפילו את עורכי המחקר עצמם, שניגשו לפרויקט בסקרנות מדעית זהירה. "חשבתי שזה יהיה ניסוי מהנה אבל שהוא לא יעבוד כל כך טוב – וזה ממש לא מה שקרה", הודה רודמן בפתיחות.
פרופסור ארג'ון מנראי, שותפו הבכיר למחקר, ציין כי הביצועים "באמת הדהימו אנשים רבים" והוסיף נחרצות כי "אנו עדים לשינוי טכנולוגי עמוק באמת, שיעצב מחדש את פני הרפואה".
AI just beat ER doctors at diagnosing patients… in a Harvard study published YESTERDAY.
67% accurate at triage vs 55% for humans.
AI doesn't forget. doesn't get tired. has more context than any doctor alive and will catch the edge case your physician missed because they've… https://t.co/d9VS1nnHPd pic.twitter.com/VmxAeiQ61F
— shirish (@shiri_shh) May 2, 2026
המערכת אינה בשלה עדיין להחליף לגמרי את הרופא האנושי
אולם חרף ההצלחה המסחררת בניסוי, כלל המומחים הדגישו והזהירו כי המערכת אינה בשלה בשלב זה להחליף רופא אנושי באופן גורף. מנראי הבהיר כי הניסוי נשען כולו על הזנת נתוני טקסט לתוך המחשב, זירה שבה מודלים של שפה מצטיינים במיוחד. במציאות העשייה הרפואית, רופאים נדרשים להקשיב לחולה, לבדוק אותו פיזית, לבחון מדדים פיזיולוגיים שונים, לפרש בזמן אמת צילומי רנטגן וא.ק.ג, ובעיקר – להבחין בניואנסים דקים של שפת גוף, עוצמת כאב ומצוקה רגשית, נתונים שמחשב עדיין אינו יודע לשקלל.
ד"ר פיטר ברודר, עמית קליני מבית החולים שהוביל חלק מהמחקר, הדגיש נקודה חשובה נוספת: "מודל עשוי לזהות נכון את האבחנה העיקרית, אך בו זמנית להציע בדיקות מיותרות, שעלולות לחשוף את המטופל לפגיעה רפואית. בני אדם צריכים להיות הרף הסופי כשמדובר בהערכת ביצועים ובטיחות".
עם זאת, לצד ההתלהבות, עולות גם ביקורות נוקבות. ד"ר ארייה ראו מהרווארד הבהירה ל-Science News כי חשיבת המחשב שונה מחשיבה קלינית אנושית, שכן מודלים נוטים לקפוץ למסקנות וההגיון שלהם "שביר בדיוק במקומות שבהם לחוסר ודאות ודקויות יש את החשיבות הגדולה ביותר". בנוסף, ד"ר וויי שינג מאוניברסיטת שפילד הזהיר ב-גרדיאן שרופאים עלולים להתרגל לנוחות, לאבד את חשיבתם הביקורתית ולהסתמך בעיוורון על המכונה.
מעבר לכך, מרחפת שאלת האחריות המשפטית במקרי פגיעה במטופלים. מערכות הרגולציה בעולם טרם הותאמו למודלים שמקבלים החלטות אבחוניות, ואין כיום מסגרת חוקית המגדירה מי יישא באשמה אם תוכנה תוביל לנזק. ד"ר רודמן אף הודה בדאגה בפני הגרדיאן כי "אין כרגע מסגרת רשמית לאחריות אישית בסוגיה זו".
מסתמן כי החזון העתידי של עולם הרפואה יתבסס על מה שרודמן מכנה "מודל טיפולי משולש" – כזה המשלב בין הרופא, המטופל וה-AI ככלי עזר שני, וכפי שהדגיש מנראי, מטופלים ימשיכו לרצות בסופו של דבר שרופאים אנושיים יהיו אלו שידריכו אותם בהחלטות הקשות בנושאי בריאות, חיים ומוות.












תגובות
(0)