Researchers at Harvard Medical School and Beth Israel Deaconess Medical Center published a study in Science (April 30, 2026) finding that OpenAI's o1-preview model outperformed attending physicians on clinical reasoning tasks across ER triage and case management. At the initial decision point with limited information, o1 achieved 67.1% diagnostic accuracy on 76 real emergency cases versus 55.3% and 50.0% for two expert physicians; with fuller case information, o1 reached 82% versus 70–79% for doctors. The study relied on text-only inputs — no imaging, audio, or nonverbal cues — which the authors say precludes autonomous deployment but warrants formal clinical evaluation of AI as a diagnostic aid.

Harvard study in Science finds OpenAI o1 outperforms ER physicians at triage diagnosis

Citations