AI jako lékař selhává v 80 % diagnóz, ukazuje studie

· 18 min čtení · Kategorie: novinky
AI jako lékař selhává v 80 % diagnóz, ukazuje studie

V pondělí 13. dubna 2026 zveřejnil otevřený časopis JAMA Network Open studii, kterou výrobci AI modelů komentovat odmítli. Výzkumný tým z Mass General Brigham — nemocnice přidružené k Harvard Medical School — postavil proti sobě 21 nejvýkonnějších jazykových modelů od GPT‑5 přes Claude 4.5 Opus, Gemini 3.0 Pro až po Grok 4, podrobil je nově vytvořenému benchmarku PrIME‑LLM a zjistil dvě věci, které spolu těžko jdou dohromady. Když modely dostanou kompletní data pacienta — anamnézu, fyzikální vyšetření, laboratorní výsledky — diagnózu uhodnou v 90+ %. Když mají jen to, co lékař při prvním kontaktu obvykle má, selhávají ve více než 80 % pokusů o smysluplnou diferenciální diagnózu. A to je přesně ta úloha, se kterou medicína začíná.

TL;DR — Klíčová zjištění

  • 13. 4. 2026 vyšla v JAMA Network Open studie týmu Mass General Brigham / Harvard Medical School, která otestovala 21 frontier jazykových modelů (GPT‑5, Claude 4.5 Opus, Gemini 3.0 Pro, Grok 4, DeepSeek R1 a další) na 29 klinických vignetách se zveřejněním novým benchmarkem PrIME‑LLM.
  • Výsledek: více než 80 % selhání u diferenciální diagnózy se vstupními daty, která má lékař v prvních minutách kontaktu s pacientem. U finální diagnózy se všemi daty dosahují nejlepší modely přesnosti nad 90 %.
  • Nejlepší výkon: Grok 4 a GPT‑5 (PrIME‑LLM 0,78). Nejhorší: Gemini 1.5 Flash (0,64). Propast ve skóre ano — v pattern selhání ne. Všechny modely selhávají ve stejné fázi diagnostického procesu.
  • Pro české ordinace to není akademický problém. Národní strategie elektronického zdravotnictví 2025‑2035 počítá s AI; 67,6 % českých zdravotnických zařízení AI už používá nebo testuje. Od srpna 2026 se plně uplatňuje EU AI Act s high‑risk kategorií pro medicínské AI systémy.
  • Článek nabízí: tabulku PrIME‑LLM skóre všech 21 modelů, kalkulaci dopadu pro průměrnou českou ordinaci, rozhodovací strom „kdy LLM v ordinaci použít", a checklist 7 podmínek bezpečného klinického nasazení.
Od USMLE‑hype k PrIME‑LLM‑realitě (2022 – 2026)
Od multiple‑choice testů ke klinickému procesu Čtyři roky, pět klíčových prací, jeden rozpad jedné iluze 11/2022 ChatGPT USMLE Bombastické titulky 3/2023 GPT‑4 Nature Medicine ≈ med student 4/2025 AMIE Google Research dedikovaný agent 6/2025 MAI‑DxO Microsoft multi‑agent orchestrace 11/2025 JAMA Isabel DDx > LLM první varování 4/2026 PrIME‑LLM MGB / Harvard 21 modelů, 80 % selhání První benchmark, který měří diagnostický proces, ne jen správnou odpověď. Zdroje: Nature Medicine 2023, Nature 2025, Microsoft AI 2025, JAMA Network Open 11/2025 + 4/2026
>80 %
selhání u diferenciální diagnózy s neúplnými daty (všech 21 modelů)
JAMA Network Open, 13. 4. 2026
>90 %
úspěšnost u finální diagnózy s kompletními daty (stejné modely)
Rao et al., PrIME‑LLM
21
testovaných frontier modelů od OpenAI, Anthropic, Google, xAI a DeepSeek
DOI 10.1001/jamanetworkopen.2026.4003
16 254
celkový počet hodnocených odpovědí (29 vignet × 3 replikace × 21 modelů × 5 domén)
Methods, JAMA Network Open 2026

Co se stalo: tři věci, které udělali v MESH Incubatoru jinak

Benchmark, který měří proces, ne jen výsledek

Nástroj se jmenuje PrIME‑LLM a vyvinul ho tým kolem Aryi S. Raové (MD‑PhD studentka na Harvard Medical School, první autorka) a Marca D. Succiho, MD (výkonný ředitel MESH Incubatoru při MGB, korespondující autor). Benchmark rozkládá klinickou práci lékaře do pěti domén:

PrIME‑LLM skóre je normalizovaná plocha pětiúhelníku (radar chart) — ne aritmetický průměr. Ten zásadní rozdíl je, že plocha nejde kompenzovat. Když model excelentně zvládá finální diagnózu (kde má kompletní informaci), ale propadne v diferenciální (kde je potřeba reasoning z neúplných dat), průměr by to maskoval. Plocha pětiúhelníku ne — zkřivený tvar je vidět okamžitě.

Proč je PrIME‑LLM jiný než USMLE nebo MedQA

MedQA a USMLE Step 1/2/3 testují lékaře (a modely) na multiple‑choice: čtyři až pět možností, jedna správná. Pro model je to úloha ověření hypotézy, ne její generování. PrIME‑LLM otevírá „open‑ended start" — model dostane prázdný list a musí sám napsat, co by mohlo být příčinou. Právě to je úloha, kterou lékař řeší první.

29 vignet, postupné odhalování

Zdrojem případů byly standardizované klinické vignety z MSD Manual (update z ledna 2025) — učebnicový referenční zdroj, který se používá na evropských i amerických lékařských fakultách. Celkem 29 scénářů napříč obory. Klíčem ale není počet, klíčem je stepwise reveal: model dostane informace ve stejném pořadí, v jakém by je získával lékař:

  1. Krok 1 — demografie (věk, pohlaví) a hlavní obtíž pacienta. Model má navrhnout diferenciální diagnózu.
  2. Krok 2 — doplněna anamnéza a fyzikální nález. Model aktualizuje seznam možností a navrhne, jaké testy objednat.
  3. Krok 3 — doplněny výsledky laboratoře. Model dochází k finální diagnóze a navrhuje management.

Každá vigneta prošla modelem třikrát nezávisle (replikace), aby se zohlednila stochastičnost odpovědí. 29 vignet × 21 modelů × 5 domén × 3 replikace = 16 254 hodnocených odpovědí celkem. Hodnotili medicínští studenti pracující s předem připravenou rubrikou — detail, ke kterému se později vrátíme v sekci o limitech studie.

21 modelů, které byste znali jménem

Na studijní rošt přišly tyto verze (pořadí dle rodiny):

VýrobceTestované modely
OpenAIGPT‑4o · GPT‑o1 · GPT‑o1‑Pro · GPT‑o3‑Mini · GPT‑4.5 · GPT‑5
AnthropicClaude 3.5 Haiku · Claude 3.5 Sonnet · Claude 3.7 Sonnet · Claude 3 Opus · Claude 4.5 Opus
Google DeepMindGemini 1.5 Flash · Gemini 1.5 Pro · Gemini 2.0 Flash · Gemini 2.5 Pro · Gemini 3.0 Flash · Gemini 3.0 Pro
xAIGrok 3 · Grok 4
DeepSeekDeepSeek V3 · DeepSeek R1

Odhlédneme‑li od toho, že si výzkumníci museli napříč API a webovými rozhraními zajistit konzistentní přístup (což autoři v limitech přiznávají), jde o nejreprezentativnější test frontier LLM v medicíně za poslední tři roky. Každá velká rodina je zastoupena alespoň dvěma generacemi, aby bylo vidět, zda škálování parametrů / času myšlení vede ke skutečnému zlepšení klinického reasoningu.

Vede. Částečně. Nejnovější modely Grok 4, GPT‑5, GPT‑4.5, Claude 4.5 Opus, Gemini 3.0 Flash a Gemini 3.0 Pro se seskupily v horní části žebříčku s PrIME‑LLM skórem kolem 0,77 až 0,78. Nejstarší Gemini 1.5 Flash, testovaný jako baseline, skončil na 0,64. Mezi těmito extrémy je 15 dalších modelů, z nichž každý spadá do pásma 0,66 – 0,77. Rozdíl mezi nejlepším a nejhorším je 14 procentních bodů — ale všechny selhávají v diferenciální diagnóze se stejnou mírou nad 80 %.

Proč právě teď: třicetitisícový kontext

Od USMLE k realitě: proč multiple‑choice test klame

Od slavného přechodu ChatGPT přes USMLE Step 1/2/3 v listopadu 2022 se stal USMLE de facto standardním benchmarkem medicínské AI. Papír za papírem ukazoval, jak modely překonávají procentuální prahy průměrných absolventů medicíny. Problém, na který upozorňují Rao et al., je triviální, když se jednou vysloví: USMLE testuje schopnost vybrat správnou odpověď ze známých možností. MedQA a další podobné benchmarky stejně tak. V medicíně ale drtivá většina obtíží začíná formátem „pacient přichází a něco ho bolí, nevíme co, řekni mi pět věcí, co to může být".

PrIME‑LLM testuje přesně tuhle schopnost. Výsledek není, že modely jsou hloupé. Výsledek je, že testujeme jinou dovednost, než kterou v ordinaci potřebujeme. A když se konečně testuje ta správná, čísla jsou méně slavná.

ECRI 2026: „AI diagnostic dilemma" jako hrozba č. 1

Nezávislý ECRI Institute je v USA autoritativní hlas v oblasti bezpečnosti zdravotní péče. Jeho Top 10 Patient Safety Concerns 2026 (zveřejněno 26. 3. 2026) vyjmenoval „Navigating the AI diagnostic dilemma" jako největší bezpečnostní hrozbu roku. Organizace zároveň publikovala 14 konkrétních doporučení, která zahrnují:

Studie JAMA Network Open přichází přesně 18 dní po ECRI žebříčku — a empiricky potvrzuje obavy, které ECRI formuloval. Načasování není náhoda: Succi je členem pracovní skupiny při Joint Commission, která na klinických doporučeních k AI pracuje přes rok.

Anthropic, OpenAI, Google mlčí

Podle reportáže Euronews Health ze 14. dubna 2026 výrobci frontier modelů v době vydání studie odmítli veřejně komentovat. Financial Times téhož dne přinesl obdobné zjištění. To je v kontrastu s bezprostředními reakcemi v předchozích „AI prošla USMLE" cyklech, kdy laby vydávaly triumfální tiskové zprávy. Ticho má dvě možná čtení: buď je problém vážně chápán jako metodologický šum, nebo jako příliš zásadní na okamžitou PR reakci.

„Differential diagnoses are central to clinical reasoning and underlie the 'art of medicine' that AI cannot currently replicate."
Marc D. Succi, MD — korespondující autor studie, výkonný ředitel MESH Incubator, Mass General Brigham (tisková zpráva MGB, 13. 4. 2026)

Succi není nepřátelský pozorovatel. MESH Incubator je inkubátor klinicky‑technologického výzkumu při MGB, který desítky AI projektů sám testuje a ve zdravotnictví nasazuje. Jeho kritika přichází zevnitř, ne zvenčí. Přesně proto zní váhově.

Kdo z toho má co: vítězové, poražení, nepříjemné otázky

Vítězové: dedikované systémy, framework vendors, regulátoři

První kategorie vítězů jsou dedikované klinické expertní systémy — technologie, které byly dlouho označovány za „pre‑AI" a dostaly se do stínu po příchodu ChatGPT. Patří sem Isabel DDx, DXplain a další, jejichž architektura stojí na kurátorovaných databázích, bayesovských modelech a pevně strukturovaném reasoningu. JAMA Network Open v listopadu 2025 už jednou ukázala, že Isabel DDx konzistentně překonává generické LLM v diferenciální diagnóze. Dubnová PrIME‑LLM studie tuto tezi posiluje.

Druhá kategorie jsou vendoři dedikovaných klinických AI frameworků: Hippocratic AI, Abridge, Glass Health, K Health, Counsel Health. Co mají společné: optimalizují model specificky na klinický kontext a přidávají tool‑use, RAG nad guidelines, kalkulačky a strukturovaná pravidla. Jejich nabídka se v pondělí 13. dubna najednou stala méně překvapivou a více nezbytnou.

Třetí kategorie — regulátoři. FDA, EMA, britský MHRA, česká SÚKL i NÚKIB získávají empirický důkaz, který měli desítky tušených případů a žádný solidní benchmark. Pro evropskou implementaci AI Actu je PrIME‑LLM přesně taková studie, na kterou mohou notifikované osoby odkazovat jako na důvod, proč generický chatbot v ordinaci není „state‑of‑the‑art".

Poražení: Silicon Valley narrative, pojišťovenská triáž, nemocniční ChatGPT Enterprise

První poražený je PR narativ „AI doctor". Ten podle předchozích cyklů fungoval jako startovací mantra pro fundraising: „Our model passes USMLE at expert level" → valuace. Po PrIME‑LLM to neznamená nic, pokud model nemá skóre v diferenciální diagnostice. Investory to nezabije, ale rétoriku ano.

Druhý poražený — projekty AI triáže bez human‑in‑the‑loop. Několik zdravotních pojišťoven v USA i v EU experimentovalo s tím, že první zprávu od pacienta zpracuje LLM a rozhodne o naléhavosti. Studie dává argument regulátorům i poškozeným pacientům, kteří se chtějí bránit.

Třetí — nemocnice, které nasadily ChatGPT Enterprise pro klinická rozhodnutí bez validace. Národní průzkum MZ ČR z února 2026 mluví o 67,6 % zařízení, která AI už používají nebo testují. Co se při průzkumu neptalo: jestli jde o certifikovaný medicínský prostředek, nebo o ChatGPT v prohlížeči. Rozdíl je pro EU AI Act zásadní.

Nepříjemná otázka pro manažery nemocnic

Pokud ve vaší nemocnici lékaři používají AI k tomu, aby si „poradili" s diagnózou, a nejde o validovaný medicínský prostředek v režimu MDR + EU AI Act, máte od srpna 2026 potenciálně high‑risk AI systém bez CE a bez conformity assessment. Pokuty jsou až 7 % světového obratu nebo 35 mil. EUR.

Nepříjemné otázky, které studie otevírá

Tři otázky, které se po 13. dubnu nedá zahnat pod stůl:

Heatmapa: PrIME‑LLM výkon vybraných modelů napříč 5 doménami
Zjednodušená replika Figure 3 (originál: JAMA Network Open, eTable 4) Tmavší pole = vyšší úspěšnost · Světlejší pole = více selhání Differential dx Testing Final dx Management Misc. reasoning Grok 4 ~18 % ~62 % ~94 % ~82 % ~78 % GPT‑5 ~19 % ~65 % ~93 % ~80 % ~78 % Claude 4.5 Opus ~17 % ~60 % ~92 % ~80 % ~76 % Gemini 3.0 Pro ~18 % ~61 % ~92 % ~79 % ~77 % DeepSeek R1 ~15 % ~55 % ~86 % ~72 % ~69 % Gemini 1.5 Flash ~13 % ~45 % ~78 % ~62 % ~58 % Differential dx (první krok, neúplná data) → Final dx (poslední krok, kompletní data) Inverze: čím dál model v procesu postoupí, tím lépe — ale krok 1 zůstává slepým místem. Hodnoty odvozené z grafů Figure 3 a eTable 4 (Rao et al., JAMA Network Open, 13. 4. 2026). Pro přesná čísla viz originální paper.