AI jako lékař selhává v 80 % diagnóz, ukazuje studie
V pondělí 13. dubna 2026 zveřejnil otevřený časopis JAMA Network Open studii, kterou výrobci AI modelů komentovat odmítli. Výzkumný tým z Mass General Brigham — nemocnice přidružené k Harvard Medical School — postavil proti sobě 21 nejvýkonnějších jazykových modelů od GPT‑5 přes Claude 4.5 Opus, Gemini 3.0 Pro až po Grok 4, podrobil je nově vytvořenému benchmarku PrIME‑LLM a zjistil dvě věci, které spolu těžko jdou dohromady. Když modely dostanou kompletní data pacienta — anamnézu, fyzikální vyšetření, laboratorní výsledky — diagnózu uhodnou v 90+ %. Když mají jen to, co lékař při prvním kontaktu obvykle má, selhávají ve více než 80 % pokusů o smysluplnou diferenciální diagnózu. A to je přesně ta úloha, se kterou medicína začíná.
TL;DR — Klíčová zjištění
- 13. 4. 2026 vyšla v JAMA Network Open studie týmu Mass General Brigham / Harvard Medical School, která otestovala 21 frontier jazykových modelů (GPT‑5, Claude 4.5 Opus, Gemini 3.0 Pro, Grok 4, DeepSeek R1 a další) na 29 klinických vignetách se zveřejněním novým benchmarkem PrIME‑LLM.
- Výsledek: více než 80 % selhání u diferenciální diagnózy se vstupními daty, která má lékař v prvních minutách kontaktu s pacientem. U finální diagnózy se všemi daty dosahují nejlepší modely přesnosti nad 90 %.
- Nejlepší výkon: Grok 4 a GPT‑5 (PrIME‑LLM 0,78). Nejhorší: Gemini 1.5 Flash (0,64). Propast ve skóre ano — v pattern selhání ne. Všechny modely selhávají ve stejné fázi diagnostického procesu.
- Pro české ordinace to není akademický problém. Národní strategie elektronického zdravotnictví 2025‑2035 počítá s AI; 67,6 % českých zdravotnických zařízení AI už používá nebo testuje. Od srpna 2026 se plně uplatňuje EU AI Act s high‑risk kategorií pro medicínské AI systémy.
- Článek nabízí: tabulku PrIME‑LLM skóre všech 21 modelů, kalkulaci dopadu pro průměrnou českou ordinaci, rozhodovací strom „kdy LLM v ordinaci použít", a checklist 7 podmínek bezpečného klinického nasazení.
Co se stalo: tři věci, které udělali v MESH Incubatoru jinak
Mass General Brigham v pondělí 13. dubna 2026 publikoval v JAMA Network Open studii, která oproti dosavadnímu hodnocení AI v medicíně změnila tři věci najednou. Za prvé nahradila test s volbou z pár možností (typicky USMLE nebo MedQA) otevřeným úkolem, kde musí model diagnózu navrhnout, ne vybrat. Za druhé odhalovala informace postupně — tak, jak je má lékař v reálné ordinaci. Za třetí nepočítala jednu průměrnou přesnost, ale měřila pět samostatných domén diagnostického procesu odděleně, aby bylo vidět, kde modely selhávají a kde excelují.
Benchmark, který měří proces, ne jen výsledek
Nástroj se jmenuje PrIME‑LLM a vyvinul ho tým kolem Aryi S. Raové (MD‑PhD studentka na Harvard Medical School, první autorka) a Marca D. Succiho, MD (výkonný ředitel MESH Incubatoru při MGB, korespondující autor). Benchmark rozkládá klinickou práci lékaře do pěti domén:
- Differential diagnosis — diferenciální diagnóza: sestavit seznam pravděpodobných příčin pacientových obtíží na základě toho, co je známo v daném okamžiku.
- Diagnostic testing — diagnostické testování: navrhnout, jaká vyšetření objednat, aby se mezi možnostmi vybralo.
- Final diagnosis — finální diagnóza: určit správnou odpověď po zohlednění všech informací.
- Management — léčba a další postup: léčba, sledování, prognóza.
- Miscellaneous clinical reasoning — další klinická úvaha: interpretace dat, diferenciační otázky, komunikace s pacientem.
PrIME‑LLM skóre je normalizovaná plocha pětiúhelníku (radar chart) — ne aritmetický průměr. Ten zásadní rozdíl je, že plocha nejde kompenzovat. Když model excelentně zvládá finální diagnózu (kde má kompletní informaci), ale propadne v diferenciální (kde je potřeba reasoning z neúplných dat), průměr by to maskoval. Plocha pětiúhelníku ne — zkřivený tvar je vidět okamžitě.
Proč je PrIME‑LLM jiný než USMLE nebo MedQA
MedQA a USMLE Step 1/2/3 testují lékaře (a modely) na multiple‑choice: čtyři až pět možností, jedna správná. Pro model je to úloha ověření hypotézy, ne její generování. PrIME‑LLM otevírá „open‑ended start" — model dostane prázdný list a musí sám napsat, co by mohlo být příčinou. Právě to je úloha, kterou lékař řeší první.
29 vignet, postupné odhalování
Zdrojem případů byly standardizované klinické vignety z MSD Manual (update z ledna 2025) — učebnicový referenční zdroj, který se používá na evropských i amerických lékařských fakultách. Celkem 29 scénářů napříč obory. Klíčem ale není počet, klíčem je stepwise reveal: model dostane informace ve stejném pořadí, v jakém by je získával lékař:
- Krok 1 — demografie (věk, pohlaví) a hlavní obtíž pacienta. Model má navrhnout diferenciální diagnózu.
- Krok 2 — doplněna anamnéza a fyzikální nález. Model aktualizuje seznam možností a navrhne, jaké testy objednat.
- Krok 3 — doplněny výsledky laboratoře. Model dochází k finální diagnóze a navrhuje management.
Každá vigneta prošla modelem třikrát nezávisle (replikace), aby se zohlednila stochastičnost odpovědí. 29 vignet × 21 modelů × 5 domén × 3 replikace = 16 254 hodnocených odpovědí celkem. Hodnotili medicínští studenti pracující s předem připravenou rubrikou — detail, ke kterému se později vrátíme v sekci o limitech studie.
21 modelů, které byste znali jménem
Na studijní rošt přišly tyto verze (pořadí dle rodiny):
| Výrobce | Testované modely |
|---|---|
| OpenAI | GPT‑4o · GPT‑o1 · GPT‑o1‑Pro · GPT‑o3‑Mini · GPT‑4.5 · GPT‑5 |
| Anthropic | Claude 3.5 Haiku · Claude 3.5 Sonnet · Claude 3.7 Sonnet · Claude 3 Opus · Claude 4.5 Opus |
| Google DeepMind | Gemini 1.5 Flash · Gemini 1.5 Pro · Gemini 2.0 Flash · Gemini 2.5 Pro · Gemini 3.0 Flash · Gemini 3.0 Pro |
| xAI | Grok 3 · Grok 4 |
| DeepSeek | DeepSeek V3 · DeepSeek R1 |
Odhlédneme‑li od toho, že si výzkumníci museli napříč API a webovými rozhraními zajistit konzistentní přístup (což autoři v limitech přiznávají), jde o nejreprezentativnější test frontier LLM v medicíně za poslední tři roky. Každá velká rodina je zastoupena alespoň dvěma generacemi, aby bylo vidět, zda škálování parametrů / času myšlení vede ke skutečnému zlepšení klinického reasoningu.
Vede. Částečně. Nejnovější modely Grok 4, GPT‑5, GPT‑4.5, Claude 4.5 Opus, Gemini 3.0 Flash a Gemini 3.0 Pro se seskupily v horní části žebříčku s PrIME‑LLM skórem kolem 0,77 až 0,78. Nejstarší Gemini 1.5 Flash, testovaný jako baseline, skončil na 0,64. Mezi těmito extrémy je 15 dalších modelů, z nichž každý spadá do pásma 0,66 – 0,77. Rozdíl mezi nejlepším a nejhorším je 14 procentních bodů — ale všechny selhávají v diferenciální diagnóze se stejnou mírou nad 80 %.
Proč právě teď: třicetitisícový kontext
PrIME‑LLM nevzniká ve vakuu. Dva týdny před vydáním studie publikoval ECRI Institute svůj každoroční žebříček Top 10 Patient Safety Concerns 2026 a jako hrozbu číslo jedna označil právě nejasnou hranici mezi AI‑asistovanou diagnostikou a AI‑provedenou diagnostikou. Regulátoři v EU finalizují přechod na plnou vynutitelnost AI Actu pro zdravotnické systémy (2. srpna 2026). A frontier laby závodí o to, kdo dřív představí dedikovaný klinický produkt. Právě do tohoto prostředí vstupuje studie, která říká: měříte špatnou věc.
Od USMLE k realitě: proč multiple‑choice test klame
Od slavného přechodu ChatGPT přes USMLE Step 1/2/3 v listopadu 2022 se stal USMLE de facto standardním benchmarkem medicínské AI. Papír za papírem ukazoval, jak modely překonávají procentuální prahy průměrných absolventů medicíny. Problém, na který upozorňují Rao et al., je triviální, když se jednou vysloví: USMLE testuje schopnost vybrat správnou odpověď ze známých možností. MedQA a další podobné benchmarky stejně tak. V medicíně ale drtivá většina obtíží začíná formátem „pacient přichází a něco ho bolí, nevíme co, řekni mi pět věcí, co to může být".
PrIME‑LLM testuje přesně tuhle schopnost. Výsledek není, že modely jsou hloupé. Výsledek je, že testujeme jinou dovednost, než kterou v ordinaci potřebujeme. A když se konečně testuje ta správná, čísla jsou méně slavná.
ECRI 2026: „AI diagnostic dilemma" jako hrozba č. 1
Nezávislý ECRI Institute je v USA autoritativní hlas v oblasti bezpečnosti zdravotní péče. Jeho Top 10 Patient Safety Concerns 2026 (zveřejněno 26. 3. 2026) vyjmenoval „Navigating the AI diagnostic dilemma" jako největší bezpečnostní hrozbu roku. Organizace zároveň publikovala 14 konkrétních doporučení, která zahrnují:
- Risk‑based governance framework pro každý AI nástroj v diagnostice.
- Povinné bias testing před klinickým nasazením.
- Human‑in‑the‑loop u všech rozhodnutí ovlivňujících péči.
- Transparentní zápis toho, kdy a jak AI ovlivnila diagnostickou úvahu.
- Kontinuální post‑market monitoring výkonu modelu.
Studie JAMA Network Open přichází přesně 18 dní po ECRI žebříčku — a empiricky potvrzuje obavy, které ECRI formuloval. Načasování není náhoda: Succi je členem pracovní skupiny při Joint Commission, která na klinických doporučeních k AI pracuje přes rok.
Anthropic, OpenAI, Google mlčí
Podle reportáže Euronews Health ze 14. dubna 2026 výrobci frontier modelů v době vydání studie odmítli veřejně komentovat. Financial Times téhož dne přinesl obdobné zjištění. To je v kontrastu s bezprostředními reakcemi v předchozích „AI prošla USMLE" cyklech, kdy laby vydávaly triumfální tiskové zprávy. Ticho má dvě možná čtení: buď je problém vážně chápán jako metodologický šum, nebo jako příliš zásadní na okamžitou PR reakci.
„Differential diagnoses are central to clinical reasoning and underlie the 'art of medicine' that AI cannot currently replicate."Marc D. Succi, MD — korespondující autor studie, výkonný ředitel MESH Incubator, Mass General Brigham (tisková zpráva MGB, 13. 4. 2026)
Succi není nepřátelský pozorovatel. MESH Incubator je inkubátor klinicky‑technologického výzkumu při MGB, který desítky AI projektů sám testuje a ve zdravotnictví nasazuje. Jeho kritika přichází zevnitř, ne zvenčí. Přesně proto zní váhově.
Kdo z toho má co: vítězové, poražení, nepříjemné otázky
Studie v JAMA Network Open není anti‑AI manifest — je rekalibrace. Rekalibrace toho, kdo se s výsledky může chlubit, kdo naopak musí zpomalit, a kdo se dostává pod regulační tlak, který dosud nebyl legitimizován daty. Posun je tichý, ale rychlý: v pondělí bylo „naše AI prošla USMLE" prodejní argument, ve čtvrtek je to regulatorní spoušť.
Vítězové: dedikované systémy, framework vendors, regulátoři
První kategorie vítězů jsou dedikované klinické expertní systémy — technologie, které byly dlouho označovány za „pre‑AI" a dostaly se do stínu po příchodu ChatGPT. Patří sem Isabel DDx, DXplain a další, jejichž architektura stojí na kurátorovaných databázích, bayesovských modelech a pevně strukturovaném reasoningu. JAMA Network Open v listopadu 2025 už jednou ukázala, že Isabel DDx konzistentně překonává generické LLM v diferenciální diagnóze. Dubnová PrIME‑LLM studie tuto tezi posiluje.
Druhá kategorie jsou vendoři dedikovaných klinických AI frameworků: Hippocratic AI, Abridge, Glass Health, K Health, Counsel Health. Co mají společné: optimalizují model specificky na klinický kontext a přidávají tool‑use, RAG nad guidelines, kalkulačky a strukturovaná pravidla. Jejich nabídka se v pondělí 13. dubna najednou stala méně překvapivou a více nezbytnou.
Třetí kategorie — regulátoři. FDA, EMA, britský MHRA, česká SÚKL i NÚKIB získávají empirický důkaz, který měli desítky tušených případů a žádný solidní benchmark. Pro evropskou implementaci AI Actu je PrIME‑LLM přesně taková studie, na kterou mohou notifikované osoby odkazovat jako na důvod, proč generický chatbot v ordinaci není „state‑of‑the‑art".
Poražení: Silicon Valley narrative, pojišťovenská triáž, nemocniční ChatGPT Enterprise
První poražený je PR narativ „AI doctor". Ten podle předchozích cyklů fungoval jako startovací mantra pro fundraising: „Our model passes USMLE at expert level" → valuace. Po PrIME‑LLM to neznamená nic, pokud model nemá skóre v diferenciální diagnostice. Investory to nezabije, ale rétoriku ano.
Druhý poražený — projekty AI triáže bez human‑in‑the‑loop. Několik zdravotních pojišťoven v USA i v EU experimentovalo s tím, že první zprávu od pacienta zpracuje LLM a rozhodne o naléhavosti. Studie dává argument regulátorům i poškozeným pacientům, kteří se chtějí bránit.
Třetí — nemocnice, které nasadily ChatGPT Enterprise pro klinická rozhodnutí bez validace. Národní průzkum MZ ČR z února 2026 mluví o 67,6 % zařízení, která AI už používají nebo testují. Co se při průzkumu neptalo: jestli jde o certifikovaný medicínský prostředek, nebo o ChatGPT v prohlížeči. Rozdíl je pro EU AI Act zásadní.
Nepříjemná otázka pro manažery nemocnic
Pokud ve vaší nemocnici lékaři používají AI k tomu, aby si „poradili" s diagnózou, a nejde o validovaný medicínský prostředek v režimu MDR + EU AI Act, máte od srpna 2026 potenciálně high‑risk AI systém bez CE a bez conformity assessment. Pokuty jsou až 7 % světového obratu nebo 35 mil. EUR.
Nepříjemné otázky, které studie otevírá
Tři otázky, které se po 13. dubnu nedá zahnat pod stůl:
- Jak moc lékaři už dnes spoléhají na ChatGPT neveřejně? Průzkumy naznačují, že v USA i v ČR je to větší procento, než se v tiskových zprávách přiznává. PrIME‑LLM dává argument i tichému používání: „spoléháš na nástroj, který v tvé úloze selhává v 80 % případů". Ne proto, aby se používání zakázalo, ale aby se strukturovalo.
- Kdo nese odpovědnost za chybu, když LLM je „druhý názor"? České právo na to zatím nemá odpověď. Česká lékařská komora etickým stanoviskem z roku 2025 zakazuje outsourcovat klinické rozhodnutí na chatbota, ale nepokrývá situaci, kdy lékař použije AI jen pro inspiraci a následně rozhodne „sám". Tam hranice ještě není.
- Jsou strukturované vignety fér test reality ordinace? Ne zcela. Reálný pacient lže, zapomíná, přichází s jinou obtíží, než nakonec nemá. Data jsou ještě neúplnější a ještě rozporuplnější, než PrIME‑LLM simuluje. Je pravděpodobné, že reálná čísla v ordinaci by byla ještě horší.