Lokální AI: Jak provozovat AI modely na vlastním hardwaru

24. 3. 2026 · 22 min čtení · Kategorie: Technologie

Rok 2026 je tím rokem, kdy lokální provoz AI přestává být experimental hobby a stává se seriózní alternativou pro korporace i jednotlivce. API ceny padly o 80 procent oproti loňsku. GPU hardwary jsou dostupnější. A zejména: EU AI Act vstupuje v platnost — a změní pravidla hry. Pokud máte data, která nesmí opustit vaší infrastrukturu, nebo chcete znát přesně, co se s nimi děje, je čas přejít na lokální. Tato kapitola vám ukáže, jak.

70-85%

Kvalita modelů oproti frontier AI za nulové margenální náklady

$139/měsíc

Amortizovaná cena M4 Max versus $2.250 za 50K daily API requestů

793 TPS

Throughput vLLM v produkčním nasazení (19x více než Ollama)

August 2, 2026

Deadline EU AI Actu: 72% EU profesionálů teď řeší lokalizaci dat

1. Proč lokální AI v roce 2026

Před dvěma lety byla lokální AI převážně experimentem pro nadšence. Dnes se stal obchodním imperativem. Zásadních pět důvodů.

Soukromí a kontrola

Když posílate data do OpenAI, Anthropic nebo Googlu, vstupují do vzdálené infrastruktury mimo vaši kontrolu. Pro některé případy se to nemá cenu řešit. Ale pro zdravotnické záznamy, právní dokumenty, technické tajemství, či personální data? Lokální LLM běží v izolované síti. Vaše prompt se nikdy neuvidí. Nikdo to nemonitoruje.

Jednoduchy příklad: právní kancelář zpracovává citlivé dohody. Když se tyto dokumenty pošlou přes OpenAI API, teoreticky by mohly končit v trénovacích datech (ačkoli OpenAI tvrdí, že ne — ale to nestojí v běžné smlouvě). S lokálním modellem nula rizika.

Suverenita a GDPR komplikace

EU AI Act vstupuje v platnost 2. srpna 2026. Vysokorizikové AI aplikace (zdravotnictví, právní, employment decisions) budou muset splňovat přísné požadavky na audit, dokumentaci a transparentnost. Pokud používáte třetí stranu (OpenAI API), odpovědnost za compliance padá na vás — a to je noční můra právního oddělení.

Ale je tu víc. 72% EU profesionálů teď čelí tlakům na lokalizaci dat kvůli AI regulaci. Mistral podepsala rámcovou dohodu s Francií a Německem o "suverénní AI" — a stát ji sponzoruje. Trend je jasný: inference zůstane v EU.

⚠️ GDPR a AI Act nejsou tím samým

GDPR se zaměřuje na zpracování osobních dat. EU AI Act se zaměřuje na riziko AI aplikace. Jsou sepjatá, ale odlišná. Lokální inference řeší oba problémy najednou — data zůstávají v EU, a máte plnou kontrolu nad modelem. Avšak dokumentace a audit jsou i pro lokální modely povinné, pokud je používáte v high-risk kontextu.

Ekonomika se zlepšila dramaticky

V prosinci 2025 stál GPT-4 mini 15 centů za milion inputů. Dnes stojí něco jako 3 centy. OpenAI srazil ceny o 80 procent. To je vítězství konkurence — Mistral a Claude vypršely v ceně, a OpenAI se musela přizpůsobit.

Ale to znamená, že break-even pro lokální běh se posunul. Pokud máte vysokou latenci tolerance a nízký throughput, API se staly levnější. Pokud ale máte konzistentní high-volume inference nebo latenci-kritické aplikace, lokální stále vyhrává.

Hardwary jsou konečně cenově dostupné

RTX 5090 byla právě vydána za $2.000. To je premium GPU, kterou si může koupit i malá startup bez speciální financování. Mac Studio M4 Max stojí $5.000 a zvládne 70B+ modely s unified memory architekturou, která CPU-GPU komunikaci dělá efektivnější. Dříve jste potřebovali $50k+ na vážnou lokální inferencu. Teď ne.

"Rok 2026 je tím rokem, kdy lokální AI přestává být experimentem a stává se strategickou volbou. Pokud máte data a compliance požadavky, máte CLI argument pro lokální běh."

2. Hardware průvodce: Jaké zařízení potřebujete?

Hardware je nejdůležitější rozhodnutí. Vybrat špatný = zbytečně utratit peníze. Nebo koupit underpowered zařízení a být frustrován.

Tři kategorie

Kategorie	RAM / VRAM	Ideální modely	Throughput	Příklady
Minimum	8GB RAM, 6GB VRAM	<4B modely (Qwen 2.5 1B, Phi 2.5)	1-2 tok/s	RTX 3050, StarGPU M2
Recommended	16GB+ RAM, 12GB+ VRAM	7B-13B (Mistral 7B, Llama 2 13B)	10-20 tok/s	RTX 3060, RTX 4070, M4 Pro
High-end	32GB+ VRAM, 64GB+ RAM	32B-70B (Llama 3 70B, Mixtral)	30-60 tok/s	RTX 5090, RTX 6000 Ada, M4 Max
Enterprise	80GB+ (multi-GPU)	Kterýkoli model, batched inference	793+ TPS (vLLM)	H100, A100, clustery

NVIDIA vs Apple: která cesta?

NVIDIA ekosystém (RTX série)

NVIDIA je de facto standard pro local LLM. Máte:

Výběr — stovky GPU, každá s jinou cenou a výkonem
Komunita — všechny frameworks (Ollama, vLLM, llama.cpp) mají native CUDA support
Cena/výkon — RTX 5090 má za $2.000 nejlepší ratio
Nevýhoda — fyzický hardware, je třeba upgradovat desktop/server

Konkrétní doporučení: Pokud máte notebook a chcete local GPU bez redesignu, RTX 4070 laptop (~$2.500 notebook) je sweet spot. Pokud budujete server, RTX 5090 je budoucuvzdorný. Samotná NVIDIA ostatně rozšiřuje svůj stack i mimo klasické AI — v dubnu 2026 uvedla Ising, open-source AI modely pro kvantové procesory, což potvrzuje směr, kterým se vendor lock-in ubírá.

Apple Silicon (M4 Max / Pro Max)

Apple Silicon je zajímavá alternativa, pokud už používáte Mac:

Unified memory — CPU a GPU sdílejí paměť, efektivnější pro velké modely
Integrovaná GPU — bez externích kabelů, tišší, levnější cena vs NVIDIA na stejný výkon
Přenosnost — běžíte místně, nikam se nemusíte připojovat
Nevýhoda — méně frameworků, pomalejší vývoj support. Ollama, MLX fungují dobře, ale ne úplně všechno

Konkrétní doporučení: Mac Studio M4 Max (64-128GB) je vážná volba pro 70B+ modely. Mac mini M4 (16GB) je OK pro 7B-13B, ale pořídí vás brzy. Dlouhodobě? Vezměte si M4 Max.

GPU výkon: RTX 5090 vs 4090

Výkon v tokenech za sekundu; RTX 5090 je 25-67% rychlejší v závislosti na velikosti modelu

💡 Rozhodovací matice: GPU výběr

Máte ~$2.000? → RTX 5090. Best value. Přijedete s tím 3-5 let.
Máte ~$1.200? → RTX 4070 Super desktop. Solidní na 13B modely.
Máte ~$500 a chcete vyzkoušet? → RTX 3060 secondhand. Dobrá pro 7B-10B.
Máte Mac a $5.000+? → M4 Max. Nejjednodušší setup, dlouhodobě levnější na cenu.
Máte málo peněz, chcete 70B? → Nenakupujte hardware. Pronajměte si cloud GPU ($0.50-2/hod).

3. Software stack: Které runtime vybrat?

Hardware je jen polovina. Software určuje, jak efektivně hardaware využijete. Máte čtyři hlavní volby.

Runtime	Ease of use	Performance	Use case	Trend Q1 2026
Ollama	⭐⭐⭐⭐⭐	41 TPS single user	Začátečníci, prototypování	52M downloads/měsíc, stagnuje
vLLM	⭐⭐⭐	793 TPS v clusteru	Produkce, batching, scale	Explodující, enterprise adopce
llama.cpp	⭐⭐⭐	Vysoce variabilní	Maximální control, embedded	Stabilní, niche use cases
LM Studio	⭐⭐⭐⭐	Dobrý (GUI overhead)	Non-technical, UI-forward	Klesající, nahrazeno Ollama UI

Detailně: Ollama

Ollama je "Docker pro LLM" — jeden příkaz, vše je nastaveno. Filozófia: maximální jednoduchost za cenu nějaké flexibility.

ollama run mistral a jste v chatu s Mistral 7B. To je magie pro lidi bez ML background. 52 milionů downloadů za měsíc to dokazuje.

Výkon: Generuje ~41 tokenů za sekundu na RTX 4090 s Mistral 7B. To je OK, ale ne great. Problém je single-user single-request design — jakmile pošlete dva requesty najednou, performance spadne.

Kdy ho brát: Pokud jste začátečník nebo prototypujete. Není to pro produkci s vysokým traffic.

✓ Tip: Ollama + Open WebUI

Ollama sám je CLI-only. Chcete UI? Spusťte vedle něj Open WebUI — ChatGPT-like rozhraní, které se připojí k Ollamě. Praktický návod na Ollamu ukazuje základní instalaci, produkční Open WebUI s RBAC a RAG pokrývá firemní nasazení a druhý díl řeší licenční úskalí nad 49 uživatelů.

vLLM: Produkční powerhouse

vLLM přebírá svět produktivní inference. Klíčová feature: PagedAttention, která se chová k attention cache jako operační paměť k diskům. Místo aby se celá cache musela vejít do VRAM najednou, je fragmentovaná.

Výsledek? Můžete mít 100x více concurrent requests bez OOM chyby. A performance se nezhroutí.

Čísla: vLLM generuje 793 tokenů za sekundu v clusteru (více GPU). To je 19x více než Ollama single-user. Jakmile máte víc než pár requestů najednou, vLLM vás bezpečně přepraví.

Nevýhoda: Setup je složitější. Musíte konfigurovat Ray clustery, spravovat frontu, psát vlastní API. Není to „jeden příkaz". Ale vyplatí se to, pokud máte dostatečný provoz.

Kdy ho brát: Když stavíte produkční API nebo chatbot s víc než 10 concurrent users.

llama.cpp: Maximální kontrola

llama.cpp je čistě C/C++. Bez Python overhead, bez CUDA overhead (pokud chcete). Běží na všem — Linux, macOS, Windows, mobilech.

Vysoce optimalizovaný. Pokud máte specifické hardwary nebo embedding constraints, llama.cpp vám dá kontrolu. Ale musíte si sami optimalizovat.

Kdy ho brát: Pokud stavíte embedded zařízení nebo chcete běžet na serverech bez CUDA (CPU-only inference).

4. Kvantizace: Nulové ztráty při snížení velikosti modelů

Velké modely jsou velké. Llama 3 70B v FP16 (full precision) je 140 GB. To je hardware, který si nemůže koupit zdaleka každý. Kde to zaparkovat?

Odpověď: kvantizace. Snížíte bitovou hloubku, výrazně zmenšíte model, a — to je klíč — zachováte skoro všechnu kvalitu.

GGUF: Standard formát

GGUF je univerzální formát pro quantizované modely. Na HuggingFace je teď 135.000 GGUF modelů. Každý major model má GGUF variantu. Můžete si vybrat, jakou granularitu chcete.

Q4_K_M: Sweet spot

Kvantizace má různé úrovně: Q8 (vysoká kvalita, menší zmenšení), Q5 (střed), Q4 (agresivní).

Q4_K_M je nejčastěji doporučovaná kombinace. Proč?

Zmenšuje model 3-4x (70B → ~20GB)
Udržuje 92% kvality oproti FP16
Perplexita je 6.74 — prakticky neodlišitelná od FP16
Dostatečně kompresi pro reálný hardware, nezbytně agresivní jako Q3

Příklad: Llama 3 70B s Q4_K_M stojí ~20 GB. Na RTX 5090 (32 GB) se vejde úplně s headroom pro batching. S Q8 by to bylo 70 GB. S Q3 by to byla kvalita z hororu.

🔬 Insight: Kvantizace není ztráta

Intuice: "Méně bitů = horší kvalita." To je pravda na mikroskopické úrovni. Ale Q4_K_M je navržen tak, aby zachovával nejvíce relevantní informace — je to inteligentní zmenšení, ne zkrácení.

Reálný test: Vezmete Q4_K_M Mistral 7B a FP16 Mistral 7B, spustíte je na stejné prompty, a očíma nevidíte rozdíl. Perplexita říká: jsou prakticky identické.

5. Ekonomika: Cloud API vs. Lokální běh

Časem přijde rozhodující otázka: mám si koupit hardware, nebo používat API?

Scénář: 50.000 requestů denně

Typický chatbot nebo B2B API integration. 50K requestů / den = cca 600 tisíc tokenů / den (průměrně).

Cloud API (GPT-4o mini, 3 centy za milion tokenů):

600k tokenů × $0.00003 = $18 / den
$18 × 30 dní = $540 / měsíc

Lokální běh (RTX 5090, $2.000, 4 roky lifetime):

Kapital: $2.000 / 48 měsíců = $41.67 / měsíc
Elektřina: 500W × 24h × 30 dní / 1000 = 360 kWh / měsíc ≈ $35 (dle tarifu)
Maintenance/cooling/cooling: $20 / měsíc (odhad)
Celkem: ~$97 / měsíc

Break-even je dramatický: lokální běh je 5.5x levnější na vysokém volumenu.

Ale to není kompleta analýza. Co se změní?

Faktor: Latence vs. Batch processing

Cloud API: požadavky se zpracovávají asynchronně, ~2-5 sekund latence. OK pro batching.

Lokální: běžíte lokálně, latence je ms-scale. Ale pokud máte malý batch (pár requestů), ani se to neuplaní.

Pokud vaše aplikace vyžaduje sub-second latence (real-time chat, live suggestions), lokální je nesrovnatelně lepší.

Faktor: Model kvalita

Nedostanete lokálně GPT-4o. Dostanete Mistral 7B nebo Llama 3 70B. To je 70-85% kvalitu frontier modelů pro 99% use casů.

Pokud potřebujete GPT-4o úroveň (foarte complex reasoning), lokální není odpověď. Pokud potřebujete dobrého chatbota, SLA generace, nebo moderování, Mistral/Llama stačí.

Tabulka break-even

Objem requestů/měsíc	Cloud API (GPT-4o mini)	Lokální RTX 5090	Vítěz
1M (20 čil a day)	$30	$97 (fixed cost)	Cloud API
10M (300/day)	$300	$97	Lokální (3x levnější)
50M (1.5k/day)	$1.500	$97	Lokální (15x levnější)
500M (15k/day)	$15.000	$97 (+ multi-GPU upgrade na $250/měsíc)	Lokální (50x levnější)

Tl;dr: Pokud máte méně než 2M tokenů měsíčně, API je levnější. Všechno nad tím: lokální vyhrává. A 2M tokenů je docela málo — to je typicky průměrný chatbot měsíčně.

6. Praktický checklist: Rozhodovací rámec

Teď víte teorii. Jak to skutečně zaclenit? Níže je step-by-step checklist, která vám pomůže rozhodnout a implementovat.

Krok 1: Vyhodnotit vaše potřeby

Máte compliance požadavky? (GDPR, zdravotnictví, právní) → Lokální je téměř povinný

Jaký je váš měsíční token objem? Pokud >2M, lokální se vyplácí

Potřebujete sub-second latenci? → Lokální výrazně lepší

Máte IT tým, který udržuje hardware? Pokud ne, API je jednodušší operačně

Potřebujete GPT-4o úroveň? → API je jedinou volbou (pro teď)

Krok 2: Vybrat hardware

Rozhodněte: NVIDIA GPU nebo Apple Silicon? (dle okolí, ekosystému)

Jaké GPU? Dle rozpočtu: RTX 5090 ($2k) > RTX 4070 Super ($1.2k) > RTX 3060 ($500)

Zajistite dostupný RAM: min. 16GB (ideálně 32GB+ na větších serverech)

Ověřte el. dostupnost: 500W+ pro GPU, stabilní napájení (UPS?)

Krok 3: Vybrat software runtime

Začátečník / prototypování? → Ollama (1 příkaz, ready to go)

Produkce / vysoký traffic? → vLLM (PagedAttention, scalable)

Embedded / speciální hardware? → llama.cpp (maximální control)

Nechcete CLI? → Spusťte vedle Ollamy Open WebUI

Krok 4: Zvolte model a kvantizaci

Jakou velikost modelu si můžete dovolit? Dle VRAM. Pro RTX 5090: až 70B

Zvolte kvantizaci: Q4_K_M je default. Q5 pokud máte VRAM, Q3 pokud nemáte. (Testujte!)

Kde získat model? HuggingFace, s GGUF formátem. Ověřte, že je kvantizován

Download a testování: Spusťte lokálně, ověřte latenci, kvalitu promptu

Krok 5: Implementace a monitoring

Nastav monitorování: GPU utilization, latence, error rate

Nastav backup: Model snapshot, configuration export (pro případ selhání)

Implementace load balancingu: Pokud víc než jeden request najednou, vLLM je musí fairness

Compliance dokumentace: Pokud high-risk use case (zdravotnictví, právní), zdokumentujte model, data, audit trail

Závěr: Rok 2026 je vaší volbou

Rok 2026 změnil rovnováhu. Lokální AI není experimentem — je to strategická volba pro firmy se soukromým, compliance-sensitive nebo high-volume datami.

Máte tři cesty:

Cloud API pokud máte malý objem, nízké latence tolerance, potřebujete frontier model, nebo nemáte IT tým
Lokální jednotlivý GPU (RTX 5090 / M4 Max) pokud máte 2M+ tokenů měsíčně, compliance potřeby, nebo real-time požadavky
Hybrid — lokální pro cost-sensitive/compliance, API pro frontier (GPT-4o) potřeby

Vyberte si hardware, software, model. Spusťte. A víte, že vaše data zůstávají vaše.