Lokální AI: Jak provozovat AI modely na vlastním hardwaru
Rok 2026 je tím rokem, kdy lokální provoz AI přestává být experimental hobby a stává se seriózní alternativou pro korporace i jednotlivce. API ceny padly o 80 procent oproti loňsku. GPU hardwary jsou dostupnější. A zejména: EU AI Act vstupuje v platnost — a změní pravidla hry. Pokud máte data, která nesmí opustit vaší infrastrukturu, nebo chcete znát přesně, co se s nimi děje, je čas přejít na lokální. Tato kapitola vám ukáže, jak.
1. Proč lokální AI v roce 2026
Před dvěma lety byla lokální AI převážně experimentem pro nadšence. Dnes se stal obchodním imperativem. Zásadních pět důvodů.
Soukromí a kontrola
Když posílate data do OpenAI, Anthropic nebo Googlu, vstupují do vzdálené infrastruktury mimo vaši kontrolu. Pro některé případy se to nemá cenu řešit. Ale pro zdravotnické záznamy, právní dokumenty, technické tajemství, či personální data? Lokální LLM běží v izolované síti. Vaše prompt se nikdy neuvidí. Nikdo to nemonitoruje.
Jednoduchy příklad: právní kancelář zpracovává citlivé dohody. Když se tyto dokumenty pošlou přes OpenAI API, teoreticky by mohly končit v trénovacích datech (ačkoli OpenAI tvrdí, že ne — ale to nestojí v běžné smlouvě). S lokálním modellem nula rizika.
Suverenita a GDPR komplikace
EU AI Act vstupuje v platnost 2. srpna 2026. Vysokorizikové AI aplikace (zdravotnictví, právní, employment decisions) budou muset splňovat přísné požadavky na audit, dokumentaci a transparentnost. Pokud používáte třetí stranu (OpenAI API), odpovědnost za compliance padá na vás — a to je noční můra právního oddělení.
Ale je tu víc. 72% EU profesionálů teď čelí tlakům na lokalizaci dat kvůli AI regulaci. Mistral podepsala rámcovou dohodu s Francií a Německem o "suverénní AI" — a stát ji sponzoruje. Trend je jasný: inference zůstane v EU.
⚠️ GDPR a AI Act nejsou tím samým
GDPR se zaměřuje na zpracování osobních dat. EU AI Act se zaměřuje na riziko AI aplikace. Jsou sepjatá, ale odlišná. Lokální inference řeší oba problémy najednou — data zůstávají v EU, a máte plnou kontrolu nad modelem. Avšak dokumentace a audit jsou i pro lokální modely povinné, pokud je používáte v high-risk kontextu.
Ekonomika se zlepšila dramaticky
V prosinci 2025 stál GPT-4 mini 15 centů za milion inputů. Dnes stojí něco jako 3 centy. OpenAI srazil ceny o 80 procent. To je vítězství konkurence — Mistral a Claude vypršely v ceně, a OpenAI se musela přizpůsobit.
Ale to znamená, že break-even pro lokální běh se posunul. Pokud máte vysokou latenci tolerance a nízký throughput, API se staly levnější. Pokud ale máte konzistentní high-volume inference nebo latenci-kritické aplikace, lokální stále vyhrává.
Hardwary jsou konečně cenově dostupné
RTX 5090 byla právě vydána za $2.000. To je premium GPU, kterou si může koupit i malá startup bez speciální financování. Mac Studio M4 Max stojí $5.000 a zvládne 70B+ modely s unified memory architekturou, která CPU-GPU komunikaci dělá efektivnější. Dříve jste potřebovali $50k+ na vážnou lokální inferencu. Teď ne.
2. Hardware průvodce: Jaké zařízení potřebujete?
Hardware je nejdůležitější rozhodnutí. Vybrat špatný = zbytečně utratit peníze. Nebo koupit underpowered zařízení a být frustrován.
Tři kategorie
| Kategorie | RAM / VRAM | Ideální modely | Throughput | Příklady |
|---|---|---|---|---|
| Minimum | 8GB RAM, 6GB VRAM | <4B modely (Qwen 2.5 1B, Phi 2.5) | 1-2 tok/s | RTX 3050, StarGPU M2 |
| Recommended | 16GB+ RAM, 12GB+ VRAM | 7B-13B (Mistral 7B, Llama 2 13B) | 10-20 tok/s | RTX 3060, RTX 4070, M4 Pro |
| High-end | 32GB+ VRAM, 64GB+ RAM | 32B-70B (Llama 3 70B, Mixtral) | 30-60 tok/s | RTX 5090, RTX 6000 Ada, M4 Max |
| Enterprise | 80GB+ (multi-GPU) | Kterýkoli model, batched inference | 793+ TPS (vLLM) | H100, A100, clustery |
NVIDIA vs Apple: která cesta?
NVIDIA ekosystém (RTX série)
NVIDIA je de facto standard pro local LLM. Máte:
- Výběr — stovky GPU, každá s jinou cenou a výkonem
- Komunita — všechny frameworks (Ollama, vLLM, llama.cpp) mají native CUDA support
- Cena/výkon — RTX 5090 má za $2.000 nejlepší ratio
- Nevýhoda — fyzický hardware, je třeba upgradovat desktop/server
Konkrétní doporučení: Pokud máte notebook a chcete local GPU bez redesignu, RTX 4070 laptop (~$2.500 notebook) je sweet spot. Pokud budujete server, RTX 5090 je budoucuvzdorný. Samotná NVIDIA ostatně rozšiřuje svůj stack i mimo klasické AI — v dubnu 2026 uvedla Ising, open-source AI modely pro kvantové procesory, což potvrzuje směr, kterým se vendor lock-in ubírá.
Apple Silicon (M4 Max / Pro Max)
Apple Silicon je zajímavá alternativa, pokud už používáte Mac:
- Unified memory — CPU a GPU sdílejí paměť, efektivnější pro velké modely
- Integrovaná GPU — bez externích kabelů, tišší, levnější cena vs NVIDIA na stejný výkon
- Přenosnost — běžíte místně, nikam se nemusíte připojovat
- Nevýhoda — méně frameworků, pomalejší vývoj support. Ollama, MLX fungují dobře, ale ne úplně všechno
Konkrétní doporučení: Mac Studio M4 Max (64-128GB) je vážná volba pro 70B+ modely. Mac mini M4 (16GB) je OK pro 7B-13B, ale pořídí vás brzy. Dlouhodobě? Vezměte si M4 Max.
GPU výkon: RTX 5090 vs 4090
Výkon v tokenech za sekundu; RTX 5090 je 25-67% rychlejší v závislosti na velikosti modelu
💡 Rozhodovací matice: GPU výběr
- Máte ~$2.000? → RTX 5090. Best value. Přijedete s tím 3-5 let.
- Máte ~$1.200? → RTX 4070 Super desktop. Solidní na 13B modely.
- Máte ~$500 a chcete vyzkoušet? → RTX 3060 secondhand. Dobrá pro 7B-10B.
- Máte Mac a $5.000+? → M4 Max. Nejjednodušší setup, dlouhodobě levnější na cenu.
- Máte málo peněz, chcete 70B? → Nenakupujte hardware. Pronajměte si cloud GPU ($0.50-2/hod).
3. Software stack: Které runtime vybrat?
Hardware je jen polovina. Software určuje, jak efektivně hardaware využijete. Máte čtyři hlavní volby.
| Runtime | Ease of use | Performance | Use case | Trend Q1 2026 |
|---|---|---|---|---|
| Ollama | ⭐⭐⭐⭐⭐ | 41 TPS single user | Začátečníci, prototypování | 52M downloads/měsíc, stagnuje |
| vLLM | ⭐⭐⭐ | 793 TPS v clusteru | Produkce, batching, scale | Explodující, enterprise adopce |
| llama.cpp | ⭐⭐⭐ | Vysoce variabilní | Maximální control, embedded | Stabilní, niche use cases |
| LM Studio | ⭐⭐⭐⭐ | Dobrý (GUI overhead) | Non-technical, UI-forward | Klesající, nahrazeno Ollama UI |
Detailně: Ollama
Ollama je "Docker pro LLM" — jeden příkaz, vše je nastaveno. Filozófia: maximální jednoduchost za cenu nějaké flexibility.
ollama run mistral a jste v chatu s Mistral 7B. To je magie pro lidi bez ML background. 52 milionů downloadů za měsíc to dokazuje.
Výkon: Generuje ~41 tokenů za sekundu na RTX 4090 s Mistral 7B. To je OK, ale ne great. Problém je single-user single-request design — jakmile pošlete dva requesty najednou, performance spadne.
Kdy ho brát: Pokud jste začátečník nebo prototypujete. Není to pro produkci s vysokým traffic.
✓ Tip: Ollama + Open WebUI
Ollama sám je CLI-only. Chcete UI? Spusťte vedle něj Open WebUI — ChatGPT-like rozhraní, které se připojí k Ollamě. Praktický návod na Ollamu ukazuje základní instalaci, produkční Open WebUI s RBAC a RAG pokrývá firemní nasazení a druhý díl řeší licenční úskalí nad 49 uživatelů.
vLLM: Produkční powerhouse
vLLM přebírá svět produktivní inference. Klíčová feature: PagedAttention, která se chová k attention cache jako operační paměť k diskům. Místo aby se celá cache musela vejít do VRAM najednou, je fragmentovaná.
Výsledek? Můžete mít 100x více concurrent requests bez OOM chyby. A performance se nezhroutí.
Čísla: vLLM generuje 793 tokenů za sekundu v clusteru (více GPU). To je 19x více než Ollama single-user. Jakmile máte víc než pár requestů najednou, vLLM vás bezpečně přepraví.
Nevýhoda: Setup je složitější. Musíte konfigurovat Ray clustery, spravovat frontu, psát vlastní API. Není to „jeden příkaz". Ale vyplatí se to, pokud máte dostatečný provoz.
Kdy ho brát: Když stavíte produkční API nebo chatbot s víc než 10 concurrent users.
llama.cpp: Maximální kontrola
llama.cpp je čistě C/C++. Bez Python overhead, bez CUDA overhead (pokud chcete). Běží na všem — Linux, macOS, Windows, mobilech.
Vysoce optimalizovaný. Pokud máte specifické hardwary nebo embedding constraints, llama.cpp vám dá kontrolu. Ale musíte si sami optimalizovat.
Kdy ho brát: Pokud stavíte embedded zařízení nebo chcete běžet na serverech bez CUDA (CPU-only inference).
4. Kvantizace: Nulové ztráty při snížení velikosti modelů
Velké modely jsou velké. Llama 3 70B v FP16 (full precision) je 140 GB. To je hardware, který si nemůže koupit zdaleka každý. Kde to zaparkovat?
Odpověď: kvantizace. Snížíte bitovou hloubku, výrazně zmenšíte model, a — to je klíč — zachováte skoro všechnu kvalitu.
GGUF: Standard formát
GGUF je univerzální formát pro quantizované modely. Na HuggingFace je teď 135.000 GGUF modelů. Každý major model má GGUF variantu. Můžete si vybrat, jakou granularitu chcete.
Q4_K_M: Sweet spot
Kvantizace má různé úrovně: Q8 (vysoká kvalita, menší zmenšení), Q5 (střed), Q4 (agresivní).
Q4_K_M je nejčastěji doporučovaná kombinace. Proč?
- Zmenšuje model 3-4x (70B → ~20GB)
- Udržuje 92% kvality oproti FP16
- Perplexita je 6.74 — prakticky neodlišitelná od FP16
- Dostatečně kompresi pro reálný hardware, nezbytně agresivní jako Q3
Příklad: Llama 3 70B s Q4_K_M stojí ~20 GB. Na RTX 5090 (32 GB) se vejde úplně s headroom pro batching. S Q8 by to bylo 70 GB. S Q3 by to byla kvalita z hororu.
🔬 Insight: Kvantizace není ztráta
Intuice: "Méně bitů = horší kvalita." To je pravda na mikroskopické úrovni. Ale Q4_K_M je navržen tak, aby zachovával nejvíce relevantní informace — je to inteligentní zmenšení, ne zkrácení.
Reálný test: Vezmete Q4_K_M Mistral 7B a FP16 Mistral 7B, spustíte je na stejné prompty, a očíma nevidíte rozdíl. Perplexita říká: jsou prakticky identické.
5. Ekonomika: Cloud API vs. Lokální běh
Časem přijde rozhodující otázka: mám si koupit hardware, nebo používat API?
Scénář: 50.000 requestů denně
Typický chatbot nebo B2B API integration. 50K requestů / den = cca 600 tisíc tokenů / den (průměrně).
Cloud API (GPT-4o mini, 3 centy za milion tokenů):
- 600k tokenů × $0.00003 = $18 / den
- $18 × 30 dní = $540 / měsíc
Lokální běh (RTX 5090, $2.000, 4 roky lifetime):
- Kapital: $2.000 / 48 měsíců = $41.67 / měsíc
- Elektřina: 500W × 24h × 30 dní / 1000 = 360 kWh / měsíc ≈ $35 (dle tarifu)
- Maintenance/cooling/cooling: $20 / měsíc (odhad)
- Celkem: ~$97 / měsíc
Break-even je dramatický: lokální běh je 5.5x levnější na vysokém volumenu.
Ale to není kompleta analýza. Co se změní?
Faktor: Latence vs. Batch processing
Cloud API: požadavky se zpracovávají asynchronně, ~2-5 sekund latence. OK pro batching.
Lokální: běžíte lokálně, latence je ms-scale. Ale pokud máte malý batch (pár requestů), ani se to neuplaní.
Pokud vaše aplikace vyžaduje sub-second latence (real-time chat, live suggestions), lokální je nesrovnatelně lepší.
Faktor: Model kvalita
Nedostanete lokálně GPT-4o. Dostanete Mistral 7B nebo Llama 3 70B. To je 70-85% kvalitu frontier modelů pro 99% use casů.
Pokud potřebujete GPT-4o úroveň (foarte complex reasoning), lokální není odpověď. Pokud potřebujete dobrého chatbota, SLA generace, nebo moderování, Mistral/Llama stačí.
Tabulka break-even
| Objem requestů/měsíc | Cloud API (GPT-4o mini) | Lokální RTX 5090 | Vítěz |
|---|---|---|---|
| 1M (20 čil a day) | $30 | $97 (fixed cost) | Cloud API |
| 10M (300/day) | $300 | $97 | Lokální (3x levnější) |
| 50M (1.5k/day) | $1.500 | $97 | Lokální (15x levnější) |
| 500M (15k/day) | $15.000 | $97 (+ multi-GPU upgrade na $250/měsíc) | Lokální (50x levnější) |
Tl;dr: Pokud máte méně než 2M tokenů měsíčně, API je levnější. Všechno nad tím: lokální vyhrává. A 2M tokenů je docela málo — to je typicky průměrný chatbot měsíčně.
6. Praktický checklist: Rozhodovací rámec
Teď víte teorii. Jak to skutečně zaclenit? Níže je step-by-step checklist, která vám pomůže rozhodnout a implementovat.
Krok 1: Vyhodnotit vaše potřeby
Krok 2: Vybrat hardware
Krok 3: Vybrat software runtime
Krok 4: Zvolte model a kvantizaci
Krok 5: Implementace a monitoring
Závěr: Rok 2026 je vaší volbou
Rok 2026 změnil rovnováhu. Lokální AI není experimentem — je to strategická volba pro firmy se soukromým, compliance-sensitive nebo high-volume datami.
Máte tři cesty:
- Cloud API pokud máte malý objem, nízké latence tolerance, potřebujete frontier model, nebo nemáte IT tým
- Lokální jednotlivý GPU (RTX 5090 / M4 Max) pokud máte 2M+ tokenů měsíčně, compliance potřeby, nebo real-time požadavky
- Hybrid — lokální pro cost-sensitive/compliance, API pro frontier (GPT-4o) potřeby
Vyberte si hardware, software, model. Spusťte. A víte, že vaše data zůstávají vaše.