Lokální AI: Jak provozovat AI modely na vlastním hardwaru

· 22 min čtení · Kategorie: Technologie
Lokální AI: Jak provozovat AI modely na vlastním hardwaru

Rok 2026 je tím rokem, kdy lokální provoz AI přestává být experimental hobby a stává se seriózní alternativou pro korporace i jednotlivce. API ceny padly o 80 procent oproti loňsku. GPU hardwary jsou dostupnější. A zejména: EU AI Act vstupuje v platnost — a změní pravidla hry. Pokud máte data, která nesmí opustit vaší infrastrukturu, nebo chcete znát přesně, co se s nimi děje, je čas přejít na lokální. Tato kapitola vám ukáže, jak.

70-85%
Kvalita modelů oproti frontier AI za nulové margenální náklady
$139/měsíc
Amortizovaná cena M4 Max versus $2.250 za 50K daily API requestů
793 TPS
Throughput vLLM v produkčním nasazení (19x více než Ollama)
August 2, 2026
Deadline EU AI Actu: 72% EU profesionálů teď řeší lokalizaci dat

1. Proč lokální AI v roce 2026

Před dvěma lety byla lokální AI převážně experimentem pro nadšence. Dnes se stal obchodním imperativem. Zásadních pět důvodů.

Soukromí a kontrola

Když posílate data do OpenAI, Anthropic nebo Googlu, vstupují do vzdálené infrastruktury mimo vaši kontrolu. Pro některé případy se to nemá cenu řešit. Ale pro zdravotnické záznamy, právní dokumenty, technické tajemství, či personální data? Lokální LLM běží v izolované síti. Vaše prompt se nikdy neuvidí. Nikdo to nemonitoruje.

Jednoduchy příklad: právní kancelář zpracovává citlivé dohody. Když se tyto dokumenty pošlou přes OpenAI API, teoreticky by mohly končit v trénovacích datech (ačkoli OpenAI tvrdí, že ne — ale to nestojí v běžné smlouvě). S lokálním modellem nula rizika.

Suverenita a GDPR komplikace

EU AI Act vstupuje v platnost 2. srpna 2026. Vysokorizikové AI aplikace (zdravotnictví, právní, employment decisions) budou muset splňovat přísné požadavky na audit, dokumentaci a transparentnost. Pokud používáte třetí stranu (OpenAI API), odpovědnost za compliance padá na vás — a to je noční můra právního oddělení.

Ale je tu víc. 72% EU profesionálů teď čelí tlakům na lokalizaci dat kvůli AI regulaci. Mistral podepsala rámcovou dohodu s Francií a Německem o "suverénní AI" — a stát ji sponzoruje. Trend je jasný: inference zůstane v EU.

⚠️ GDPR a AI Act nejsou tím samým

GDPR se zaměřuje na zpracování osobních dat. EU AI Act se zaměřuje na riziko AI aplikace. Jsou sepjatá, ale odlišná. Lokální inference řeší oba problémy najednou — data zůstávají v EU, a máte plnou kontrolu nad modelem. Avšak dokumentace a audit jsou i pro lokální modely povinné, pokud je používáte v high-risk kontextu.

Ekonomika se zlepšila dramaticky

V prosinci 2025 stál GPT-4 mini 15 centů za milion inputů. Dnes stojí něco jako 3 centy. OpenAI srazil ceny o 80 procent. To je vítězství konkurence — Mistral a Claude vypršely v ceně, a OpenAI se musela přizpůsobit.

Ale to znamená, že break-even pro lokální běh se posunul. Pokud máte vysokou latenci tolerance a nízký throughput, API se staly levnější. Pokud ale máte konzistentní high-volume inference nebo latenci-kritické aplikace, lokální stále vyhrává.

Hardwary jsou konečně cenově dostupné

RTX 5090 byla právě vydána za $2.000. To je premium GPU, kterou si může koupit i malá startup bez speciální financování. Mac Studio M4 Max stojí $5.000 a zvládne 70B+ modely s unified memory architekturou, která CPU-GPU komunikaci dělá efektivnější. Dříve jste potřebovali $50k+ na vážnou lokální inferencu. Teď ne.

"Rok 2026 je tím rokem, kdy lokální AI přestává být experimentem a stává se strategickou volbou. Pokud máte data a compliance požadavky, máte CLI argument pro lokální běh."

2. Hardware průvodce: Jaké zařízení potřebujete?

Hardware je nejdůležitější rozhodnutí. Vybrat špatný = zbytečně utratit peníze. Nebo koupit underpowered zařízení a být frustrován.

Tři kategorie

Kategorie RAM / VRAM Ideální modely Throughput Příklady
Minimum 8GB RAM, 6GB VRAM <4B modely (Qwen 2.5 1B, Phi 2.5) 1-2 tok/s RTX 3050, StarGPU M2
Recommended 16GB+ RAM, 12GB+ VRAM 7B-13B (Mistral 7B, Llama 2 13B) 10-20 tok/s RTX 3060, RTX 4070, M4 Pro
High-end 32GB+ VRAM, 64GB+ RAM 32B-70B (Llama 3 70B, Mixtral) 30-60 tok/s RTX 5090, RTX 6000 Ada, M4 Max
Enterprise 80GB+ (multi-GPU) Kterýkoli model, batched inference 793+ TPS (vLLM) H100, A100, clustery

NVIDIA vs Apple: která cesta?

NVIDIA ekosystém (RTX série)

NVIDIA je de facto standard pro local LLM. Máte:

Konkrétní doporučení: Pokud máte notebook a chcete local GPU bez redesignu, RTX 4070 laptop (~$2.500 notebook) je sweet spot. Pokud budujete server, RTX 5090 je budoucuvzdorný. Samotná NVIDIA ostatně rozšiřuje svůj stack i mimo klasické AI — v dubnu 2026 uvedla Ising, open-source AI modely pro kvantové procesory, což potvrzuje směr, kterým se vendor lock-in ubírá.

Apple Silicon (M4 Max / Pro Max)

Apple Silicon je zajímavá alternativa, pokud už používáte Mac:

Konkrétní doporučení: Mac Studio M4 Max (64-128GB) je vážná volba pro 70B+ modely. Mac mini M4 (16GB) je OK pro 7B-13B, ale pořídí vás brzy. Dlouhodobě? Vezměte si M4 Max.

GPU výkon: RTX 5090 vs 4090

Model Tokeny/s 8B modely 13B modely 32B modely 0 50 100 150 127 213 82 108 38 61 RTX 4090 RTX 5090

Výkon v tokenech za sekundu; RTX 5090 je 25-67% rychlejší v závislosti na velikosti modelu

💡 Rozhodovací matice: GPU výběr

  • Máte ~$2.000? → RTX 5090. Best value. Přijedete s tím 3-5 let.
  • Máte ~$1.200? → RTX 4070 Super desktop. Solidní na 13B modely.
  • Máte ~$500 a chcete vyzkoušet? → RTX 3060 secondhand. Dobrá pro 7B-10B.
  • Máte Mac a $5.000+? → M4 Max. Nejjednodušší setup, dlouhodobě levnější na cenu.
  • Máte málo peněz, chcete 70B? → Nenakupujte hardware. Pronajměte si cloud GPU ($0.50-2/hod).

3. Software stack: Které runtime vybrat?

Hardware je jen polovina. Software určuje, jak efektivně hardaware využijete. Máte čtyři hlavní volby.

Runtime Ease of use Performance Use case Trend Q1 2026
Ollama ⭐⭐⭐⭐⭐ 41 TPS single user Začátečníci, prototypování 52M downloads/měsíc, stagnuje
vLLM ⭐⭐⭐ 793 TPS v clusteru Produkce, batching, scale Explodující, enterprise adopce
llama.cpp ⭐⭐⭐ Vysoce variabilní Maximální control, embedded Stabilní, niche use cases
LM Studio ⭐⭐⭐⭐ Dobrý (GUI overhead) Non-technical, UI-forward Klesající, nahrazeno Ollama UI

Detailně: Ollama

Ollama je "Docker pro LLM" — jeden příkaz, vše je nastaveno. Filozófia: maximální jednoduchost za cenu nějaké flexibility.

ollama run mistral a jste v chatu s Mistral 7B. To je magie pro lidi bez ML background. 52 milionů downloadů za měsíc to dokazuje.

Výkon: Generuje ~41 tokenů za sekundu na RTX 4090 s Mistral 7B. To je OK, ale ne great. Problém je single-user single-request design — jakmile pošlete dva requesty najednou, performance spadne.

Kdy ho brát: Pokud jste začátečník nebo prototypujete. Není to pro produkci s vysokým traffic.

✓ Tip: Ollama + Open WebUI

Ollama sám je CLI-only. Chcete UI? Spusťte vedle něj Open WebUI — ChatGPT-like rozhraní, které se připojí k Ollamě. Praktický návod na Ollamu ukazuje základní instalaci, produkční Open WebUI s RBAC a RAG pokrývá firemní nasazení a druhý díl řeší licenční úskalí nad 49 uživatelů.

vLLM: Produkční powerhouse

vLLM přebírá svět produktivní inference. Klíčová feature: PagedAttention, která se chová k attention cache jako operační paměť k diskům. Místo aby se celá cache musela vejít do VRAM najednou, je fragmentovaná.

Výsledek? Můžete mít 100x více concurrent requests bez OOM chyby. A performance se nezhroutí.

Čísla: vLLM generuje 793 tokenů za sekundu v clusteru (více GPU). To je 19x více než Ollama single-user. Jakmile máte víc než pár requestů najednou, vLLM vás bezpečně přepraví.

Nevýhoda: Setup je složitější. Musíte konfigurovat Ray clustery, spravovat frontu, psát vlastní API. Není to „jeden příkaz". Ale vyplatí se to, pokud máte dostatečný provoz.

Kdy ho brát: Když stavíte produkční API nebo chatbot s víc než 10 concurrent users.

llama.cpp: Maximální kontrola

llama.cpp je čistě C/C++. Bez Python overhead, bez CUDA overhead (pokud chcete). Běží na všem — Linux, macOS, Windows, mobilech.

Vysoce optimalizovaný. Pokud máte specifické hardwary nebo embedding constraints, llama.cpp vám dá kontrolu. Ale musíte si sami optimalizovat.

Kdy ho brát: Pokud stavíte embedded zařízení nebo chcete běžet na serverech bez CUDA (CPU-only inference).

4. Kvantizace: Nulové ztráty při snížení velikosti modelů

Velké modely jsou velké. Llama 3 70B v FP16 (full precision) je 140 GB. To je hardware, který si nemůže koupit zdaleka každý. Kde to zaparkovat?

Odpověď: kvantizace. Snížíte bitovou hloubku, výrazně zmenšíte model, a — to je klíč — zachováte skoro všechnu kvalitu.

GGUF: Standard formát

GGUF je univerzální formát pro quantizované modely. Na HuggingFace je teď 135.000 GGUF modelů. Každý major model má GGUF variantu. Můžete si vybrat, jakou granularitu chcete.

Q4_K_M: Sweet spot

Kvantizace má různé úrovně: Q8 (vysoká kvalita, menší zmenšení), Q5 (střed), Q4 (agresivní).

Q4_K_M je nejčastěji doporučovaná kombinace. Proč?

Příklad: Llama 3 70B s Q4_K_M stojí ~20 GB. Na RTX 5090 (32 GB) se vejde úplně s headroom pro batching. S Q8 by to bylo 70 GB. S Q3 by to byla kvalita z hororu.

🔬 Insight: Kvantizace není ztráta

Intuice: "Méně bitů = horší kvalita." To je pravda na mikroskopické úrovni. Ale Q4_K_M je navržen tak, aby zachovával nejvíce relevantní informace — je to inteligentní zmenšení, ne zkrácení.

Reálný test: Vezmete Q4_K_M Mistral 7B a FP16 Mistral 7B, spustíte je na stejné prompty, a očíma nevidíte rozdíl. Perplexita říká: jsou prakticky identické.

5. Ekonomika: Cloud API vs. Lokální běh

Časem přijde rozhodující otázka: mám si koupit hardware, nebo používat API?

Scénář: 50.000 requestů denně

Typický chatbot nebo B2B API integration. 50K requestů / den = cca 600 tisíc tokenů / den (průměrně).

Cloud API (GPT-4o mini, 3 centy za milion tokenů):

Lokální běh (RTX 5090, $2.000, 4 roky lifetime):

Break-even je dramatický: lokální běh je 5.5x levnější na vysokém volumenu.

Ale to není kompleta analýza. Co se změní?

Faktor: Latence vs. Batch processing

Cloud API: požadavky se zpracovávají asynchronně, ~2-5 sekund latence. OK pro batching.

Lokální: běžíte lokálně, latence je ms-scale. Ale pokud máte malý batch (pár requestů), ani se to neuplaní.

Pokud vaše aplikace vyžaduje sub-second latence (real-time chat, live suggestions), lokální je nesrovnatelně lepší.

Faktor: Model kvalita

Nedostanete lokálně GPT-4o. Dostanete Mistral 7B nebo Llama 3 70B. To je 70-85% kvalitu frontier modelů pro 99% use casů.

Pokud potřebujete GPT-4o úroveň (foarte complex reasoning), lokální není odpověď. Pokud potřebujete dobrého chatbota, SLA generace, nebo moderování, Mistral/Llama stačí.

Tabulka break-even

Objem requestů/měsíc Cloud API (GPT-4o mini) Lokální RTX 5090 Vítěz
1M (20 čil a day) $30 $97 (fixed cost) Cloud API
10M (300/day) $300 $97 Lokální (3x levnější)
50M (1.5k/day) $1.500 $97 Lokální (15x levnější)
500M (15k/day) $15.000 $97 (+ multi-GPU upgrade na $250/měsíc) Lokální (50x levnější)

Tl;dr: Pokud máte méně než 2M tokenů měsíčně, API je levnější. Všechno nad tím: lokální vyhrává. A 2M tokenů je docela málo — to je typicky průměrný chatbot měsíčně.

6. Praktický checklist: Rozhodovací rámec

Teď víte teorii. Jak to skutečně zaclenit? Níže je step-by-step checklist, která vám pomůže rozhodnout a implementovat.

Krok 1: Vyhodnotit vaše potřeby

Krok 2: Vybrat hardware

Krok 3: Vybrat software runtime

Krok 4: Zvolte model a kvantizaci

Krok 5: Implementace a monitoring

Závěr: Rok 2026 je vaší volbou

Rok 2026 změnil rovnováhu. Lokální AI není experimentem — je to strategická volba pro firmy se soukromým, compliance-sensitive nebo high-volume datami.

Máte tři cesty:

Vyberte si hardware, software, model. Spusťte. A víte, že vaše data zůstávají vaše.