Soukromá AI ve firmě — část 2: ekonomika, bezpečnost a 14denní rollout
Hardware běží, model je vybraný — a teprve teď začíná těžší část. Tento druhý díl navazuje na část 1: kdy se vyplatí a jak ho postavit a řeší ekonomiku v korunách, bezpečnostní povrch, GDPR a EU AI Act, dvoutýdenní plán nasazení, migrační checklist ze SaaS a sedm typických chyb. Nejčastější chyba celého projektu nespočívá ve špatné konfiguraci Ollama — ale v předpokladu, že „máme AI u sebe, takže jsme v bezpečí a v souladu".
Stručně: Co si z druhé části odnést
- Ekonomicky se self-host vyplatí až od zhruba 250 milionů tokenů měsíčně. Typická padesátičlenná firma spotřebuje 60 milionů. Do této hranice je cloud API s DPA levnější, rychlejší i stabilnější. Hlavní motivace pro privátní nasazení je regulace, ne úspora.
- Privátní nasazení nevyřeší prompt injection, tool-use exfiltraci, ani DPIA. Povrch útoku se nemění — jen odpovědnost se přesouvá z poskytovatele na firmu. EU AI Act Annex III klasifikuje podle účelu, ne podle infrastruktury.
- Realistický horizont od rozhodnutí do produkce je 14 dní při dvou lidech (infrastrukturní inženýr + produktový vlastník). Kdo plánuje kratší čas, většinou řeší jen technickou instalaci a objeví až po spuštění, že chybí procesy.
1. Kolik to stojí v korunách: tři scénáře
Kalkulace níže vycházejí z reálné firemní spotřeby. Padesátičlenná kancelář typicky generuje 30–80 milionů tokenů měsíčně, což odpovídá průměru 40 000 tokenů na zaměstnance denně (email, shrnutí, rešerše, kód). Srovnání probíhá proti GPT-4o přes API v poměru 60 % vstupů a 40 % výstupů jako referenční SaaS cena.
Stručně: U firmy do deseti lidí není self-host ekonomicky ospravedlnitelný — cloud API stojí pár tisíc korun ročně, vlastní HW bez údržby desítky tisíc. U dvacetičlenné firmy je self-host nákladově srovnatelný s cloudem, ale vyžaduje DevOps. U padesáti lidí je cloud stále levnější, self-host se vyplatí jen při regulatorních požadavcích nebo nad 250 milionů tokenů měsíčně.
| Položka | 5 osob | 20 osob | 50 osob |
|---|---|---|---|
| Tokenů/měsíc | 6 M | 24 M | 60 M |
| GPT-4o API (kapex 0) | |||
| Měsíčně | ~770 Kč | ~3 080 Kč | ~7 700 Kč |
| Tříletý TCO | ~28 000 Kč | ~111 000 Kč | ~276 000 Kč |
| Ollama self-host | |||
| HW kapex | ~60 000 Kč | ~140 000 Kč | ~280 000 Kč |
| Elektřina/rok | ~13 000 Kč | ~28 000 Kč | ~46 000 Kč |
| Údržba/rok | ~96 000 Kč | ~144 000 Kč | ~192 000 Kč |
| Tříletý TCO | ~387 000 Kč | ~656 000 Kč | ~994 000 Kč |
| Rozdíl (self-host − API) | +359 000 Kč | +545 000 Kč | +718 000 Kč |
Co se v kalkulacích často zapomíná. Deset hodin měsíčně práce seniorního DevOps inženýra za 1 600 Kč/hod je 192 000 Kč ročně — u malé firmy buď neočekávaná externí faktura, nebo vytížený interní zaměstnanec. GPU morálně stárne rychleji než průmyslový server — RTX 4090 z dubna 2024 má v dubnu 2026 nižší relativní výkon než aktuální generace. Tříletý TCO je tedy optimistický. A každé dva až čtyři měsíce vychází nová generace modelů: udržovat privátní deploy aktuální znamená testovat, měřit, migrovat prompty a re-evaluovat RAG — u SaaS se to děje automaticky.
Kdy se self-host vyplatí i přes vyšší cenu
- Regulace zakazuje odeslání dat ven (advokátní spis, zdravotní dokumentace, bankovní tajemství, obranný kontrakt)
- Objem nad 200–300 milionů tokenů měsíčně (masivní klasifikace, dávkové zpracování, vědecký projekt)
- Firma nedrží USD cash flow (část státních organizací, projekty financované grantem v korunách)
- Experimentální pracovní zátěž — fine-tuning, proprietární váhy, R&D
- Snížení rizika závislosti na dodavateli u dlouhodobých kontraktů, kde změna poskytovatele by porušila SLA klienta
Detailní rozbor API ekonomiky z druhé strany — ze strany cen za token — pokrývá článek Náklady na AI API: jak nekrvácet na tokenech.
2. Bezpečnost: co privátní nasazení neřeší
Největší nepochopení self-hostu zní: „máme AI u sebe, takže jsme v bezpečí". Opak bývá pravdou. Vlastní nasazení přenáší bezpečnostní odpovědnost z poskytovatele na firmu, aniž by většina firem měla tým, který by ji zvládl ustát. Povrch útoku se nemění — mění se ten, kdo ho hlídá.
Stručně: Privátní AI neřeší prompt injection, exfiltraci přes tool-use, memorizaci trénovacích dat ani slabé logování. Nadále je třeba hardening API, RBAC, WAF, monitoring a DPIA. Pokud firma tyto kontroly neumí aplikovat u SaaS, u self-hostu je neaplikuje o nic lépe.
Prompt injection. Nejběžnější útok na jazykový model — uživatel nebo externí obsah vloží instrukci, která mění chování modelu. Self-host neřeší nic. Vstup je potřeba filtrovat, výstup validovat, a citlivé operace oddělit od volně generovaného obsahu. Rozbor v článku Prompt injection: bezpečnostní hrozba č. 1 pro firemní AI.
Exfiltrace přes tool-use. Jakmile model umí spouštět nástroje (číst SharePoint, psát do Jira, volat HTTP endpoint), umí potenciálně i vynést data ven přes legitimní kanál. Útočník zadá prompt, který donutí model poslat firemní dokument na veřejný endpoint pod záminkou analýzy.
Zapamatování trénovacích dat. Velké modely si pamatují části trénovacích dat. Pokud tým dělá fine-tuning na firemních datech, model může začít tyto úryvky generovat jako výstup. Obrana (differential privacy, rate-limiting opakujících se unikátních řetězců) existuje, ale málokdo ji implementuje.
Logování promptů a odpovědí. Privátní nasazení typicky loguje vše — kdo, kdy, co poslal, co dostal. Logy obsahují osobní údaje a firemní tajemství v otevřené podobě. Kde leží? Kdo k nim má přístup? Jak dlouho se drží? U SaaS to řeší dodavatel přes DPA, u self-hostu je to povinnost interního IT bezpečnostního týmu a DPO.
Zpevnění sítě. Ollama API nemá autentizaci. Open WebUI nemá WAF. Za reverse proxy je nutný rate-limiting proti prompt-spammingu, TLS s rotací certifikátů, fail2ban proti brute-force, segmentace sítě (AI server nesmí mít přímý přístup k citlivým systémům).
Bezpečnostní minimum před ostrým spuštěním
- Reverse proxy s HTTPS (Caddy, Traefik, nginx) — nikdy ne holý port
- Autentizace na úrovni proxy (OIDC přes Authentik, Keycloak, Azure AD)
- Rate-limiting na uživatele (typicky 60 dotazů/minuta)
- Centrální audit log (kdo, kdy, jaký prompt, jaká odpověď) v odděleném úložišti
- Segmentace sítě (AI server v DMZ, ne ve stejném VLAN s doménovým kontrolerem)
- Pravidelný sken zranitelností (OSV-scanner, Trivy na Docker image)
- Plán reakce na incident — co se stane, když uživatel zneužije model
3. EU AI Act a GDPR: co musíte splnit i s vlastním serverem
Přesun modelu na vlastní hardware nemění právní klasifikaci systému. Pokud AI zpracovává osobní údaje, GDPR platí dál. Pokud systém spadá pod Annex III EU AI Act (nábor, úvěr, biometrie, vzdělávání, kritická infrastruktura), povinnosti z AI Actu dopadají bez ohledu na to, kde model běží.
Stručně: GDPR článek 32 (bezpečnost zpracování) a článek 35 (DPIA) platí pro privátní i SaaS AI. EU AI Act Annex III určuje vysoce rizikové systémy podle použití, ne podle infrastruktury. Článek 50 vyžaduje informovat uživatele, že komunikuje s AI. Self-host zjednodušuje datovou rezidenci, neřeší transparentnost ani DPIA.
| Požadavek | Zdroj | Jak pomáhá self-host | Co self-host NEŘEŠÍ |
|---|---|---|---|
| Bezpečnost zpracování | GDPR čl. 32 | Data neopouštějí perimetr — triviálně prokazatelné | Šifrování disku, pseudonymizace, zálohování, incident response |
| DPIA | GDPR čl. 35 | Zjednodušuje popis datového toku | Povinná pro high-risk — nutno napsat, ne obejít |
| Datová rezidence | GDPR čl. 44–50 | Řeší triviálně — server ve firemní LAN | Ostatní opatření (DPIA, TIA) odpadají |
| Transparentnost AI | EU AI Act čl. 50 | Nic — povinnost je v rozhraní, ne v serveru | Informování uživatele „komunikujete se strojem" |
| High-risk systém | EU AI Act Annex III | Nic — klasifikace je podle účelu | Risk management, quality management, technická dokumentace, registrace |
| § 11 ZoZOÚ — citlivé údaje | zákon 110/2019 Sb. | Zásadně zjednodušuje (žádná třetí strana) | Právní titul, výslovný souhlas subjektu, auditní stopa |
| Advokátní mlčenlivost | § 21 ZoA | Odstraňuje nutnost souhlasu klienta s třetí stranou | Anonymizace v tréninkových datech, logy, přístupová práva |
| NIS2 — KII a VIS | zákon 181/2014, směrnice 2022/2555 | Kontrola nad IS triviálnější | Incident reporting do 24 h, SBOM, supply chain audit |
Detailní rozbor GDPR povinností při nasazení AI v české firmě pokrývá článek AI a GDPR v praxi, plný kontext povinností po srpnu 2026 pak EU AI Act — co platí od srpna 2026. Self-host je předpoklad, ne samospásné řešení — compliance dokumenty se pořád musí napsat, auditor se nespokojí s argumentem „máme to u sebe".
4. 14denní plán nasazení a migrační checklist
Teoreticky lze Ollamu rozjet za deset minut. V praxi uvnitř firmy — s uživateli, RBAC, RAG a compliance — je realistický horizont dva týdny práce dvou lidí. Kdo plánuje kratší čas, zpravidla řeší jen technickou instalaci a teprve po spuštění začíná chápat, že scházejí procesy.
Pokud nejde o test koncepce v jedné divizi, ale o náhradu existujícího SaaS, přičtěte týden na integraci s identitami (SSO, SCIM) a dva týdny na trénink uživatelů. Běžná chyba: nasadit nástroj bez adopčního plánu. Výsledek — tři týdny po spuštění jej používá pět lidí, zbytek dál chodí do zablokovaného ChatGPT přes VPN z mobilu.
Migrační checklist ze SaaS na self-host. Kdo dnes používá ChatGPT Enterprise, Microsoft Copilot nebo Anthropic přes firemní účet, narazí na třináct položek, které je třeba vyřešit před přepnutím provozu:
- Inventář promptů a šablon — export z SaaS, klasifikace podle citlivosti dat, rozhodnutí o migraci.
- Kvalita modelu v češtině — srovnávací eval na 50–100 reálných příkladech.
- RAG zdroje — mapování toho, co SaaS „viděl" a co self-host dostane do indexu.
- Integrace do pracovních nástrojů — pluginy pro IDE, webové rozšíření, mobilní aplikace.
- Identity a SSO — OIDC provider, skupiny, offboarding.
- Kapacita pro špičky — co se stane při 20 souběžných dotazech.
- Chybějící funkce — vision, hlas, generování obrázků.
- Verzování modelů — kdo rozhoduje o přechodu na novou verzi, testovací strategie.
- Fallback — řízená degradace na cloudový model při HW výpadku.
- Monitoring a SLO — dostupnost, p95 latence, denní objem tokenů.
- Smlouva se stávajícím SaaS — výpovědní lhůty, export historie.
- Finance — přesun CAPEX/OPEX, odpisy, vnitropodnikové přeúčtování.
- Komunikace interně — oznámení, školení, zásady co AI smí a nesmí.
5. Kdy je soukromé AI horší volba a sedm chyb
Článek by byl neúplný bez oddílu, který self-hosting nedoporučuje. K dubnu 2026 je rozdíl mezi nejlepším open modelem a nejlepším proprietárním modelem v komplexních úvahových úlohách stále kolem 10–15 procentních bodů v benchmarcích jako MMLU-Pro, GPQA Diamond nebo SWE-bench. U jednoduchých úloh rozdíl zmizí — u agentních a matematických úloh se projeví.
Scénáře, kdy self-host zpomaluje byznys:
- R&D oddělení s potřebou nejlepšího modelu. Rozdíl mezi Claude Opus 4.7 a DeepSeek-R1-distill na obtížné matematice je rozdíl mezi „spočítá to" a „nespočítá". Pro osm výzkumníků nemá smysl stavět datacentrum.
- Startupy pod 20 lidí. 280 000 Kč kapex + mzda adminu = roční náklad, který u SaaS pokryje licence pro sto lidí.
- Firmy bez interní IT kapacity. Bez někoho, kdo rozumí Dockerům, certifikátům a monitoringu, je Ollama stroj na incidenty.
- Nárazové zátěže. Marketingová agentura potřebuje 50× model dva dny v měsíci a 0× zbytek měsíce. Dedikovaný HW stojí stejně při 0 % využití.
- Multimodální úlohy. Generování videí, 3D scén a vědecké obrazové úlohy — open modely pozadu, HW požadavky řádově vyšší.
Sedm chyb, které nasazení potopí
- Nedostatečná VRAM. Model vypadá, že se vejde do 24 GB, ale s kontextem 16 k a dvěma uživateli potřebuje 28 GB. GPU spadne do swapu a rychlost klesne na 1 tok/s.
- Volba modelu bez evaluace. Tým instaluje, co „viděli na Redditu", bez testovací sady. Po dvou týdnech si stěžují uživatelé — pak se testuje kvalita. Pozdě.
- Jeden model pro všechno. Llama 3.3 70B je výborná na úvahové úlohy, ale pomalá na jednoduché dotazy. Firma platí překlad rychlostí 8 tok/s místo 80 tok/s, které by dal Llama 8B.
- Chybějící autorizace. Open WebUI s výchozí konfigurací. Prompt injection z infikované stránky intranetu exfiltruje data.
- Chybějící monitoring. Tým nevidí tok/s, VRAM, chybovost. Problém zjistí, když helpdesk napíše „je to pomalé" — den po začátku swapování.
- Zanedbání strategie aktualizací. Za šest měsíců vyjde Llama 4, Mistral Small 4, další generace DeepSeek. Kdo nemá eval sadu, A/B test a fallback, strne na staré verzi.
- Self-host jako alibi. Vedení prohlásí „máme soukromou AI, jsme GDPR compliant" — ale nikdo nenapsal DPIA, nebyl určen právní titul. Při kontrole ÚOOÚ padá pokuta stejně jako u SaaS.
Šestý a sedmý bod jsou nejčastější. Technické problémy se vyřeší inženýrsky, strategické a právní přetrvávají. Privátní AI je projekt řízení změn, ne jen server v racku.
6. Časté otázky
Co s fine-tuningem vlastních dat?
Ollama fine-tuning přímo neřeší. Realistická cesta: LoRA/QLoRA adaptéry pomocí axolotl nebo unsloth, pak import do Ollama jako vlastní model. Pro firmu pod 500 zaměstnanců ale častěji funguje lépe RAG než fine-tuning — je levnější, aktualizovatelnější a předvídatelnější.
Potřebujeme druhý server pro failover?
Pokud AI není kritický systém (neřeší nepřetržitou zákaznickou podporu, medicínské rozhodnutí, platební autorizaci), stačí jeden server s dokumentovanou degradací na SaaS model jako záložní variantu. Druhý server zdvojnásobí kapex a dává smysl až u firem nad 50 lidí s SLA dostupnosti 99,5 % a výše.
Jak dlouho vydrží hardware?
RTX 4090 má tři- až čtyřletou životnost v 24/7 provozu, H100 pět a víc. Hlavní faktor není opotřebení, ale morální zastarání — každé 1,5 až 2 roky vyjde nová generace s 1,5× až 2× lepším výkonem na watt. Rozumný odpisový horizont pro GPU je tři roky.
Můžeme použít AMD GPU místo NVIDIA?
AMD RX 7900 XTX a Radeon Pro W7900 fungují přes ROCm. Ollama má ROCm podporu, ale ekosystém je chudší — některé kvantizace a optimalizace jdou až s odstupem několika měsíců. Pro produkční nasazení v dubnu 2026 je NVIDIA bezpečnější volba, AMD zvažujte u R&D a experimentů.
Co se stane s daty, když Ollama nebo Open WebUI ukončí projekt?
Oba projekty jsou MIT licencované — komunita může forknout. Data a modely jsou ve standardních formátech (GGUF, SQLite, PostgreSQL). Závislost na dodavateli je minimální, migrace na jinou inferenční vrstvu znamená překlopení konfigurace, ne export dat.
7. Zdroje
- EU AI Act: plný text nařízení — eur-lex.europa.eu
- ÚOOÚ: stanoviska k AI a GDPR — uoou.gov.cz
- NIST: AI Risk Management Framework — nist.gov
- ENISA: threat landscape 2025 — enisa.europa.eu
- OpenAI API pricing — openai.com/api/pricing
- OWASP LLM Top 10 (prompt injection, supply chain) — owasp.org
- NÚKIB: doporučení k AI v kritické infrastruktuře — nukib.cz