Jak si nastavit lokální Ollama + open-source model za víkend
Ollama je nejrychlejší cesta k vlastní AI na vašem počítači. Bez cloudů, bez poplatků, bez obav o soukromí. Spustíte si Llama, Mistral nebo DeepSeek model přímo na disku — a ta AI nikam nelete. Tady je kompletní návod na instalaci i konfiguraci.
Během jednoho víkendu si můžete nastavit lokální AI infrastrukturu, kterou budete moci používat v neomezené míře bez jednoho koruny měsíčního poplatku. Nevěřím? Čtěte dál. Všechny kroky jsou konkrétní, testované a fungují na macOS, Linuxu i Windows.
1. Co je Ollama a proč to chcete
Ollama je velký model vytvořený speciálně na to, aby běžel na vašem počítači. Není to cloud. Není to API. Stáhnete si binární soubor, nainstalujete ho, a pak už si můžete stahovat otevřené AI modely (Llama, Mistral, Qwen, DeepSeek...) a pouštět je lokálně.
Proč to chcete?
- Bez poplatků: ChatGPT API vás stojí 0,03 Kč za 1000 tokenů. S Ollamou platíte jen jednou za hardware a víc nic.
- 100 % soukromí: Vaše prompty nikdy neopustí váš počítač. Nebude vás nikdo trackovat, logovat, používat na trénování.
- Offline dostupnost: Model běží bez internetu. Serverům na druhé straně světa je jedno.
- Plná kontrola: Můžete si model customizovat, měnit parametry, chovat, teplotu — vše bez omezení API.
- Skalabilita: Ollama API je kompatibilní s OpenAI API — každá aplikace, která používá ChatGPT, bude fungovat s vaší lokální Ollamou jen s změnou jedné konfigurace.
V roce 2026 je Ollama nejpopulárnější runtime pro lokální modely. Je jednoduché jej nainstalovat, modely jsou balené s již optimalizovanými optimalizacemi a komunita je aktivní. Není to experimentální hračka — používají ho vývojáři a firmy v produkci.
2. Hardware — co potřebujete
Tady je tabulka: co máte na počítači a jaký model si můžete spustit.
| RAM dostupné | Doporučené modely | Poznámka | Rychlost (přibližně) |
|---|---|---|---|
| 8 GB | Llama 2 7B, Phi-3 Mini (3.8B), Gemma 2B | Těsno — uzavřete ostatní aplikace | CPU: 2–5 toks/s |
| 16 GB | Llama 3.1 8B, Qwen 2.5 14B, Mistral 7B | Ideální pro vývojáře — lze spustit všechny populární modely | CPU: 5–10 toks/s |
| 32 GB+ | Llama 3 70B, DeepSeek R1 32B, jakýkoli model | Profesionální setup — je možné spustit několik modelů vedle sebe | CPU: 10–20 toks/s |
| GPU (NVIDIA 8GB+) | Jakýkoli model s režimem VRAM NVIDIA | 3–10x rychlejší než CPU — vysoce doporučuje se | GPU: 50–150 toks/s |
| GPU (Apple Silicon) | Jakýkoli model — nativní podpora M1/M2/M3/M4 | Výborne optimalizované — nejrychlejší běh na Mac | GPU: 50–120 toks/s |
Praktický tip: Máte-li 16 GB RAM a NVIDIA GPU, začněte s Llama 3.1 8B — je to nejstabilnější model v 2026, s 111 miliony stahovým záznamů nejpopulárnější. Máte-li Apple Silicon, model běží nativně bez dalších drivery.
macOS: Otevřete Activity Monitor (Cmd+Space, napište „Activity") → Memory tab
Linux:
free -hWindows: Task Manager (Ctrl+Shift+Esc) → Performance → Memory
3. Instalace krok za krokem
Krok 1: Stáhněte Ollamu
Jděte na ollama.com/download a stáhněte instalátor pro váš OS. Aplikace má kolem 300 MB. Instalace trvá 2–3 minuty.
macOS: Pokud máte M-řadu (M1/M2/M3/M4), instalátor to pozná a stáhne správnou verzi. Instalace = drag & drop do Applications.
Windows: Spusťte .exe instalátor. Depois systém automaticky restartuje službu na pozadí.
Linux (Ubuntu/Debian): Otevřete terminál a spusťte:
curl -fsSL https://ollama.ai/install.sh | sh
Krok 2: Ověřte instalaci
Otevřete terminál (macOS/Linux) nebo PowerShell (Windows) a napište:
ollama --version
Mělo by se vám zobrazit „ollama version 0.X.X" nebo vyšší. Pokud ne, instalace se nepovedla — zkuste znova.
Krok 3: Spusťte Ollamu na pozadí
Ollama potřebuje běžet na pozadí jako služba. Pokud máte macOS, existuje už aplikace (vidíte ji v Applications). Spusťte ji kliknutím. V menu baru (vpravo nahoře) vidíte Ollama ikonu.
Na Linuxu je Ollama automaticky spuštěna jako service. Na Windows také. Ověřte, že běží, otestováním API:
curl http://localhost:11434
Mělo by se vám vrátit: Ollama is running
4. Stáhnout a spustit první model
Nejlepší začátek: Llama 3.1 8B nebo Phi-3 Mini. Oba jsou v roce 2026 stabilní a velmi populární. Phi-3 Mini je menší a běží i na 8 GB RAM.
Stažení modelu:
ollama pull llama2:7b
Nebo pro novější verzi:
ollama pull llama3.1:8b
Nebo pro kódování (nejlepší model pro programování):
ollama pull qwen2.5-coder:14b
Stažení trvá 3–10 minut v závislosti na velikosti modelu a na vašem internetu. Quando je to hotovo, vidíte zprávu „Success".
Spuštění modelu v CLI:
ollama run llama3.1:8b
Teď můžete psát prompty přímo v terminálu. Napište otázku a stiskněte Enter:
>>> Naprogramuj mi v Pythonu funkci, která vezme seznam a vrátí ho seřazený bez duplicit.
Model vám odpoví v terminálu. Máte vlastní AI asistenta na počítači!
Výstup z modelu:
5. Open WebUI — grafické rozhraní místo terminálu
Terminál je cool, ale Open WebUI je lepší. Je to ChatGPT-style rozhraní pro vaši lokální Ollamu. Můžete si tam klást otázky, mít historii, ukládat si konverzace.
Instalace přes Docker (nejjednodušší):
Nejdřív si stáhněte Docker Desktop (je to zdarma).
Pak spusťte v terminálu:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:latest
Po chvíli (kolem 30 sekund) otevřete prohlížeč a jděte na localhost:3000. Vidíte přihlašovací stránku.
Registrace: Klikněte na „Sign up" a vytvořte si účet (jméno, email, heslo). Je to lokální — žádné data se neposílají online.
Připojení Ollamy: V nastavení (klikněte na avatara vpravo dole) → Settings → Models → Model pull (zadejte jméno modelu, např. „llama3.1:8b"). Open WebUI se připojí na vaši běžící Ollamu a stáhne si seznam dostupných modelů.
Teď máte chatovací rozhraní v prohlížeči, které vypadá jako ChatGPT, ale běží na vašem počítači. Žádné API klíče, žádné omezení počtu promptů, žádné poplatky.
Pro firemní nasazení s více uživateli — RBAC, RAG nad firemní dokumentací, OAuth napojení — se Open WebUI staví jinak než na laptopu. Podrobněji to řeší návod na produkční Open WebUI a navazující článek o licenční pasti nad 49 uživatelů a TCO v Kč.
6. Tipy pro pokročilé
Tip 1: Změna portu (pokud je vám výchozí zaneprázdněn)
Ollama standardně poslouchá na localhost:11434. Chcete-li změnit port:
export OLLAMA_HOST=0.0.0.0:9000
Tip 2: Paralelní spouštění více modelů
Máte-li dost RAM, spustit můžete více instancí Ollamy s různými modely:
OLLAMA_HOST=localhost:11435 ollama serve &
Každá instance dostane jiný port.
Tip 3: Integrace s vlastní aplikací přes OpenAI-kompatibilní API
Klíčová věc: Ollama API je 100 % kompatibilní s OpenAI API. To znamená, že jakákoliv aplikace, která podporuje ChatGPT API, může používat vaši lokální Ollamu s jedinou změnou konfigurace. Změňte base URL:
// Místo
https://api.openai.com/v1
// Použijte
http://localhost:11434/v1
Žádné API klíče nejsou potřeba.
Tip 4: Vlastní Modelfile (přizpůsobení modelu)
Chcete-li změnit chování modelu (teploturu, systémový prompt, limit kontextu), vytvořte si vlastní Modelfile:
FROM llama3.1:8b
SYSTEM """
Jsi asistent specialista na Python a JavaScript.
Odpovídáš jen na technické otázky týkající se těchto jazyků.
Své odpovědi formatuješ do jasného Markdown.
"""
PARAMETER temperature 0.7
PARAMETER top_k 40
PARAMETER top_p 0.9
Uložte jako Modelfile a spusťte:
ollama create muj-model -f Modelfile
ollama run muj-model
Tip 5: GPU akcelerace (NVIDIA)
Pokud máte NVIDIA kartu, Ollama ji automaticky detekuje. Pokud ne, zkontrolujte logs:
ollama logs
Mělo by vidět „GPU layers" pro CUDA. Pokud ne, máte starší driver NVIDIA. Aktualizujte.
7. Nejčastější problémy a řešení
| Problém | Příčina | Řešení |
|---|---|---|
| "Ollama command not found" | Ollama není v PATH | Spusťte instalátor znova. Na macOS: /Applications/Ollama.app/bin/ollama |
| Model se stahuje 30 minut | Pomalý internet nebo model je velký (13B+) | Počkejte. Nebo stáhněte menší model (3B–7B). |
| Model běží velmi pomalu (1 token/sec) | Běží na CPU, ne na GPU; nebo málo RAM | Instalujte NVIDIA/AMD drivery. Nebo stáhněte menší model. |
| "Out of memory" chyba | Model je větší než vaše dostupná RAM | Stáhněte menší model (7B místo 13B). |
| Open WebUI se nespustí | Docker není nainstalován nebo běží | Instalujte Docker Desktop. Zkontrolujte, že běží. Port 3000 není obsazený. |
Quick-start checklist: Spusťte si Ollamu dnes
-
Krok 1: Jděte na ollama.com/download a stáhněte instalátor pro váš OS
-
Krok 2: Spusťte instalátor a počkejte na dokončení (5 minut)
-
Krok 3: Otevřete terminál a spusťte
ollama pull llama3.1:8b(nebo zvoleného modelu) -
Krok 4: Počkejte na stažení modelu (5–10 minut)
-
Krok 5: Spusťte
ollama run llama3.1:8ba zkuste napsat svůj první prompt -
Krok 6: (Volitelné) Instalujte si Docker a Open WebUI pro pohodlnější chatovací rozhraní
-
Krok 7: Integrujte Ollamu do své aplikace změnou base URL na
localhost:11434/v1
Zdroje a reference
- Ollama Official — ollama.ai
- GitHub — Ollama Repository — github.com/ollama/ollama (95 000+ hvězd v 2026)
- Open WebUI — openwebui.com
- Llama 3.1 Model Card — Hugging Face
- DeepSeek-R1 — 79M downloads (2026), deepseek.com
- Docker Desktop — docker.com