Jak si nastavit lokální Ollama + open-source model za víkend

23. 3. 2026 · 8 min čtení · Kategorie: navody

Ollama je nejrychlejší cesta k vlastní AI na vašem počítači. Bez cloudů, bez poplatků, bez obav o soukromí. Spustíte si Llama, Mistral nebo DeepSeek model přímo na disku — a ta AI nikam nelete. Tady je kompletní návod na instalaci i konfiguraci.

Během jednoho víkendu si můžete nastavit lokální AI infrastrukturu, kterou budete moci používat v neomezené míře bez jednoho koruny měsíčního poplatku. Nevěřím? Čtěte dál. Všechny kroky jsou konkrétní, testované a fungují na macOS, Linuxu i Windows.

95 000+

GitHub hvězd pro Ollamu v roce 2026 — nejpopulárnější místní LLM runtime

GitHub, 2026

0 Kč

měsíčních poplatků po jednoiemé instalaci

Bez skryté permanentní

3–10x

rychlejší inference s GPU vs. CPU samotného

Benchmark testů Ollama, 2025

1. Co je Ollama a proč to chcete

Ollama je velký model vytvořený speciálně na to, aby běžel na vašem počítači. Není to cloud. Není to API. Stáhnete si binární soubor, nainstalujete ho, a pak už si můžete stahovat otevřené AI modely (Llama, Mistral, Qwen, DeepSeek...) a pouštět je lokálně.

Proč to chcete?

Bez poplatků: ChatGPT API vás stojí 0,03 Kč za 1000 tokenů. S Ollamou platíte jen jednou za hardware a víc nic.
100 % soukromí: Vaše prompty nikdy neopustí váš počítač. Nebude vás nikdo trackovat, logovat, používat na trénování.
Offline dostupnost: Model běží bez internetu. Serverům na druhé straně světa je jedno.
Plná kontrola: Můžete si model customizovat, měnit parametry, chovat, teplotu — vše bez omezení API.
Skalabilita: Ollama API je kompatibilní s OpenAI API — každá aplikace, která používá ChatGPT, bude fungovat s vaší lokální Ollamou jen s změnou jedné konfigurace.

V roce 2026 je Ollama nejpopulárnější runtime pro lokální modely. Je jednoduché jej nainstalovat, modely jsou balené s již optimalizovanými optimalizacemi a komunita je aktivní. Není to experimentální hračka — používají ho vývojáři a firmy v produkci.

2. Hardware — co potřebujete

Tady je tabulka: co máte na počítači a jaký model si můžete spustit.

RAM dostupné	Doporučené modely	Poznámka	Rychlost (přibližně)
8 GB	Llama 2 7B, Phi-3 Mini (3.8B), Gemma 2B	Těsno — uzavřete ostatní aplikace	CPU: 2–5 toks/s
16 GB	Llama 3.1 8B, Qwen 2.5 14B, Mistral 7B	Ideální pro vývojáře — lze spustit všechny populární modely	CPU: 5–10 toks/s
32 GB+	Llama 3 70B, DeepSeek R1 32B, jakýkoli model	Profesionální setup — je možné spustit několik modelů vedle sebe	CPU: 10–20 toks/s
GPU (NVIDIA 8GB+)	Jakýkoli model s režimem VRAM NVIDIA	3–10x rychlejší než CPU — vysoce doporučuje se	GPU: 50–150 toks/s
GPU (Apple Silicon)	Jakýkoli model — nativní podpora M1/M2/M3/M4	Výborne optimalizované — nejrychlejší běh na Mac	GPU: 50–120 toks/s

Praktický tip: Máte-li 16 GB RAM a NVIDIA GPU, začněte s Llama 3.1 8B — je to nejstabilnější model v 2026, s 111 miliony stahovým záznamů nejpopulárnější. Máte-li Apple Silicon, model běží nativně bez dalších drivery.

⚙️

Kontrola dostupného RAM:
macOS: Otevřete Activity Monitor (Cmd+Space, napište „Activity") → Memory tab
Linux: free -h
Windows: Task Manager (Ctrl+Shift+Esc) → Performance → Memory

3. Instalace krok za krokem

Krok 1: Stáhněte Ollamu

Jděte na ollama.com/download a stáhněte instalátor pro váš OS. Aplikace má kolem 300 MB. Instalace trvá 2–3 minuty.

macOS: Pokud máte M-řadu (M1/M2/M3/M4), instalátor to pozná a stáhne správnou verzi. Instalace = drag & drop do Applications.

Windows: Spusťte .exe instalátor. Depois systém automaticky restartuje službu na pozadí.

Linux (Ubuntu/Debian): Otevřete terminál a spusťte:

curl -fsSL https://ollama.ai/install.sh | sh

Krok 2: Ověřte instalaci

Otevřete terminál (macOS/Linux) nebo PowerShell (Windows) a napište:

ollama --version

Mělo by se vám zobrazit „ollama version 0.X.X" nebo vyšší. Pokud ne, instalace se nepovedla — zkuste znova.

Krok 3: Spusťte Ollamu na pozadí

Ollama potřebuje běžet na pozadí jako služba. Pokud máte macOS, existuje už aplikace (vidíte ji v Applications). Spusťte ji kliknutím. V menu baru (vpravo nahoře) vidíte Ollama ikonu.

Na Linuxu je Ollama automaticky spuštěna jako service. Na Windows také. Ověřte, že běží, otestováním API:

curl http://localhost:11434

Mělo by se vám vrátit: Ollama is running

4. Stáhnout a spustit první model

Nejlepší začátek: Llama 3.1 8B nebo Phi-3 Mini. Oba jsou v roce 2026 stabilní a velmi populární. Phi-3 Mini je menší a běží i na 8 GB RAM.

Stažení modelu:

ollama pull llama2:7b

Nebo pro novější verzi:

ollama pull llama3.1:8b

Nebo pro kódování (nejlepší model pro programování):

ollama pull qwen2.5-coder:14b

Stažení trvá 3–10 minut v závislosti na velikosti modelu a na vašem internetu. Quando je to hotovo, vidíte zprávu „Success".

Spuštění modelu v CLI:

ollama run llama3.1:8b

Teď můžete psát prompty přímo v terminálu. Napište otázku a stiskněte Enter:

>>> Naprogramuj mi v Pythonu funkci, která vezme seznam a vrátí ho seřazený bez duplicit.

Model vám odpoví v terminálu. Máte vlastní AI asistenta na počítači!

Výstup z modelu:

💡

Pokud model trvá dlouho, je to normální na CPU. Na GPU by měl být 5–10x rychlejší. Pokud trvá déle než 3 minuty, je model mimo VRAM a swapuje na disk — stáhněte menší model.

5. Open WebUI — grafické rozhraní místo terminálu

Terminál je cool, ale Open WebUI je lepší. Je to ChatGPT-style rozhraní pro vaši lokální Ollamu. Můžete si tam klást otázky, mít historii, ukládat si konverzace.

Instalace přes Docker (nejjednodušší):

Nejdřív si stáhněte Docker Desktop (je to zdarma).

Pak spusťte v terminálu:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:latest

Po chvíli (kolem 30 sekund) otevřete prohlížeč a jděte na localhost:3000. Vidíte přihlašovací stránku.

Registrace: Klikněte na „Sign up" a vytvořte si účet (jméno, email, heslo). Je to lokální — žádné data se neposílají online.

Připojení Ollamy: V nastavení (klikněte na avatara vpravo dole) → Settings → Models → Model pull (zadejte jméno modelu, např. „llama3.1:8b"). Open WebUI se připojí na vaši běžící Ollamu a stáhne si seznam dostupných modelů.

Teď máte chatovací rozhraní v prohlížeči, které vypadá jako ChatGPT, ale běží na vašem počítači. Žádné API klíče, žádné omezení počtu promptů, žádné poplatky.

Pro firemní nasazení s více uživateli — RBAC, RAG nad firemní dokumentací, OAuth napojení — se Open WebUI staví jinak než na laptopu. Podrobněji to řeší návod na produkční Open WebUI a navazující článek o licenční pasti nad 49 uživatelů a TCO v Kč.

6. Tipy pro pokročilé

Tip 1: Změna portu (pokud je vám výchozí zaneprázdněn)

Ollama standardně poslouchá na localhost:11434. Chcete-li změnit port:

export OLLAMA_HOST=0.0.0.0:9000

Tip 2: Paralelní spouštění více modelů

Máte-li dost RAM, spustit můžete více instancí Ollamy s různými modely:

OLLAMA_HOST=localhost:11435 ollama serve &

Každá instance dostane jiný port.

Tip 3: Integrace s vlastní aplikací přes OpenAI-kompatibilní API

Klíčová věc: Ollama API je 100 % kompatibilní s OpenAI API. To znamená, že jakákoliv aplikace, která podporuje ChatGPT API, může používat vaši lokální Ollamu s jedinou změnou konfigurace. Změňte base URL:

// Místo
https://api.openai.com/v1

// Použijte
http://localhost:11434/v1

Žádné API klíče nejsou potřeba.

Tip 4: Vlastní Modelfile (přizpůsobení modelu)

Chcete-li změnit chování modelu (teploturu, systémový prompt, limit kontextu), vytvořte si vlastní Modelfile:

FROM llama3.1:8b

SYSTEM """
Jsi asistent specialista na Python a JavaScript.
Odpovídáš jen na technické otázky týkající se těchto jazyků.
Své odpovědi formatuješ do jasného Markdown.
"""

PARAMETER temperature 0.7
PARAMETER top_k 40
PARAMETER top_p 0.9

Uložte jako Modelfile a spusťte:

ollama create muj-model -f Modelfile
ollama run muj-model

Tip 5: GPU akcelerace (NVIDIA)

Pokud máte NVIDIA kartu, Ollama ji automaticky detekuje. Pokud ne, zkontrolujte logs:

ollama logs

Mělo by vidět „GPU layers" pro CUDA. Pokud ne, máte starší driver NVIDIA. Aktualizujte.

⚠️

Upozornění: Běžné selhání — máte málo volné paměti. Pokud Ollama hodí chybu, zavřete ostatní aplikace a zkuste znova. Nebo stáhněte menší model (3B místo 7B). RAM je nejčastější tlačítko v Ollama setupu.

7. Nejčastější problémy a řešení

Problém	Příčina	Řešení
"Ollama command not found"	Ollama není v PATH	Spusťte instalátor znova. Na macOS: `/Applications/Ollama.app/bin/ollama`
Model se stahuje 30 minut	Pomalý internet nebo model je velký (13B+)	Počkejte. Nebo stáhněte menší model (3B–7B).
Model běží velmi pomalu (1 token/sec)	Běží na CPU, ne na GPU; nebo málo RAM	Instalujte NVIDIA/AMD drivery. Nebo stáhněte menší model.
"Out of memory" chyba	Model je větší než vaše dostupná RAM	Stáhněte menší model (7B místo 13B).
Open WebUI se nespustí	Docker není nainstalován nebo běží	Instalujte Docker Desktop. Zkontrolujte, že běží. Port 3000 není obsazený.

Klíčový poznatek

Ollama není magie. Je to jednoduše runtime, který stahuje, optimalizuje a spouští otevřené modely. Největší překážka není technologická — je to rozhodnutí zkusit to. Věnujte 30 minut nainstalováním, a máte vlastního AI asistenta bez poplatků a bez obavy o soukromí.

Quick-start checklist: Spusťte si Ollamu dnes

Krok 1: Jděte na ollama.com/download a stáhněte instalátor pro váš OS
Krok 2: Spusťte instalátor a počkejte na dokončení (5 minut)
Krok 3: Otevřete terminál a spusťte ollama pull llama3.1:8b (nebo zvoleného modelu)
Krok 4: Počkejte na stažení modelu (5–10 minut)
Krok 5: Spusťte ollama run llama3.1:8b a zkuste napsat svůj první prompt
Krok 6: (Volitelné) Instalujte si Docker a Open WebUI pro pohodlnější chatovací rozhraní
Krok 7: Integrujte Ollamu do své aplikace změnou base URL na localhost:11434/v1

Zdroje a reference

Ollama Official — ollama.ai
GitHub — Ollama Repository — github.com/ollama/ollama (95 000+ hvězd v 2026)
Open WebUI — openwebui.com
Llama 3.1 Model Card — Hugging Face
DeepSeek-R1 — 79M downloads (2026), deepseek.com
Docker Desktop — docker.com

Jak si nastavit lokální Ollama + open-source model za víkend

1. Co je Ollama a proč to chcete

2. Hardware — co potřebujete

3. Instalace krok za krokem

4. Stáhnout a spustit první model

5. Open WebUI — grafické rozhraní místo terminálu

6. Tipy pro pokročilé

7. Nejčastější problémy a řešení

Quick-start checklist: Spusťte si Ollamu dnes

Zdroje a reference

Související články