Jak si nastavit lokální Ollama + open-source model za víkend

· 8 min čtení · Kategorie: navody
Jak si nastavit lokální Ollama + open-source model za víkend

Ollama je nejrychlejší cesta k vlastní AI na vašem počítači. Bez cloudů, bez poplatků, bez obav o soukromí. Spustíte si Llama, Mistral nebo DeepSeek model přímo na disku — a ta AI nikam nelete. Tady je kompletní návod na instalaci i konfiguraci.

Během jednoho víkendu si můžete nastavit lokální AI infrastrukturu, kterou budete moci používat v neomezené míře bez jednoho koruny měsíčního poplatku. Nevěřím? Čtěte dál. Všechny kroky jsou konkrétní, testované a fungují na macOS, Linuxu i Windows.

95 000+
GitHub hvězd pro Ollamu v roce 2026 — nejpopulárnější místní LLM runtime
GitHub, 2026
0 Kč
měsíčních poplatků po jednoiemé instalaci
Bez skryté permanentní
3–10x
rychlejší inference s GPU vs. CPU samotného
Benchmark testů Ollama, 2025

1. Co je Ollama a proč to chcete

Ollama je velký model vytvořený speciálně na to, aby běžel na vašem počítači. Není to cloud. Není to API. Stáhnete si binární soubor, nainstalujete ho, a pak už si můžete stahovat otevřené AI modely (Llama, Mistral, Qwen, DeepSeek...) a pouštět je lokálně.

Proč to chcete?

V roce 2026 je Ollama nejpopulárnější runtime pro lokální modely. Je jednoduché jej nainstalovat, modely jsou balené s již optimalizovanými optimalizacemi a komunita je aktivní. Není to experimentální hračka — používají ho vývojáři a firmy v produkci.

2. Hardware — co potřebujete

Tady je tabulka: co máte na počítači a jaký model si můžete spustit.

RAM dostupné Doporučené modely Poznámka Rychlost (přibližně)
8 GB Llama 2 7B, Phi-3 Mini (3.8B), Gemma 2B Těsno — uzavřete ostatní aplikace CPU: 2–5 toks/s
16 GB Llama 3.1 8B, Qwen 2.5 14B, Mistral 7B Ideální pro vývojáře — lze spustit všechny populární modely CPU: 5–10 toks/s
32 GB+ Llama 3 70B, DeepSeek R1 32B, jakýkoli model Profesionální setup — je možné spustit několik modelů vedle sebe CPU: 10–20 toks/s
GPU (NVIDIA 8GB+) Jakýkoli model s režimem VRAM NVIDIA 3–10x rychlejší než CPU — vysoce doporučuje se GPU: 50–150 toks/s
GPU (Apple Silicon) Jakýkoli model — nativní podpora M1/M2/M3/M4 Výborne optimalizované — nejrychlejší běh na Mac GPU: 50–120 toks/s

Praktický tip: Máte-li 16 GB RAM a NVIDIA GPU, začněte s Llama 3.1 8B — je to nejstabilnější model v 2026, s 111 miliony stahovým záznamů nejpopulárnější. Máte-li Apple Silicon, model běží nativně bez dalších drivery.

⚙️
Kontrola dostupného RAM:
macOS: Otevřete Activity Monitor (Cmd+Space, napište „Activity") → Memory tab
Linux: free -h
Windows: Task Manager (Ctrl+Shift+Esc) → Performance → Memory

3. Instalace krok za krokem

Krok 1: Stáhněte Ollamu

Jděte na ollama.com/download a stáhněte instalátor pro váš OS. Aplikace má kolem 300 MB. Instalace trvá 2–3 minuty.

macOS: Pokud máte M-řadu (M1/M2/M3/M4), instalátor to pozná a stáhne správnou verzi. Instalace = drag & drop do Applications.

Windows: Spusťte .exe instalátor. Depois systém automaticky restartuje službu na pozadí.

Linux (Ubuntu/Debian): Otevřete terminál a spusťte:

curl -fsSL https://ollama.ai/install.sh | sh

Krok 2: Ověřte instalaci

Otevřete terminál (macOS/Linux) nebo PowerShell (Windows) a napište:

ollama --version

Mělo by se vám zobrazit „ollama version 0.X.X" nebo vyšší. Pokud ne, instalace se nepovedla — zkuste znova.

Krok 3: Spusťte Ollamu na pozadí

Ollama potřebuje běžet na pozadí jako služba. Pokud máte macOS, existuje už aplikace (vidíte ji v Applications). Spusťte ji kliknutím. V menu baru (vpravo nahoře) vidíte Ollama ikonu.

Na Linuxu je Ollama automaticky spuštěna jako service. Na Windows také. Ověřte, že běží, otestováním API:

curl http://localhost:11434

Mělo by se vám vrátit: Ollama is running

4. Stáhnout a spustit první model

Nejlepší začátek: Llama 3.1 8B nebo Phi-3 Mini. Oba jsou v roce 2026 stabilní a velmi populární. Phi-3 Mini je menší a běží i na 8 GB RAM.

Stažení modelu:

ollama pull llama2:7b

Nebo pro novější verzi:

ollama pull llama3.1:8b

Nebo pro kódování (nejlepší model pro programování):

ollama pull qwen2.5-coder:14b

Stažení trvá 3–10 minut v závislosti na velikosti modelu a na vašem internetu. Quando je to hotovo, vidíte zprávu „Success".

Spuštění modelu v CLI:

ollama run llama3.1:8b

Teď můžete psát prompty přímo v terminálu. Napište otázku a stiskněte Enter:

>>> Naprogramuj mi v Pythonu funkci, která vezme seznam a vrátí ho seřazený bez duplicit.

Model vám odpoví v terminálu. Máte vlastní AI asistenta na počítači!

Výstup z modelu:

💡
Pokud model trvá dlouho, je to normální na CPU. Na GPU by měl být 5–10x rychlejší. Pokud trvá déle než 3 minuty, je model mimo VRAM a swapuje na disk — stáhněte menší model.

5. Open WebUI — grafické rozhraní místo terminálu

Terminál je cool, ale Open WebUI je lepší. Je to ChatGPT-style rozhraní pro vaši lokální Ollamu. Můžete si tam klást otázky, mít historii, ukládat si konverzace.

Instalace přes Docker (nejjednodušší):

Nejdřív si stáhněte Docker Desktop (je to zdarma).

Pak spusťte v terminálu:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:latest

Po chvíli (kolem 30 sekund) otevřete prohlížeč a jděte na localhost:3000. Vidíte přihlašovací stránku.

Registrace: Klikněte na „Sign up" a vytvořte si účet (jméno, email, heslo). Je to lokální — žádné data se neposílají online.

Připojení Ollamy: V nastavení (klikněte na avatara vpravo dole) → Settings → Models → Model pull (zadejte jméno modelu, např. „llama3.1:8b"). Open WebUI se připojí na vaši běžící Ollamu a stáhne si seznam dostupných modelů.

Teď máte chatovací rozhraní v prohlížeči, které vypadá jako ChatGPT, ale běží na vašem počítači. Žádné API klíče, žádné omezení počtu promptů, žádné poplatky.

Pro firemní nasazení s více uživateli — RBAC, RAG nad firemní dokumentací, OAuth napojení — se Open WebUI staví jinak než na laptopu. Podrobněji to řeší návod na produkční Open WebUI a navazující článek o licenční pasti nad 49 uživatelů a TCO v Kč.

6. Tipy pro pokročilé

Tip 1: Změna portu (pokud je vám výchozí zaneprázdněn)

Ollama standardně poslouchá na localhost:11434. Chcete-li změnit port:

export OLLAMA_HOST=0.0.0.0:9000

Tip 2: Paralelní spouštění více modelů

Máte-li dost RAM, spustit můžete více instancí Ollamy s různými modely:

OLLAMA_HOST=localhost:11435 ollama serve &

Každá instance dostane jiný port.

Tip 3: Integrace s vlastní aplikací přes OpenAI-kompatibilní API

Klíčová věc: Ollama API je 100 % kompatibilní s OpenAI API. To znamená, že jakákoliv aplikace, která podporuje ChatGPT API, může používat vaši lokální Ollamu s jedinou změnou konfigurace. Změňte base URL:

// Místo
https://api.openai.com/v1

// Použijte
http://localhost:11434/v1

Žádné API klíče nejsou potřeba.

Tip 4: Vlastní Modelfile (přizpůsobení modelu)

Chcete-li změnit chování modelu (teploturu, systémový prompt, limit kontextu), vytvořte si vlastní Modelfile:

FROM llama3.1:8b

SYSTEM """
Jsi asistent specialista na Python a JavaScript.
Odpovídáš jen na technické otázky týkající se těchto jazyků.
Své odpovědi formatuješ do jasného Markdown.
"""

PARAMETER temperature 0.7
PARAMETER top_k 40
PARAMETER top_p 0.9

Uložte jako Modelfile a spusťte:

ollama create muj-model -f Modelfile
ollama run muj-model

Tip 5: GPU akcelerace (NVIDIA)

Pokud máte NVIDIA kartu, Ollama ji automaticky detekuje. Pokud ne, zkontrolujte logs:

ollama logs

Mělo by vidět „GPU layers" pro CUDA. Pokud ne, máte starší driver NVIDIA. Aktualizujte.

⚠️
Upozornění: Běžné selhání — máte málo volné paměti. Pokud Ollama hodí chybu, zavřete ostatní aplikace a zkuste znova. Nebo stáhněte menší model (3B místo 7B). RAM je nejčastější tlačítko v Ollama setupu.

7. Nejčastější problémy a řešení

Problém Příčina Řešení
"Ollama command not found" Ollama není v PATH Spusťte instalátor znova. Na macOS: /Applications/Ollama.app/bin/ollama
Model se stahuje 30 minut Pomalý internet nebo model je velký (13B+) Počkejte. Nebo stáhněte menší model (3B–7B).
Model běží velmi pomalu (1 token/sec) Běží na CPU, ne na GPU; nebo málo RAM Instalujte NVIDIA/AMD drivery. Nebo stáhněte menší model.
"Out of memory" chyba Model je větší než vaše dostupná RAM Stáhněte menší model (7B místo 13B).
Open WebUI se nespustí Docker není nainstalován nebo běží Instalujte Docker Desktop. Zkontrolujte, že běží. Port 3000 není obsazený.
Klíčový poznatek
Ollama není magie. Je to jednoduše runtime, který stahuje, optimalizuje a spouští otevřené modely. Největší překážka není technologická — je to rozhodnutí zkusit to. Věnujte 30 minut nainstalováním, a máte vlastního AI asistenta bez poplatků a bez obavy o soukromí.

Quick-start checklist: Spusťte si Ollamu dnes

  • Krok 1: Jděte na ollama.com/download a stáhněte instalátor pro váš OS
  • Krok 2: Spusťte instalátor a počkejte na dokončení (5 minut)
  • Krok 3: Otevřete terminál a spusťte ollama pull llama3.1:8b (nebo zvoleného modelu)
  • Krok 4: Počkejte na stažení modelu (5–10 minut)
  • Krok 5: Spusťte ollama run llama3.1:8b a zkuste napsat svůj první prompt
  • Krok 6: (Volitelné) Instalujte si Docker a Open WebUI pro pohodlnější chatovací rozhraní
  • Krok 7: Integrujte Ollamu do své aplikace změnou base URL na localhost:11434/v1

Zdroje a reference