AI hlas zdarma 2026: Kokoro, Piper a open source TTS v češtině
Kokoro-82M vyhrálo TTS Arenu v lednu 2026. Voxtral od Mistralu v slepém testu porazil ElevenLabs Flash v 62,8 % případů. Open source TTS je v roce 2026 k nerozeznání od placených API — jenže v češtině vede úplně jiná sada modelů. Kokoro a Voxtral česky nemluví, češtinu v tréninkové sadě nikdy neviděly. Pro český obsah zůstává Piper (offline, hlas jirka), XTTS-v2 (voice cloning v 17 jazycích) nebo Fish Speech S2. Rozbor níže porovnává pět modelů, dává rozhodovací strom a počítá, kolik ušetříte proti ElevenLabs na 12 měsíců.
Stručně — co si z článku odnést
- Kokoro ani Voxtral nemluví česky. Pro český obsah vede Piper (hlas cs_CZ-jirka, offline, ~60 MB medium) nebo XTTS-v2 (17 jazyků včetně češtiny, klonování hlasu, ale Coqui Public Model License místo čisté Apache 2.0).
- Kč úspora proti ElevenLabs Creator plánu začíná u podcastové agentury s objemem nad 2 M znaků měsíčně. Pod 500 000 znaků měsíčně je self-host administrativně dražší než placený API plán. Break-even počítáme dál v článku.
- Piper s českým hlasem pustíte na VPS za 30 minut — Hetzner CX22 za 120 Kč měsíčně, Python venv,
pip install piper-ttsa ONNX model stažený zrhasspy/piper-voices. Plně offline, GDPR-friendly, bez API klíčů.
1. Co se v TTS zlomilo v roce 2026
Stručně: Open source TTS se mezi létem 2025 a jarem 2026 přiblížil ElevenLabs a OpenAI TTS na 0,1-0,2 bodu MOS. Zlom přinesly tři události: Kokoro-82M na vrcholu TTS Areny, Voxtral od Mistralu jako první open weights model porážející ElevenLabs a Fish Speech S2 s Audio Turing skóre 0,515.
V roce 2023 byl mezi open source TTS a placenými API propad kolem 1,0 bodu MOS (Mean Opinion Score). V dubnu 2026 je tento rozdíl podle Stanford AI Index na 0,1-0,2 bodu — v pásmu statistického šumu. Argument „platíme za ElevenLabs, protože open source neumí" přestal platit.
V lednu 2026 obsadil Kokoro-82M první místo TTS Arena leaderboardu — porazil XTTS (467 M) i MetaVoice (1,2 B). 26. března 2026 vydal Mistral Voxtral TTS pod Apache 2.0 a v interních slepých testech dosáhl 62,8 % human preference proti ElevenLabs Flash v2.5. Třetí složkou je Fish Speech S2 s Audio Turing skóre 0,515 — posluchači ho jako AI poznají jen ve 48,5 % případů.
Pro českého uživatele má zlom „ale". Všechny tři modely jsou primárně trénované na anglických a evropských datech. Kokoro pokrývá osm jazyků, Voxtral devět — v žádném z nich čeština není. Fish Speech S2 deklaruje 80+ jazyků, ale kvalita mimo hlavní skupinu (EN, ZH, ES, FR, DE, JP) je heterogenní.
2. Pět open source modelů, které v dubnu 2026 stojí za pozornost
Stručně: Pět modelů pokrývá reálné potřeby českého projektu: Kokoro-82M (nejrychlejší, EN/DE/FR/ES), Voxtral od Mistralu (průlomová kvalita, 9 jazyků, 3 GB RAM), Fish Speech S2 (voice cloning, 80+ jazyků), XTTS-v2 (17 jazyků včetně češtiny, klonování hlasu) a Piper TTS (ONNX, běží na Raspberry Pi, český hlas jirka).
Kokoro-82M od hexgrad stojí na StyleTTS 2 s ISTFTNet vokóderem. Pouze 82 M parametrů, Apache 2.0, osm jazyků (EN US/UK, FR, JP, ZH, ES, HI, IT, PT), 54 hlasů, bez nativního voice cloningu. Na běžném notebooku odstavec pod 0,3 sekundy. Hlavní volba pro anglický obsah.
Voxtral TTS (Mistral, 26. 3. 2026) je první open weights TTS, co v slepém testu poráží placenou špičku. Tři komponenty — 3,4 B v transformer dekodéru, 390 M ve flow-matching akustice, 300 M v neuro kodeku. Apache 2.0, 9 jazyků (EN, FR, DE, ES, NL, PT, IT, HI, AR), 70-90 ms TTFA, celý stack v ~3 GB RAM. Voice cloning z 3-5 s reference je součástí release.
Fish Speech S2 (fishaudio, Apache 2.0) je SOTA pro nativní voice cloning. 10 M+ hodin multilingválního audia, 80+ jazyků, ~100 ms TTFA. Na EmergentTTS-Eval 91,61 % úspěšnost v paralingvistické úloze a na Seed-TTS Eval nejnižší WER mezi open i closed source vendory. Čeština je deklarovaná, kvalita závisí na referenčním vzorku.
XTTS-v2 od Coqui podporuje 17 jazyků včetně češtiny (EN, ES, FR, DE, IT, PT, PL, TR, RU, NL, AR, ZH, JP, HU, KO, HI, CS). Klonuje hlas ze 3-6 s, model ~2,09 GB. Coqui Public Model License — komerční použití povoleno, deriváty a fine-tuning mají omezení. Coqui AI jako firma skončila počátkem 2024, projekt spravuje komunita. Pro český voice cloning stále nejlepší open source volba.
Piper TTS (rhasspy, MIT) je architekturně jiná liga — VITS + ONNX, modely 60-150 MB (medium), 500+ MB (high). Běží plynule na Raspberry Pi 4 s 2 GB RAM, na běžném CPU rychleji než se mluví. Český hlas cs_CZ-jirka je v rhasspy/piper-voices na Hugging Face. Žádné voice cloning — hlas je předtrénovaný. Pro offline aplikace, embedded systémy a nasazení citlivá z hlediska GDPR nejjednodušší cesta k českému AI hlasu.
| Model | Parametry | Jazyky | Čeština | Voice clone | Licence | Paměť | Pro koho |
|---|---|---|---|---|---|---|---|
| Kokoro-82M | 82 M | 8 | ❌ | ❌ (komunitní KokoClone ano) | Apache 2.0 | ~600 MB | EN content, rychlé iterace |
| Voxtral (Mistral) | ~4 B | 9 | ❌ | ✅ (3-5 s) | Apache 2.0 | ~3 GB | Firemní, na zařízení, kvalita |
| Fish Speech S2 | ~1 B | 80+ | ⚠️ deklarováno | ✅ (3-5 s) | Apache 2.0 | ~4 GB | Voice cloning, multijazyk |
| XTTS-v2 | 467 M | 17 | ✅ nativně | ✅ (3-6 s) | Coqui PML | ~3 GB | CZ voice clone, nejširší EU jazyky |
| Piper TTS | ~30 M (VITS) | 40+ | ✅ (jirka voice) | ❌ | MIT | ~200 MB | Offline, embedded, Raspberry Pi |
3. Proč Kokoro nemluví česky (a co to pro vás znamená)
Stručně: Kokoro-82M ani Voxtral neobsahují češtinu v tréninkových datech. Český text přečtou jako anglickou fonetickou aproximaci. Dvě obchvatné cesty (fonetický přepis, SSML tag phoneme) řeší jednotlivá slova, ne plynulý projev. Pro češtinu volte Piper (offline), XTTS-v2 (voice cloning) nebo Fish Speech S2 (multijazyk).
Model neumí jazyk, který nikdy neviděl. Kokoro dokumentace uvádí několik set hodin audia napříč osmi jazyky — čeština chybí. Voxtral deklaruje devět jazyků, čeština chybí. Na větu „Řezníkovi z Říčan" model rozloží fonémy, které nezná, a mapuje je na nejbližší anglickou nebo francouzskou výslovnost. Výsledek je akusticky zajímavý, ale pro poslech nepoužitelný — „ř", „ě", „ť" a český přízvuk fungují zcela jinak než v zápisu jiných jazyků.
Tři triky, jak dostat češtinu z Kokoro — a proč selhávají
- Fonetický přepis do angličtiny. Místo „Řezníkovi" napíšete „Rzhez-nee-ko-vee". Funguje pro jednotlivá slova, v plynulém textu ztratíte přízvuk, intonaci i rytmus. Pro produkční audio nepoužitelné.
- SSML phoneme tag. Vnucení výslovnosti přes
<phoneme alphabet="ipa" ph="...">. Kokoro to technicky podporuje, ale bez českých fonémů v datasetu interpretuje IPA značky stochasticky — každý běh dává mírně jiný výsledek. - Fine-tuning na českém datasetu. Teoreticky nejčistší cesta, prakticky vyžaduje 20-50 hodin CS audia s přepisem a GPU na desítky hodin tréninku. Pro firmu bez ML týmu nesplnitelné, komunitní fine-tuning Kokoro pro CS k dubnu 2026 neexistuje.
Závěr: pro český obsah volte modely s češtinou nativně v tréninkových datech — Piper (hlas jirka, bez voice cloningu), XTTS-v2 (17 jazyků včetně CS, voice cloning, Coqui PML) nebo Fish Speech S2 (deklarovaná podpora). Z komerčních API ElevenLabs, OpenAI TTS, Google Cloud TTS. Kokoro a Voxtral jsou pro anglický a evropský obsah.
4. Rozhodovací strom — jaký open source TTS pro český projekt
Stručně: Pět otázek zúží volbu na jeden až dva modely: jazyk (cs vs. en), voice cloning (ano/ne), offline režim (ano/ne), objem (nad 1 M znaků měsíčně), licenční požadavek (čistá Apache 2.0). Pro 90 % českých projektů vede Piper nebo XTTS-v2.
Mapování rolí: bloger/podcaster s vlastním hlasem → XTTS-v2. Audiokniha s neutrálním vypravěčem → Piper (jirka). IVR a čtečky obrazovky → Piper (latence pod 0,1 s, offline). E-learning s velkým objemem → Piper self-host, nad 5 M znaků/měs je ElevenLabs drahý. Agentura s voice cloningem → XTTS-v2 pro CS, Fish Speech S2 pro EN, vždy s GDPR souhlasem a nikdy na politiky nebo celebrity. Privátní AI infrastrukturu rozebírá návod na soukromou AI s Ollamou.
5. Kč TCO proti ElevenLabs na 12 měsíců
Stručně: Pod 500 000 znaků měsíčně je placené API (OpenAI TTS, ElevenLabs Starter) levnější než self-host. Kolem 2 M znaků měsíčně začíná self-host Piper spořit. Nad 10 M znaků měsíčně je úspora proti ElevenLabs Creator řádu desítek tisíc korun ročně — ale vyžaduje 0,1-0,3 FTE adminu.
Kurz 23 Kč/USD k dubnu 2026. Ceníky: ElevenLabs Creator 22 USD/měs (100 000 znaků, 0,30 USD za 1 000 nad rámec), Pro 99 USD/měs (500 000 znaků). OpenAI TTS API: 15 USD za 1 M znaků (tts-1), 30 USD (tts-1-hd). Hetzner VPS: CX22 (2 vCPU, 4 GB) 4,50 EUR/měs, CX32 (4 vCPU, 8 GB) 7,05 EUR/měs. Admin sazba 1 200 Kč/hod.
| Profil | ElevenLabs | OpenAI TTS API | Self-host (Piper / XTTS-v2) | Roční rozdíl |
|---|---|---|---|---|
| Bloger / 100 000 znaků měs. | Creator 22 USD/měs = 6 072 Kč/rok |
18 Kč/měs (tts-1) = ~500 Kč/rok |
CX22 + Piper = ~5 256 Kč/rok |
API vede o 4 756 Kč/rok |
| Podcast agentura / 2 M znaků měs. | Pro 99 USD/měs = ~34 000 Kč/rok |
30 USD/měs (tts-1-hd) = ~8 300 Kč/rok |
CX32 + XTTS-v2 GPU + 0,1 FTE admin = ~74 000 Kč/rok |
OpenAI vede o ~26 000 Kč proti ElevenLabs |
| E-learning / 20 M znaků měs. | Scale 330 USD/měs = ~91 000 Kč/rok |
300 USD/měs = ~82 800 Kč/rok |
CX42 + 0,2 FTE admin = ~110 000 Kč/rok |
OpenAI vítězí; self-host nad 50 M znaků |
| Fintech / IVR, GDPR strict | ❌ (data v US) | ❌ (data v US) | Piper self-host v EU = ~42 500 Kč/rok |
Self-host je jediná cesta v souladu s pravidly |
Pro malý objem vítězí OpenAI TTS API na poměru cena/jednoduchost — odpadá setup, monitoring i zálohy. ElevenLabs se vyplatí jen při potřebě specifických placených hlasů nebo top voice cloningu pro marketing. Self-host Piper začíná šetřit kolem 2 M znaků měsíčně a vítězí drtivě u GDPR-strict nasazení. Propojení TTS s agentním workflow rozebírá tutoriál o AI automatizaci v n8n, optimalizaci LLM API nákladů rozbor nákladů AI API.
6. Praktický setup: Piper s českým hlasem za 30 minut
Stručně: Piper s hlasem cs_CZ-jirka běží na Hetzner CX22 (2 vCPU, 4 GB RAM, 120 Kč/měs) přes Python venv a pip install piper-tts. Model stáhnete z Hugging Face, otestujete echo příkazem a nasadíte jako Flask mikroservis s Caddy reverse proxy. Setup zabere 30 minut.
Postup předpokládá Ubuntu 24.04 LTS, Python 3.11+ a základní znalost shellu. Piper běží plně offline. Pro produkci držte API za reverse proxy s HTTPS a basic auth, aby se endpoint nestal veřejným generátorem spamu.
- Objednat VPS. Hetzner CX22 v EU regionu, Ubuntu 24.04 LTS, 4,50 EUR/měs. Pro objem nad 1 M znaků denně CX32 (8 GB RAM).
- Instalovat závislosti.
sudo apt update && sudo apt install -y python3-venv python3-pip ffmpeg caddy. Vypnout root SSH, zapnoutunattended-upgrades. - Python venv a Piper.
python3 -m venv ~/piper && source ~/piper/bin/activate && pip install piper-tts flask gunicorn. Zabere ~90 sekund. - Stáhnout český hlas.
wget https://huggingface.co/rhasspy/piper-voices/resolve/main/cs/cs_CZ/jirka/medium/cs_CZ-jirka-medium.onnx+ doprovodný.onnx.json. Medium ~63 MB, low ~20 MB. - Test z CLI.
echo "Dobrý den, toto je test" | piper --model cs_CZ-jirka-medium.onnx --output_file test.wav. Přehrát přesaplaynebo stáhnout SCP. - Flask mikroservis. ~30 řádků Pythonu: POST
/synthesizepřijímá{"text": "..."}, vrací audio/wav. Spustit pod gunicorn jako systemd service. - Caddy reverse proxy + HTTPS. Tři řádky v
Caddyfile(doména, reverse_proxy, basic_auth). Let's Encrypt automaticky. Endpointhttps://tts.vase-domena.cz/synthesizeje připraven.
Jedna CX22 zvládne ~500 000 znaků denně v klidu, při plném vytížení CPU ~2 M. Nad tento objem dvě instance za loadbalancerem nebo CX32. Pro voice cloning přesedněte na XTTS-v2 a doplňte GPU. Pro napojení na workflow napojte Piper endpoint jako HTTP node v n8n, postup v tutoriálu n8n automatizace.
7. Časté dotazy
Umí Kokoro TTS přečíst český text?
Ne. Kokoro-82M nemá češtinu v tréninkových datech. Výsledek je fonetická aproximace z angličtiny, „ř", „ě" a přízvuk nevychází. Pro češtinu volte Piper (jirka) nebo XTTS-v2 (voice cloning). Kokoro vede v EN, DE, FR, ES, IT, PT, JP, ZH, HI.
Jaký open source TTS je nejlepší na češtinu?
Pro neutrální hlas a offline provoz Piper s cs_CZ-jirka-medium (63 MB, MIT). Pro klonování hlasu konkrétního mluvčího XTTS-v2 (CS v oficiální sadě 17 jazyků, Coqui PML, komerční použití OK). Fish Speech S2 deklaruje podporu, ale kvalita v CS je méně konzistentní.
Je XTTS-v2 legální pro komerční projekt?
Ano s omezením. Coqui Public Model License povoluje komerční použití pro generování audia. Bez individuální licence nedovoluje fine-tuning a komerční distribuci odvozeného díla. Pro firmu generující audio pro vlastní produkty (web, podcast, e-learning) to stačí. Pro trénink vlastního hlasu jako služby konzultujte s právníkem. Pro čistý Apache 2.0 sáhněte po Fish Speech S2.
Kolik ušetřím proti ElevenLabs, když přejdu na open source?
Závisí na objemu. Pod 500 000 znaků/měs je OpenAI TTS API levnější než ElevenLabs i self-host. Na 2 M znaků/měs začíná self-host Piper spořit — ~26 000 Kč ročně proti ElevenLabs Pro. Nad 10 M znaků je rozdíl řádu desítek tisíc Kč. Při striktním GDPR režimu je self-host jediná volba v souladu s pravidly.
Můžu klonovat hlas klienta pro marketingovou kampaň?
Technicky ano, právně složitě. Hlas je biometrický údaj podle GDPR, klonování vyžaduje výslovný informovaný souhlas a smluvní ošetření. Neklonujte politiky, celebrity ani osoby bez souhlasu — riziko deepfake. Od srpna 2026 platí článek 50 EU AI Actu, který vyžaduje strojové označení všech syntetických výstupů. Detaily v runbooku k EU AI Actu.
8. Co si z článku odnést
Open source TTS v roce 2026 dohnal ElevenLabs v kvalitě — Kokoro-82M, Voxtral a Fish Speech S2 se statisticky rovnají placené špičce. Pro český obsah to neznamená Kokoro. Pro cs_CZ vede Piper (offline, hlas jirka, 30 min setup, 150 MB) a XTTS-v2 (voice cloning, 17 jazyků, Coqui PML). Kč úspora proti ElevenLabs začíná kolem 2 M znaků měsíčně — pod tím je jednodušší platit OpenAI TTS API. Self-host má zásadní výhodu, kterou placené API nesrovná: plnou datovou rezidenci v EU, kritickou pro GDPR-strict projekty a pro EU AI Act od srpna 2026. Doplňkové čtení: soukromá AI s Ollamou pro plně lokální stack, náklady AI API pro optimalizaci tokenů a tutoriál n8n pro workflow napojení.