AI hlas zdarma 2026: Kokoro, Piper a open source TTS v češtině

· 9 min čtení · Kategorie: navody
AI hlas zdarma 2026: Kokoro, Piper a open source TTS v češtině

Kokoro-82M vyhrálo TTS Arenu v lednu 2026. Voxtral od Mistralu v slepém testu porazil ElevenLabs Flash v 62,8 % případů. Open source TTS je v roce 2026 k nerozeznání od placených API — jenže v češtině vede úplně jiná sada modelů. Kokoro a Voxtral česky nemluví, češtinu v tréninkové sadě nikdy neviděly. Pro český obsah zůstává Piper (offline, hlas jirka), XTTS-v2 (voice cloning v 17 jazycích) nebo Fish Speech S2. Rozbor níže porovnává pět modelů, dává rozhodovací strom a počítá, kolik ušetříte proti ElevenLabs na 12 měsíců.

Stručně — co si z článku odnést

  • Kokoro ani Voxtral nemluví česky. Pro český obsah vede Piper (hlas cs_CZ-jirka, offline, ~60 MB medium) nebo XTTS-v2 (17 jazyků včetně češtiny, klonování hlasu, ale Coqui Public Model License místo čisté Apache 2.0).
  • Kč úspora proti ElevenLabs Creator plánu začíná u podcastové agentury s objemem nad 2 M znaků měsíčně. Pod 500 000 znaků měsíčně je self-host administrativně dražší než placený API plán. Break-even počítáme dál v článku.
  • Piper s českým hlasem pustíte na VPS za 30 minut — Hetzner CX22 za 120 Kč měsíčně, Python venv, pip install piper-tts a ONNX model stažený z rhasspy/piper-voices. Plně offline, GDPR-friendly, bez API klíčů.
#1 TTS Arena Kokoro-82M, leden 2026 — porazil XTTS i MetaVoice s modelem pětkrát menším
0,1-0,2 MOS gap open source vs. komerční TTS v roce 2026 (ze 1,0 v roce 2023)
62,8 % Voxtral vítězí nad ElevenLabs Flash v2.5 v preferenčním slepém testu 3/2026
30 min setup Piper s českým hlasem na VPS za 120 Kč/měs

1. Co se v TTS zlomilo v roce 2026

Stručně: Open source TTS se mezi létem 2025 a jarem 2026 přiblížil ElevenLabs a OpenAI TTS na 0,1-0,2 bodu MOS. Zlom přinesly tři události: Kokoro-82M na vrcholu TTS Areny, Voxtral od Mistralu jako první open weights model porážející ElevenLabs a Fish Speech S2 s Audio Turing skóre 0,515.

V roce 2023 byl mezi open source TTS a placenými API propad kolem 1,0 bodu MOS (Mean Opinion Score). V dubnu 2026 je tento rozdíl podle Stanford AI Index na 0,1-0,2 bodu — v pásmu statistického šumu. Argument „platíme za ElevenLabs, protože open source neumí" přestal platit.

V lednu 2026 obsadil Kokoro-82M první místo TTS Arena leaderboardu — porazil XTTS (467 M) i MetaVoice (1,2 B). 26. března 2026 vydal Mistral Voxtral TTS pod Apache 2.0 a v interních slepých testech dosáhl 62,8 % human preference proti ElevenLabs Flash v2.5. Třetí složkou je Fish Speech S2 s Audio Turing skóre 0,515 — posluchači ho jako AI poznají jen ve 48,5 % případů.

Pro českého uživatele má zlom „ale". Všechny tři modely jsou primárně trénované na anglických a evropských datech. Kokoro pokrývá osm jazyků, Voxtral devět — v žádném z nich čeština není. Fish Speech S2 deklaruje 80+ jazyků, ale kvalita mimo hlavní skupinu (EN, ZH, ES, FR, DE, JP) je heterogenní.

2. Pět open source modelů, které v dubnu 2026 stojí za pozornost

Stručně: Pět modelů pokrývá reálné potřeby českého projektu: Kokoro-82M (nejrychlejší, EN/DE/FR/ES), Voxtral od Mistralu (průlomová kvalita, 9 jazyků, 3 GB RAM), Fish Speech S2 (voice cloning, 80+ jazyků), XTTS-v2 (17 jazyků včetně češtiny, klonování hlasu) a Piper TTS (ONNX, běží na Raspberry Pi, český hlas jirka).

Kokoro-82M od hexgrad stojí na StyleTTS 2 s ISTFTNet vokóderem. Pouze 82 M parametrů, Apache 2.0, osm jazyků (EN US/UK, FR, JP, ZH, ES, HI, IT, PT), 54 hlasů, bez nativního voice cloningu. Na běžném notebooku odstavec pod 0,3 sekundy. Hlavní volba pro anglický obsah.

Voxtral TTS (Mistral, 26. 3. 2026) je první open weights TTS, co v slepém testu poráží placenou špičku. Tři komponenty — 3,4 B v transformer dekodéru, 390 M ve flow-matching akustice, 300 M v neuro kodeku. Apache 2.0, 9 jazyků (EN, FR, DE, ES, NL, PT, IT, HI, AR), 70-90 ms TTFA, celý stack v ~3 GB RAM. Voice cloning z 3-5 s reference je součástí release.

Fish Speech S2 (fishaudio, Apache 2.0) je SOTA pro nativní voice cloning. 10 M+ hodin multilingválního audia, 80+ jazyků, ~100 ms TTFA. Na EmergentTTS-Eval 91,61 % úspěšnost v paralingvistické úloze a na Seed-TTS Eval nejnižší WER mezi open i closed source vendory. Čeština je deklarovaná, kvalita závisí na referenčním vzorku.

XTTS-v2 od Coqui podporuje 17 jazyků včetně češtiny (EN, ES, FR, DE, IT, PT, PL, TR, RU, NL, AR, ZH, JP, HU, KO, HI, CS). Klonuje hlas ze 3-6 s, model ~2,09 GB. Coqui Public Model License — komerční použití povoleno, deriváty a fine-tuning mají omezení. Coqui AI jako firma skončila počátkem 2024, projekt spravuje komunita. Pro český voice cloning stále nejlepší open source volba.

Piper TTS (rhasspy, MIT) je architekturně jiná liga — VITS + ONNX, modely 60-150 MB (medium), 500+ MB (high). Běží plynule na Raspberry Pi 4 s 2 GB RAM, na běžném CPU rychleji než se mluví. Český hlas cs_CZ-jirka je v rhasspy/piper-voices na Hugging Face. Žádné voice cloning — hlas je předtrénovaný. Pro offline aplikace, embedded systémy a nasazení citlivá z hlediska GDPR nejjednodušší cesta k českému AI hlasu.

Model Parametry Jazyky Čeština Voice clone Licence Paměť Pro koho
Kokoro-82M 82 M 8 ❌ (komunitní KokoClone ano) Apache 2.0 ~600 MB EN content, rychlé iterace
Voxtral (Mistral) ~4 B 9 ✅ (3-5 s) Apache 2.0 ~3 GB Firemní, na zařízení, kvalita
Fish Speech S2 ~1 B 80+ ⚠️ deklarováno ✅ (3-5 s) Apache 2.0 ~4 GB Voice cloning, multijazyk
XTTS-v2 467 M 17 ✅ nativně ✅ (3-6 s) Coqui PML ~3 GB CZ voice clone, nejširší EU jazyky
Piper TTS ~30 M (VITS) 40+ ✅ (jirka voice) MIT ~200 MB Offline, embedded, Raspberry Pi

3. Proč Kokoro nemluví česky (a co to pro vás znamená)

Stručně: Kokoro-82M ani Voxtral neobsahují češtinu v tréninkových datech. Český text přečtou jako anglickou fonetickou aproximaci. Dvě obchvatné cesty (fonetický přepis, SSML tag phoneme) řeší jednotlivá slova, ne plynulý projev. Pro češtinu volte Piper (offline), XTTS-v2 (voice cloning) nebo Fish Speech S2 (multijazyk).

Model neumí jazyk, který nikdy neviděl. Kokoro dokumentace uvádí několik set hodin audia napříč osmi jazyky — čeština chybí. Voxtral deklaruje devět jazyků, čeština chybí. Na větu „Řezníkovi z Říčan" model rozloží fonémy, které nezná, a mapuje je na nejbližší anglickou nebo francouzskou výslovnost. Výsledek je akusticky zajímavý, ale pro poslech nepoužitelný — „ř", „ě", „ť" a český přízvuk fungují zcela jinak než v zápisu jiných jazyků.

Tři triky, jak dostat češtinu z Kokoro — a proč selhávají

  1. Fonetický přepis do angličtiny. Místo „Řezníkovi" napíšete „Rzhez-nee-ko-vee". Funguje pro jednotlivá slova, v plynulém textu ztratíte přízvuk, intonaci i rytmus. Pro produkční audio nepoužitelné.
  2. SSML phoneme tag. Vnucení výslovnosti přes <phoneme alphabet="ipa" ph="...">. Kokoro to technicky podporuje, ale bez českých fonémů v datasetu interpretuje IPA značky stochasticky — každý běh dává mírně jiný výsledek.
  3. Fine-tuning na českém datasetu. Teoreticky nejčistší cesta, prakticky vyžaduje 20-50 hodin CS audia s přepisem a GPU na desítky hodin tréninku. Pro firmu bez ML týmu nesplnitelné, komunitní fine-tuning Kokoro pro CS k dubnu 2026 neexistuje.

Závěr: pro český obsah volte modely s češtinou nativně v tréninkových datech — Piper (hlas jirka, bez voice cloningu), XTTS-v2 (17 jazyků včetně CS, voice cloning, Coqui PML) nebo Fish Speech S2 (deklarovaná podpora). Z komerčních API ElevenLabs, OpenAI TTS, Google Cloud TTS. Kokoro a Voxtral jsou pro anglický a evropský obsah.

4. Rozhodovací strom — jaký open source TTS pro český projekt

Stručně: Pět otázek zúží volbu na jeden až dva modely: jazyk (cs vs. en), voice cloning (ano/ne), offline režim (ano/ne), objem (nad 1 M znaků měsíčně), licenční požadavek (čistá Apache 2.0). Pro 90 % českých projektů vede Piper nebo XTTS-v2.

Jazyk obsahu? EN / DE / FR / ES Voice cloning? ANO → Voxtral / Fish NE → Kokoro-82M Čeština (cs) Voice cloning potřeba? ANO Licenční požadavek? Čistá Apache 2.0 → Fish Speech S2 Komerční OK, deriváty NE XTTS-v2 (cs voice clone) Coqui PML, 17 jazyků, GPU doporučeno NE Offline / bez cloudu? Raspberry Pi, GDPR strict ANO Piper TTS (cs_CZ-jirka) ~60 MB, MIT, Raspberry Pi 4, setup 30 min NE Objem > 1M znaků/měs? Ano → self-host Piper, ne → API Výstupy pro český projekt: Podcast s vlastním hlasem hosta → XTTS-v2 | Audiokniha s neutrálním hlasem → Piper (jirka medium) Čtečka obrazovky v aplikaci → Piper (nízká latence) | E-learning pro 20 M znaků/měs → Piper self-host Voice cloning klienta pro kampaň → XTTS-v2 + GDPR souhlas | EN obsah → Kokoro-82M nebo Voxtral

Mapování rolí: bloger/podcaster s vlastním hlasem → XTTS-v2. Audiokniha s neutrálním vypravěčem → Piper (jirka). IVR a čtečky obrazovky → Piper (latence pod 0,1 s, offline). E-learning s velkým objemem → Piper self-host, nad 5 M znaků/měs je ElevenLabs drahý. Agentura s voice cloningem → XTTS-v2 pro CS, Fish Speech S2 pro EN, vždy s GDPR souhlasem a nikdy na politiky nebo celebrity. Privátní AI infrastrukturu rozebírá návod na soukromou AI s Ollamou.

5. Kč TCO proti ElevenLabs na 12 měsíců

Stručně: Pod 500 000 znaků měsíčně je placené API (OpenAI TTS, ElevenLabs Starter) levnější než self-host. Kolem 2 M znaků měsíčně začíná self-host Piper spořit. Nad 10 M znaků měsíčně je úspora proti ElevenLabs Creator řádu desítek tisíc korun ročně — ale vyžaduje 0,1-0,3 FTE adminu.

Kurz 23 Kč/USD k dubnu 2026. Ceníky: ElevenLabs Creator 22 USD/měs (100 000 znaků, 0,30 USD za 1 000 nad rámec), Pro 99 USD/měs (500 000 znaků). OpenAI TTS API: 15 USD za 1 M znaků (tts-1), 30 USD (tts-1-hd). Hetzner VPS: CX22 (2 vCPU, 4 GB) 4,50 EUR/měs, CX32 (4 vCPU, 8 GB) 7,05 EUR/měs. Admin sazba 1 200 Kč/hod.

Profil ElevenLabs OpenAI TTS API Self-host (Piper / XTTS-v2) Roční rozdíl
Bloger / 100 000 znaků měs. Creator 22 USD/měs
= 6 072 Kč/rok
18 Kč/měs (tts-1)
= ~500 Kč/rok
CX22 + Piper
= ~5 256 Kč/rok
API vede o 4 756 Kč/rok
Podcast agentura / 2 M znaků měs. Pro 99 USD/měs
= ~34 000 Kč/rok
30 USD/měs (tts-1-hd)
= ~8 300 Kč/rok
CX32 + XTTS-v2 GPU + 0,1 FTE admin
= ~74 000 Kč/rok
OpenAI vede o ~26 000 Kč proti ElevenLabs
E-learning / 20 M znaků měs. Scale 330 USD/měs
= ~91 000 Kč/rok
300 USD/měs
= ~82 800 Kč/rok
CX42 + 0,2 FTE admin
= ~110 000 Kč/rok
OpenAI vítězí; self-host nad 50 M znaků
Fintech / IVR, GDPR strict ❌ (data v US) ❌ (data v US) Piper self-host v EU
= ~42 500 Kč/rok
Self-host je jediná cesta v souladu s pravidly

Pro malý objem vítězí OpenAI TTS API na poměru cena/jednoduchost — odpadá setup, monitoring i zálohy. ElevenLabs se vyplatí jen při potřebě specifických placených hlasů nebo top voice cloningu pro marketing. Self-host Piper začíná šetřit kolem 2 M znaků měsíčně a vítězí drtivě u GDPR-strict nasazení. Propojení TTS s agentním workflow rozebírá tutoriál o AI automatizaci v n8n, optimalizaci LLM API nákladů rozbor nákladů AI API.

6. Praktický setup: Piper s českým hlasem za 30 minut

Stručně: Piper s hlasem cs_CZ-jirka běží na Hetzner CX22 (2 vCPU, 4 GB RAM, 120 Kč/měs) přes Python venv a pip install piper-tts. Model stáhnete z Hugging Face, otestujete echo příkazem a nasadíte jako Flask mikroservis s Caddy reverse proxy. Setup zabere 30 minut.

Postup předpokládá Ubuntu 24.04 LTS, Python 3.11+ a základní znalost shellu. Piper běží plně offline. Pro produkci držte API za reverse proxy s HTTPS a basic auth, aby se endpoint nestal veřejným generátorem spamu.

  1. Objednat VPS. Hetzner CX22 v EU regionu, Ubuntu 24.04 LTS, 4,50 EUR/měs. Pro objem nad 1 M znaků denně CX32 (8 GB RAM).
  2. Instalovat závislosti. sudo apt update && sudo apt install -y python3-venv python3-pip ffmpeg caddy. Vypnout root SSH, zapnout unattended-upgrades.
  3. Python venv a Piper. python3 -m venv ~/piper && source ~/piper/bin/activate && pip install piper-tts flask gunicorn. Zabere ~90 sekund.
  4. Stáhnout český hlas. wget https://huggingface.co/rhasspy/piper-voices/resolve/main/cs/cs_CZ/jirka/medium/cs_CZ-jirka-medium.onnx + doprovodný .onnx.json. Medium ~63 MB, low ~20 MB.
  5. Test z CLI. echo "Dobrý den, toto je test" | piper --model cs_CZ-jirka-medium.onnx --output_file test.wav. Přehrát přes aplay nebo stáhnout SCP.
  6. Flask mikroservis. ~30 řádků Pythonu: POST /synthesize přijímá {"text": "..."}, vrací audio/wav. Spustit pod gunicorn jako systemd service.
  7. Caddy reverse proxy + HTTPS. Tři řádky v Caddyfile (doména, reverse_proxy, basic_auth). Let's Encrypt automaticky. Endpoint https://tts.vase-domena.cz/synthesize je připraven.

Jedna CX22 zvládne ~500 000 znaků denně v klidu, při plném vytížení CPU ~2 M. Nad tento objem dvě instance za loadbalancerem nebo CX32. Pro voice cloning přesedněte na XTTS-v2 a doplňte GPU. Pro napojení na workflow napojte Piper endpoint jako HTTP node v n8n, postup v tutoriálu n8n automatizace.

7. Časté dotazy

Umí Kokoro TTS přečíst český text?

Ne. Kokoro-82M nemá češtinu v tréninkových datech. Výsledek je fonetická aproximace z angličtiny, „ř", „ě" a přízvuk nevychází. Pro češtinu volte Piper (jirka) nebo XTTS-v2 (voice cloning). Kokoro vede v EN, DE, FR, ES, IT, PT, JP, ZH, HI.

Jaký open source TTS je nejlepší na češtinu?

Pro neutrální hlas a offline provoz Piper s cs_CZ-jirka-medium (63 MB, MIT). Pro klonování hlasu konkrétního mluvčího XTTS-v2 (CS v oficiální sadě 17 jazyků, Coqui PML, komerční použití OK). Fish Speech S2 deklaruje podporu, ale kvalita v CS je méně konzistentní.

Je XTTS-v2 legální pro komerční projekt?

Ano s omezením. Coqui Public Model License povoluje komerční použití pro generování audia. Bez individuální licence nedovoluje fine-tuning a komerční distribuci odvozeného díla. Pro firmu generující audio pro vlastní produkty (web, podcast, e-learning) to stačí. Pro trénink vlastního hlasu jako služby konzultujte s právníkem. Pro čistý Apache 2.0 sáhněte po Fish Speech S2.

Kolik ušetřím proti ElevenLabs, když přejdu na open source?

Závisí na objemu. Pod 500 000 znaků/měs je OpenAI TTS API levnější než ElevenLabs i self-host. Na 2 M znaků/měs začíná self-host Piper spořit — ~26 000 Kč ročně proti ElevenLabs Pro. Nad 10 M znaků je rozdíl řádu desítek tisíc Kč. Při striktním GDPR režimu je self-host jediná volba v souladu s pravidly.

Můžu klonovat hlas klienta pro marketingovou kampaň?

Technicky ano, právně složitě. Hlas je biometrický údaj podle GDPR, klonování vyžaduje výslovný informovaný souhlas a smluvní ošetření. Neklonujte politiky, celebrity ani osoby bez souhlasu — riziko deepfake. Od srpna 2026 platí článek 50 EU AI Actu, který vyžaduje strojové označení všech syntetických výstupů. Detaily v runbooku k EU AI Actu.

8. Co si z článku odnést

Open source TTS v roce 2026 dohnal ElevenLabs v kvalitě — Kokoro-82M, Voxtral a Fish Speech S2 se statisticky rovnají placené špičce. Pro český obsah to neznamená Kokoro. Pro cs_CZ vede Piper (offline, hlas jirka, 30 min setup, 150 MB) a XTTS-v2 (voice cloning, 17 jazyků, Coqui PML). Kč úspora proti ElevenLabs začíná kolem 2 M znaků měsíčně — pod tím je jednodušší platit OpenAI TTS API. Self-host má zásadní výhodu, kterou placené API nesrovná: plnou datovou rezidenci v EU, kritickou pro GDPR-strict projekty a pro EU AI Act od srpna 2026. Doplňkové čtení: soukromá AI s Ollamou pro plně lokální stack, náklady AI API pro optimalizaci tokenů a tutoriál n8n pro workflow napojení.