Náklady na AI API: Jak nekrvácet na tokenech
73 % firem překročilo svůj rozpočet na umělou inteligenci v roce 2025. Průměrný podnikový budget na AI narostl z 1,2 milionu dolarů ročně v roce 2024 na 7 milionů v roce 2026 — a inference (samotné zpracování dotazů) tvoří 85 % těchto nákladů. Jenže problém není v tom, že by AI API bylo drahé. Problém je v tom, že většina firem netuší, za co vlastně platí. Systémový prompt o 1 500 řádcích, který stojí 1 000 dolarů denně jen na instrukce. Agentní smyčka, která za 11 dní nažene účet na 47 000 dolarů. Výstupní tokeny, které stojí 10× víc než vstupní — a nikdo nehlídá délku odpovědí. Tento článek přináší kompletní cenový přehled všech velkých providerů, reálné kalkulace v českých korunách a 5stupňový audit tokenů — framework, se kterým lze náklady na AI API snížit o 60–90 % bez ztráty kvality.
TL;DR — Klíčová zjištění
- Ceny AI API klesly o 80 % za rok — ale celkové výdaje firem rostou, protože rostou objemy využití. Samo zlevnění neznamená nižší účet.
- Výstupní tokeny stojí 3–10× víc než vstupní. Největší úspora = kontrola délky odpovědí + prompt caching (až 90 % sleva na opakované prompty).
- Kompletní cenový přehled OpenAI, Claude, Gemini i DeepSeek + kalkulačka ve třech reálných scénářích v CZK + 5stupňový audit, který odhalí, kde firma na tokenech krvácí.
🆕 Aktualizace dubna 2026 — pozor na skryté zdražení
Anthropic vydal 16. 4. 2026 Claude Opus 4.7 se sdělením „stejná cena jako 4.6" ($5/$25 za 1M tokenů). Nový tokenizer ale spotřebuje na identický text až 1,35× víc tokenů — pro CZ firmy to znamená reálné zvýšení účtu o 0–35 %, přestože ceník neudělal krok. Samostatná analýza obsahuje kalkulátor dopadu pro 4 typické CZ profily a 7-bodový migration checklist.
Co jsou tokeny a proč stojí peníze
Každý dotaz poslaný přes AI API prochází procesem zvaným tokenizace — text se rozloží na malé jednotky (tokeny), které model zpracovává. Token není ani slovo, ani znak. Je to kus textu o průměrné délce čtyři znaky. Anglické slovo „artificial" jsou dva tokeny. České slovo „inteligence" také dva — ale „příležitostně" jsou tokeny tři, protože diakritika a délka slov tokenizaci komplikují.
Čeština je dražší než angličtina. Český text spotřebuje v průměru o 15–20 % více tokenů než ekvivalentní anglický. Důvod: háčky, čárky a delší slova znamenají, že tokenizér musí text dělit na menší kousky. Pro českou firmu to znamená, že kalkulačky „100 tokenů ≈ 75 slov" platí pro angličtinu — v češtině je to spíš 60–65 slov na 100 tokenů.
Klíčové je pochopit, že platíte dvakrát — za vstup (prompt, kontext, instrukce) i za výstup (odpověď modelu). A zde je zásadní asymetrie: výstupní tokeny stojí 3× až 10× víc než vstupní. U Claude Opus 4.6 je to $5 za milion vstupních tokenů, ale $25 za milion výstupních — pětinásobek. U GPT-5 je poměr $1,25 vs. $10 — osminásobek. Každé zbytečné slovo v odpovědi modelu stojí řádově víc než každé slovo v dotazu.
Praktický příklad: typická konverzace se zákaznickým chatbotem — systémový prompt (500 tokenů) + uživatelský dotaz (100 tokenů) + kontext z databáze (1 500 tokenů) = 2 100 vstupních tokenů. Model vygeneruje odpověď o 400 tokenech. S GPT-5 to stojí $0,0066. Vypadá to jako nic — ale při 5 000 konverzacích denně je to $33 denně, $990 měsíčně. A to je jen jeden chatbot na jednom modelu. Kdo s API teprve začíná, najde technický úvod a první funkční volání v článku Jak používat AI přes API.
Kolik stojí AI API v roce 2026 — kompletní přehled
Trh s AI API prošel v posledních 12 měsících cenovou válkou, která snížila ceny v průměru o 80 %. GPT-4 stál v roce 2024 třicet dolarů za milion vstupních tokenů. Jeho nástupce GPT-5 stojí $1,25 — čtyřiadvacetkrát méně. Claude Opus spadl z $15 na $5. Gemini Pro z $7 na $1,25. A DeepSeek přišel s cenami, které jsou desetkrát nižší než americká konkurence.
Problém je, že nižší ceny vedly k vyššímu objemu. Firmy, které dříve poslaly 10 000 dotazů měsíčně, teď posílají 500 000 — protože AI integrují do více procesů, používají agentní architektury a zpracovávají větší kontexty. Výsledek: celkový účet často roste i přes dramatický pokles jednotkové ceny.
Cenová tabulka hlavních providerů (duben 2026)
| Provider | Model | Vstup / 1M tokenů | Výstup / 1M tokenů | Cache vstup | Batch sleva |
|---|---|---|---|---|---|
| OpenAI | GPT-5.2 (vlajková loď) | $1,75 | $14,00 | ~$0,18 | 50 % |
| GPT-5 | $1,25 | $10,00 | ~$0,13 | 50 % | |
| GPT-5 Mini | $0,25 | $2,00 | ~$0,03 | 50 % | |
| GPT-5 Nano | $0,05 | $0,40 | ~$0,005 | 50 % | |
| Anthropic | Claude Opus 4.6 | $5,00 | $25,00 | $0,50 | 50 % |
| Claude Sonnet 4.6 | $3,00 | $15,00 | $0,30 | 50 % | |
| Claude Haiku 4.5 | $1,00 | $5,00 | $0,10 | 50 % | |
| Gemini 2.5 Pro | $1,25 | $10,00 | context cache | — | |
| Gemini 2.5 Flash | $0,30 | $2,50 | context cache | — | |
| Gemini 2.5 Flash-Lite | $0,10 | $0,40 | — | — | |
| DeepSeek | V3 | $0,27 | $1,10 | $0,03 | off-peak 50 % |
| R1 (reasoning) | $0,12 | $0,20 | — | off-peak 75 % |
Ceny platné k dubnu 2026. Zdroj: oficiální cenové stránky jednotlivých providerů.
Tabulka ukazuje dvě věci. Za prvé: rozpětí je obrovské — nejlevnější volba (DeepSeek R1 za $0,12/$0,20) je stokrát levnější než nejdražší (Claude Opus 4.6 za $5/$25). Za druhé: cena neříká nic o kvalitě bez kontextu úlohy. GPT-5 Nano selhává u komplexního reasoning, ale exceluje v klasifikaci. Claude Opus je zbytečně drahý na extrakci dat ze strukturovaných dokumentů, kde Haiku zvládne totéž.
Skryté náklady, o kterých se nemluví
Většina firem počítá náklady na AI API podle jednoduchého vzorce: „počet dotazů × cena za token". Realita je složitější. Existuje minimálně pět skrytých faktorů, které mohou účet zdvojnásobit až zpětinásobit oproti naivnímu odhadu.
Systémové prompty — neviditelný požírač
Každé volání API začíná systémovým promptem — instrukcemi, které říkají modelu, jak se chovat. V produkčních aplikacích mívá systémový prompt 500 až 5 000 tokenů. Tyto tokeny se posílají s každým dotazem. Při 10 000 dotazech denně a systémovém promptu o 2 000 tokenech to je 20 milionů vstupních tokenů — jen na instrukce, které se nikdy nemění. Jeden audit odhalil klienta, jehož systémový prompt měl 1 500 řádků (včetně celých firemních guidelines), což generovalo náklady přes 1 000 dolarů denně — na text, který model dostal při každém volání znovu a znovu.
RAG — skrytý multiplikátor
Retrieval-Augmented Generation znamená, že model před odpovědí dostane relevantní dokumenty z firemní databáze. Kvalitní RAG pipeline vytahuje 3–8 chunks kontextu, každý o 500–1 500 tokenech. Výsledek: RAG dotaz spotřebuje 3–5× více tokenů než prostý dotaz na stejný model. Firma, která nasadí RAG na interní knowledge base a odhaduje náklady podle „jednoduchých" dotazů, se dočká účtu třikrát až pětkrát vyššího.
Agentní smyčky — nekontrolovaná eskalace
AI agenti provádějí sekvence kroků — volají nástroje, analyzují výstupy, rozhodují o dalším postupu. Jeden uživatelský dotaz může vyvolat 5–50 interních API volání. A pokud agent narazí na chybu a začne se opakovat, vznikne smyčka. Dokumentovaný incident z roku 2025: čtyři LangChain agenti vstoupili do vzájemné konverzační smyčky. Dva z nich si 11 dní vyměňovali zprávy. Účet: 47 000 dolarů — za konverzaci, kterou nikdo nečetl.
$47 000 za 11 dní: Anatomie agentní smyčky
V listopadu 2025 vstoupily čtyři AI agenti v LangChain pipeline do vzájemné konverzační smyčky. Dva agenti si vyměňovali zprávy automaticky, bez lidského dohledu, po dobu 11 dní. Výsledný účet: 47 000 dolarů. Příčina: chybějící timeout, maximální počet kroků a spending alert. Všechny tři ochrany jsou dnes standardem — ale v té době nebyly nastavené. Poučení: každý agentní systém potřebuje hard limit na počet kroků a automatický alert při překročení denního budgetu. Volba frameworku má na tyhle ochrany přímý vliv — LangGraph má explicit max_steps a checkpointing native, CrewAI a AutoGen vyžadují ruční implementaci.
Retries a error handling
Když API vrátí chybu (rate limit, timeout, 500), standardní praxe je retry s exponenciálním backoffem. Problém nastává, když retry pošle celý kontext znovu — včetně systémového promptu a RAG chunks. Tři retries na jeden dotaz = čtyřnásobné náklady. Bez logování retries firma nevidí, že za jeden „úspěšný" dotaz ve skutečnosti zaplatila čtyřikrát.
Always-on agenti
Monitoring agenti, kteří nepřetržitě skenují e-maily, logy, tržní data nebo operační systémy, spotřebovávají compute 24 hodin denně, 7 dní v týdnu. Na rozdíl od on-demand chatbota, kde uživatel pošle dotaz a čeká na odpověď, always-on agent generuje náklady neustále. Firma s pěti monitoring agenty snadno utratí více než s chatbotem obsluhujícím tisíce zákazníků. Pokud stavíte produkční agentní systém, srovnání OpenAI Agents SDK v1, Claude Agent SDK a Claude Managed Agents v českých korunách ukazuje, jaká část těchto nákladů spadá na API, sandbox compute a storage — s kalkulací pro tři typické profily českých firem.
Cenová kalkulačka: 3 reálné scénáře v českých korunách
Teoretické ceny za milion tokenů jsou užitečné pro srovnání, ale nic neřeknou o skutečném měsíčním účtu. Následující tři scénáře pokrývají nejčastější use cases českých firem — s reálnými objemy a přepočtem na české koruny (kurz 24 CZK/$).
Scénář A: Zákaznický chatbot (5 000 konverzací/měsíc)
Parametry: systémový prompt 500 tokenů, průměrný kontext 1 500 tokenů (RAG), uživatelský dotaz 100 tokenů, odpověď 400 tokenů. Celkem na konverzaci: 2 100 vstupních + 400 výstupních tokenů.
| Model | Měsíční vstup | Měsíční výstup | Celkem USD | Celkem CZK |
|---|---|---|---|---|
| GPT-5 | $13,13 | $20,00 | $33,13 | 795 Kč |
| GPT-5 Mini | $2,63 | $4,00 | $6,63 | 159 Kč |
| Claude Sonnet 4.6 | $31,50 | $30,00 | $61,50 | 1 476 Kč |
| Claude Haiku 4.5 | $10,50 | $10,00 | $20,50 | 492 Kč |
| Gemini 2.5 Flash | $3,15 | $5,00 | $8,15 | 196 Kč |
| Gemini Flash-Lite | $1,05 | $0,80 | $1,85 | 44 Kč |
| DeepSeek V3 | $2,84 | $2,20 | $5,04 | 121 Kč |
Rozdíl mezi nejlevnější a nejdražší variantou je 33× — od 44 Kč po 1 476 Kč měsíčně. Pro chatbot, kde kvalita odpovědí nemusí být na úrovni Sonnet, je GPT-5 Mini nebo Gemini Flash jasná volba.
Scénář B: Analýza dokumentů (500 smluv/měsíc)
Parametry: průměrná smlouva 8 000 tokenů, systémový prompt 1 000 tokenů, odpověď s analýzou 2 000 tokenů. Celkem: 9 000 vstupních + 2 000 výstupních tokenů na smlouvu.
| Model | Celkem USD/měsíc | Celkem CZK |
|---|---|---|
| GPT-5 | $25,63 | 615 Kč |
| Claude Opus 4.6 | $72,50 | 1 740 Kč |
| Claude Sonnet 4.6 | $43,50 | 1 044 Kč |
| Gemini 2.5 Pro | $15,63 | 375 Kč |
| DeepSeek V3 | $3,32 | 80 Kč |
U analýzy smluv záleží na kvalitě — DeepSeek za 80 Kč měsíčně zní lákavě, ale pro právní dokumenty je riziko halucinací příliš vysoké. Gemini 2.5 Pro nabízí nejlepší poměr cena/kvalita v tomto segmentu. Detailní porovnání kvalitních modelů pro práci s dokumenty přináší článek AI pro analýzu smluv a právních dokumentů.
Scénář C: Generování obsahu (100 článků/měsíc)
Parametry: systémový prompt 2 000 tokenů, kontext a instrukce 3 000 tokenů, generovaný článek 4 000 tokenů (výstup). Celkem: 5 000 vstupních + 4 000 výstupních tokenů na článek.
| Model | Celkem USD/měsíc | Celkem CZK |
|---|---|---|
| GPT-5 | $4,63 | 111 Kč |
| Claude Sonnet 4.6 | $7,50 | 180 Kč |
| Gemini 2.5 Pro | $4,63 | 111 Kč |
| DeepSeek V3 | $0,58 | 14 Kč |
Generování obsahu je překvapivě levné i s prémiovou kvalitou — 180 Kč měsíčně za 100 článků přes Claude Sonnet. Ale pozor: tyto kalkulace předpokládají jeden průchod bez revizí. V praxi kvalitní článek vyžaduje 3–5 iterací, což náklady násobí. I tak je to řádově levnější než lidský copywriter.
Tip: Proč v kalkulačkách chybí „kontextové okno"
Výše uvedené scénáře počítají s krátkými kontexty. Jakmile ale firma používá velká kontextová okna (100K+ tokenů — celé manuály, roční reporty), náklady rostou dramaticky. Gemini 2.5 Pro zdvojnásobuje cenu vstupních tokenů nad 200K kontextu. Při práci s velkými dokumenty je klíčové rozdělit text na menší části a zpracovávat je postupně, než posílat celý dokument najednou.
5stupňový audit tokenů: Jak najít, kde firma krvácí
Následující framework vychází z analýzy nákladových vzorců desítek firem, které využívají AI API. Každý krok se dá provést během jednoho pracovního dne s výstupem, na jehož základě lze okamžitě jednat. Podrobnější postup, jak identifikovat AI příležitosti ve firmě, popisuje článek AI audit: Kde AI ušetří firmě čas a peníze.
Vytvořte inventář: která aplikace/proces volá které API, s jakým modelem, kolikrát denně. Většina firem zjistí, že nemá centrální přehled — různé týmy používají různé klíče a různé modely. Bez mapy nelze optimalizovat.
Seřaďte procesy podle celkové spotřeby tokenů (ne podle počtu volání). Typicky 20 % procesů spotřebovává 80 % tokenů. Nejčastější viníci: systémové prompty posílané s každým voláním, RAG s příliš velkými chunks a chatboty s neomezenou historií konverzace.
Pokud výstupní tokeny tvoří více než 40 % celkové spotřeby, model generuje příliš dlouhé odpovědi. Řešení: nastavte max_tokens v API volání, použijte strukturovaný výstup (JSON), instrukce k stručnosti. Protože výstup stojí 3–10× víc, snížení délky odpovědí o 30 % může ušetřit 15–25 % celkových nákladů.
Vezměte 100 reálných dotazů z každého procesu a spusťte je přes levnější model. Porovnejte kvalitu výstupů. V mnoha případech GPT-5 Mini (5× levnější než GPT-5) nebo Claude Haiku (5× levnější než Sonnet) zvládne úlohu se srovnatelnou kvalitou. Přehled modelů a kdy který použít nabízí článek Jak vybrat správný AI model pro váš úkol.
Každý API klíč potřebuje: (a) měsíční spending limit, (b) denní alert při překročení průměru o 50 %, (c) hard stop při dosažení 100 % budgetu. Bez těchto tří ochran stačí jeden bug nebo smyčka k tomu, aby náklady vyletěly řádově nahoru.
9 strategií, jak snížit náklady o 60–90 %
Optimalizace nákladů na AI API funguje ve třech vrstvách. Každá další vrstva je technicky náročnější, ale přináší větší úspory. Firmě, která teprve začíná s AI API, stačí Tier 1 — okamžité kroky bez změny architektury.
Tier 1: Okamžité kroky (úspora 30–50 %)
Strategie pro okamžitou implementaci
- Model routing: Nepoužívejte jeden model na vše. Klasifikační úlohy (sentiment, kategorizace) → GPT-5 Nano nebo Gemini Flash-Lite. Kreativní generování → GPT-5 nebo Claude Sonnet. Komplexní reasoning → Opus nebo o3. Dynamické směrování podle složitosti dotazu sníží náklady o 40–60 % při zachování kvality.
- Prompt optimization: Kratší prompt = méně tokenů = nižší cena. Většina systémových promptů obsahuje redundance, které model nepotřebuje. Dobře optimalizovaný prompt dosahuje stejných výsledků s 30–50 % menším počtem tokenů.
- Output control: Nastavte
max_tokensna rozumnou hodnotu. Používejte strukturovaný výstup (response_format: json). Instrukce „Odpověz ve 3 větách" nebo „Vrať jen JSON s klíči X, Y, Z" dramaticky snižují výstupní tokeny — a ty stojí nejvíc.
Tier 2: Technická optimalizace (úspora 50–80 %)
Strategie vyžadující technickou implementaci
- Prompt caching: Všichni tři velcí provideři (OpenAI, Anthropic, Google) nabízejí prompt caching — pokud se prefix promptu opakuje, zpracování cachované části je až 10× levnější. U systémových promptů, které se nemění, to znamená 90 % úsporu na vstupních tokenech. Klíč: strukturujte prompty tak, aby statická část (instrukce, guidelines) byla na začátku a dynamická část (uživatelský dotaz) na konci.
- Batch API: Pokud nepotřebujete odpověď v reálném čase, použijte Batch API — odešlete tisíce požadavků najednou a výsledky dostanete do 24 hodin. OpenAI i Anthropic nabízejí plošnou 50% slevu na všechny modely přes Batch API. Ideální pro: denní reporty, dávkovou analýzu dokumentů, generování obsahu.
- Semantic caching: Ukládejte embeddingy dotazů a odpovědí. Když přijde podobný (ne identický) dotaz, vrátíte cachovanou odpověď bez volání API. U zákaznických chatbotů, kde se 30–50 % dotazů opakuje v různých variantách, to znamená 30–50 % méně API volání.
Tier 3: Architekturální změny (úspora 60–90 %)
Strategie pro pokročilé — vyžadují změnu infrastruktury
- Hybridní přístup (self-hosting + API): Rutinní úlohy (sumarizace, klasifikace, extrakce) běží na lokálním modelu přes Ollama nebo vLLM — nulové per-token náklady. Komplexní úlohy (reasoning, kreativní generování) jdou přes API na prémiový model. Break-even: lokální model se vyplatí od cca 100 000 požadavků měsíčně.
- Fine-tuning: Menší model dotrénovaný na firemních datech může nahradit větší obecný model. Fine-tuned GPT-5 Mini může dosahovat kvality GPT-5 pro specifickou úlohu — za pětinu ceny. Investice do fine-tuningu se vrátí během týdnů při větších objemech.
- RAG optimalizace: Menší chunks (300–500 tokenů místo 1 000–1 500), přesnější retrieval (hybrid search místo čistě vektorového), reranking výsledků — vše snižuje počet kontextových tokenů při zachování kvality odpovědí. Dobře optimalizovaný RAG pipeline spotřebuje 50–70 % méně tokenů než naivní implementace.
Monitoring a rozpočtování: Jak se neprobouzet s šokem na účtu
Nejlevnější token je ten, o kterém víte. Bez monitoringu a budget alertů je každá optimalizace jen dočasná — stačí jeden nový use case nebo bug, aby náklady vyskočily. Návratnost AI investic závisí nejen na přínosech, ale i na schopnosti kontrolovat výdaje — jak ukazuje článek ROI umělé inteligence.
Vestavěné nástroje providerů
OpenAI nabízí v billing konzoli měsíční spending limit (hard cap — po vyčerpání se API volání blokují), per-key tracking a přehled spotřeby po modelech. Anthropic má usage dashboard se spending limits. Google od dubna 2026 vynucuje tier spend caps v AI Studio — vývojáři si nastavují měsíční strop přímo v rozhraní.
Third-party monitoring
Pro firmy, které používají více providerů současně, existují cross-platform řešení. Portkey umožňuje nastavit budget limity a rate limity na úrovni API klíčů i celých organizací. CostLayer agreguje náklady z více providerů do jednoho dashboardu s trend analýzou. Helicone přidává observabilitu — vidíte nejen kolik platíte, ale i které prompty jsou nejdražší a kde dochází k plýtvání.
Minimální monitoring setup za 10 minut
- Nastavte měsíční spending limit u každého providera (OpenAI: Billing → Usage limits, Anthropic: Settings → Spending).
- Vytvořte tři alertní prahy: 50 % budgetu (informativní), 80 % (varování) a 100 % (hard stop).
- Logujte každé API volání s údaji:
model,input_tokens,output_tokens,timestamp,application. - Jednou týdně projděte top 10 nejdražších volání — jsou to kandidáti na optimalizaci.
Kdy se vyplatí self-hosting místo API
Rostoucí náklady na API tokeny vedou firmy k otázce: „Nevyplatilo by se provozovat model lokálně?" Odpověď závisí na objemu — hranice se v Česku pohybuje kolem čtvrt miliardy tokenů měsíčně. Rozhodovací strom, kalkulace ve třech scénářích a 14denní rollout najdete v textu Soukromá AI, část 2: ekonomika a rollout, technický setup pak v první části průvodce.
| Kritérium | Cloud API | Self-hosting (Ollama/vLLM) |
|---|---|---|
| Náklady při 10K dotazů/měsíc | $5–50 (jasná výhra API) | $200–500 (server/GPU) → drahé |
| Náklady při 500K dotazů/měsíc | $250–2 500 | $200–500 fixně → jasná výhra |
| Kvalita modelů | Nejnovější frontier modely | Open source (Llama 3, Mistral) — o generaci pozadu |
| Latence | 100–500 ms (závisí na modelu) | 50–200 ms (lokální síť) |
| Data privacy | Data opouštějí firmu | Data zůstávají on-premise |
| Údržba | Nulová — provider zajistí | Aktualizace, GPU monitoring, troubleshooting |
| Škálování | Automatické | Ruční — dokoupit hardware |
Break-even bod se u většiny firem pohybuje kolem 100 000–200 000 požadavků měsíčně. Pod touto hranicí je API jednoznačně levnější. Nad ní se vyplatí hybridní model — rutinní úlohy lokálně, náročné přes API.
Optimální strategie pro českou firmu střední velikosti: začít s API (nulové vstupní náklady, platíte jen za to, co spotřebujete), implementovat Tier 1 a Tier 2 optimalizace, a o self-hostingu uvažovat až ve chvíli, kdy měsíční účet za API přesáhne 50 000 Kč. Podrobně o tom, jak API integrovat do firemních procesů, pojednává článek Jak používat AI přes API: Praktický průvodce.
Náklady na AI API nejsou problém ceny — jsou problém viditelnosti a kontroly. Ceny klesly o 80 % za rok a budou klesat dál. Ale bez monitoringu, budget alertů a vědomé optimalizace bude účet růst spolu s objemem využití. Firma, která implementuje 5stupňový audit tokenů a kombinaci Tier 1 + Tier 2 strategií, může ušetřit 60–80 % současných nákladů bez jakéhokoli snížení kvality AI výstupů. Nejdůležitější krok? Začít měřit. Co se neměří, se nedá optimalizovat.
Jedna kategorie cen, kterou tato kalkulace neřeší: gatekept AI modely. V dubnu 2026 Anthropic i OpenAI spustili uzavřené cyber-specializované modely (Mythos, GPT-5.4-Cyber) bez veřejného ceníku. Co to znamená pro firmy pod NIS2 a pro rozpočty kyberbezpečnosti, rozebírá článek Uvnitř AI cyber-závodů. Pokud k LLM API nákladům přidáváte hlasovou vrstvu (audio verze článků, IVR, voice-over), vyplatí se probrat i TTS alternativy — kdy ElevenLabs, kdy OpenAI TTS a kdy self-host Piper v češtině rozebírá průvodce open source TTS.
Často kladené otázky
Kolik stojí jeden dotaz na ChatGPT přes API?
Závisí na modelu a délce konverzace. Typický dotaz (500 vstupních + 200 výstupních tokenů) stojí s GPT-5 přibližně $0,0026 (0,06 Kč). S GPT-5 Mini je to $0,0005 (0,01 Kč). S GPT-5 Nano dokonce $0,0001. Pro srovnání: jeden dotaz přes ChatGPT Plus (předplatné $20/měsíc) vychází při průměrném využití na $0,02–0,05 — API je tedy 10–50× levnější na dotaz.
Je Gemini API opravdu zdarma?
Google nabízí bezplatný tier pro Gemini 2.5 Flash a Flash-Lite v rámci AI Studio — s rate limity (typicky 15 požadavků za minutu, 1 500 za den). Pro testování a prototypování je to dostatečné. Pro produkční nasazení s vyššími objemy je nutné přejít na placený tier, kde Gemini Flash-Lite začíná na pouhých $0,10 za milion vstupních tokenů — nejlevnější nabídka od velkého providera.
Proč je DeepSeek tak levný?
DeepSeek je čínská společnost s přístupem k výrazně levnějšímu compute (čínský hardware, nižší provozní náklady). Navíc používá architekturu Mixture-of-Experts, která aktivuje jen část parametrů modelu pro každý dotaz — efektivnější využití výpočetního výkonu. Rizika: data procházejí přes čínské servery (GDPR/compliance implikace), dostupnost služby může kolísat a kvalita u specifických úloh zaostává za americkými modely.
Jak zjistím, kolik tokenů spotřebovávám?
Každá odpověď AI API obsahuje v hlavičce údaj usage s přesným počtem vstupních a výstupních tokenů. OpenAI má tokenizer na platform.openai.com/tokenizer, kde lze zkopírovat text a vidět přesný počet tokenů. Billing dashboard každého providera ukazuje spotřebu po dnech a modelech. Pro přesnější měření logujte usage z každé API odpovědi do vlastní databáze — pak uvidíte spotřebu po aplikacích a procesech.
Vyplatí se AI API pro malou českou firmu?
Ano — a při správném nastavení jde o řádově nižší náklady než předplatné za ChatGPT Plus pro každého zaměstnance. Firma s 10 zaměstnanci platí za ChatGPT Plus $200/měsíc (4 800 Kč). Přes API s GPT-5 Mini zvládne stejný objem dotazů za $10–30/měsíc (240–720 Kč). Podmínka: někdo musí API integrovat do firemních procesů — ale existují no-code nástroje jako n8n nebo Make, které to zvládnou bez programátora.
Zdroje a reference
- OpenAI API Pricing — openai.com/api/pricing
- Anthropic Claude Pricing — claude.com/pricing
- Google Gemini API Pricing — ai.google.dev
- DeepSeek API Pricing — api-docs.deepseek.com
- CIO.com: AI cost overruns are adding up — cio.com
- CostLayer: 2026 AI Pricing War — costlayer.ai
- Redis: Prompt caching vs semantic caching — redis.io
- RocketEdge: AI Agent Cost Control — rocketedge.com
- OpenAI Tokenizer — platform.openai.com/tokenizer