Náklady na AI API: Jak nekrvácet na tokenech

8. 4. 2026 · 22 min čtení · Kategorie: Byznys

73 % firem překročilo svůj rozpočet na umělou inteligenci v roce 2025. Průměrný podnikový budget na AI narostl z 1,2 milionu dolarů ročně v roce 2024 na 7 milionů v roce 2026 — a inference (samotné zpracování dotazů) tvoří 85 % těchto nákladů. Jenže problém není v tom, že by AI API bylo drahé. Problém je v tom, že většina firem netuší, za co vlastně platí. Systémový prompt o 1 500 řádcích, který stojí 1 000 dolarů denně jen na instrukce. Agentní smyčka, která za 11 dní nažene účet na 47 000 dolarů. Výstupní tokeny, které stojí 10× víc než vstupní — a nikdo nehlídá délku odpovědí. Tento článek přináší kompletní cenový přehled všech velkých providerů, reálné kalkulace v českých korunách a 5stupňový audit tokenů — framework, se kterým lze náklady na AI API snížit o 60–90 % bez ztráty kvality.

TL;DR — Klíčová zjištění

Ceny AI API klesly o 80 % za rok — ale celkové výdaje firem rostou, protože rostou objemy využití. Samo zlevnění neznamená nižší účet.
Výstupní tokeny stojí 3–10× víc než vstupní. Největší úspora = kontrola délky odpovědí + prompt caching (až 90 % sleva na opakované prompty).
Kompletní cenový přehled OpenAI, Claude, Gemini i DeepSeek + kalkulačka ve třech reálných scénářích v CZK + 5stupňový audit, který odhalí, kde firma na tokenech krvácí.

🆕 Aktualizace dubna 2026 — pozor na skryté zdražení

Anthropic vydal 16. 4. 2026 Claude Opus 4.7 se sdělením „stejná cena jako 4.6" ($5/$25 za 1M tokenů). Nový tokenizer ale spotřebuje na identický text až 1,35× víc tokenů — pro CZ firmy to znamená reálné zvýšení účtu o 0–35 %, přestože ceník neudělal krok. Samostatná analýza obsahuje kalkulátor dopadu pro 4 typické CZ profily a 7-bodový migration checklist.

−80 %

pokles cen AI API za poslední rok

CostLayer Pricing War Report 2026

73 %

firem překročilo AI budget v roce 2025

CIO.com AI Cost Survey 2026

3–10×

výstupní tokeny dražší než vstupní

Cenové srovnání hlavních providerů

90 %

úspora díky prompt cachingu

OpenAI, Anthropic — dokumentace 2026

Co jsou tokeny a proč stojí peníze

Každý dotaz poslaný přes AI API prochází procesem zvaným tokenizace — text se rozloží na malé jednotky (tokeny), které model zpracovává. Token není ani slovo, ani znak. Je to kus textu o průměrné délce čtyři znaky. Anglické slovo „artificial" jsou dva tokeny. České slovo „inteligence" také dva — ale „příležitostně" jsou tokeny tři, protože diakritika a délka slov tokenizaci komplikují.

Čeština je dražší než angličtina. Český text spotřebuje v průměru o 15–20 % více tokenů než ekvivalentní anglický. Důvod: háčky, čárky a delší slova znamenají, že tokenizér musí text dělit na menší kousky. Pro českou firmu to znamená, že kalkulačky „100 tokenů ≈ 75 slov" platí pro angličtinu — v češtině je to spíš 60–65 slov na 100 tokenů.

Klíčové je pochopit, že platíte dvakrát — za vstup (prompt, kontext, instrukce) i za výstup (odpověď modelu). A zde je zásadní asymetrie: výstupní tokeny stojí 3× až 10× víc než vstupní. U Claude Opus 4.6 je to $5 za milion vstupních tokenů, ale $25 za milion výstupních — pětinásobek. U GPT-5 je poměr $1,25 vs. $10 — osminásobek. Každé zbytečné slovo v odpovědi modelu stojí řádově víc než každé slovo v dotazu.

Jak text putuje přes API — a kde vznikají náklady

Praktický příklad: typická konverzace se zákaznickým chatbotem — systémový prompt (500 tokenů) + uživatelský dotaz (100 tokenů) + kontext z databáze (1 500 tokenů) = 2 100 vstupních tokenů. Model vygeneruje odpověď o 400 tokenech. S GPT-5 to stojí $0,0066. Vypadá to jako nic — ale při 5 000 konverzacích denně je to $33 denně, $990 měsíčně. A to je jen jeden chatbot na jednom modelu. Kdo s API teprve začíná, najde technický úvod a první funkční volání v článku Jak používat AI přes API.

Kolik stojí AI API v roce 2026 — kompletní přehled

Trh s AI API prošel v posledních 12 měsících cenovou válkou, která snížila ceny v průměru o 80 %. GPT-4 stál v roce 2024 třicet dolarů za milion vstupních tokenů. Jeho nástupce GPT-5 stojí $1,25 — čtyřiadvacetkrát méně. Claude Opus spadl z $15 na $5. Gemini Pro z $7 na $1,25. A DeepSeek přišel s cenami, které jsou desetkrát nižší než americká konkurence.

Problém je, že nižší ceny vedly k vyššímu objemu. Firmy, které dříve poslaly 10 000 dotazů měsíčně, teď posílají 500 000 — protože AI integrují do více procesů, používají agentní architektury a zpracovávají větší kontexty. Výsledek: celkový účet často roste i přes dramatický pokles jednotkové ceny.

Cenová tabulka hlavních providerů (duben 2026)

Provider	Model	Vstup / 1M tokenů	Výstup / 1M tokenů	Cache vstup	Batch sleva
OpenAI	GPT-5.2 (vlajková loď)	$1,75	$14,00	~$0,18	50 %
	GPT-5	$1,25	$10,00	~$0,13	50 %
	GPT-5 Mini	$0,25	$2,00	~$0,03	50 %
	GPT-5 Nano	$0,05	$0,40	~$0,005	50 %
Anthropic	Claude Opus 4.6	$5,00	$25,00	$0,50	50 %
	Claude Sonnet 4.6	$3,00	$15,00	$0,30	50 %
	Claude Haiku 4.5	$1,00	$5,00	$0,10	50 %
Google	Gemini 2.5 Pro	$1,25	$10,00	context cache	—
	Gemini 2.5 Flash	$0,30	$2,50	context cache	—
	Gemini 2.5 Flash-Lite	$0,10	$0,40	—	—
DeepSeek	V3	$0,27	$1,10	$0,03	off-peak 50 %
DeepSeek	R1 (reasoning)	$0,12	$0,20	—	off-peak 75 %

Ceny platné k dubnu 2026. Zdroj: oficiální cenové stránky jednotlivých providerů.

Tabulka ukazuje dvě věci. Za prvé: rozpětí je obrovské — nejlevnější volba (DeepSeek R1 za $0,12/$0,20) je stokrát levnější než nejdražší (Claude Opus 4.6 za $5/$25). Za druhé: cena neříká nic o kvalitě bez kontextu úlohy. GPT-5 Nano selhává u komplexního reasoning, ale exceluje v klasifikaci. Claude Opus je zbytečně drahý na extrakci dat ze strukturovaných dokumentů, kde Haiku zvládne totéž.

Skryté náklady, o kterých se nemluví

Většina firem počítá náklady na AI API podle jednoduchého vzorce: „počet dotazů × cena za token". Realita je složitější. Existuje minimálně pět skrytých faktorů, které mohou účet zdvojnásobit až zpětinásobit oproti naivnímu odhadu.

Systémové prompty — neviditelný požírač

Každé volání API začíná systémovým promptem — instrukcemi, které říkají modelu, jak se chovat. V produkčních aplikacích mívá systémový prompt 500 až 5 000 tokenů. Tyto tokeny se posílají s každým dotazem. Při 10 000 dotazech denně a systémovém promptu o 2 000 tokenech to je 20 milionů vstupních tokenů — jen na instrukce, které se nikdy nemění. Jeden audit odhalil klienta, jehož systémový prompt měl 1 500 řádků (včetně celých firemních guidelines), což generovalo náklady přes 1 000 dolarů denně — na text, který model dostal při každém volání znovu a znovu.

RAG — skrytý multiplikátor

Retrieval-Augmented Generation znamená, že model před odpovědí dostane relevantní dokumenty z firemní databáze. Kvalitní RAG pipeline vytahuje 3–8 chunks kontextu, každý o 500–1 500 tokenech. Výsledek: RAG dotaz spotřebuje 3–5× více tokenů než prostý dotaz na stejný model. Firma, která nasadí RAG na interní knowledge base a odhaduje náklady podle „jednoduchých" dotazů, se dočká účtu třikrát až pětkrát vyššího.

Agentní smyčky — nekontrolovaná eskalace

AI agenti provádějí sekvence kroků — volají nástroje, analyzují výstupy, rozhodují o dalším postupu. Jeden uživatelský dotaz může vyvolat 5–50 interních API volání. A pokud agent narazí na chybu a začne se opakovat, vznikne smyčka. Dokumentovaný incident z roku 2025: čtyři LangChain agenti vstoupili do vzájemné konverzační smyčky. Dva z nich si 11 dní vyměňovali zprávy. Účet: 47 000 dolarů — za konverzaci, kterou nikdo nečetl.

$47 000 za 11 dní: Anatomie agentní smyčky

V listopadu 2025 vstoupily čtyři AI agenti v LangChain pipeline do vzájemné konverzační smyčky. Dva agenti si vyměňovali zprávy automaticky, bez lidského dohledu, po dobu 11 dní. Výsledný účet: 47 000 dolarů. Příčina: chybějící timeout, maximální počet kroků a spending alert. Všechny tři ochrany jsou dnes standardem — ale v té době nebyly nastavené. Poučení: každý agentní systém potřebuje hard limit na počet kroků a automatický alert při překročení denního budgetu. Volba frameworku má na tyhle ochrany přímý vliv — LangGraph má explicit max_steps a checkpointing native, CrewAI a AutoGen vyžadují ruční implementaci.

Retries a error handling

Když API vrátí chybu (rate limit, timeout, 500), standardní praxe je retry s exponenciálním backoffem. Problém nastává, když retry pošle celý kontext znovu — včetně systémového promptu a RAG chunks. Tři retries na jeden dotaz = čtyřnásobné náklady. Bez logování retries firma nevidí, že za jeden „úspěšný" dotaz ve skutečnosti zaplatila čtyřikrát.

Always-on agenti

Monitoring agenti, kteří nepřetržitě skenují e-maily, logy, tržní data nebo operační systémy, spotřebovávají compute 24 hodin denně, 7 dní v týdnu. Na rozdíl od on-demand chatbota, kde uživatel pošle dotaz a čeká na odpověď, always-on agent generuje náklady neustále. Firma s pěti monitoring agenty snadno utratí více než s chatbotem obsluhujícím tisíce zákazníků. Pokud stavíte produkční agentní systém, srovnání OpenAI Agents SDK v1, Claude Agent SDK a Claude Managed Agents v českých korunách ukazuje, jaká část těchto nákladů spadá na API, sandbox compute a storage — s kalkulací pro tři typické profily českých firem.

Cenová kalkulačka: 3 reálné scénáře v českých korunách

Teoretické ceny za milion tokenů jsou užitečné pro srovnání, ale nic neřeknou o skutečném měsíčním účtu. Následující tři scénáře pokrývají nejčastější use cases českých firem — s reálnými objemy a přepočtem na české koruny (kurz 24 CZK/$).

Scénář A: Zákaznický chatbot (5 000 konverzací/měsíc)

Parametry: systémový prompt 500 tokenů, průměrný kontext 1 500 tokenů (RAG), uživatelský dotaz 100 tokenů, odpověď 400 tokenů. Celkem na konverzaci: 2 100 vstupních + 400 výstupních tokenů.

Model	Měsíční vstup	Měsíční výstup	Celkem USD	Celkem CZK
GPT-5	$13,13	$20,00	$33,13	795 Kč
GPT-5 Mini	$2,63	$4,00	$6,63	159 Kč
Claude Sonnet 4.6	$31,50	$30,00	$61,50	1 476 Kč
Claude Haiku 4.5	$10,50	$10,00	$20,50	492 Kč
Gemini 2.5 Flash	$3,15	$5,00	$8,15	196 Kč
Gemini Flash-Lite	$1,05	$0,80	$1,85	44 Kč
DeepSeek V3	$2,84	$2,20	$5,04	121 Kč

Rozdíl mezi nejlevnější a nejdražší variantou je 33× — od 44 Kč po 1 476 Kč měsíčně. Pro chatbot, kde kvalita odpovědí nemusí být na úrovni Sonnet, je GPT-5 Mini nebo Gemini Flash jasná volba.

Scénář B: Analýza dokumentů (500 smluv/měsíc)

Parametry: průměrná smlouva 8 000 tokenů, systémový prompt 1 000 tokenů, odpověď s analýzou 2 000 tokenů. Celkem: 9 000 vstupních + 2 000 výstupních tokenů na smlouvu.

Model	Celkem USD/měsíc	Celkem CZK
GPT-5	$25,63	615 Kč
Claude Opus 4.6	$72,50	1 740 Kč
Claude Sonnet 4.6	$43,50	1 044 Kč
Gemini 2.5 Pro	$15,63	375 Kč
DeepSeek V3	$3,32	80 Kč

U analýzy smluv záleží na kvalitě — DeepSeek za 80 Kč měsíčně zní lákavě, ale pro právní dokumenty je riziko halucinací příliš vysoké. Gemini 2.5 Pro nabízí nejlepší poměr cena/kvalita v tomto segmentu. Detailní porovnání kvalitních modelů pro práci s dokumenty přináší článek AI pro analýzu smluv a právních dokumentů.

Scénář C: Generování obsahu (100 článků/měsíc)

Parametry: systémový prompt 2 000 tokenů, kontext a instrukce 3 000 tokenů, generovaný článek 4 000 tokenů (výstup). Celkem: 5 000 vstupních + 4 000 výstupních tokenů na článek.

Model	Celkem USD/měsíc	Celkem CZK
GPT-5	$4,63	111 Kč
Claude Sonnet 4.6	$7,50	180 Kč
Gemini 2.5 Pro	$4,63	111 Kč
DeepSeek V3	$0,58	14 Kč

Generování obsahu je překvapivě levné i s prémiovou kvalitou — 180 Kč měsíčně za 100 článků přes Claude Sonnet. Ale pozor: tyto kalkulace předpokládají jeden průchod bez revizí. V praxi kvalitní článek vyžaduje 3–5 iterací, což náklady násobí. I tak je to řádově levnější než lidský copywriter.

Tip: Proč v kalkulačkách chybí „kontextové okno"

Výše uvedené scénáře počítají s krátkými kontexty. Jakmile ale firma používá velká kontextová okna (100K+ tokenů — celé manuály, roční reporty), náklady rostou dramaticky. Gemini 2.5 Pro zdvojnásobuje cenu vstupních tokenů nad 200K kontextu. Při práci s velkými dokumenty je klíčové rozdělit text na menší části a zpracovávat je postupně, než posílat celý dokument najednou.

5stupňový audit tokenů: Jak najít, kde firma krvácí

Následující framework vychází z analýzy nákladových vzorců desítek firem, které využívají AI API. Každý krok se dá provést během jednoho pracovního dne s výstupem, na jehož základě lze okamžitě jednat. Podrobnější postup, jak identifikovat AI příležitosti ve firmě, popisuje článek AI audit: Kde AI ušetří firmě čas a peníze.

5stupňový audit tokenů

Zmapujte všechna API volání

Vytvořte inventář: která aplikace/proces volá které API, s jakým modelem, kolikrát denně. Většina firem zjistí, že nemá centrální přehled — různé týmy používají různé klíče a různé modely. Bez mapy nelze optimalizovat.

Identifikujte top 3 „požírače tokenů"

Seřaďte procesy podle celkové spotřeby tokenů (ne podle počtu volání). Typicky 20 % procesů spotřebovává 80 % tokenů. Nejčastější viníci: systémové prompty posílané s každým voláním, RAG s příliš velkými chunks a chatboty s neomezenou historií konverzace.

Změřte poměr vstupních a výstupních tokenů

Pokud výstupní tokeny tvoří více než 40 % celkové spotřeby, model generuje příliš dlouhé odpovědi. Řešení: nastavte max_tokens v API volání, použijte strukturovaný výstup (JSON), instrukce k stručnosti. Protože výstup stojí 3–10× víc, snížení délky odpovědí o 30 % může ušetřit 15–25 % celkových nákladů.

Otestujte levnější model na vzorku

Vezměte 100 reálných dotazů z každého procesu a spusťte je přes levnější model. Porovnejte kvalitu výstupů. V mnoha případech GPT-5 Mini (5× levnější než GPT-5) nebo Claude Haiku (5× levnější než Sonnet) zvládne úlohu se srovnatelnou kvalitou. Přehled modelů a kdy který použít nabízí článek Jak vybrat správný AI model pro váš úkol.

Nastavte limity, alerty a monitoring

Každý API klíč potřebuje: (a) měsíční spending limit, (b) denní alert při překročení průměru o 50 %, (c) hard stop při dosažení 100 % budgetu. Bez těchto tří ochran stačí jeden bug nebo smyčka k tomu, aby náklady vyletěly řádově nahoru.

9 strategií, jak snížit náklady o 60–90 %

Optimalizace nákladů na AI API funguje ve třech vrstvách. Každá další vrstva je technicky náročnější, ale přináší větší úspory. Firmě, která teprve začíná s AI API, stačí Tier 1 — okamžité kroky bez změny architektury.

Tier 1: Okamžité kroky (úspora 30–50 %)

Strategie pro okamžitou implementaci

Model routing: Nepoužívejte jeden model na vše. Klasifikační úlohy (sentiment, kategorizace) → GPT-5 Nano nebo Gemini Flash-Lite. Kreativní generování → GPT-5 nebo Claude Sonnet. Komplexní reasoning → Opus nebo o3. Dynamické směrování podle složitosti dotazu sníží náklady o 40–60 % při zachování kvality.
Prompt optimization: Kratší prompt = méně tokenů = nižší cena. Většina systémových promptů obsahuje redundance, které model nepotřebuje. Dobře optimalizovaný prompt dosahuje stejných výsledků s 30–50 % menším počtem tokenů.
Output control: Nastavte max_tokens na rozumnou hodnotu. Používejte strukturovaný výstup (response_format: json). Instrukce „Odpověz ve 3 větách" nebo „Vrať jen JSON s klíči X, Y, Z" dramaticky snižují výstupní tokeny — a ty stojí nejvíc.

Tier 2: Technická optimalizace (úspora 50–80 %)

Strategie vyžadující technickou implementaci

Prompt caching: Všichni tři velcí provideři (OpenAI, Anthropic, Google) nabízejí prompt caching — pokud se prefix promptu opakuje, zpracování cachované části je až 10× levnější. U systémových promptů, které se nemění, to znamená 90 % úsporu na vstupních tokenech. Klíč: strukturujte prompty tak, aby statická část (instrukce, guidelines) byla na začátku a dynamická část (uživatelský dotaz) na konci.
Batch API: Pokud nepotřebujete odpověď v reálném čase, použijte Batch API — odešlete tisíce požadavků najednou a výsledky dostanete do 24 hodin. OpenAI i Anthropic nabízejí plošnou 50% slevu na všechny modely přes Batch API. Ideální pro: denní reporty, dávkovou analýzu dokumentů, generování obsahu.
Semantic caching: Ukládejte embeddingy dotazů a odpovědí. Když přijde podobný (ne identický) dotaz, vrátíte cachovanou odpověď bez volání API. U zákaznických chatbotů, kde se 30–50 % dotazů opakuje v různých variantách, to znamená 30–50 % méně API volání.

Tier 3: Architekturální změny (úspora 60–90 %)

Strategie pro pokročilé — vyžadují změnu infrastruktury

Hybridní přístup (self-hosting + API): Rutinní úlohy (sumarizace, klasifikace, extrakce) běží na lokálním modelu přes Ollama nebo vLLM — nulové per-token náklady. Komplexní úlohy (reasoning, kreativní generování) jdou přes API na prémiový model. Break-even: lokální model se vyplatí od cca 100 000 požadavků měsíčně.
Fine-tuning: Menší model dotrénovaný na firemních datech může nahradit větší obecný model. Fine-tuned GPT-5 Mini může dosahovat kvality GPT-5 pro specifickou úlohu — za pětinu ceny. Investice do fine-tuningu se vrátí během týdnů při větších objemech.
RAG optimalizace: Menší chunks (300–500 tokenů místo 1 000–1 500), přesnější retrieval (hybrid search místo čistě vektorového), reranking výsledků — vše snižuje počet kontextových tokenů při zachování kvality odpovědí. Dobře optimalizovaný RAG pipeline spotřebuje 50–70 % méně tokenů než naivní implementace.

Pyramida úspor: Čím výš, tím větší úspora — ale i technická náročnost

Monitoring a rozpočtování: Jak se neprobouzet s šokem na účtu

Nejlevnější token je ten, o kterém víte. Bez monitoringu a budget alertů je každá optimalizace jen dočasná — stačí jeden nový use case nebo bug, aby náklady vyskočily. Návratnost AI investic závisí nejen na přínosech, ale i na schopnosti kontrolovat výdaje — jak ukazuje článek ROI umělé inteligence.

Vestavěné nástroje providerů

OpenAI nabízí v billing konzoli měsíční spending limit (hard cap — po vyčerpání se API volání blokují), per-key tracking a přehled spotřeby po modelech. Anthropic má usage dashboard se spending limits. Google od dubna 2026 vynucuje tier spend caps v AI Studio — vývojáři si nastavují měsíční strop přímo v rozhraní.

Third-party monitoring

Pro firmy, které používají více providerů současně, existují cross-platform řešení. Portkey umožňuje nastavit budget limity a rate limity na úrovni API klíčů i celých organizací. CostLayer agreguje náklady z více providerů do jednoho dashboardu s trend analýzou. Helicone přidává observabilitu — vidíte nejen kolik platíte, ale i které prompty jsou nejdražší a kde dochází k plýtvání.

Minimální monitoring setup za 10 minut

Nastavte měsíční spending limit u každého providera (OpenAI: Billing → Usage limits, Anthropic: Settings → Spending).
Vytvořte tři alertní prahy: 50 % budgetu (informativní), 80 % (varování) a 100 % (hard stop).
Logujte každé API volání s údaji: model, input_tokens, output_tokens, timestamp, application.
Jednou týdně projděte top 10 nejdražších volání — jsou to kandidáti na optimalizaci.

Kdy se vyplatí self-hosting místo API

Rostoucí náklady na API tokeny vedou firmy k otázce: „Nevyplatilo by se provozovat model lokálně?" Odpověď závisí na objemu — hranice se v Česku pohybuje kolem čtvrt miliardy tokenů měsíčně. Rozhodovací strom, kalkulace ve třech scénářích a 14denní rollout najdete v textu Soukromá AI, část 2: ekonomika a rollout, technický setup pak v první části průvodce.

Kritérium	Cloud API	Self-hosting (Ollama/vLLM)
Náklady při 10K dotazů/měsíc	$5–50 (jasná výhra API)	$200–500 (server/GPU) → drahé
Náklady při 500K dotazů/měsíc	$250–2 500	$200–500 fixně → jasná výhra
Kvalita modelů	Nejnovější frontier modely	Open source (Llama 3, Mistral) — o generaci pozadu
Latence	100–500 ms (závisí na modelu)	50–200 ms (lokální síť)
Data privacy	Data opouštějí firmu	Data zůstávají on-premise
Údržba	Nulová — provider zajistí	Aktualizace, GPU monitoring, troubleshooting
Škálování	Automatické	Ruční — dokoupit hardware

Break-even bod se u většiny firem pohybuje kolem 100 000–200 000 požadavků měsíčně. Pod touto hranicí je API jednoznačně levnější. Nad ní se vyplatí hybridní model — rutinní úlohy lokálně, náročné přes API.

Optimální strategie pro českou firmu střední velikosti: začít s API (nulové vstupní náklady, platíte jen za to, co spotřebujete), implementovat Tier 1 a Tier 2 optimalizace, a o self-hostingu uvažovat až ve chvíli, kdy měsíční účet za API přesáhne 50 000 Kč. Podrobně o tom, jak API integrovat do firemních procesů, pojednává článek Jak používat AI přes API: Praktický průvodce.

Klíčové zjištění

Náklady na AI API nejsou problém ceny — jsou problém viditelnosti a kontroly. Ceny klesly o 80 % za rok a budou klesat dál. Ale bez monitoringu, budget alertů a vědomé optimalizace bude účet růst spolu s objemem využití. Firma, která implementuje 5stupňový audit tokenů a kombinaci Tier 1 + Tier 2 strategií, může ušetřit 60–80 % současných nákladů bez jakéhokoli snížení kvality AI výstupů. Nejdůležitější krok? Začít měřit. Co se neměří, se nedá optimalizovat.

Jedna kategorie cen, kterou tato kalkulace neřeší: gatekept AI modely. V dubnu 2026 Anthropic i OpenAI spustili uzavřené cyber-specializované modely (Mythos, GPT-5.4-Cyber) bez veřejného ceníku. Co to znamená pro firmy pod NIS2 a pro rozpočty kyberbezpečnosti, rozebírá článek Uvnitř AI cyber-závodů. Pokud k LLM API nákladům přidáváte hlasovou vrstvu (audio verze článků, IVR, voice-over), vyplatí se probrat i TTS alternativy — kdy ElevenLabs, kdy OpenAI TTS a kdy self-host Piper v češtině rozebírá průvodce open source TTS.

Často kladené otázky

Kolik stojí jeden dotaz na ChatGPT přes API?

Závisí na modelu a délce konverzace. Typický dotaz (500 vstupních + 200 výstupních tokenů) stojí s GPT-5 přibližně $0,0026 (0,06 Kč). S GPT-5 Mini je to $0,0005 (0,01 Kč). S GPT-5 Nano dokonce $0,0001. Pro srovnání: jeden dotaz přes ChatGPT Plus (předplatné $20/měsíc) vychází při průměrném využití na $0,02–0,05 — API je tedy 10–50× levnější na dotaz.

Je Gemini API opravdu zdarma?

Google nabízí bezplatný tier pro Gemini 2.5 Flash a Flash-Lite v rámci AI Studio — s rate limity (typicky 15 požadavků za minutu, 1 500 za den). Pro testování a prototypování je to dostatečné. Pro produkční nasazení s vyššími objemy je nutné přejít na placený tier, kde Gemini Flash-Lite začíná na pouhých $0,10 za milion vstupních tokenů — nejlevnější nabídka od velkého providera.

Proč je DeepSeek tak levný?

DeepSeek je čínská společnost s přístupem k výrazně levnějšímu compute (čínský hardware, nižší provozní náklady). Navíc používá architekturu Mixture-of-Experts, která aktivuje jen část parametrů modelu pro každý dotaz — efektivnější využití výpočetního výkonu. Rizika: data procházejí přes čínské servery (GDPR/compliance implikace), dostupnost služby může kolísat a kvalita u specifických úloh zaostává za americkými modely.

Jak zjistím, kolik tokenů spotřebovávám?

Každá odpověď AI API obsahuje v hlavičce údaj usage s přesným počtem vstupních a výstupních tokenů. OpenAI má tokenizer na platform.openai.com/tokenizer, kde lze zkopírovat text a vidět přesný počet tokenů. Billing dashboard každého providera ukazuje spotřebu po dnech a modelech. Pro přesnější měření logujte usage z každé API odpovědi do vlastní databáze — pak uvidíte spotřebu po aplikacích a procesech.

Vyplatí se AI API pro malou českou firmu?

Ano — a při správném nastavení jde o řádově nižší náklady než předplatné za ChatGPT Plus pro každého zaměstnance. Firma s 10 zaměstnanci platí za ChatGPT Plus $200/měsíc (4 800 Kč). Přes API s GPT-5 Mini zvládne stejný objem dotazů za $10–30/měsíc (240–720 Kč). Podmínka: někdo musí API integrovat do firemních procesů — ale existují no-code nástroje jako n8n nebo Make, které to zvládnou bez programátora.

Zdroje a reference

OpenAI API Pricing — openai.com/api/pricing
Anthropic Claude Pricing — claude.com/pricing
Google Gemini API Pricing — ai.google.dev
DeepSeek API Pricing — api-docs.deepseek.com
CIO.com: AI cost overruns are adding up — cio.com
CostLayer: 2026 AI Pricing War — costlayer.ai
Redis: Prompt caching vs semantic caching — redis.io
RocketEdge: AI Agent Cost Control — rocketedge.com
OpenAI Tokenizer — platform.openai.com/tokenizer