Náklady na AI API: Jak nekrvácet na tokenech

· 22 min čtení · Kategorie: Byznys
Náklady na AI API: Jak nekrvácet na tokenech

73 % firem překročilo svůj rozpočet na umělou inteligenci v roce 2025. Průměrný podnikový budget na AI narostl z 1,2 milionu dolarů ročně v roce 2024 na 7 milionů v roce 2026 — a inference (samotné zpracování dotazů) tvoří 85 % těchto nákladů. Jenže problém není v tom, že by AI API bylo drahé. Problém je v tom, že většina firem netuší, za co vlastně platí. Systémový prompt o 1 500 řádcích, který stojí 1 000 dolarů denně jen na instrukce. Agentní smyčka, která za 11 dní nažene účet na 47 000 dolarů. Výstupní tokeny, které stojí 10× víc než vstupní — a nikdo nehlídá délku odpovědí. Tento článek přináší kompletní cenový přehled všech velkých providerů, reálné kalkulace v českých korunách a 5stupňový audit tokenů — framework, se kterým lze náklady na AI API snížit o 60–90 % bez ztráty kvality.

TL;DR — Klíčová zjištění

  • Ceny AI API klesly o 80 % za rok — ale celkové výdaje firem rostou, protože rostou objemy využití. Samo zlevnění neznamená nižší účet.
  • Výstupní tokeny stojí 3–10× víc než vstupní. Největší úspora = kontrola délky odpovědí + prompt caching (až 90 % sleva na opakované prompty).
  • Kompletní cenový přehled OpenAI, Claude, Gemini i DeepSeek + kalkulačka ve třech reálných scénářích v CZK + 5stupňový audit, který odhalí, kde firma na tokenech krvácí.

🆕 Aktualizace dubna 2026 — pozor na skryté zdražení

Anthropic vydal 16. 4. 2026 Claude Opus 4.7 se sdělením „stejná cena jako 4.6" ($5/$25 za 1M tokenů). Nový tokenizer ale spotřebuje na identický text až 1,35× víc tokenů — pro CZ firmy to znamená reálné zvýšení účtu o 0–35 %, přestože ceník neudělal krok. Samostatná analýza obsahuje kalkulátor dopadu pro 4 typické CZ profily a 7-bodový migration checklist.

−80 %
pokles cen AI API za poslední rok
CostLayer Pricing War Report 2026
73 %
firem překročilo AI budget v roce 2025
CIO.com AI Cost Survey 2026
3–10×
výstupní tokeny dražší než vstupní
Cenové srovnání hlavních providerů
90 %
úspora díky prompt cachingu
OpenAI, Anthropic — dokumentace 2026

Co jsou tokeny a proč stojí peníze

Každý dotaz poslaný přes AI API prochází procesem zvaným tokenizace — text se rozloží na malé jednotky (tokeny), které model zpracovává. Token není ani slovo, ani znak. Je to kus textu o průměrné délce čtyři znaky. Anglické slovo „artificial" jsou dva tokeny. České slovo „inteligence" také dva — ale „příležitostně" jsou tokeny tři, protože diakritika a délka slov tokenizaci komplikují.

Čeština je dražší než angličtina. Český text spotřebuje v průměru o 15–20 % více tokenů než ekvivalentní anglický. Důvod: háčky, čárky a delší slova znamenají, že tokenizér musí text dělit na menší kousky. Pro českou firmu to znamená, že kalkulačky „100 tokenů ≈ 75 slov" platí pro angličtinu — v češtině je to spíš 60–65 slov na 100 tokenů.

Klíčové je pochopit, že platíte dvakrát — za vstup (prompt, kontext, instrukce) i za výstup (odpověď modelu). A zde je zásadní asymetrie: výstupní tokeny stojí 3× až 10× víc než vstupní. U Claude Opus 4.6 je to $5 za milion vstupních tokenů, ale $25 za milion výstupních — pětinásobek. U GPT-5 je poměr $1,25 vs. $10 — osminásobek. Každé zbytečné slovo v odpovědi modelu stojí řádově víc než každé slovo v dotazu.

Jak text putuje přes API — a kde vznikají náklady
Cesta textu přes AI API Váš text „Analyzuj tuto smlouvu…" Tokenizér text → 2 450 tokenů AI Model zpracování + generování Odpověď 800 výstupních tokenů Vstupní tokeny $1–5 / milion Výstupní tokeny $5–25 / milion ⚠ Výstupní tokeny stojí 3–10× víc → kontrola délky odpovědi = klíčová úspora

Praktický příklad: typická konverzace se zákaznickým chatbotem — systémový prompt (500 tokenů) + uživatelský dotaz (100 tokenů) + kontext z databáze (1 500 tokenů) = 2 100 vstupních tokenů. Model vygeneruje odpověď o 400 tokenech. S GPT-5 to stojí $0,0066. Vypadá to jako nic — ale při 5 000 konverzacích denně je to $33 denně, $990 měsíčně. A to je jen jeden chatbot na jednom modelu. Kdo s API teprve začíná, najde technický úvod a první funkční volání v článku Jak používat AI přes API.

Kolik stojí AI API v roce 2026 — kompletní přehled

Trh s AI API prošel v posledních 12 měsících cenovou válkou, která snížila ceny v průměru o 80 %. GPT-4 stál v roce 2024 třicet dolarů za milion vstupních tokenů. Jeho nástupce GPT-5 stojí $1,25 — čtyřiadvacetkrát méně. Claude Opus spadl z $15 na $5. Gemini Pro z $7 na $1,25. A DeepSeek přišel s cenami, které jsou desetkrát nižší než americká konkurence.

Problém je, že nižší ceny vedly k vyššímu objemu. Firmy, které dříve poslaly 10 000 dotazů měsíčně, teď posílají 500 000 — protože AI integrují do více procesů, používají agentní architektury a zpracovávají větší kontexty. Výsledek: celkový účet často roste i přes dramatický pokles jednotkové ceny.

Cenová tabulka hlavních providerů (duben 2026)

Provider Model Vstup / 1M tokenů Výstup / 1M tokenů Cache vstup Batch sleva
OpenAI GPT-5.2 (vlajková loď) $1,75 $14,00 ~$0,18 50 %
GPT-5 $1,25 $10,00 ~$0,13 50 %
GPT-5 Mini $0,25 $2,00 ~$0,03 50 %
GPT-5 Nano $0,05 $0,40 ~$0,005 50 %
Anthropic Claude Opus 4.6 $5,00 $25,00 $0,50 50 %
Claude Sonnet 4.6 $3,00 $15,00 $0,30 50 %
Claude Haiku 4.5 $1,00 $5,00 $0,10 50 %
Google Gemini 2.5 Pro $1,25 $10,00 context cache
Gemini 2.5 Flash $0,30 $2,50 context cache
Gemini 2.5 Flash-Lite $0,10 $0,40
DeepSeek V3 $0,27 $1,10 $0,03 off-peak 50 %
R1 (reasoning) $0,12 $0,20 off-peak 75 %

Ceny platné k dubnu 2026. Zdroj: oficiální cenové stránky jednotlivých providerů.

Tabulka ukazuje dvě věci. Za prvé: rozpětí je obrovské — nejlevnější volba (DeepSeek R1 za $0,12/$0,20) je stokrát levnější než nejdražší (Claude Opus 4.6 za $5/$25). Za druhé: cena neříká nic o kvalitě bez kontextu úlohy. GPT-5 Nano selhává u komplexního reasoning, ale exceluje v klasifikaci. Claude Opus je zbytečně drahý na extrakci dat ze strukturovaných dokumentů, kde Haiku zvládne totéž.

Skryté náklady, o kterých se nemluví

Většina firem počítá náklady na AI API podle jednoduchého vzorce: „počet dotazů × cena za token". Realita je složitější. Existuje minimálně pět skrytých faktorů, které mohou účet zdvojnásobit až zpětinásobit oproti naivnímu odhadu.

Systémové prompty — neviditelný požírač

Každé volání API začíná systémovým promptem — instrukcemi, které říkají modelu, jak se chovat. V produkčních aplikacích mívá systémový prompt 500 až 5 000 tokenů. Tyto tokeny se posílají s každým dotazem. Při 10 000 dotazech denně a systémovém promptu o 2 000 tokenech to je 20 milionů vstupních tokenů — jen na instrukce, které se nikdy nemění. Jeden audit odhalil klienta, jehož systémový prompt měl 1 500 řádků (včetně celých firemních guidelines), což generovalo náklady přes 1 000 dolarů denně — na text, který model dostal při každém volání znovu a znovu.

RAG — skrytý multiplikátor

Retrieval-Augmented Generation znamená, že model před odpovědí dostane relevantní dokumenty z firemní databáze. Kvalitní RAG pipeline vytahuje 3–8 chunks kontextu, každý o 500–1 500 tokenech. Výsledek: RAG dotaz spotřebuje 3–5× více tokenů než prostý dotaz na stejný model. Firma, která nasadí RAG na interní knowledge base a odhaduje náklady podle „jednoduchých" dotazů, se dočká účtu třikrát až pětkrát vyššího.

Agentní smyčky — nekontrolovaná eskalace

AI agenti provádějí sekvence kroků — volají nástroje, analyzují výstupy, rozhodují o dalším postupu. Jeden uživatelský dotaz může vyvolat 5–50 interních API volání. A pokud agent narazí na chybu a začne se opakovat, vznikne smyčka. Dokumentovaný incident z roku 2025: čtyři LangChain agenti vstoupili do vzájemné konverzační smyčky. Dva z nich si 11 dní vyměňovali zprávy. Účet: 47 000 dolarů — za konverzaci, kterou nikdo nečetl.

$47 000 za 11 dní: Anatomie agentní smyčky

V listopadu 2025 vstoupily čtyři AI agenti v LangChain pipeline do vzájemné konverzační smyčky. Dva agenti si vyměňovali zprávy automaticky, bez lidského dohledu, po dobu 11 dní. Výsledný účet: 47 000 dolarů. Příčina: chybějící timeout, maximální počet kroků a spending alert. Všechny tři ochrany jsou dnes standardem — ale v té době nebyly nastavené. Poučení: každý agentní systém potřebuje hard limit na počet kroků a automatický alert při překročení denního budgetu. Volba frameworku má na tyhle ochrany přímý vliv — LangGraph má explicit max_steps a checkpointing native, CrewAI a AutoGen vyžadují ruční implementaci.

Retries a error handling

Když API vrátí chybu (rate limit, timeout, 500), standardní praxe je retry s exponenciálním backoffem. Problém nastává, když retry pošle celý kontext znovu — včetně systémového promptu a RAG chunks. Tři retries na jeden dotaz = čtyřnásobné náklady. Bez logování retries firma nevidí, že za jeden „úspěšný" dotaz ve skutečnosti zaplatila čtyřikrát.

Always-on agenti

Monitoring agenti, kteří nepřetržitě skenují e-maily, logy, tržní data nebo operační systémy, spotřebovávají compute 24 hodin denně, 7 dní v týdnu. Na rozdíl od on-demand chatbota, kde uživatel pošle dotaz a čeká na odpověď, always-on agent generuje náklady neustále. Firma s pěti monitoring agenty snadno utratí více než s chatbotem obsluhujícím tisíce zákazníků. Pokud stavíte produkční agentní systém, srovnání OpenAI Agents SDK v1, Claude Agent SDK a Claude Managed Agents v českých korunách ukazuje, jaká část těchto nákladů spadá na API, sandbox compute a storage — s kalkulací pro tři typické profily českých firem.

Cenová kalkulačka: 3 reálné scénáře v českých korunách

Teoretické ceny za milion tokenů jsou užitečné pro srovnání, ale nic neřeknou o skutečném měsíčním účtu. Následující tři scénáře pokrývají nejčastější use cases českých firem — s reálnými objemy a přepočtem na české koruny (kurz 24 CZK/$).

Scénář A: Zákaznický chatbot (5 000 konverzací/měsíc)

Parametry: systémový prompt 500 tokenů, průměrný kontext 1 500 tokenů (RAG), uživatelský dotaz 100 tokenů, odpověď 400 tokenů. Celkem na konverzaci: 2 100 vstupních + 400 výstupních tokenů.

Model Měsíční vstup Měsíční výstup Celkem USD Celkem CZK
GPT-5 $13,13 $20,00 $33,13 795 Kč
GPT-5 Mini $2,63 $4,00 $6,63 159 Kč
Claude Sonnet 4.6 $31,50 $30,00 $61,50 1 476 Kč
Claude Haiku 4.5 $10,50 $10,00 $20,50 492 Kč
Gemini 2.5 Flash $3,15 $5,00 $8,15 196 Kč
Gemini Flash-Lite $1,05 $0,80 $1,85 44 Kč
DeepSeek V3 $2,84 $2,20 $5,04 121 Kč

Rozdíl mezi nejlevnější a nejdražší variantou je 33× — od 44 Kč po 1 476 Kč měsíčně. Pro chatbot, kde kvalita odpovědí nemusí být na úrovni Sonnet, je GPT-5 Mini nebo Gemini Flash jasná volba.

Scénář B: Analýza dokumentů (500 smluv/měsíc)

Parametry: průměrná smlouva 8 000 tokenů, systémový prompt 1 000 tokenů, odpověď s analýzou 2 000 tokenů. Celkem: 9 000 vstupních + 2 000 výstupních tokenů na smlouvu.

Model Celkem USD/měsíc Celkem CZK
GPT-5 $25,63 615 Kč
Claude Opus 4.6 $72,50 1 740 Kč
Claude Sonnet 4.6 $43,50 1 044 Kč
Gemini 2.5 Pro $15,63 375 Kč
DeepSeek V3 $3,32 80 Kč

U analýzy smluv záleží na kvalitě — DeepSeek za 80 Kč měsíčně zní lákavě, ale pro právní dokumenty je riziko halucinací příliš vysoké. Gemini 2.5 Pro nabízí nejlepší poměr cena/kvalita v tomto segmentu. Detailní porovnání kvalitních modelů pro práci s dokumenty přináší článek AI pro analýzu smluv a právních dokumentů.

Scénář C: Generování obsahu (100 článků/měsíc)

Parametry: systémový prompt 2 000 tokenů, kontext a instrukce 3 000 tokenů, generovaný článek 4 000 tokenů (výstup). Celkem: 5 000 vstupních + 4 000 výstupních tokenů na článek.

Model Celkem USD/měsíc Celkem CZK
GPT-5 $4,63 111 Kč
Claude Sonnet 4.6 $7,50 180 Kč
Gemini 2.5 Pro $4,63 111 Kč
DeepSeek V3 $0,58 14 Kč

Generování obsahu je překvapivě levné i s prémiovou kvalitou — 180 Kč měsíčně za 100 článků přes Claude Sonnet. Ale pozor: tyto kalkulace předpokládají jeden průchod bez revizí. V praxi kvalitní článek vyžaduje 3–5 iterací, což náklady násobí. I tak je to řádově levnější než lidský copywriter.

Tip: Proč v kalkulačkách chybí „kontextové okno"

Výše uvedené scénáře počítají s krátkými kontexty. Jakmile ale firma používá velká kontextová okna (100K+ tokenů — celé manuály, roční reporty), náklady rostou dramaticky. Gemini 2.5 Pro zdvojnásobuje cenu vstupních tokenů nad 200K kontextu. Při práci s velkými dokumenty je klíčové rozdělit text na menší části a zpracovávat je postupně, než posílat celý dokument najednou.

5stupňový audit tokenů: Jak najít, kde firma krvácí

Následující framework vychází z analýzy nákladových vzorců desítek firem, které využívají AI API. Každý krok se dá provést během jednoho pracovního dne s výstupem, na jehož základě lze okamžitě jednat. Podrobnější postup, jak identifikovat AI příležitosti ve firmě, popisuje článek AI audit: Kde AI ušetří firmě čas a peníze.

5stupňový audit tokenů
1
Zmapujte všechna API volání

Vytvořte inventář: která aplikace/proces volá které API, s jakým modelem, kolikrát denně. Většina firem zjistí, že nemá centrální přehled — různé týmy používají různé klíče a různé modely. Bez mapy nelze optimalizovat.

2
Identifikujte top 3 „požírače tokenů"

Seřaďte procesy podle celkové spotřeby tokenů (ne podle počtu volání). Typicky 20 % procesů spotřebovává 80 % tokenů. Nejčastější viníci: systémové prompty posílané s každým voláním, RAG s příliš velkými chunks a chatboty s neomezenou historií konverzace.

3
Změřte poměr vstupních a výstupních tokenů

Pokud výstupní tokeny tvoří více než 40 % celkové spotřeby, model generuje příliš dlouhé odpovědi. Řešení: nastavte max_tokens v API volání, použijte strukturovaný výstup (JSON), instrukce k stručnosti. Protože výstup stojí 3–10× víc, snížení délky odpovědí o 30 % může ušetřit 15–25 % celkových nákladů.

4
Otestujte levnější model na vzorku

Vezměte 100 reálných dotazů z každého procesu a spusťte je přes levnější model. Porovnejte kvalitu výstupů. V mnoha případech GPT-5 Mini (5× levnější než GPT-5) nebo Claude Haiku (5× levnější než Sonnet) zvládne úlohu se srovnatelnou kvalitou. Přehled modelů a kdy který použít nabízí článek Jak vybrat správný AI model pro váš úkol.

5
Nastavte limity, alerty a monitoring

Každý API klíč potřebuje: (a) měsíční spending limit, (b) denní alert při překročení průměru o 50 %, (c) hard stop při dosažení 100 % budgetu. Bez těchto tří ochran stačí jeden bug nebo smyčka k tomu, aby náklady vyletěly řádově nahoru.

9 strategií, jak snížit náklady o 60–90 %

Optimalizace nákladů na AI API funguje ve třech vrstvách. Každá další vrstva je technicky náročnější, ale přináší větší úspory. Firmě, která teprve začíná s AI API, stačí Tier 1 — okamžité kroky bez změny architektury.

Tier 1: Okamžité kroky (úspora 30–50 %)

Strategie pro okamžitou implementaci

  • Model routing: Nepoužívejte jeden model na vše. Klasifikační úlohy (sentiment, kategorizace) → GPT-5 Nano nebo Gemini Flash-Lite. Kreativní generování → GPT-5 nebo Claude Sonnet. Komplexní reasoning → Opus nebo o3. Dynamické směrování podle složitosti dotazu sníží náklady o 40–60 % při zachování kvality.
  • Prompt optimization: Kratší prompt = méně tokenů = nižší cena. Většina systémových promptů obsahuje redundance, které model nepotřebuje. Dobře optimalizovaný prompt dosahuje stejných výsledků s 30–50 % menším počtem tokenů.
  • Output control: Nastavte max_tokens na rozumnou hodnotu. Používejte strukturovaný výstup (response_format: json). Instrukce „Odpověz ve 3 větách" nebo „Vrať jen JSON s klíči X, Y, Z" dramaticky snižují výstupní tokeny — a ty stojí nejvíc.

Tier 2: Technická optimalizace (úspora 50–80 %)

Strategie vyžadující technickou implementaci

  • Prompt caching: Všichni tři velcí provideři (OpenAI, Anthropic, Google) nabízejí prompt caching — pokud se prefix promptu opakuje, zpracování cachované části je až 10× levnější. U systémových promptů, které se nemění, to znamená 90 % úsporu na vstupních tokenech. Klíč: strukturujte prompty tak, aby statická část (instrukce, guidelines) byla na začátku a dynamická část (uživatelský dotaz) na konci.
  • Batch API: Pokud nepotřebujete odpověď v reálném čase, použijte Batch API — odešlete tisíce požadavků najednou a výsledky dostanete do 24 hodin. OpenAI i Anthropic nabízejí plošnou 50% slevu na všechny modely přes Batch API. Ideální pro: denní reporty, dávkovou analýzu dokumentů, generování obsahu.
  • Semantic caching: Ukládejte embeddingy dotazů a odpovědí. Když přijde podobný (ne identický) dotaz, vrátíte cachovanou odpověď bez volání API. U zákaznických chatbotů, kde se 30–50 % dotazů opakuje v různých variantách, to znamená 30–50 % méně API volání.

Tier 3: Architekturální změny (úspora 60–90 %)

Strategie pro pokročilé — vyžadují změnu infrastruktury

  • Hybridní přístup (self-hosting + API): Rutinní úlohy (sumarizace, klasifikace, extrakce) běží na lokálním modelu přes Ollama nebo vLLM — nulové per-token náklady. Komplexní úlohy (reasoning, kreativní generování) jdou přes API na prémiový model. Break-even: lokální model se vyplatí od cca 100 000 požadavků měsíčně.
  • Fine-tuning: Menší model dotrénovaný na firemních datech může nahradit větší obecný model. Fine-tuned GPT-5 Mini může dosahovat kvality GPT-5 pro specifickou úlohu — za pětinu ceny. Investice do fine-tuningu se vrátí během týdnů při větších objemech.
  • RAG optimalizace: Menší chunks (300–500 tokenů místo 1 000–1 500), přesnější retrieval (hybrid search místo čistě vektorového), reranking výsledků — vše snižuje počet kontextových tokenů při zachování kvality odpovědí. Dobře optimalizovaný RAG pipeline spotřebuje 50–70 % méně tokenů než naivní implementace.
Pyramida úspor: Čím výš, tím větší úspora — ale i technická náročnost
TIER 3 Self-hosting, fine-tuning, RAG opt. 60–90 % úspora TIER 2 Prompt caching, Batch API, semantic cache 50–80 % úspora TIER 1 Model routing, prompt optimization, output control 30–50 % úspora ← vysoká náročnost ← snadné začít

Monitoring a rozpočtování: Jak se neprobouzet s šokem na účtu

Nejlevnější token je ten, o kterém víte. Bez monitoringu a budget alertů je každá optimalizace jen dočasná — stačí jeden nový use case nebo bug, aby náklady vyskočily. Návratnost AI investic závisí nejen na přínosech, ale i na schopnosti kontrolovat výdaje — jak ukazuje článek ROI umělé inteligence.

Vestavěné nástroje providerů

OpenAI nabízí v billing konzoli měsíční spending limit (hard cap — po vyčerpání se API volání blokují), per-key tracking a přehled spotřeby po modelech. Anthropic má usage dashboard se spending limits. Google od dubna 2026 vynucuje tier spend caps v AI Studio — vývojáři si nastavují měsíční strop přímo v rozhraní.

Third-party monitoring

Pro firmy, které používají více providerů současně, existují cross-platform řešení. Portkey umožňuje nastavit budget limity a rate limity na úrovni API klíčů i celých organizací. CostLayer agreguje náklady z více providerů do jednoho dashboardu s trend analýzou. Helicone přidává observabilitu — vidíte nejen kolik platíte, ale i které prompty jsou nejdražší a kde dochází k plýtvání.

Minimální monitoring setup za 10 minut

  1. Nastavte měsíční spending limit u každého providera (OpenAI: Billing → Usage limits, Anthropic: Settings → Spending).
  2. Vytvořte tři alertní prahy: 50 % budgetu (informativní), 80 % (varování) a 100 % (hard stop).
  3. Logujte každé API volání s údaji: model, input_tokens, output_tokens, timestamp, application.
  4. Jednou týdně projděte top 10 nejdražších volání — jsou to kandidáti na optimalizaci.

Kdy se vyplatí self-hosting místo API

Rostoucí náklady na API tokeny vedou firmy k otázce: „Nevyplatilo by se provozovat model lokálně?" Odpověď závisí na objemu — hranice se v Česku pohybuje kolem čtvrt miliardy tokenů měsíčně. Rozhodovací strom, kalkulace ve třech scénářích a 14denní rollout najdete v textu Soukromá AI, část 2: ekonomika a rollout, technický setup pak v první části průvodce.

Kritérium Cloud API Self-hosting (Ollama/vLLM)
Náklady při 10K dotazů/měsíc $5–50 (jasná výhra API) $200–500 (server/GPU) → drahé
Náklady při 500K dotazů/měsíc $250–2 500 $200–500 fixně → jasná výhra
Kvalita modelů Nejnovější frontier modely Open source (Llama 3, Mistral) — o generaci pozadu
Latence 100–500 ms (závisí na modelu) 50–200 ms (lokální síť)
Data privacy Data opouštějí firmu Data zůstávají on-premise
Údržba Nulová — provider zajistí Aktualizace, GPU monitoring, troubleshooting
Škálování Automatické Ruční — dokoupit hardware

Break-even bod se u většiny firem pohybuje kolem 100 000–200 000 požadavků měsíčně. Pod touto hranicí je API jednoznačně levnější. Nad ní se vyplatí hybridní model — rutinní úlohy lokálně, náročné přes API.

Optimální strategie pro českou firmu střední velikosti: začít s API (nulové vstupní náklady, platíte jen za to, co spotřebujete), implementovat Tier 1 a Tier 2 optimalizace, a o self-hostingu uvažovat až ve chvíli, kdy měsíční účet za API přesáhne 50 000 Kč. Podrobně o tom, jak API integrovat do firemních procesů, pojednává článek Jak používat AI přes API: Praktický průvodce.

Klíčové zjištění

Náklady na AI API nejsou problém ceny — jsou problém viditelnosti a kontroly. Ceny klesly o 80 % za rok a budou klesat dál. Ale bez monitoringu, budget alertů a vědomé optimalizace bude účet růst spolu s objemem využití. Firma, která implementuje 5stupňový audit tokenů a kombinaci Tier 1 + Tier 2 strategií, může ušetřit 60–80 % současných nákladů bez jakéhokoli snížení kvality AI výstupů. Nejdůležitější krok? Začít měřit. Co se neměří, se nedá optimalizovat.

Jedna kategorie cen, kterou tato kalkulace neřeší: gatekept AI modely. V dubnu 2026 Anthropic i OpenAI spustili uzavřené cyber-specializované modely (Mythos, GPT-5.4-Cyber) bez veřejného ceníku. Co to znamená pro firmy pod NIS2 a pro rozpočty kyberbezpečnosti, rozebírá článek Uvnitř AI cyber-závodů. Pokud k LLM API nákladům přidáváte hlasovou vrstvu (audio verze článků, IVR, voice-over), vyplatí se probrat i TTS alternativy — kdy ElevenLabs, kdy OpenAI TTS a kdy self-host Piper v češtině rozebírá průvodce open source TTS.

Často kladené otázky

Kolik stojí jeden dotaz na ChatGPT přes API?

Závisí na modelu a délce konverzace. Typický dotaz (500 vstupních + 200 výstupních tokenů) stojí s GPT-5 přibližně $0,0026 (0,06 Kč). S GPT-5 Mini je to $0,0005 (0,01 Kč). S GPT-5 Nano dokonce $0,0001. Pro srovnání: jeden dotaz přes ChatGPT Plus (předplatné $20/měsíc) vychází při průměrném využití na $0,02–0,05 — API je tedy 10–50× levnější na dotaz.

Je Gemini API opravdu zdarma?

Google nabízí bezplatný tier pro Gemini 2.5 Flash a Flash-Lite v rámci AI Studio — s rate limity (typicky 15 požadavků za minutu, 1 500 za den). Pro testování a prototypování je to dostatečné. Pro produkční nasazení s vyššími objemy je nutné přejít na placený tier, kde Gemini Flash-Lite začíná na pouhých $0,10 za milion vstupních tokenů — nejlevnější nabídka od velkého providera.

Proč je DeepSeek tak levný?

DeepSeek je čínská společnost s přístupem k výrazně levnějšímu compute (čínský hardware, nižší provozní náklady). Navíc používá architekturu Mixture-of-Experts, která aktivuje jen část parametrů modelu pro každý dotaz — efektivnější využití výpočetního výkonu. Rizika: data procházejí přes čínské servery (GDPR/compliance implikace), dostupnost služby může kolísat a kvalita u specifických úloh zaostává za americkými modely.

Jak zjistím, kolik tokenů spotřebovávám?

Každá odpověď AI API obsahuje v hlavičce údaj usage s přesným počtem vstupních a výstupních tokenů. OpenAI má tokenizer na platform.openai.com/tokenizer, kde lze zkopírovat text a vidět přesný počet tokenů. Billing dashboard každého providera ukazuje spotřebu po dnech a modelech. Pro přesnější měření logujte usage z každé API odpovědi do vlastní databáze — pak uvidíte spotřebu po aplikacích a procesech.

Vyplatí se AI API pro malou českou firmu?

Ano — a při správném nastavení jde o řádově nižší náklady než předplatné za ChatGPT Plus pro každého zaměstnance. Firma s 10 zaměstnanci platí za ChatGPT Plus $200/měsíc (4 800 Kč). Přes API s GPT-5 Mini zvládne stejný objem dotazů za $10–30/měsíc (240–720 Kč). Podmínka: někdo musí API integrovat do firemních procesů — ale existují no-code nástroje jako n8n nebo Make, které to zvládnou bez programátora.

Zdroje a reference