Komplexní a praktický průvodce pro IT vedení (CIO, CTO, CDAO, Head of Engineering), které stojí před rozhodnutím, zda postavit řešení na lokálních (česky orientovaných) modelech s vysokou kontrolou nad daty a jemným porozuměním češtině, nebo na globálních platformách se špičkovým ekosystémem, multimodalitou a rychlým time-to-value. Článek pokrývá přesnost, náklady (TCO), bezpečnost, compliance, latenci, provozní zralost, vendor lock-in, MLOps, rozhodovací scénáře a konkrétní kroky implementace. Bez marketingových frází, s důrazem na měřitelnost a provozní realitu.
Executive summary: co nejrychleji vědět
V praxi se nejčastěji prosazuje hybridní strategie: citlivé a ryze české agendy běží na lokálním či privátním nasazení, vše ostatní (multimodalita, agentní orchestrace, cizí jazyky, rychlé prototypování) obsluhuje globální platforma. Klíčové je routování požadavků podle jazyka, citlivosti, typu úlohy, nákladů a požadované latence. Rozhodujte na základě férové CZ evaluace a řízené ekonomiky provozu. Nezastavujte se u „co je lepší obecně“, ale u „co je lepší pro tento konkrétní use-case se zadanými omezeními“.
- Lokální modely: výborné v citlivých datech, české morfologii, formálnosti jazyka, doménových zkratkách; vyžadují však provozní disciplínu a MLOps.
- Globální platformy: excelují v komplexním uvažování, multimodalitě, nástrojových voláních a agentních rámcích; nákladově výhodné při menším objemu a rychlém startu, pozor na governance nákladů.
- Hybrid: router rozhoduje, RAG drží fakta u vás, guardrails chrání před úniky, observabilita drží kvalitu i náklady pod kontrolou.
Proč to řeší české firmy právě teď
AI se v ČR za poslední období posunula z pilotních hříček k kritické infrastruktuře: zákaznická péče, interní vyhledávání, compliance, řízení rizik, generování dokumentace, podpora prodeje. V sázce je reputace značky, bezpečnost dat i rozpočty. Čeština má specifickou morfologii a diakritiku, v praxi se navíc pracuje s citlivými dokumenty (smlouvy, HR, účetnictví, zdravotnictví). To nutí rozhodovat, kde má inference běžet, kdo k datům vidí, jak se výsledky měří a kolik to bude stát při dlouhodobém provozu.
Paralelně rostou možnosti: kvalitní lokální modely i špičkové globální platformy s multimodálními schopnostmi a agentními nástroji. To je dobrá zpráva: místo ideologické války si lze vybrat nejlepší kombinaci pro daný cíl.
Rozhodovací kritéria a váhy
Nepřisuzujte vítězství předem. Připravte hodnoticí rámec s váhami a měřte konkrétní kandidáty. Níže je referenční tabulka, kterou upravte podle priorit vašeho podniku.
| Kritérium | Co hodnotit | Doporučená váha | Jak měřit |
|---|---|---|---|
| Přesnost v češtině | Porozumění zadání, morfologie, terminologie, faktická správnost | 30 % | CZ eval dataset + human-in-the-loop |
| TCO | Inference, infra, MLOps, bezpečnost, integrace a správa | 20 % | Scénářové kalkulace a citlivostní analýza |
| Bezpečnost a compliance | Datové toky, DPA, audit, šifrování, přístupy, logování | 20 % | Security review a kontrolní checklist |
| Latence a dostupnost | p95/p99, škálování, DR a BCP | 10 % | Load testy a provozní metriky |
| Interoperabilita | Snadnost přepnutí modelu, otevřené standardy, export promptů a logů | 10 % | Architektonický a smluvní audit |
| Ekosystém a funkce | Multimodalita, agenti, nástrojová volání, evaly, guardrails | 10 % | Mapování funkcí na potřeby |
Váhy nejsou dogma. Pro veřejnou správu posuňte výše bezpečnost a audit, pro marketing zvyšte důraz na multimodalitu a produktivitu.
Přesnost v češtině: očekávání vs. realita a jak měřit
Kde lokální modely září
- Morfologie a pravopis včetně diakritiky, shoda podmět-přísudek, správná interpunkce.
- Formálnost a tón (vykání, úřední styl, podniková komunikace).
- Reálie, zkratky a terminologie českého prostředí (úřady, veřejná správa, účetnictví, právo).
Kde vedou globální platformy
- Komplexní uvažování napříč obory, delší řetězce úvah, rozklad problému na kroky.
- Multimodalita: obrázky, tabulky, PDF, řeč na text a text na řeč.
- Agentní rámce a nástrojová volání: schopnost pracovat s nástroji, API, databázemi.
Jak měřit férově
- Sestavte eval dataset 300 až 1000 reálných dotazů bez PII. Zastupte právní, HR, účetní, výrobní, retailové i veřejnoprávní situace. Přidejte varianty bez diakritiky, s chybami a hovorovou češtinou.
- Definujte kritéria hodnocení: sémantická přesnost, úplnost, styl a formát, pravopis, bezpečnost (nezveřejnění citlivých informací), u RAG kvalita citací a odkazů.
- Hodnotí vždy minimálně dva recenzenti, neshody adjudikujte. Zaveďte škálování 1–5 s jasnými rubrikami a příklady.
- Vybudujte automatizované testy, ať lze znovu spustit evaly po změně modelu, promptu, retrievalu nebo verzí dokumentů.
- Provádějte A/B a canary nasazení, sledujte dopad na byznysové metriky (čas do vyřešení, CSAT/NPS, produktivita).
Rozdíly jsou často jemné a úzce svázané s konkrétní doménou. Bez vlastního CZ měření se rozhoduje naslepo.
Náklady a TCO: od tokenů až po skryté položky
TCO není pouze cena za tisíc tokenů. V dlouhodobém provozu hrají roli fixní náklady na infrastrukturu, práce týmu, evaly, bezpečnostní a auditní procesy i integrace do interních systémů.
Složky TCO
- Inference: cena za API nebo provoz vlastních GPU/CPU, optimalizace (kvantizace, batchování, cache), výběr menších modelů pro jednoduché úlohy.
- Infrastruktura: servery, sítě, úložiště, zálohy, disaster recovery, monitoring a škálování.
- MLOps a evaly: sběr a správa datasetů, lidské hodnocení, automatizované testy, governance nad prompty a verzemi.
- Bezpečnost a compliance: šifrování, správa klíčů a tajemství, RBAC, SIEM, pen-testy, red teaming, dokumentace.
- Integrace: SSO, auditní logy, napojení na nástrojové konektory, export nákladů do FinOps, podpůrná automatizace.
Scénářové srovnání nákladů
| Scénář provozu | Lokální/privátní nasazení | Globální API |
|---|---|---|
| Pilot s malým objemem | Vyšší fixní náklady na start, návratnost slabší při malé zátěži | Rychlý start, platba za spotřebu, snadné rozšíření |
| Střední objem (stovky tisíc požadavků měsíčně) | Ekonomika se zlepšuje s kvalitní optimalizací inference | Elastické škálování, nutnost řízení rozpočtu a limitů |
| Velký objem (miliony požadavků měsíčně) | Potenciálně levnější při vyspělé optimalizaci, ale náročnější na provoz | Silná spolehlivost a SLA, často vyšší OPEX |
Skryté položky a pasti
- Čas na tvorbu zlatých odpovědí a kurátorství eval dat.
- Procesní dokumentace, audity, právní revize a smlouvy.
- Observabilita a incident management, readiness týmu.
- Správa promptů, verzování, rollback a A/B experimenty.
- RAG: údržba indexů, deduplikace, řízení přístupů a revize zdrojů.
Bezpečnost, suverenita dat a compliance
Typ a citlivost dat je často rozhodující. Pokud pracujete s osobními údaji, smlouvami, účetní dokumentací nebo zdravotnickými informacemi, potřebujete detailní kontrolu nad tím, kdo a kde k datům přistupuje, jak jsou chráněna a jaká je auditní stopa.
Kontrolní otázky pro security review
- Jaká data tečou přes inference a logy, včetně metadat? Kde jsou geograficky uložena?
- Jak vypadá DPA, kdo jsou subprocesorové entity a jaká je retenční politika?
- Šifrování v přenosu i úložišti, správa klíčů a tajemství, rotace, HSM.
- RBAC, princip nejmenších práv, segmentace indexů u RAG, schvalovací workflow.
- SIEM integrace, alerting, reakční plány, testování incidentů a simulace úniků.
Porovnání bezpečnostních aspektů
| Aspekt | Lokální/privátní model | Globální platforma |
|---|---|---|
| Kontrola nad daty | Maximální, vše v režii organizace | Vysoká dle smluv a režimů, vyžaduje důsledný audit |
| Audit a forenzní stopa | Plná, ale nutné vybudovat a udržovat | Dostupné nástroje, ale mimo vaši infrastrukturu |
| Ochranné vrstvy | Nutné integrovat a udržovat interně | Často součást platformy, pravidelně aktualizované |
| Certifikace | Na vaší straně, časově i finančně náročné | Obvykle široké portfolio certifikací poskytovatele |
Bez ohledu na volbu prostředí je zásadní maskování citlivých údajů, politika přístupu a logování se sledováním anomálií.
Latence, dostupnost, škálování a řízení špiček
- Lokální nasazení minimalizuje latenci k interním systémům a může držet stabilní odezvy, ale vyžaduje kapacitní plánování a rezervy pro špičky.
- Globální API poskytují elastickou kapacitu a jasná SLA, latence závisí na regionu a síťové trase.
- Optimalizace: cache opakovaných dotazů, batchování, kompaktní prompty, menší modely pro jednoduché úlohy, řízení kvality odpovědi dle kontextu.
- Pro kritické procesy plánujte více poskytovatelů a fallback politiku, aby výpadek neohrozil byznys.
Vendor lock-in, interoperabilita a jak si ponechat svobodu
Nejlepší pojistkou proti lock-in je abstrakční vrstva nad modely. Aplikace volá jednotné rozhraní, pod kterým lze dynamicky směrovat požadavky do lokálních i globálních modelů. Prompt šablony, logy, eval výsledky a RAG infrastrukturu držte ve vlastní režii.
- Model-agnostické API s jednotným formátem žádostí a odpovědí.
- Verzování promptů a možnost rychlé výměny modelu bez zásahu do byznys logiky.
- Vektorové indexy a dokumenty spravované interně, oddělené od poskytovatele LLM.
- Kontraktační garance exportu dat, auditních logů a transparentní ukončovací klauzule.
MLOps a řízení kvality: evaly, drift, observabilita
LLM není knihovna, ale živý systém. Kvalita se mění s verzemi modelu, prompty, daty i chováním uživatelů. Potřebujete průběžný dohled.
- Observabilita: metriky latence, chyb, tokenů, nákladů, zásahů guardrails a obsahových anomálií.
- Evaly: pravidelná regrese na CZ datasetu, alerty při propadu metrik, porovnávání kandidátů.
- Change management: verzování promptů, canary rollout, A/B testy, rollback strategie.
- Bezpečnostní operace: logování přístupů, SIEM integrace, reakční playbooky a cvičení incidentů.
Scénáře použití a doporučené přístupy
Zákaznická péče v češtině
Požadavek na perfektní češtinu, konzistentní tón komunikace a ochranu identifikátorů. Část dotazů je obecná, část citlivá.
Doporučení: Hybrid. Obecné dotazy a multimodální vstupy obsluhujte globálně. Citlivé požadavky s účtovými informacemi řešte lokálně či v privátním režimu, vždy s RAG nad interní znalostní bází a auditními logy.
Interní vyhledávání v dokumentech (RAG)
Klíčová je relevance retrievalu a správné citace zdrojů. Často se pracuje s interními směrnicemi, smlouvami a technickou dokumentací v češtině.
Doporučení: RAG infrastrukturu držte ve vlastní správě, dokumenty segmentujte podle práv. Samotný model může běžet lokálně (pro citlivý obsah) nebo globálně přes privátní konektor.
HR, právní a finanční agendy
Citlivé osobní údaje, auditní požadavky, pečlivý tón a formát výstupu.
Doporučení: Lokální či privátní režim, automatická redakce PII, schvalovací kroky, podrobná auditní stopa a striktní RBAC.
Marketing a generativní obsah
Potřeba kreativity, rychlosti, multimediálních funkcí a podpůrných nástrojů.
Doporučení: Globální platforma s redakčním workflow. U interních odkazů použijte RAG, u citlivých témat přepněte na privátní inference.
ASR/TTS a překlady
Široké pokrytí jazyků a vysoké nároky na kvalitu řečových modelů.
Doporučení: Obvykle globální řešení kvůli kvalitě a škálování; citlivé nahrávky zpracovávejte v privátním nebo lokálním režimu.
Agentní automatizace procesů
Napojení na nástroje a systémy, plánování kroků, bezpečné provádění akcí.
Doporučení: Využijte agentní rámce globálních platforem, ale omezte oprávnění, definujte sandbox, logujte nástrojová volání a kritické kroky přesuňte do lokálního provedení.
Přehledová tabulka dle use-case
| Use-case | Preferovaný přístup | Klíčové poznámky |
|---|---|---|
| Customer care v CZ | Hybridní | Router dle citlivosti; RAG a auditní logy |
| RAG nad interními směrnicemi | Lokální nebo privátní | Segmentace dokumentů a práv, kontrola citací |
| Marketing a multimédia | Globální | Redakční workflow, kontrola referencí |
| HR/Právo/Finance | Lokální/privátní | Redakce PII, schvalovací kroky, RBAC |
| ASR/TTS a překlady | Globální (citlivé on-prem) | Privátní režim pro citlivé nahrávky |
| Agentní workflow | Hybridní | Sandbox, omezení akcí, audit volání |
Referenční architektury: lokální, globální a hybridní
Lokální/privátní varianta
- Inference běží ve vašem datovém centru nebo privátním cloudu.
- RAG indexy a dokumenty kompletně ve vaší správě, přístupy řízené RBAC.
- Guardrails a detekce PII integrované před a po inference.
- Vyšší fixní náklady a odpovědnost za škálování, bezpečnost a provoz.
Globální varianta
- Rychlý start, bohatý ekosystém nástrojů a multimodalita.
- Důraz na smluvní režimy, region, export logů a governance nákladů.
- Vhodné pro prototypy, kreativní agendy a proměnlivou zátěž.
Hybridní varianta
- Router klasifikuje požadavek dle jazyka, citlivosti, složitosti a nákladového rozpočtu.
- RAG obohacuje dotaz pouze nezbytnými výřezy a udržuje citace.
- Guardrails filtrují obsah před a po inferenci, sledují rizika.
- Observabilita sbírá metriky o kvalitě, nákladech, latenci i výpadcích.
Hybridní přístup přináší odolnost vůči změnám na trhu i uvnitř organizace. V kombinaci s evaly a cost governance umožňuje dlouhodobě optimalizovat kvalitu i rozpočet.
12týdenní plán pilotu a milníky
Týdny 1–2: Požadavky, data, bezpečnost
- Definujte cíle a KPI, vymezte use-case a omezení (citlivost dat, latency budget).
- Shromážděte CZ eval dataset a nastavte pravidla pro práci s daty.
- Připravte risk register a základní bezpečnostní politiku.
Týdny 3–4: Architektura a baseline
- Navrhněte integrační rozhraní, router, RAG kostru, logování a cost metriku.
- Otestujte několik modelů, vytvořte baseline výsledky a prvotní srovnání.
Týdny 5–8: Iterace a zabezpečení
- Ladění promptů, retrievalu a citací, posílení guardrails a RBAC.
- A/B test dvou top variant na vzorku uživatelů nebo ticketů.
Týdny 9–10: TCO a SLA
- Kalkulace nákladů z reálných logů, optimalizace latence a cache, definice SLO.
- Incidentní playbooky, DR scénáře a trénink týmů.
Týdny 11–12: Go/No-Go a roadmapa
- Finální srovnání metrik a bezpečnostní audit, právní revize dokumentace.
- Doporučení: lokální, globální nebo hybridní provoz a plán škálování na 6–12 měsíců.
KPI, SLO a metriky byznysového dopadu
- Kvalita: human-eval skóre, sémantická přesnost a úplnost proti zlatým odpovědím, kvalita citací.
- Výkonnost: p95/p99 latence, dostupnost, chybovost a stabilita.
- Náklady: cena na požadavek, cena na vyřešení ticketu, měsíční budgety týmů, predikovatelnost výdajů.
- Byznys: zkrácení času do vyřešení, snížení eskalací, CSAT/NPS, produktivita tvorby obsahu či dokumentace.
- Bezpečnost: nulový počet incidentů, úspěšnost redakce PII, rychlost detekce a reakce na anomálie.
Technické metriky se musí projevit v byznysovém výsledku, jinak je projekt těžké obhájit.
RFP checklist a hodnoticí matice
Na co se ptát dodavatelů
- Datové toky a region: kde běží inference, kam se ukládají logy, jaká je retence a možnost mazání.
- Právní rámec: DPA, seznam subprocesorů, audity, certifikace, oznamování incidentů.
- Modelové schopnosti: kvalita v češtině doložená evaly, multimodalita, agentní funkce, nástrojová volání.
- Interoperabilita: standardizované API, rychlé přepnutí modelu, export promptů a logů.
- Observabilita: metriky výkonu, kvality i nákladů, integrace do stávajícího monitoringu.
- SLA/SLO: dostupnost, reakční doby podpory, release politika a kompatibilita verzí.
- Cenový model: objemové slevy, stropy, limity a transparentní fakturace.
Jak skórovat
Přiřaďte váhy podle kapitoly o kritériích, sepište důkazy a odkazy na evaly. Výslednou tabulku sdílejte s vedením a bezpečností, ať je rozhodnutí obhajitelné.
Antipatterny a časté chyby
- Rozhodnutí bez CZ evalů: pocitové verdicty bývají drahé.
- Podcenění bezpečnosti: chybí DPA, redakce PII, auditní logy nebo školení.
- Monolit bez routeru a fallbacku: křehké řešení při změnách modelu nebo výpadcích.
- Neřízené náklady: bez budgetů, tokenových politik, cache a preferencí menších modelů.
- Bez governance: neexistuje verzování promptů, A/B experimenty a rollback.
FAQ a glosář
Je lokální model vždy lepší pro češtinu?
Často ano v morfologii, formálnosti a místních reáliích. U komplexního uvažování a multimodality však mnohdy vyhrává globální platforma. Rozhodnutí patří evalům na vašich datech.
Mohu kombinovat více modelů současně?
Ano a je to doporučené. Router posílá dotazy podle jazyka, citlivosti, složitosti a nákladových pravidel tam, kde vznikne nejlepší kompromis mezi kvalitou, bezpečností a cenou.
Co je RAG a proč ho chtít?
Retrieval-Augmented Generation: model dostává výřezy z vašich dokumentů. Zvyšuje faktickou správnost, umožňuje citace a drží znalosti u vás v bezpečí s řízenými přístupy.
Jak zajistit, aby náklady neustřelily?
Zaveďte limitní politiky, budgety, cache, kompaktní prompty, preferenci menších modelů pro jednoduché úlohy a pravidelnou kontrolu nákladů v observabilitě. Vyplatí se i předvýpočet a deduplikace dotazů.
Glosář
- TCO: Total Cost of Ownership, celkové náklady vlastnictví a provozu.
- SLA/SLO: smluvní úroveň služby a interní cíle provozu.
- RBAC: řízení přístupu na základě rolí.
- PII/PHI: osobní a zdravotní údaje.
- Drift: postupná změna chování modelu nebo dat v čase.
Závěr a doporučený postup
- Připravte férové CZ evaly a nechte rozhodnout data, ne marketing.
- Začněte hybridně: router, RAG, guardrails, observabilita a nákladová governance.
- Bezpečnost na prvním místě: DPA, šifrování, RBAC, auditní logy a školení.
- Pravidelně re-evalvujte a testujte, trh i modely se rychle mění.
- Měřte byznys: kvalita se musí promítnout do zkrácení času, spokojenosti a úspor.
Neexistuje jedno univerzální vítězné řešení. Vítězí kombinace, která pro váš use-case a vaše omezení dosáhne nejlepšího poměru mezi kvalitou, bezpečností a náklady. S evaly, hybridním routerem, RAG a jasnou governance si ponecháte strategickou volnost a budete připraveni reagovat na vývoj technologií i regulace bez bolestných re-implementací.



