AI platforma výběr rozhoduje o rychlosti inovace, dlouhodobých nákladech i míře rizika. Tento hluboký průvodce vás provede praktickým srovnáním variant build vs. buy napříč Azure OpenAI, AWS Bedrock, Google Vertex AI a self-host stackem. Neřešíme jen ceník za 1 000 tokenů. Rozpitváme celkové náklady vlastnictví (TCO), skryté výdaje, latenci, SLA, bezpečnost, governance, evaluace a především riziko vendor lock-in. Najdete tu rozhodovací rámec, referenční architektury, kalkulační postupy, vyjednávací tipy a check-listy pro RFP i migrační scénáře.
Proč řešit AI platformu právě teď
Generativní AI došla z pilotů do produkce. Běží v CRM, ERP, servisním centru, ve financích i ve vývoji produktů. S každou další aplikací roste dopad na bezpečnost, náklady a provozní spolehlivost. Volba platformy se nesmí smrsknout na nákup jednoho API. Je to rozhodnutí o tom, jak budete řídit kvalitu, latenci, dostupnost regionů, audit, evaluace a incident response. Přidejte k tomu lock-in a vyjde vám strategické témě pro další 2 až 4 roky.
- Tempo inovací je vysoké. Platforma, která neumožní rychlé přepínání modelů, vás zdrží.
- Bezpečnost je existenční. Agent s nástroji bez guardrails je nákladový i reputační risk.
- TCO není jen cena za token. Zahrnuje retrieval, re-ranking, bezpečnostní filtry, cache, observabilitu, integrace a lidi.
- Data a compliance vyžadují suverenitu, audit a regionální dostupnost. Zkratky se později draze platí.
Mapa use-case a jejich nároků
Než srovnáte platformy, popište, co skutečně potřebujete. Každý use-case má jiný profil nákladů, latence a bezpečnosti.
| Use-case | Model a modality | Latence | Bezpečnost | Datová náročnost | Poznámka |
|---|---|---|---|---|---|
| RAG nad dokumenty | Text LLM + embeddingy | Nízká až střední | ACL enforcement, citace, PII redakce | Střední až vysoká | Kvalita stojí na retrievalu a re-rankingu |
| Multimodální RAG | Text + VLM + OCR | Střední | Maskování v obrazech, práva na náhledy | Vysoká | Výřezy, bounding boxy a governance |
| Agent s nástroji | LLM + tool calling | Nízká | Zero-trust, schvalování, capability scoping | Střední | Nejvyšší nákladové a reputační riziko |
| Analytické dotazy | Text LLM + SQL generování | Střední | Data masking, row-level security | Vysoká | Nutná idempotence a audit SQL |
| Fine-tuning a adaptace | Trénink a evaluation | - | IP a PII governance | Vysoká | Vyžaduje MLOps a eval pipeline |
Rozhodovací rámec build vs. buy
Ve zkratce: managed platformy akcelerují pilot a snižují provozní režii. Self-host dává flexibilitu a dlouhodobě může snížit náklady na stabilních workloadech. Hybrid často přináší nejlepší poměr hodnoty a kontroly.
- Bezpečnost a compliance. Potřebujete privátní sítě, lokální zpracování, přísný audit a minimalizaci logů. Managed to často umožní, ale s limity. Self-host přináší plnou kontrolu za cenu odpovědnosti.
- Flexibilita a roadmapa. Chcete experimentovat s modely, kombinovat open a closed source, rychle přepínat a směrovat. Abstrakce přes router a portable RAG je klíč.
- TCO a škálování. Při malém objemu vyhrává managed. Při velkém a predikovatelném trafficu se vyplatí self-host inference, když máte disciplínu v provozu.
- Čas na hodnotu. Managed urychlí PoV i produkci. Self-host vyžaduje zralé týmy, jinak roste technický dluh.
- Lock-in tolerance. Rozmyslete, na jaké vrstvě si lock-in můžete dovolit. Zamknout inference je OK, zamknout data a orchestraci je drahé.
Srovnání platforem: Azure OpenAI, AWS Bedrock, Google Vertex AI, self-host
Azure OpenAI
Vyniká integrací s identitou a nástroji Microsoft 365. Silné podnikové guardrails, privátní sítě, stabilní onboarding. Omezenější volba modelů mimo vlastní ekosystém je daň za jednoduchost.
- Silné stránky. Azure AD, role-based access, síťové izolace, dobrá auditní stopa, rychlý enterprise rollout. Snadné napojení na M365, SharePoint, Teams a Azure data služby.
- Slabiny. Regionální kvóty, menší rozmanitost modelů mimo preferované rodiny, potenciál pro lock-in skrze proprietární rozšíření.
- Kdy volit. Jste Microsoft-first organizace, chcete robustní compliance a hladký enterprise provoz bez masivního inženýrství.
AWS Bedrock
Přístup marketplace modelů pod jednou střechou. Silný IAM a pozorné nákladové řízení přes nativní nástroje. Vyšší komplexita IAM a sítí je cena za flexibilitu.
- Silné stránky. Výběr modelů, integrace s S3 a zbytkem datového jezera, detailní monitoring, síťové vzory pro enterprise.
- Slabiny. Strmější křivka IAM, nákladová optimalizace vyžaduje praxi, některé managed prvky mohou posilovat lock-in.
- Kdy volit. Máte výrazný AWS footprint a chcete orchestraci více modelů s dohlédnutelným FinOps.
Google Vertex AI
MLOps-first platforma s pipelines, evaluacemi a silným napojením na analytiku. Skvělé pro týmy, které kombinují klasické ML s generativní AI a potřebují řízené experimenty.
- Silné stránky. Pipelines, experiment tracking, datové integrace, nástroje pro hodnocení kvality, multimodální schopnosti.
- Slabiny. Pokud nežijete v GCP, onboarding a síťové vzory mohou být náročnější.
- Kdy volit. Datově orientované firmy s důrazem na životní cyklus modelů a přesné řízení kvality.
Self-host
Maximální kontrola nad daty, náklady i konfigurací. Zároveň plná odpovědnost za škálování, zabezpečení, patchování, monitoring a upgrade modelů. Vhodné pro stabilní velké workloady a týmy s provozní disciplínou.
- Silné stránky. Kontrola, flexibilita, optimalizace inference a cache, žádné závislosti na regionálních kvótách.
- Slabiny. Tým, bezpečnostní standardy, incident response, kapacitní plánování a TCO mimo inference.
- Kdy volit. Suverenita dat, predikovatelný objem, specifické latency požadavky, nebo nutná customizace.
Srovnávací tabulka
| Kritérium | Azure OpenAI | AWS Bedrock | Google Vertex AI | Self-host |
|---|---|---|---|---|
| Portfolio modelů | Silné v rámci preferencí | Více vendorů v jedné službě | Široké + MLOps | Neomezené, ale DIY integrace |
| IAM a sítě | Azure AD, Private Link | AWS IAM, VPC, PrivateLink | Cloud IAM, VPC SC | Plná kontrola i odpovědnost |
| RAG ekosystém | Azure data stack | S3 a datové jezero | BigQuery a pipelines | Volné, ale více práce |
| Bezpečnost a audit | Enterprise guardrails | Detailní logy a policy | Silné procesní nástroje | Zcela na vás |
| Lock-in riziko | Střední | Střední | Střední | Nízké v inference, vysoké v provozu |
| Time-to-value | Rychlý | Rychlý | Rychlý až střední | Pomalejší |
Self-host do hloubky: náklady, architektura, provoz
Self-host není synonymum pro levné. Umí být nákladově výhodný, ale jen když zvládnete provozní disciplínu. Co tvoří jeho TCO?
- Compute. GPU/CPU pro inference, autoscaling, rezervace kapacity, spot instance strategie, upgrade karet, degradace.
- Storage. Vektorové indexy, cache, logy, checkpointy, artefakty. Retence, snapshoty, Tiering.
- Networking. Privátní sítě, firewall, NAT, egress mezi prostředími, peering.
- Software. Orchestrátor, router, vektorová DB, pozorovatelnost, bezpečnostní filtry, policy broker.
- People. SRE, ML engineering, SecOps, FinOps, on-call. Dokumentace a školení.
Architektonické kameny
- Inference služba. Stabilní, autoskalovatelná, s možností směrování na více modelů. Měřit p95 a p99 latence, warm-pooly.
- RAG vrstva. Neutralita embedderů, exportovatelné vektory, citace na úroveň pasáže/buňky, ACL enforcement v retrievu i v odpovědi.
- Policy broker a nástroje. Zero-trust pro akce, capability tokeny, simulace, schvalování, idempotence a audit.
- Observabilita. Tracing, metriky, logy, anomálie, nákladové dashboardy a alerty na runaway.
- Security a compliance. Secrety ve vaultu, KMS, šifrování, redakce PII, privacy-by-design logy.
TCO model krok za krokem
TCO rozepište per use-case. Potřebujete zachytit průměr i špičky, re-try, bezpečnostní filtry, retrievery a akce agentů. Níže je generický postup.
- Popis sezení. Kolik tahů na sezení, kolik tokenů na vstupu a výstupu, jaká je p95 délka. Jak často dojde k re-try.
- Retrieval. Kolik dotazů do vektorové DB, top K, re-ranking, lexical filtr, filtry metadat. Kolik stojí indexace a reindex.
- Bezpečnost a filtry. Detekce injection, toxicity, PII, redakce. Běží na vstupu i výstupu. Kolik to dělá volání navíc.
- Nástroje. Kolik volání, jaká je idempotence, kolik simulací a commitů, jaká je schvalovací míra. Kolik stojí selhání a rollback.
- Observabilita a logy. Retence, přístup do SIEM, exporty, sampling.
- People a podpora. Kolik času věnují SRE a ML inženýři provozu, kolik školení, dokumentace a enablementu.
Mini vzorec
TCO = Inference + Retrieval + Guardrails + Observabilita + Integrace + MLOps + Networking + People
Scénář A: Chat asistent pro sales
- 3 tahy na sezení, 1 200 vstupních tokenů, 600 výstupních tokenů, 1 re-try z 10.
- Retrieval: 2 dotazy, top K 8, re-ranking top 16, lexical filtr, citace 2 pasáže.
- Guardrails: 2 kontroly vstupu, 1 kontrola výstupu, redakce PII dle pravidel.
Spočítejte cenu per sezení a vynásobte měsíčním trafficem. Přidejte fixní režii integračních a pozorovacích služeb a alokujte část People nákladů.
Scénář B: Agent se zápisem do CRM
- 4 tahy, 1 600 vstupních tokenů, 800 výstupních tokenů, re-try 1 z 5.
- Nástroje: 1 simulace, 1 commit s idempotencí, schválení člověkem nad prahem.
- Vyšší náklady na audit, vyšší kvóty a limity pro prevenci incidentů.
FinOps pro generativní AI
FinOps není jen měřit účet. Je to sada pák, které snižují náklady bez ztráty kvality.
- Model routing. 70 až 90 procent dotazů zvládne levnější model. Složitější otázky routujte na vyšší tier.
- Kontextová dieta. Kratší kontext, lepší chunkování, deduplikace. Překvapivě zvedá i kvalitu odpovědí.
- Re-ranking. Lexical prefiltr a malé top K pro drahý cross-encoder.
- Caching. Odpovědi i embedování. Pozor na invalidaci při změně verze dokumentů.
- Batching a warm-pooly. Snižují cold start a stabilizují p95 latence.
- Quota a limity. Brání nákladovým incidentům i chybám uživatelů.
Lock-in: vrstvy, rizika a mitigace
Lock-in se netýká jen inference API. Vzniká v několika vrstvách zároveň.
- Inference API. Proprietární rozšíření. Mitigace: abstraktní klient, standardní protokoly, dvojitá implementace.
- RAG vrstva. Embeddery, indexy a citace. Mitigace: portable embeddings, export formáty, neutralita vektorové DB.
- Tool calling. Vlastní schémata a orchestrace. Mitigace: standardizovaná rozhraní nástrojů, policy broker mimo vendor.
- MLOps. Pipelines, experimenty, metriky. Mitigace: ukládat eval data a metriky do vlastního DWH.
- Data a logy. Exportovatelné formáty, retenční pravidla. Mitigace: smluvní záruky portability.
Zásada: zamknout vendorovi co nejnižší vrstvu. Orchestrace, RAG a nástroje udržet přenositelné.
Referenční architektury a provozní vzory
Vzorec 1: Single-cloud managed + portable RAG
- Inference v jednom cloudu. RAG a citace běží neutrálně u vás. Router s fallbackem do druhé platformy pro výpadky a specifické use-case.
Vzorec 2: Hybrid s self-host inference
- Managed orchestrátor, bezpečnost a monitoring. Self-host inference pro stabilní cesty a nákladově citlivé workloady. Jednotný audit a policy broker.
Vzorec 3: Self-host centric + managed speciality
- Většina běží u vás. Vybrané multimodální speciality přes managed. Silný CI, FinOps a kapacitní plánování.
Vzorec 4: Multicloud router
- Router vyhodnocuje kvalitu, náklad i latenci a směřuje dotazy na různé zdroje. Užitečné při regionálních limitech a výkyvech ceny.
Vzorec 5: Data plane vs. control plane
- Control plane v managed pro rychlé inovace, data plane u vás pro citliviny a suverenitu. Snížení regulatorních rizik bez ztráty tempa.
Bezpečnost, suverenita dat a compliance
AI spojuje jazyk s akcí. To dramaticky mění bezpečnostní rizikový profil. Doporučené zásady:
- Zero-trust pro nástroje. Capability tokeny, simulace, schvalování, idempotence, limity a audit podpisem.
- RAG enforcement. ACL v retrievu i v odpovědi. Citace s kontrolou práv. Redakce PII a ochrana tajemství.
- Guardrails. Detekce injection a toxicity na vstupu i výstupu. Bezpečný fallback.
- Suverenita. Regionální provoz, privátní sítě, smluvní garance o datech a logování.
MLOps, evaluace a kvalita
Bez evaluací a CI bran se kvalita rozpadne při každé změně modelu nebo retrievalu.
- Eval sady. Pro každou doménu testy přesnosti, věrnosti ke zdrojům, citací, usefulness, latence. Udržujte verze.
- Regresní testy. Před releasem změny modelu, embedderu či retrievalu. Brána nepustí pokles pod práh.
- Drift monitoring. Sledovat posun dotazů a kvality. Signalizovat nutnost reindexu nebo změny routingu.
- Human-in-the-loop. Lidské hodnocení kritických cest a sporů, kalibrace hodnotitelů.
Výkon, latence a SLA
Uživatelé vnímají latenci i stabilitu. P95 je praktičtější než průměr. Složité multimodální dotazy streamujte a načítejte přílohy lazy.
- Load testing. Realistický mix dotazů, délek a retrievu. Burst scénáře a nárazové kampaně.
- Resilience. Fallback model, cross-region routing, circuit breakers pro nástroje při incidentech.
- Cache. Odpovědi a embedování, invalidace při změně dokumentů a verzí.
RFP checklist a scoringová matice
Otázky do RFP
- Jaká je podpora BYOM a přepínání modelů bez změny API a SDK?
- Jaké jsou regiony a limity propustnosti, jak funguje throttling a burst?
- Jaké nástroje nabízíte pro evaluace, red-teaming, observabilitu a cost governance?
- Jak zajistíte enforcement ACL v RAG a auditní logy pro nástrojové akce?
- Jaké exportní formáty pro data, logy a vektory jsou podporované? Jaké výstupní klauzule?
- Jak řešíte suverenitu dat, PII, IP a certifikace? Jaká je strategie incident response?
- Jaká SLA nabízíte pro p95 latenci, dostupnost a podporu? Jaké jsou kompenzace?
Scoringová matice
| Kritérium | Váha | Azure | Bedrock | Vertex | Self-host |
|---|---|---|---|---|---|
| Nákladová efektivita | 25% | 8 | 8 | 7 | 9 |
| Lock-in riziko | 20% | 6 | 7 | 7 | 9 |
| Bezpečnost a audit | 20% | 9 | 8 | 8 | 7 |
| MLOps a evaluace | 15% | 7 | 7 | 9 | 6 |
| RAG a integrace | 10% | 8 | 9 | 8 | 7 |
| Time-to-value | 10% | 9 | 9 | 8 | 5 |
Skóre jsou ilustrativní. Důležitější jsou váhy a důkazy z PoV než marketingová tvrzení.
Vyjednávací strategie a smluvní záruky
- Cenové rámce. Objemové slevy, kredity, závazky s možností redukce, price protection, přístup na roadmapu.
- SLA. p95 a p99 latence, dostupnost, reakce podpory, kompenzační mechaniky a prokazatelnost metrik.
- Portabilita. Smluvní export dat, logů a vektorů, migrační asistence, deprecace s přechodným obdobím.
- Bezpečnost. DPA dodatky, audit, pentesty, regionální závazky, minimální logování obsahu dotazů.
Scénáře z praxe a case-studies
Startup s rychlým růstem
Začíná managed kvůli rychlosti. Hned od startu zavádí router a portable RAG. Při dosažení stabilního QPS přidává self-host inference pro top cesty, aby snížil náklady.
Enterprise s citlivými daty
Volí hybrid. Orchestrace a monitoring managed. Kritické dotazy a dokumenty zpracovává self-host v privátních sítích. Silný audit, evaluace a incident response.
Veřejná správa
Upřednostňuje suverenitu a auditovatelnost. Často self-host nebo suverénní cloud. Konzervativní politika nástrojových akcí a povinné schvalování.
Roadmapa adopce bez fixních 30-60-90
Kapitola A: Hodnota a limity
- Definujte KPI kvality, nákladů a latence. Vyjasněte rizikový apetit a lock-in toleranci.
- Udělte inventuru use-case, dat a bezpečnostních požadavků.
Kapitola B: PoV s eval disciplínou
- Zvolte 2 až 3 platformy. Spusťte identické testy na stejném korpusu. Dokumentujte výsledky.
- Zaveďte CI brány pro kvalitu a náklady. Nenechte release projít bez metrik.
Kapitola C: První produkční průřez
- Portable RAG, router, policy broker. Guardrails a audit. Nástroje v read-only a simulaci.
Kapitola D: Rozšíření a optimalizace
- Škálujte na další týmy. Přidejte cache a re-ranking. Zvažte self-host pro stabilní cesty.
Kapitola E: Standardizace a kultura
- Standardy promptů, politik a nástrojů. Školení. Pravidelné revize TCO a kvality, úpravy routingu.
Antipatterny a varovné příznaky
- Fixace na cenu za 1 000 tokenů. Ignoruje retrieval, filtry, re-try, people a incidenty.
- Monovendor bez routeru. Zdravá diverzita a fallback šetří náklady i nervy.
- Žádné evaly a CI brány. Kvalita i náklady se rozpadnou při první změně.
- Agent bez zero-trust. Nástrojové akce bez capability tokenů a schvalování jsou pozvánkou k problémům.
- Chybějící incident response. Každá minuta navíc při incidentu stojí peníze a reputaci.
FAQ
Je self-host vždy levnější než managed?
Ne. Levnější je u stabilních vysokých objemů s disciplinovaným provozem. U malých a proměnlivých workloadů vede managed.
Má smysl multicloud od začátku?
Lehce ano. Přidejte router a druhý zdroj inference pro PoV a fallback. Plný multicloud má smysl, až když to ospravedlní náklady, latence nebo regulace.
Jak minimalizovat lock-in?
Udržujte přenositelnost v RAG a nástrojích, používejte portable embeddings, abstraktní klienta pro inference a smluvní export dat a logů.
Jak měřit kvalitu?
Automatizované eval sady pro přesnost, věrnost, citace a latenci. Lidské hodnocení pro kritické případy a kalibraci. CI brány před releasem.
Co dělat při incidentu?
Circuit breakers na nástroje, bezpečný fallback, sběr důkazů, komunikace dle šablon, právní notifikace, post-mortem a retesty.
Závěr a doporučení
AI platforma výběr je rozhodnutí o právech, nákladech a rychlosti inovace. Začněte u hodnoty a rizik. V PoV měřte kvalitu, latenci a náklady na identických datech. Stavte přenositelnost do RAG a nástrojů, abyste mohli měnit inference bez přepisování aplikace. Zkraťte čas k hodnotě přes managed, ale myslete na TCO a lock-in. Tam, kde dává ekonomika smysl, přidejte self-host inference. Vždy držte bezpečnostní disciplínu: zero-trust pro nástroje, ACL enforcement v RAG, guardrails a audit. Tím získáte to podstatné: rychlost bez chaosu a úspory bez kompromisu na kvalitě.
Přílohy
P1. Mini kalkulačka TCO (postup)
- Sezení: počet tahů, vstupní a výstupní tokeny, p95, re-try míra.
- Retrieval: dotazy, top K, re-ranking, egress, indexace.
- Guardrails: detekce na vstupu a výstupu, redakce PII.
- Nástroje: simulace, commity, schvalování, rollbacky.
- Observabilita: tracing, logy, metriky, sampling, retenční politika.
- People: alokace času SRE, ML, SecOps, podpora uživatelů.
P2. Checklist portability
- Abstraktní klient pro inference. Test s dvěma poskytovateli.
- Portable embeddings a export vektorů.
- Standardizovaná schémata nástrojů a idempotence.
- RAG s citacemi a enforcementem ACL u vás.
- Smluvní export logů, eval dat a artefaktů.
P3. Glossář
- TCO
- Celkové náklady vlastnictví včetně variabilních a fixních složek provozu a lidí.
- Lock-in
- Závislost na vendoru ztěžující migraci bez nákladů a ztráty kvality.
- RAG
- Retrieval augmented generation. Vyhledání relevantního kontextu a generování odpovědi s citacemi.
- Router
- Orchestrátor, který rozhoduje, který model či platforma dotaz zpracuje.
- Guardrails
- Bezpečnostní a kvalitativní zábrany na vstupu i výstupu modelu.



