Build vs. buy: výběr AI platforem a TCO | Azure OpenAI vs Bedrock vs Vertex vs self-host

AI platforma výběr rozhoduje o rychlosti inovace, dlouhodobých nákladech i míře rizika. Tento hluboký průvodce vás provede praktickým srovnáním variant build vs. buy napříč Azure OpenAI, AWS Bedrock, Google Vertex AI a self-host stackem. Neřešíme jen ceník za 1 000 tokenů. Rozpitváme celkové náklady vlastnictví (TCO), skryté výdaje, latenci, SLA, bezpečnost, governance, evaluace a především riziko vendor lock-in. Najdete tu rozhodovací rámec, referenční architektury, kalkulační postupy, vyjednávací tipy a check-listy pro RFP i migrační scénáře.

Proč řešit AI platformu právě teď

Generativní AI došla z pilotů do produkce. Běží v CRM, ERP, servisním centru, ve financích i ve vývoji produktů. S každou další aplikací roste dopad na bezpečnost, náklady a provozní spolehlivost. Volba platformy se nesmí smrsknout na nákup jednoho API. Je to rozhodnutí o tom, jak budete řídit kvalitu, latenci, dostupnost regionů, audit, evaluace a incident response. Přidejte k tomu lock-in a vyjde vám strategické témě pro další 2 až 4 roky.

Tempo inovací je vysoké. Platforma, která neumožní rychlé přepínání modelů, vás zdrží.
Bezpečnost je existenční. Agent s nástroji bez guardrails je nákladový i reputační risk.
TCO není jen cena za token. Zahrnuje retrieval, re-ranking, bezpečnostní filtry, cache, observabilitu, integrace a lidi.
Data a compliance vyžadují suverenitu, audit a regionální dostupnost. Zkratky se později draze platí.

Mapa use-case a jejich nároků

Než srovnáte platformy, popište, co skutečně potřebujete. Každý use-case má jiný profil nákladů, latence a bezpečnosti.

Use-case	Model a modality	Latence	Bezpečnost	Datová náročnost	Poznámka
RAG nad dokumenty	Text LLM + embeddingy	Nízká až střední	ACL enforcement, citace, PII redakce	Střední až vysoká	Kvalita stojí na retrievalu a re-rankingu
Multimodální RAG	Text + VLM + OCR	Střední	Maskování v obrazech, práva na náhledy	Vysoká	Výřezy, bounding boxy a governance
Agent s nástroji	LLM + tool calling	Nízká	Zero-trust, schvalování, capability scoping	Střední	Nejvyšší nákladové a reputační riziko
Analytické dotazy	Text LLM + SQL generování	Střední	Data masking, row-level security	Vysoká	Nutná idempotence a audit SQL
Fine-tuning a adaptace	Trénink a evaluation	-	IP a PII governance	Vysoká	Vyžaduje MLOps a eval pipeline

Rozhodovací rámec build vs. buy

Ve zkratce: managed platformy akcelerují pilot a snižují provozní režii. Self-host dává flexibilitu a dlouhodobě může snížit náklady na stabilních workloadech. Hybrid často přináší nejlepší poměr hodnoty a kontroly.

Bezpečnost a compliance. Potřebujete privátní sítě, lokální zpracování, přísný audit a minimalizaci logů. Managed to často umožní, ale s limity. Self-host přináší plnou kontrolu za cenu odpovědnosti.
Flexibilita a roadmapa. Chcete experimentovat s modely, kombinovat open a closed source, rychle přepínat a směrovat. Abstrakce přes router a portable RAG je klíč.
TCO a škálování. Při malém objemu vyhrává managed. Při velkém a predikovatelném trafficu se vyplatí self-host inference, když máte disciplínu v provozu.
Čas na hodnotu. Managed urychlí PoV i produkci. Self-host vyžaduje zralé týmy, jinak roste technický dluh.
Lock-in tolerance. Rozmyslete, na jaké vrstvě si lock-in můžete dovolit. Zamknout inference je OK, zamknout data a orchestraci je drahé.

Srovnání platforem: Azure OpenAI, AWS Bedrock, Google Vertex AI, self-host

Azure OpenAI

Vyniká integrací s identitou a nástroji Microsoft 365. Silné podnikové guardrails, privátní sítě, stabilní onboarding. Omezenější volba modelů mimo vlastní ekosystém je daň za jednoduchost.

Silné stránky. Azure AD, role-based access, síťové izolace, dobrá auditní stopa, rychlý enterprise rollout. Snadné napojení na M365, SharePoint, Teams a Azure data služby.
Slabiny. Regionální kvóty, menší rozmanitost modelů mimo preferované rodiny, potenciál pro lock-in skrze proprietární rozšíření.
Kdy volit. Jste Microsoft-first organizace, chcete robustní compliance a hladký enterprise provoz bez masivního inženýrství.

AWS Bedrock

Přístup marketplace modelů pod jednou střechou. Silný IAM a pozorné nákladové řízení přes nativní nástroje. Vyšší komplexita IAM a sítí je cena za flexibilitu.

Silné stránky. Výběr modelů, integrace s S3 a zbytkem datového jezera, detailní monitoring, síťové vzory pro enterprise.
Slabiny. Strmější křivka IAM, nákladová optimalizace vyžaduje praxi, některé managed prvky mohou posilovat lock-in.
Kdy volit. Máte výrazný AWS footprint a chcete orchestraci více modelů s dohlédnutelným FinOps.

Google Vertex AI

MLOps-first platforma s pipelines, evaluacemi a silným napojením na analytiku. Skvělé pro týmy, které kombinují klasické ML s generativní AI a potřebují řízené experimenty.

Silné stránky. Pipelines, experiment tracking, datové integrace, nástroje pro hodnocení kvality, multimodální schopnosti.
Slabiny. Pokud nežijete v GCP, onboarding a síťové vzory mohou být náročnější.
Kdy volit. Datově orientované firmy s důrazem na životní cyklus modelů a přesné řízení kvality.

Self-host

Maximální kontrola nad daty, náklady i konfigurací. Zároveň plná odpovědnost za škálování, zabezpečení, patchování, monitoring a upgrade modelů. Vhodné pro stabilní velké workloady a týmy s provozní disciplínou.

Silné stránky. Kontrola, flexibilita, optimalizace inference a cache, žádné závislosti na regionálních kvótách.
Slabiny. Tým, bezpečnostní standardy, incident response, kapacitní plánování a TCO mimo inference.
Kdy volit. Suverenita dat, predikovatelný objem, specifické latency požadavky, nebo nutná customizace.

Srovnávací tabulka

Kritérium	Azure OpenAI	AWS Bedrock	Google Vertex AI	Self-host
Portfolio modelů	Silné v rámci preferencí	Více vendorů v jedné službě	Široké + MLOps	Neomezené, ale DIY integrace
IAM a sítě	Azure AD, Private Link	AWS IAM, VPC, PrivateLink	Cloud IAM, VPC SC	Plná kontrola i odpovědnost
RAG ekosystém	Azure data stack	S3 a datové jezero	BigQuery a pipelines	Volné, ale více práce
Bezpečnost a audit	Enterprise guardrails	Detailní logy a policy	Silné procesní nástroje	Zcela na vás
Lock-in riziko	Střední	Střední	Střední	Nízké v inference, vysoké v provozu
Time-to-value	Rychlý	Rychlý	Rychlý až střední	Pomalejší

Self-host do hloubky: náklady, architektura, provoz

Self-host není synonymum pro levné. Umí být nákladově výhodný, ale jen když zvládnete provozní disciplínu. Co tvoří jeho TCO?

Compute. GPU/CPU pro inference, autoscaling, rezervace kapacity, spot instance strategie, upgrade karet, degradace.
Storage. Vektorové indexy, cache, logy, checkpointy, artefakty. Retence, snapshoty, Tiering.
Networking. Privátní sítě, firewall, NAT, egress mezi prostředími, peering.
Software. Orchestrátor, router, vektorová DB, pozorovatelnost, bezpečnostní filtry, policy broker.
People. SRE, ML engineering, SecOps, FinOps, on-call. Dokumentace a školení.

Architektonické kameny

Inference služba. Stabilní, autoskalovatelná, s možností směrování na více modelů. Měřit p95 a p99 latence, warm-pooly.
RAG vrstva. Neutralita embedderů, exportovatelné vektory, citace na úroveň pasáže/buňky, ACL enforcement v retrievu i v odpovědi.
Policy broker a nástroje. Zero-trust pro akce, capability tokeny, simulace, schvalování, idempotence a audit.
Observabilita. Tracing, metriky, logy, anomálie, nákladové dashboardy a alerty na runaway.
Security a compliance. Secrety ve vaultu, KMS, šifrování, redakce PII, privacy-by-design logy.

TCO model krok za krokem

TCO rozepište per use-case. Potřebujete zachytit průměr i špičky, re-try, bezpečnostní filtry, retrievery a akce agentů. Níže je generický postup.

Popis sezení. Kolik tahů na sezení, kolik tokenů na vstupu a výstupu, jaká je p95 délka. Jak často dojde k re-try.
Retrieval. Kolik dotazů do vektorové DB, top K, re-ranking, lexical filtr, filtry metadat. Kolik stojí indexace a reindex.
Bezpečnost a filtry. Detekce injection, toxicity, PII, redakce. Běží na vstupu i výstupu. Kolik to dělá volání navíc.
Nástroje. Kolik volání, jaká je idempotence, kolik simulací a commitů, jaká je schvalovací míra. Kolik stojí selhání a rollback.
Observabilita a logy. Retence, přístup do SIEM, exporty, sampling.
People a podpora. Kolik času věnují SRE a ML inženýři provozu, kolik školení, dokumentace a enablementu.

Mini vzorec

TCO = Inference + Retrieval + Guardrails + Observabilita + Integrace + MLOps + Networking + People

Scénář A: Chat asistent pro sales

3 tahy na sezení, 1 200 vstupních tokenů, 600 výstupních tokenů, 1 re-try z 10.
Retrieval: 2 dotazy, top K 8, re-ranking top 16, lexical filtr, citace 2 pasáže.
Guardrails: 2 kontroly vstupu, 1 kontrola výstupu, redakce PII dle pravidel.

Spočítejte cenu per sezení a vynásobte měsíčním trafficem. Přidejte fixní režii integračních a pozorovacích služeb a alokujte část People nákladů.

Scénář B: Agent se zápisem do CRM

4 tahy, 1 600 vstupních tokenů, 800 výstupních tokenů, re-try 1 z 5.
Nástroje: 1 simulace, 1 commit s idempotencí, schválení člověkem nad prahem.
Vyšší náklady na audit, vyšší kvóty a limity pro prevenci incidentů.

FinOps pro generativní AI

FinOps není jen měřit účet. Je to sada pák, které snižují náklady bez ztráty kvality.

Model routing. 70 až 90 procent dotazů zvládne levnější model. Složitější otázky routujte na vyšší tier.
Kontextová dieta. Kratší kontext, lepší chunkování, deduplikace. Překvapivě zvedá i kvalitu odpovědí.
Re-ranking. Lexical prefiltr a malé top K pro drahý cross-encoder.
Caching. Odpovědi i embedování. Pozor na invalidaci při změně verze dokumentů.
Batching a warm-pooly. Snižují cold start a stabilizují p95 latence.
Quota a limity. Brání nákladovým incidentům i chybám uživatelů.

Lock-in: vrstvy, rizika a mitigace

Lock-in se netýká jen inference API. Vzniká v několika vrstvách zároveň.

Inference API. Proprietární rozšíření. Mitigace: abstraktní klient, standardní protokoly, dvojitá implementace.
RAG vrstva. Embeddery, indexy a citace. Mitigace: portable embeddings, export formáty, neutralita vektorové DB.
Tool calling. Vlastní schémata a orchestrace. Mitigace: standardizovaná rozhraní nástrojů, policy broker mimo vendor.
MLOps. Pipelines, experimenty, metriky. Mitigace: ukládat eval data a metriky do vlastního DWH.
Data a logy. Exportovatelné formáty, retenční pravidla. Mitigace: smluvní záruky portability.

Zásada: zamknout vendorovi co nejnižší vrstvu. Orchestrace, RAG a nástroje udržet přenositelné.

Referenční architektury a provozní vzory

Vzorec 1: Single-cloud managed + portable RAG

Inference v jednom cloudu. RAG a citace běží neutrálně u vás. Router s fallbackem do druhé platformy pro výpadky a specifické use-case.

Vzorec 2: Hybrid s self-host inference

Managed orchestrátor, bezpečnost a monitoring. Self-host inference pro stabilní cesty a nákladově citlivé workloady. Jednotný audit a policy broker.

Vzorec 3: Self-host centric + managed speciality

Většina běží u vás. Vybrané multimodální speciality přes managed. Silný CI, FinOps a kapacitní plánování.

Vzorec 4: Multicloud router

Router vyhodnocuje kvalitu, náklad i latenci a směřuje dotazy na různé zdroje. Užitečné při regionálních limitech a výkyvech ceny.

Vzorec 5: Data plane vs. control plane

Control plane v managed pro rychlé inovace, data plane u vás pro citliviny a suverenitu. Snížení regulatorních rizik bez ztráty tempa.

Bezpečnost, suverenita dat a compliance

AI spojuje jazyk s akcí. To dramaticky mění bezpečnostní rizikový profil. Doporučené zásady:

Zero-trust pro nástroje. Capability tokeny, simulace, schvalování, idempotence, limity a audit podpisem.
RAG enforcement. ACL v retrievu i v odpovědi. Citace s kontrolou práv. Redakce PII a ochrana tajemství.
Guardrails. Detekce injection a toxicity na vstupu i výstupu. Bezpečný fallback.
Suverenita. Regionální provoz, privátní sítě, smluvní garance o datech a logování.

MLOps, evaluace a kvalita

Bez evaluací a CI bran se kvalita rozpadne při každé změně modelu nebo retrievalu.

Eval sady. Pro každou doménu testy přesnosti, věrnosti ke zdrojům, citací, usefulness, latence. Udržujte verze.
Regresní testy. Před releasem změny modelu, embedderu či retrievalu. Brána nepustí pokles pod práh.
Drift monitoring. Sledovat posun dotazů a kvality. Signalizovat nutnost reindexu nebo změny routingu.
Human-in-the-loop. Lidské hodnocení kritických cest a sporů, kalibrace hodnotitelů.

Výkon, latence a SLA

Uživatelé vnímají latenci i stabilitu. P95 je praktičtější než průměr. Složité multimodální dotazy streamujte a načítejte přílohy lazy.

Load testing. Realistický mix dotazů, délek a retrievu. Burst scénáře a nárazové kampaně.
Resilience. Fallback model, cross-region routing, circuit breakers pro nástroje při incidentech.
Cache. Odpovědi a embedování, invalidace při změně dokumentů a verzí.

RFP checklist a scoringová matice

Otázky do RFP

Jaká je podpora BYOM a přepínání modelů bez změny API a SDK?
Jaké jsou regiony a limity propustnosti, jak funguje throttling a burst?
Jaké nástroje nabízíte pro evaluace, red-teaming, observabilitu a cost governance?
Jak zajistíte enforcement ACL v RAG a auditní logy pro nástrojové akce?
Jaké exportní formáty pro data, logy a vektory jsou podporované? Jaké výstupní klauzule?
Jak řešíte suverenitu dat, PII, IP a certifikace? Jaká je strategie incident response?
Jaká SLA nabízíte pro p95 latenci, dostupnost a podporu? Jaké jsou kompenzace?

Scoringová matice

Kritérium	Váha	Azure	Bedrock	Vertex	Self-host
Nákladová efektivita	25%	8	8	7	9
Lock-in riziko	20%	6	7	7	9
Bezpečnost a audit	20%	9	8	8	7
MLOps a evaluace	15%	7	7	9	6
RAG a integrace	10%	8	9	8	7
Time-to-value	10%	9	9	8	5

Skóre jsou ilustrativní. Důležitější jsou váhy a důkazy z PoV než marketingová tvrzení.

Vyjednávací strategie a smluvní záruky

Cenové rámce. Objemové slevy, kredity, závazky s možností redukce, price protection, přístup na roadmapu.
SLA. p95 a p99 latence, dostupnost, reakce podpory, kompenzační mechaniky a prokazatelnost metrik.
Portabilita. Smluvní export dat, logů a vektorů, migrační asistence, deprecace s přechodným obdobím.
Bezpečnost. DPA dodatky, audit, pentesty, regionální závazky, minimální logování obsahu dotazů.

Scénáře z praxe a case-studies

Startup s rychlým růstem

Začíná managed kvůli rychlosti. Hned od startu zavádí router a portable RAG. Při dosažení stabilního QPS přidává self-host inference pro top cesty, aby snížil náklady.

Enterprise s citlivými daty

Volí hybrid. Orchestrace a monitoring managed. Kritické dotazy a dokumenty zpracovává self-host v privátních sítích. Silný audit, evaluace a incident response.

Veřejná správa

Upřednostňuje suverenitu a auditovatelnost. Často self-host nebo suverénní cloud. Konzervativní politika nástrojových akcí a povinné schvalování.

Roadmapa adopce bez fixních 30-60-90

Kapitola A: Hodnota a limity

Definujte KPI kvality, nákladů a latence. Vyjasněte rizikový apetit a lock-in toleranci.
Udělte inventuru use-case, dat a bezpečnostních požadavků.

Kapitola B: PoV s eval disciplínou

Zvolte 2 až 3 platformy. Spusťte identické testy na stejném korpusu. Dokumentujte výsledky.
Zaveďte CI brány pro kvalitu a náklady. Nenechte release projít bez metrik.

Kapitola C: První produkční průřez

Portable RAG, router, policy broker. Guardrails a audit. Nástroje v read-only a simulaci.

Kapitola D: Rozšíření a optimalizace

Škálujte na další týmy. Přidejte cache a re-ranking. Zvažte self-host pro stabilní cesty.

Kapitola E: Standardizace a kultura

Standardy promptů, politik a nástrojů. Školení. Pravidelné revize TCO a kvality, úpravy routingu.

Antipatterny a varovné příznaky

Fixace na cenu za 1 000 tokenů. Ignoruje retrieval, filtry, re-try, people a incidenty.
Monovendor bez routeru. Zdravá diverzita a fallback šetří náklady i nervy.
Žádné evaly a CI brány. Kvalita i náklady se rozpadnou při první změně.
Agent bez zero-trust. Nástrojové akce bez capability tokenů a schvalování jsou pozvánkou k problémům.
Chybějící incident response. Každá minuta navíc při incidentu stojí peníze a reputaci.

FAQ

Je self-host vždy levnější než managed?

Ne. Levnější je u stabilních vysokých objemů s disciplinovaným provozem. U malých a proměnlivých workloadů vede managed.

Má smysl multicloud od začátku?

Lehce ano. Přidejte router a druhý zdroj inference pro PoV a fallback. Plný multicloud má smysl, až když to ospravedlní náklady, latence nebo regulace.

Jak minimalizovat lock-in?

Udržujte přenositelnost v RAG a nástrojích, používejte portable embeddings, abstraktní klienta pro inference a smluvní export dat a logů.

Jak měřit kvalitu?

Automatizované eval sady pro přesnost, věrnost, citace a latenci. Lidské hodnocení pro kritické případy a kalibraci. CI brány před releasem.

Co dělat při incidentu?

Circuit breakers na nástroje, bezpečný fallback, sběr důkazů, komunikace dle šablon, právní notifikace, post-mortem a retesty.

Závěr a doporučení

AI platforma výběr je rozhodnutí o právech, nákladech a rychlosti inovace. Začněte u hodnoty a rizik. V PoV měřte kvalitu, latenci a náklady na identických datech. Stavte přenositelnost do RAG a nástrojů, abyste mohli měnit inference bez přepisování aplikace. Zkraťte čas k hodnotě přes managed, ale myslete na TCO a lock-in. Tam, kde dává ekonomika smysl, přidejte self-host inference. Vždy držte bezpečnostní disciplínu: zero-trust pro nástroje, ACL enforcement v RAG, guardrails a audit. Tím získáte to podstatné: rychlost bez chaosu a úspory bez kompromisu na kvalitě.

Přílohy

P1. Mini kalkulačka TCO (postup)

Sezení: počet tahů, vstupní a výstupní tokeny, p95, re-try míra.
Retrieval: dotazy, top K, re-ranking, egress, indexace.
Guardrails: detekce na vstupu a výstupu, redakce PII.
Nástroje: simulace, commity, schvalování, rollbacky.
Observabilita: tracing, logy, metriky, sampling, retenční politika.
People: alokace času SRE, ML, SecOps, podpora uživatelů.

P2. Checklist portability

Abstraktní klient pro inference. Test s dvěma poskytovateli.
Portable embeddings a export vektorů.
Standardizovaná schémata nástrojů a idempotence.
RAG s citacemi a enforcementem ACL u vás.
Smluvní export logů, eval dat a artefaktů.

P3. Glossář

TCO: Celkové náklady vlastnictví včetně variabilních a fixních složek provozu a lidí.
Lock-in: Závislost na vendoru ztěžující migraci bez nákladů a ztráty kvality.
RAG: Retrieval augmented generation. Vyhledání relevantního kontextu a generování odpovědi s citacemi.
Router: Orchestrátor, který rozhoduje, který model či platforma dotaz zpracuje.
Guardrails: Bezpečnostní a kvalitativní zábrany na vstupu i výstupu modelu.