AI platforma výběr: build vs. buy, TCO a lock-in mezi Azure OpenAI, AWS Bedrock, Google Vertex AI a self-host

AI platforma výběr rozhoduje o rychlosti inovace, dlouhodobých nákladech i míře rizika. Tento hluboký průvodce vás provede praktickým srovnáním variant build vs. buy napříč Azure OpenAI, AWS Bedrock, Google Vertex AI a self-host stackem. Neřešíme jen ceník za 1 000 tokenů. Rozpitváme celkové náklady vlastnictví (TCO), skryté výdaje, latenci, SLA, bezpečnost, governance, evaluace a především riziko vendor lock-in. Najdete tu rozhodovací rámec, referenční architektury, kalkulační postupy, vyjednávací tipy a check-listy pro RFP i migrační scénáře.


Proč řešit AI platformu právě teď

Generativní AI došla z pilotů do produkce. Běží v CRM, ERP, servisním centru, ve financích i ve vývoji produktů. S každou další aplikací roste dopad na bezpečnost, náklady a provozní spolehlivost. Volba platformy se nesmí smrsknout na nákup jednoho API. Je to rozhodnutí o tom, jak budete řídit kvalitu, latenci, dostupnost regionů, audit, evaluace a incident response. Přidejte k tomu lock-in a vyjde vám strategické témě pro další 2 až 4 roky.

  • Tempo inovací je vysoké. Platforma, která neumožní rychlé přepínání modelů, vás zdrží.
  • Bezpečnost je existenční. Agent s nástroji bez guardrails je nákladový i reputační risk.
  • TCO není jen cena za token. Zahrnuje retrieval, re-ranking, bezpečnostní filtry, cache, observabilitu, integrace a lidi.
  • Data a compliance vyžadují suverenitu, audit a regionální dostupnost. Zkratky se později draze platí.

Mapa use-case a jejich nároků

Než srovnáte platformy, popište, co skutečně potřebujete. Každý use-case má jiný profil nákladů, latence a bezpečnosti.

Use-caseModel a modalityLatenceBezpečnostDatová náročnostPoznámka
RAG nad dokumenty Text LLM + embeddingy Nízká až střední ACL enforcement, citace, PII redakce Střední až vysoká Kvalita stojí na retrievalu a re-rankingu
Multimodální RAG Text + VLM + OCR Střední Maskování v obrazech, práva na náhledy Vysoká Výřezy, bounding boxy a governance
Agent s nástroji LLM + tool calling Nízká Zero-trust, schvalování, capability scoping Střední Nejvyšší nákladové a reputační riziko
Analytické dotazy Text LLM + SQL generování Střední Data masking, row-level security Vysoká Nutná idempotence a audit SQL
Fine-tuning a adaptace Trénink a evaluation - IP a PII governance Vysoká Vyžaduje MLOps a eval pipeline

Rozhodovací rámec build vs. buy

Ve zkratce: managed platformy akcelerují pilot a snižují provozní režii. Self-host dává flexibilitu a dlouhodobě může snížit náklady na stabilních workloadech. Hybrid často přináší nejlepší poměr hodnoty a kontroly.

  1. Bezpečnost a compliance. Potřebujete privátní sítě, lokální zpracování, přísný audit a minimalizaci logů. Managed to často umožní, ale s limity. Self-host přináší plnou kontrolu za cenu odpovědnosti.
  2. Flexibilita a roadmapa. Chcete experimentovat s modely, kombinovat open a closed source, rychle přepínat a směrovat. Abstrakce přes router a portable RAG je klíč.
  3. TCO a škálování. Při malém objemu vyhrává managed. Při velkém a predikovatelném trafficu se vyplatí self-host inference, když máte disciplínu v provozu.
  4. Čas na hodnotu. Managed urychlí PoV i produkci. Self-host vyžaduje zralé týmy, jinak roste technický dluh.
  5. Lock-in tolerance. Rozmyslete, na jaké vrstvě si lock-in můžete dovolit. Zamknout inference je OK, zamknout data a orchestraci je drahé.

Srovnání platforem: Azure OpenAI, AWS Bedrock, Google Vertex AI, self-host

Azure OpenAI

Vyniká integrací s identitou a nástroji Microsoft 365. Silné podnikové guardrails, privátní sítě, stabilní onboarding. Omezenější volba modelů mimo vlastní ekosystém je daň za jednoduchost.

  • Silné stránky. Azure AD, role-based access, síťové izolace, dobrá auditní stopa, rychlý enterprise rollout. Snadné napojení na M365, SharePoint, Teams a Azure data služby.
  • Slabiny. Regionální kvóty, menší rozmanitost modelů mimo preferované rodiny, potenciál pro lock-in skrze proprietární rozšíření.
  • Kdy volit. Jste Microsoft-first organizace, chcete robustní compliance a hladký enterprise provoz bez masivního inženýrství.

AWS Bedrock

Přístup marketplace modelů pod jednou střechou. Silný IAM a pozorné nákladové řízení přes nativní nástroje. Vyšší komplexita IAM a sítí je cena za flexibilitu.

  • Silné stránky. Výběr modelů, integrace s S3 a zbytkem datového jezera, detailní monitoring, síťové vzory pro enterprise.
  • Slabiny. Strmější křivka IAM, nákladová optimalizace vyžaduje praxi, některé managed prvky mohou posilovat lock-in.
  • Kdy volit. Máte výrazný AWS footprint a chcete orchestraci více modelů s dohlédnutelným FinOps.

Google Vertex AI

MLOps-first platforma s pipelines, evaluacemi a silným napojením na analytiku. Skvělé pro týmy, které kombinují klasické ML s generativní AI a potřebují řízené experimenty.

  • Silné stránky. Pipelines, experiment tracking, datové integrace, nástroje pro hodnocení kvality, multimodální schopnosti.
  • Slabiny. Pokud nežijete v GCP, onboarding a síťové vzory mohou být náročnější.
  • Kdy volit. Datově orientované firmy s důrazem na životní cyklus modelů a přesné řízení kvality.

Self-host

Maximální kontrola nad daty, náklady i konfigurací. Zároveň plná odpovědnost za škálování, zabezpečení, patchování, monitoring a upgrade modelů. Vhodné pro stabilní velké workloady a týmy s provozní disciplínou.

  • Silné stránky. Kontrola, flexibilita, optimalizace inference a cache, žádné závislosti na regionálních kvótách.
  • Slabiny. Tým, bezpečnostní standardy, incident response, kapacitní plánování a TCO mimo inference.
  • Kdy volit. Suverenita dat, predikovatelný objem, specifické latency požadavky, nebo nutná customizace.

Srovnávací tabulka

KritériumAzure OpenAIAWS BedrockGoogle Vertex AISelf-host
Portfolio modelů Silné v rámci preferencí Více vendorů v jedné službě Široké + MLOps Neomezené, ale DIY integrace
IAM a sítě Azure AD, Private Link AWS IAM, VPC, PrivateLink Cloud IAM, VPC SC Plná kontrola i odpovědnost
RAG ekosystém Azure data stack S3 a datové jezero BigQuery a pipelines Volné, ale více práce
Bezpečnost a audit Enterprise guardrails Detailní logy a policy Silné procesní nástroje Zcela na vás
Lock-in riziko Střední Střední Střední Nízké v inference, vysoké v provozu
Time-to-value Rychlý Rychlý Rychlý až střední Pomalejší

Self-host do hloubky: náklady, architektura, provoz

Self-host není synonymum pro levné. Umí být nákladově výhodný, ale jen když zvládnete provozní disciplínu. Co tvoří jeho TCO?

  • Compute. GPU/CPU pro inference, autoscaling, rezervace kapacity, spot instance strategie, upgrade karet, degradace.
  • Storage. Vektorové indexy, cache, logy, checkpointy, artefakty. Retence, snapshoty, Tiering.
  • Networking. Privátní sítě, firewall, NAT, egress mezi prostředími, peering.
  • Software. Orchestrátor, router, vektorová DB, pozorovatelnost, bezpečnostní filtry, policy broker.
  • People. SRE, ML engineering, SecOps, FinOps, on-call. Dokumentace a školení.

Architektonické kameny

  1. Inference služba. Stabilní, autoskalovatelná, s možností směrování na více modelů. Měřit p95 a p99 latence, warm-pooly.
  2. RAG vrstva. Neutralita embedderů, exportovatelné vektory, citace na úroveň pasáže/buňky, ACL enforcement v retrievu i v odpovědi.
  3. Policy broker a nástroje. Zero-trust pro akce, capability tokeny, simulace, schvalování, idempotence a audit.
  4. Observabilita. Tracing, metriky, logy, anomálie, nákladové dashboardy a alerty na runaway.
  5. Security a compliance. Secrety ve vaultu, KMS, šifrování, redakce PII, privacy-by-design logy.

TCO model krok za krokem

TCO rozepište per use-case. Potřebujete zachytit průměr i špičky, re-try, bezpečnostní filtry, retrievery a akce agentů. Níže je generický postup.

  1. Popis sezení. Kolik tahů na sezení, kolik tokenů na vstupu a výstupu, jaká je p95 délka. Jak často dojde k re-try.
  2. Retrieval. Kolik dotazů do vektorové DB, top K, re-ranking, lexical filtr, filtry metadat. Kolik stojí indexace a reindex.
  3. Bezpečnost a filtry. Detekce injection, toxicity, PII, redakce. Běží na vstupu i výstupu. Kolik to dělá volání navíc.
  4. Nástroje. Kolik volání, jaká je idempotence, kolik simulací a commitů, jaká je schvalovací míra. Kolik stojí selhání a rollback.
  5. Observabilita a logy. Retence, přístup do SIEM, exporty, sampling.
  6. People a podpora. Kolik času věnují SRE a ML inženýři provozu, kolik školení, dokumentace a enablementu.

Mini vzorec

TCO = Inference + Retrieval + Guardrails + Observabilita + Integrace + MLOps + Networking + People

Scénář A: Chat asistent pro sales

  • 3 tahy na sezení, 1 200 vstupních tokenů, 600 výstupních tokenů, 1 re-try z 10.
  • Retrieval: 2 dotazy, top K 8, re-ranking top 16, lexical filtr, citace 2 pasáže.
  • Guardrails: 2 kontroly vstupu, 1 kontrola výstupu, redakce PII dle pravidel.

Spočítejte cenu per sezení a vynásobte měsíčním trafficem. Přidejte fixní režii integračních a pozorovacích služeb a alokujte část People nákladů.

Scénář B: Agent se zápisem do CRM

  • 4 tahy, 1 600 vstupních tokenů, 800 výstupních tokenů, re-try 1 z 5.
  • Nástroje: 1 simulace, 1 commit s idempotencí, schválení člověkem nad prahem.
  • Vyšší náklady na audit, vyšší kvóty a limity pro prevenci incidentů.

FinOps pro generativní AI

FinOps není jen měřit účet. Je to sada pák, které snižují náklady bez ztráty kvality.

  • Model routing. 70 až 90 procent dotazů zvládne levnější model. Složitější otázky routujte na vyšší tier.
  • Kontextová dieta. Kratší kontext, lepší chunkování, deduplikace. Překvapivě zvedá i kvalitu odpovědí.
  • Re-ranking. Lexical prefiltr a malé top K pro drahý cross-encoder.
  • Caching. Odpovědi i embedování. Pozor na invalidaci při změně verze dokumentů.
  • Batching a warm-pooly. Snižují cold start a stabilizují p95 latence.
  • Quota a limity. Brání nákladovým incidentům i chybám uživatelů.

Lock-in: vrstvy, rizika a mitigace

Lock-in se netýká jen inference API. Vzniká v několika vrstvách zároveň.

  1. Inference API. Proprietární rozšíření. Mitigace: abstraktní klient, standardní protokoly, dvojitá implementace.
  2. RAG vrstva. Embeddery, indexy a citace. Mitigace: portable embeddings, export formáty, neutralita vektorové DB.
  3. Tool calling. Vlastní schémata a orchestrace. Mitigace: standardizovaná rozhraní nástrojů, policy broker mimo vendor.
  4. MLOps. Pipelines, experimenty, metriky. Mitigace: ukládat eval data a metriky do vlastního DWH.
  5. Data a logy. Exportovatelné formáty, retenční pravidla. Mitigace: smluvní záruky portability.

Zásada: zamknout vendorovi co nejnižší vrstvu. Orchestrace, RAG a nástroje udržet přenositelné.

Referenční architektury a provozní vzory

Vzorec 1: Single-cloud managed + portable RAG

  • Inference v jednom cloudu. RAG a citace běží neutrálně u vás. Router s fallbackem do druhé platformy pro výpadky a specifické use-case.

Vzorec 2: Hybrid s self-host inference

  • Managed orchestrátor, bezpečnost a monitoring. Self-host inference pro stabilní cesty a nákladově citlivé workloady. Jednotný audit a policy broker.

Vzorec 3: Self-host centric + managed speciality

  • Většina běží u vás. Vybrané multimodální speciality přes managed. Silný CI, FinOps a kapacitní plánování.

Vzorec 4: Multicloud router

  • Router vyhodnocuje kvalitu, náklad i latenci a směřuje dotazy na různé zdroje. Užitečné při regionálních limitech a výkyvech ceny.

Vzorec 5: Data plane vs. control plane

  • Control plane v managed pro rychlé inovace, data plane u vás pro citliviny a suverenitu. Snížení regulatorních rizik bez ztráty tempa.

Bezpečnost, suverenita dat a compliance

AI spojuje jazyk s akcí. To dramaticky mění bezpečnostní rizikový profil. Doporučené zásady:

  • Zero-trust pro nástroje. Capability tokeny, simulace, schvalování, idempotence, limity a audit podpisem.
  • RAG enforcement. ACL v retrievu i v odpovědi. Citace s kontrolou práv. Redakce PII a ochrana tajemství.
  • Guardrails. Detekce injection a toxicity na vstupu i výstupu. Bezpečný fallback.
  • Suverenita. Regionální provoz, privátní sítě, smluvní garance o datech a logování.

MLOps, evaluace a kvalita

Bez evaluací a CI bran se kvalita rozpadne při každé změně modelu nebo retrievalu.

  • Eval sady. Pro každou doménu testy přesnosti, věrnosti ke zdrojům, citací, usefulness, latence. Udržujte verze.
  • Regresní testy. Před releasem změny modelu, embedderu či retrievalu. Brána nepustí pokles pod práh.
  • Drift monitoring. Sledovat posun dotazů a kvality. Signalizovat nutnost reindexu nebo změny routingu.
  • Human-in-the-loop. Lidské hodnocení kritických cest a sporů, kalibrace hodnotitelů.

Výkon, latence a SLA

Uživatelé vnímají latenci i stabilitu. P95 je praktičtější než průměr. Složité multimodální dotazy streamujte a načítejte přílohy lazy.

  • Load testing. Realistický mix dotazů, délek a retrievu. Burst scénáře a nárazové kampaně.
  • Resilience. Fallback model, cross-region routing, circuit breakers pro nástroje při incidentech.
  • Cache. Odpovědi a embedování, invalidace při změně dokumentů a verzí.

RFP checklist a scoringová matice

Otázky do RFP

  • Jaká je podpora BYOM a přepínání modelů bez změny API a SDK?
  • Jaké jsou regiony a limity propustnosti, jak funguje throttling a burst?
  • Jaké nástroje nabízíte pro evaluace, red-teaming, observabilitu a cost governance?
  • Jak zajistíte enforcement ACL v RAG a auditní logy pro nástrojové akce?
  • Jaké exportní formáty pro data, logy a vektory jsou podporované? Jaké výstupní klauzule?
  • Jak řešíte suverenitu dat, PII, IP a certifikace? Jaká je strategie incident response?
  • Jaká SLA nabízíte pro p95 latenci, dostupnost a podporu? Jaké jsou kompenzace?

Scoringová matice

KritériumVáhaAzureBedrockVertexSelf-host
Nákladová efektivita25%8879
Lock-in riziko20%6779
Bezpečnost a audit20%9887
MLOps a evaluace15%7796
RAG a integrace10%8987
Time-to-value10%9985

Skóre jsou ilustrativní. Důležitější jsou váhy a důkazy z PoV než marketingová tvrzení.

Vyjednávací strategie a smluvní záruky

  • Cenové rámce. Objemové slevy, kredity, závazky s možností redukce, price protection, přístup na roadmapu.
  • SLA. p95 a p99 latence, dostupnost, reakce podpory, kompenzační mechaniky a prokazatelnost metrik.
  • Portabilita. Smluvní export dat, logů a vektorů, migrační asistence, deprecace s přechodným obdobím.
  • Bezpečnost. DPA dodatky, audit, pentesty, regionální závazky, minimální logování obsahu dotazů.

Scénáře z praxe a case-studies

Startup s rychlým růstem

Začíná managed kvůli rychlosti. Hned od startu zavádí router a portable RAG. Při dosažení stabilního QPS přidává self-host inference pro top cesty, aby snížil náklady.

Enterprise s citlivými daty

Volí hybrid. Orchestrace a monitoring managed. Kritické dotazy a dokumenty zpracovává self-host v privátních sítích. Silný audit, evaluace a incident response.

Veřejná správa

Upřednostňuje suverenitu a auditovatelnost. Často self-host nebo suverénní cloud. Konzervativní politika nástrojových akcí a povinné schvalování.

Roadmapa adopce bez fixních 30-60-90

Kapitola A: Hodnota a limity

  • Definujte KPI kvality, nákladů a latence. Vyjasněte rizikový apetit a lock-in toleranci.
  • Udělte inventuru use-case, dat a bezpečnostních požadavků.

Kapitola B: PoV s eval disciplínou

  • Zvolte 2 až 3 platformy. Spusťte identické testy na stejném korpusu. Dokumentujte výsledky.
  • Zaveďte CI brány pro kvalitu a náklady. Nenechte release projít bez metrik.

Kapitola C: První produkční průřez

  • Portable RAG, router, policy broker. Guardrails a audit. Nástroje v read-only a simulaci.

Kapitola D: Rozšíření a optimalizace

  • Škálujte na další týmy. Přidejte cache a re-ranking. Zvažte self-host pro stabilní cesty.

Kapitola E: Standardizace a kultura

  • Standardy promptů, politik a nástrojů. Školení. Pravidelné revize TCO a kvality, úpravy routingu.

Antipatterny a varovné příznaky

  • Fixace na cenu za 1 000 tokenů. Ignoruje retrieval, filtry, re-try, people a incidenty.
  • Monovendor bez routeru. Zdravá diverzita a fallback šetří náklady i nervy.
  • Žádné evaly a CI brány. Kvalita i náklady se rozpadnou při první změně.
  • Agent bez zero-trust. Nástrojové akce bez capability tokenů a schvalování jsou pozvánkou k problémům.
  • Chybějící incident response. Každá minuta navíc při incidentu stojí peníze a reputaci.

FAQ

Je self-host vždy levnější než managed?

Ne. Levnější je u stabilních vysokých objemů s disciplinovaným provozem. U malých a proměnlivých workloadů vede managed.

Má smysl multicloud od začátku?

Lehce ano. Přidejte router a druhý zdroj inference pro PoV a fallback. Plný multicloud má smysl, až když to ospravedlní náklady, latence nebo regulace.

Jak minimalizovat lock-in?

Udržujte přenositelnost v RAG a nástrojích, používejte portable embeddings, abstraktní klienta pro inference a smluvní export dat a logů.

Jak měřit kvalitu?

Automatizované eval sady pro přesnost, věrnost, citace a latenci. Lidské hodnocení pro kritické případy a kalibraci. CI brány před releasem.

Co dělat při incidentu?

Circuit breakers na nástroje, bezpečný fallback, sběr důkazů, komunikace dle šablon, právní notifikace, post-mortem a retesty.


Závěr a doporučení

AI platforma výběr je rozhodnutí o právech, nákladech a rychlosti inovace. Začněte u hodnoty a rizik. V PoV měřte kvalitu, latenci a náklady na identických datech. Stavte přenositelnost do RAG a nástrojů, abyste mohli měnit inference bez přepisování aplikace. Zkraťte čas k hodnotě přes managed, ale myslete na TCO a lock-in. Tam, kde dává ekonomika smysl, přidejte self-host inference. Vždy držte bezpečnostní disciplínu: zero-trust pro nástroje, ACL enforcement v RAG, guardrails a audit. Tím získáte to podstatné: rychlost bez chaosu a úspory bez kompromisu na kvalitě.

Přílohy

P1. Mini kalkulačka TCO (postup)

  1. Sezení: počet tahů, vstupní a výstupní tokeny, p95, re-try míra.
  2. Retrieval: dotazy, top K, re-ranking, egress, indexace.
  3. Guardrails: detekce na vstupu a výstupu, redakce PII.
  4. Nástroje: simulace, commity, schvalování, rollbacky.
  5. Observabilita: tracing, logy, metriky, sampling, retenční politika.
  6. People: alokace času SRE, ML, SecOps, podpora uživatelů.

P2. Checklist portability

  • Abstraktní klient pro inference. Test s dvěma poskytovateli.
  • Portable embeddings a export vektorů.
  • Standardizovaná schémata nástrojů a idempotence.
  • RAG s citacemi a enforcementem ACL u vás.
  • Smluvní export logů, eval dat a artefaktů.

P3. Glossář

TCO
Celkové náklady vlastnictví včetně variabilních a fixních složek provozu a lidí.
Lock-in
Závislost na vendoru ztěžující migraci bez nákladů a ztráty kvality.
RAG
Retrieval augmented generation. Vyhledání relevantního kontextu a generování odpovědi s citacemi.
Router
Orchestrátor, který rozhoduje, který model či platforma dotaz zpracuje.
Guardrails
Bezpečnostní a kvalitativní zábrany na vstupu i výstupu modelu.
Přejít nahoru