Znalostní grafy a velké jazykové modely (LLM) se navzájem doplňují: grafy poskytují formální, auditovatelný a dlouhodobě udržitelný „zdroj pravdy“, zatímco LLM dodávají přirozenojazykové rozhraní, generativní schopnosti a svižnou práci s neúplnými zadáními. Jejich propojení výrazně zvyšuje přesnost, snižuje halucinace a umožňuje dohledat původ každého tvrzení. Tento autoritativní průvodce vysvětluje, jak kombinovat znalostní grafy a LLM v produkčním prostředí: od budování grafu (ontologie, entity linking, extrakce faktů), přes hybridní retrieval a dotazování (SPARQL/Cypher + RAG), až po governance, bezpečnost, metriky kvality a provozní škálování.
Co je znalostní graf a proč jej propojit s LLM
Znalostní graf (Knowledge Graph, KG) je strukturovaná reprezentace reality ve formě entit (uzly) a vztahů (hrany) s jasně definovanou sémantikou (ontologie, schéma). Oproti čistě textovým korpusům přináší tři klíčové výhody: konzistenci (jedna entita = jeden identifikátor napříč všemi zdroji), explicitní vztahy (např. „Dodavatel A je schválen pro Produkt B v zemi C“) a provenienci (odkud tvrzení pochází, kdy vzniklo a kdo je vlastní).
LLM jsou naopak skvělé v porozumění přirozenému jazyku, shrnování a generování. Bez ukotvení v datech ale mohou halucinovat a obtížně se auditují. Propojením obou světů vzniká „neuro-symbolická“ AI: LLM chápe dotaz a vysvětlí odpověď, KG dodá ověřitelná fakta a pravidla. Výsledkem je vyšší přesnost, konzistence a schopnost doložit každý krok odpovědi.
| Vlastnost | Znalostní graf | LLM | Společně |
|---|---|---|---|
| Přesnost a konzistence | Vysoká (schéma, pravidla) | Proměnlivá (bez ukotvení) | Vysoká a vysvětlitelná |
| Audit a citace | Silná provenience | Bez dat slabá | Klikatelné zdroje a lineage |
| Jazykové rozhraní | Chybí | Silné | Dotaz v jazyce → přesná odpověď |
| Rozumování | Formální pravidla a cesty | Heuristiky a generalizace | Multi-hop s ověřením |
RDF vs. property graph: jakou technologii zvolit
Znalostní graf lze implementovat dvěma dominantními přístupy: RDF/OWL (triply, SPARQL, ontologie, inferencing) a property graph (uzly a hrany s vlastnostmi, Cypher/PGQL/Gremlin). Volba závisí na požadované míře sémantiky, existujících nástrojích a typu dotazů.
| Kriterium | RDF/OWL (SPARQL) | Property Graph (Cypher/PGQL) |
|---|---|---|
| Sémantika a standardy | Velmi silná, ontologie, inferencing | Pragmatické, flexibilní schéma |
| Modelování metadat o výrocích | Reifikace/Named Graphs (první třída) | Metadata na hranách (přirozené) |
| Jazyk dotazů | SPARQL (deklarativní, silný pro vzory) | Cypher/PGQL/Gremlin (čitelné, praktické) |
| Validace schématu | SHACL/Shex (standardní) | Constrainty na úrovni DB/ aplikace |
| Integrace s LLM | Snadný překlad NL → SPARQL dle ontologie | Snadný překlad NL → Cypher pro patterny |
V praxi je běžné hybridní prostředí: některé domény v RDF (důraz na ontologii, inference, standardy), jiné v property graph (analytické cesty, doporučování, rychlé patterny). LLM může obě vrstvy sjednotit do jednoho dialogu.
Referenční architektura: LLM + KG end-to-end
- Ingestion a integrace: konektory na ERP/CRM/PLM, dokumenty, API a streamy; deduplikace, čištění, časové verze.
- Extrakce znalostí: NER, entity linking, relation extraction, normalizace a validace vůči schématu.
- Znalostní graf: triple store nebo property graph; ontologie, constrainty, pravidla, provenance, kvalita.
- Vyhledávání: lexikální (BM25), vektorové (embeddings), grafové (cesty, pattern matching) + re-ranking.
- Orchestrace dotazu: LLM překládá přirozený jazyk na SPARQL/Cypher, kombinuje s RAG a skládá odpověď s citacemi.
- Aplikace: chat/copilot, reporty, alerty; bezpečné „tool use“ (např. záznam úkolu), export do BI.
- Observabilita a governance: metriky kvality, drift, audit logy, životní cyklus znalostí, řízení přístupů.
Budování znalostního grafu: ontologie, entity a vztahy
Bez promyšlené sémantiky se graf promění v nestravitelný dump. Základy:
- Ontologie: definujte třídy, vlastnosti, kardinality, domény/rozsahy. Udržujte verze schématu stejně přísně jako kód.
- Referenční data: číselníky, taxonomie, kódy (ISO, HS, UNSPSC). Bez nich entity linking trpí.
- Identifikátory: jedna entita = jeden stabilní identifikátor, napříč systémy a verzemi; mapy aliasů.
- Provenience: každý fakt má čas, zdroj, autora, jistotu a právní rámec (umožní audit a „as-of“ dotazy).
Extrakce znalostí z textu a systémů: NER, RE, normalizace
Rozmanité zdroje (PDF, maily, ticketing, ERP, webové katalogy) vyžadují kombinaci modelů a pravidel:
- NER: rozpoznání entit (osoba, firma, produkt, částka, země) včetně jazykových variant a skloňování.
- Entity linking: mapování zmínek na existující ID v grafu; ukládejte i míru jistoty a alternativy.
- Relation extraction: vytěžení vztahů z vět a tabulek („Dodavatel X dodává Produkt Y do Země Z od 2024-01-01“).
- Normalizace: datumy, jednotky, měny, kódy; sjednocení na kanonické formy.
- Validace: kontrola proti schématu (kardinality, typy, povinné vlastnosti) a deduplikace.
LLM zde funguje jako „extraction copilot“ – doplní chybějící kousky, navrhne kandidátové vztahy a vysvětlí konflikty. Vždy však ukládejte nejistotu a provenienci.
Entity resolution a identita: jak spojit duplicity
Reálný svět je špinavý: jedna firma má více názvů, produkt více kódů. Bez pevných pravidel pro entity resolution (ER) graf rychle degraduje.
- Blocking: předvýběr kandidátů pro porovnání (hash na normalizovaný název, kategorie, země).
- Vícekriteriální shoda: edit distance, Jaro-Winkler, embedding podobnost, shoda v IČO/VAT, adrese, doméně.
- Pravidla a skóre: transparentní pravidla + model predikující shodu; ukládejte skóre a vysvětlení.
- Rozhodnutí a „golden record“: sloučená identita s rodokmenem aliasů; změny jsou auditované a reverzibilní.
Dotazování: SPARQL/Cypher, semantický RAG a „graph-grounded“ odpovědi
Uživatel položí otázku v přirozeném jazyce. LLM identifikuje záměr, entity a vztahy a zvolí strategii:
- NL → SPARQL/Cypher: překlad dotazu na grafové dotazy, jejich spuštění a převod výsledků do srozumitelné odpovědi.
- Hybridní RAG: grafem zúží prostor (např. zjistí relevantní entity) a na ně naváže vektorovou/lexikální rešerši dokumentů.
- Multi-hop: iterativně plní kroky (dodavatel → certifikace → smlouvy), každý krok validuje a citacemi dokládá.
Silnou stránkou je věrnost a audit: odpověď odkazuje jak na uzly a hrany grafu, tak na konkrétní stránky dokumentů.
Graph embeddings a hybridní vyhledávání
Graph embeddings (vektory pro uzly či podgrafy) umožní:
- Semantické podobnosti: najít „podobné“ entity i bez explicitního vztahu.
- Rychlý předvýběr: vektorově vybrat kandidáty a finálně je ověřit grafovými pravidly.
- Hybrid text+graph: embeddingy kombinují textová pole a topologii pro robustnější vyhledávání.
Po vektorovém předvýběru aplikujte re-ranking (např. cross-encoder) a následně validujte výsledky proti constraintům grafu (např. vyžadované certifikace).
GraphRAG vs. klasický RAG: kdy co použít
Klasický RAG připojí k LLM relevantní pasáže z dokumentů. GraphRAG nejprve dotáhne strukturovaná fakta z grafu a teprve poté, cíleně, dokumenty. Výhody GraphRAG:
- Vyšší precision díky ohraničení dotazu na přesné entity a vztahy.
- Nižší náklady: méně slepých rešerší, kratší kontext, méně tokenů.
- Audit a stabilita: vysvětlitelné cesty a citace, menší náchylnost k halucinacím.
Klasický RAG je vhodný pro volná témata a „první krok“; GraphRAG exceluje v procesních otázkách, compliance a rozhodování.
Orchestrace a agenti: multi-hop rozumování nad grafem
Agenti rozloží komplexní úlohu na kroky a každý krok dokládají daty:
- Plan-and-execute: plán grafových dotazů → vykonání → kontrola výsledků → syntéza.
- Multi-agent: specializovaní agenti (např. právo, logistika, finance) si předávají výsledky přes graf jako „sdílenou paměť“.
- Guardraily: pravidla grafu brání návratům bez požadovaných podmínek (např. platná certifikace).
Modelování času a nejistoty: bitemporalita, důvěra a verze
Praktický graf musí zvládnout čas a nejistotu:
- Bitemporalita: rozlišení „platné v reálném světě“ vs. „známé systému“; umožní zpětné analýzy.
- Verzování: změny faktů i schématu; „as-of“ dotazy a reprodukovatelnost odpovědí.
- Důvěra: ukládejte skóre jistoty extrakce a linkingu; LLM pak vyjadřuje nejistotu a ž ádá upřesnění.
Provenience, citace a auditovatelnost
Každý uzel a hrana má metadata: zdroj, čas, autor, jistota, právní rámec. Odpověď LLM proto nese:
- odkazy na konkrétní uzly/hrany (ID dodavatele, ID certifikace),
- odkazy na primární dokumenty (stránka, paragraf),
- časovou platnost („informace platná k datu…“).
Tento „evidence pack“ zvyšuje důvěru, zkracuje audit a umožňuje retrospektivu („proč jsme doporučili tento krok?“).
Governance, bezpečnost a kvalita dat
Graf je dlouhodobé aktivum. Vyžaduje pravidla obdobná datovým skladům i bezpečnostní architektuře:
- RBAC/ABAC: práva až na úroveň hrany/atributu; maskování PII.
- Validace a constrainty: kardinality, typy, unikátní klíče; automatická kontrola při ingestu.
- Data lineage: cesta od zdrojového systému až k uzlu; SLA kvality a křížové kontroly.
- Šifrování a perimetr: TLS, segmentace, egress politika pro LLM, redakce PII před odesláním do modelu.
- Modelová governance: verze LLM, prompty, guardraily, re-ranking; schvalování změn a auditní stopy.
Metriky kvality a výkonu
Měřte napříč vrstvami, jinak zlepšujete naslepo:
- Extrakce: přesnost/úplnost NER a vztahů, úspěšnost linkingu, počet konfliktů a duplicit.
- Graf: pokrytí domény (chybějící entity/vztahy), porušení constraintů, latence dotazů.
- Retrieval: Recall@k, MRR, nDCG; kvalita re-rankingu a coverage „sirotků“.
- Odpověď LLM: faithfulness (podloženost citacemi), míra halucinací, stabilita formátu.
- Byznys KPI: zkrácení času rešerše, méně eskalací, lepší shoda s pravidly, snížení rizik.
On-line doplňte A/B testy: čas do odpovědi, re-prompt rate, spokojenost uživatelů, přesnost rozhodnutí podle vzorku auditovaných případů.
Výkon, škálování a náklady
Produkční nasazení vyžaduje disciplínu ve výkonu a TCO:
- Hybridní dotazování: grafem omezte kandidáty, až poté vektorová rešerše a re-ranking; šetří latenci i tokeny.
- Context budgeting: do promptu vkládejte jen fakta s přidanou hodnotou; zbytečný kontext prodražuje inference.
- Cache: odpovědi a často používané cesty v grafu; invalidace při změně relevantních uzlů/hran.
- Kvantizace a runtime: INT8/INT4 pro LLM, komprese vektorových indexů (např. IVF-PQ) pro velké korpusy.
- Optimalizace grafových dotazů: indexy, statistiky, plánovač; rozumné patterny a limitace hloubky.
Tooling stack: databáze, validace, orchestrace
- Databáze: triple store (SPARQL) a/nebo property graph (Cypher/PGQL); volba podle dotazů a sémantiky.
- Validace: standardizované rámce pro kontrolu schématu a kvality, automatizované při ingestu.
- Orchestrace: workflow pro extrakci, validaci, linkování, publikaci do grafu a indexů; CI/CD pro znalosti.
- Observabilita: metriky a tracing pro kroky extrakce, dotazy do grafu a inference LLM.
- Evidence: model registry (LLM/embeddingy/re-ranker), verze ontologie a indexů, auditní logy.
Use-cases napříč obory
Právní a compliance
Propojení smluv, protistran, jurisdikcí a regulací v grafu dovolí odpovídat na dotazy typu „jaké závazky vyplývají pro produkt X v zemi Y“ s citacemi paragrafů. LLM vytvoří srozumitelné shrnutí, graf zajistí přesnost a dohledatelnost.
Dodavatelské řetězce
Graf spojuje dodavatele, materiály, certifikace, trhy, lead-times a rizika. LLM vysvětlí dopady změn (např. výpadek dodavatele) a nabídne varianty s prokazatelným zdůvodněním skrze cesty v grafu.
Životní cyklus produktu a R&D
Graf jako „paměť“ pro požadavky, testy, incidenty a změny konstrukce. LLM generuje technická shrnutí, navrhuje podobné konstrukční vzory a vyvaruje se známých chyb díky explicitním vztahům.
Zdravotnictví a farmacie
Entity pacient, diagnóza, léčivo, kontraindikace, guideline. LLM odpovídá s oporou v grafech a literatuře, což usnadňuje audit i soulad s etikou a regulací.
Finanční služby
Graf klientů, účtů, transakcí a vazeb, napojený na screening sankčních seznamů. LLM pomáhá analytikovi vysvětlit riziko a generuje strukturované reporty s odkazy na cesty v grafu.
Telco a průmysl
Konfigurace zařízení, topologie sítě, incidenty, zásahy a dopady; LLM vytváří krokové návody s citacemi ze znalostní báze a grafu změn.
Roadmapa adopce: od pilotu k podnikovému nasazení
- Vymezení domény a ontologie: minimální, ale pevné jádro tříd a vztahů; identifikátory a kvalita.
- Pilot extrakce a linkingu: NER, entity linking, první vztahy z reálných dokumentů a systémů; validace proti schématu.
- Hybridní dotazování: přirozený jazyk → grafové dotazy → RAG → odpověď s citacemi; měřte faithfulness a recall.
- Hardening: SSO, RBAC/ABAC, audit logy, PII redakce, evidence provenance, monitoring kvality.
- Škálování: další domény, vícejazyčnost, multi-tenant, pravidelné „as-of“ evaluace a aktualizace ontologie.
Nejčastější chyby a jak se jim vyhnout
- Graf bez ontologie: hromady uzlů bez sémantiky se rychle stanou nestravitelným dumpem.
- Slepé spoléhání na LLM: bez grafu, constraintů a citací roste riziko halucinací a auditních problémů.
- Chybějící identita: bez stabilních ID je entity linking i deduplikace utrpení.
- Přetížený prompt: vkládání desítek pasáží bez selekce zvyšuje cenu a snižuje kvalitu.
- Bez metrik: bez Recall@k, faithfulness a audit logů je zlepšování náhodné.
Závěr: neuro-symbolický duet pro přesnou a důvěryhodnou AI
Propojení znalostních grafů a LLM přináší to nejlepší z obou světů: formální, auditovatelná fakta a přirozenou, srozumitelnou komunikaci. Graf dává hranice, kontext a zdroje, LLM dokáže najít cestu dotazem v jazyce člověka a vysvětlit závěr. Klíčem k úspěchu je pečlivá ontologie, důsledná provenience, hybridní retrieval, disciplinovaná orchestrace a průběžné měření kvality. S takovým základem získáte odpovědi, které jsou nejen užitečné a rychlé, ale také obhajitelné před uživateli, managementem i auditory — a to je v éře AI rozhodující konkurenční výhoda.



