Knowledge graphs + AI: propojení znalostních grafů s LLM

Znalostní grafy a velké jazykové modely (LLM) se navzájem doplňují: grafy poskytují formální, auditovatelný a dlouhodobě udržitelný „zdroj pravdy“, zatímco LLM dodávají přirozenojazykové rozhraní, generativní schopnosti a svižnou práci s neúplnými zadáními. Jejich propojení výrazně zvyšuje přesnost, snižuje halucinace a umožňuje dohledat původ každého tvrzení. Tento autoritativní průvodce vysvětluje, jak kombinovat znalostní grafy a LLM v produkčním prostředí: od budování grafu (ontologie, entity linking, extrakce faktů), přes hybridní retrieval a dotazování (SPARQL/Cypher + RAG), až po governance, bezpečnost, metriky kvality a provozní škálování.

Co je znalostní graf a proč jej propojit s LLM

Znalostní graf (Knowledge Graph, KG) je strukturovaná reprezentace reality ve formě entit (uzly) a vztahů (hrany) s jasně definovanou sémantikou (ontologie, schéma). Oproti čistě textovým korpusům přináší tři klíčové výhody: konzistenci (jedna entita = jeden identifikátor napříč všemi zdroji), explicitní vztahy (např. „Dodavatel A je schválen pro Produkt B v zemi C“) a provenienci (odkud tvrzení pochází, kdy vzniklo a kdo je vlastní).

LLM jsou naopak skvělé v porozumění přirozenému jazyku, shrnování a generování. Bez ukotvení v datech ale mohou halucinovat a obtížně se auditují. Propojením obou světů vzniká „neuro-symbolická“ AI: LLM chápe dotaz a vysvětlí odpověď, KG dodá ověřitelná fakta a pravidla. Výsledkem je vyšší přesnost, konzistence a schopnost doložit každý krok odpovědi.

Vlastnost Znalostní graf LLM Společně
Přesnost a konzistence Vysoká (schéma, pravidla) Proměnlivá (bez ukotvení) Vysoká a vysvětlitelná
Audit a citace Silná provenience Bez dat slabá Klikatelné zdroje a lineage
Jazykové rozhraní Chybí Silné Dotaz v jazyce → přesná odpověď
Rozumování Formální pravidla a cesty Heuristiky a generalizace Multi-hop s ověřením

RDF vs. property graph: jakou technologii zvolit

Znalostní graf lze implementovat dvěma dominantními přístupy: RDF/OWL (triply, SPARQL, ontologie, inferencing) a property graph (uzly a hrany s vlastnostmi, Cypher/PGQL/Gremlin). Volba závisí na požadované míře sémantiky, existujících nástrojích a typu dotazů.

Kriterium RDF/OWL (SPARQL) Property Graph (Cypher/PGQL)
Sémantika a standardy Velmi silná, ontologie, inferencing Pragmatické, flexibilní schéma
Modelování metadat o výrocích Reifikace/Named Graphs (první třída) Metadata na hranách (přirozené)
Jazyk dotazů SPARQL (deklarativní, silný pro vzory) Cypher/PGQL/Gremlin (čitelné, praktické)
Validace schématu SHACL/Shex (standardní) Constrainty na úrovni DB/ aplikace
Integrace s LLM Snadný překlad NL → SPARQL dle ontologie Snadný překlad NL → Cypher pro patterny

V praxi je běžné hybridní prostředí: některé domény v RDF (důraz na ontologii, inference, standardy), jiné v property graph (analytické cesty, doporučování, rychlé patterny). LLM může obě vrstvy sjednotit do jednoho dialogu.

Referenční architektura: LLM + KG end-to-end

  1. Ingestion a integrace: konektory na ERP/CRM/PLM, dokumenty, API a streamy; deduplikace, čištění, časové verze.
  2. Extrakce znalostí: NER, entity linking, relation extraction, normalizace a validace vůči schématu.
  3. Znalostní graf: triple store nebo property graph; ontologie, constrainty, pravidla, provenance, kvalita.
  4. Vyhledávání: lexikální (BM25), vektorové (embeddings), grafové (cesty, pattern matching) + re-ranking.
  5. Orchestrace dotazu: LLM překládá přirozený jazyk na SPARQL/Cypher, kombinuje s RAG a skládá odpověď s citacemi.
  6. Aplikace: chat/copilot, reporty, alerty; bezpečné „tool use“ (např. záznam úkolu), export do BI.
  7. Observabilita a governance: metriky kvality, drift, audit logy, životní cyklus znalostí, řízení přístupů.

Budování znalostního grafu: ontologie, entity a vztahy

Bez promyšlené sémantiky se graf promění v nestravitelný dump. Základy:

  • Ontologie: definujte třídy, vlastnosti, kardinality, domény/rozsahy. Udržujte verze schématu stejně přísně jako kód.
  • Referenční data: číselníky, taxonomie, kódy (ISO, HS, UNSPSC). Bez nich entity linking trpí.
  • Identifikátory: jedna entita = jeden stabilní identifikátor, napříč systémy a verzemi; mapy aliasů.
  • Provenience: každý fakt má čas, zdroj, autora, jistotu a právní rámec (umožní audit a „as-of“ dotazy).

Extrakce znalostí z textu a systémů: NER, RE, normalizace

Rozmanité zdroje (PDF, maily, ticketing, ERP, webové katalogy) vyžadují kombinaci modelů a pravidel:

  • NER: rozpoznání entit (osoba, firma, produkt, částka, země) včetně jazykových variant a skloňování.
  • Entity linking: mapování zmínek na existující ID v grafu; ukládejte i míru jistoty a alternativy.
  • Relation extraction: vytěžení vztahů z vět a tabulek („Dodavatel X dodává Produkt Y do Země Z od 2024-01-01“).
  • Normalizace: datumy, jednotky, měny, kódy; sjednocení na kanonické formy.
  • Validace: kontrola proti schématu (kardinality, typy, povinné vlastnosti) a deduplikace.

LLM zde funguje jako „extraction copilot“ – doplní chybějící kousky, navrhne kandidátové vztahy a vysvětlí konflikty. Vždy však ukládejte nejistotu a provenienci.

Entity resolution a identita: jak spojit duplicity

Reálný svět je špinavý: jedna firma má více názvů, produkt více kódů. Bez pevných pravidel pro entity resolution (ER) graf rychle degraduje.

  • Blocking: předvýběr kandidátů pro porovnání (hash na normalizovaný název, kategorie, země).
  • Vícekriteriální shoda: edit distance, Jaro-Winkler, embedding podobnost, shoda v IČO/VAT, adrese, doméně.
  • Pravidla a skóre: transparentní pravidla + model predikující shodu; ukládejte skóre a vysvětlení.
  • Rozhodnutí a „golden record“: sloučená identita s rodokmenem aliasů; změny jsou auditované a reverzibilní.

Dotazování: SPARQL/Cypher, semantický RAG a „graph-grounded“ odpovědi

Uživatel položí otázku v přirozeném jazyce. LLM identifikuje záměr, entity a vztahy a zvolí strategii:

  • NL → SPARQL/Cypher: překlad dotazu na grafové dotazy, jejich spuštění a převod výsledků do srozumitelné odpovědi.
  • Hybridní RAG: grafem zúží prostor (např. zjistí relevantní entity) a na ně naváže vektorovou/lexikální rešerši dokumentů.
  • Multi-hop: iterativně plní kroky (dodavatel → certifikace → smlouvy), každý krok validuje a citacemi dokládá.

Silnou stránkou je věrnost a audit: odpověď odkazuje jak na uzly a hrany grafu, tak na konkrétní stránky dokumentů.

Graph embeddings a hybridní vyhledávání

Graph embeddings (vektory pro uzly či podgrafy) umožní:

  • Semantické podobnosti: najít „podobné“ entity i bez explicitního vztahu.
  • Rychlý předvýběr: vektorově vybrat kandidáty a finálně je ověřit grafovými pravidly.
  • Hybrid text+graph: embeddingy kombinují textová pole a topologii pro robustnější vyhledávání.

Po vektorovém předvýběru aplikujte re-ranking (např. cross-encoder) a následně validujte výsledky proti constraintům grafu (např. vyžadované certifikace).

GraphRAG vs. klasický RAG: kdy co použít

Klasický RAG připojí k LLM relevantní pasáže z dokumentů. GraphRAG nejprve dotáhne strukturovaná fakta z grafu a teprve poté, cíleně, dokumenty. Výhody GraphRAG:

  • Vyšší precision díky ohraničení dotazu na přesné entity a vztahy.
  • Nižší náklady: méně slepých rešerší, kratší kontext, méně tokenů.
  • Audit a stabilita: vysvětlitelné cesty a citace, menší náchylnost k halucinacím.

Klasický RAG je vhodný pro volná témata a „první krok“; GraphRAG exceluje v procesních otázkách, compliance a rozhodování.

Orchestrace a agenti: multi-hop rozumování nad grafem

Agenti rozloží komplexní úlohu na kroky a každý krok dokládají daty:

  • Plan-and-execute: plán grafových dotazů → vykonání → kontrola výsledků → syntéza.
  • Multi-agent: specializovaní agenti (např. právo, logistika, finance) si předávají výsledky přes graf jako „sdílenou paměť“.
  • Guardraily: pravidla grafu brání návratům bez požadovaných podmínek (např. platná certifikace).

Modelování času a nejistoty: bitemporalita, důvěra a verze

Praktický graf musí zvládnout čas a nejistotu:

  • Bitemporalita: rozlišení „platné v reálném světě“ vs. „známé systému“; umožní zpětné analýzy.
  • Verzování: změny faktů i schématu; „as-of“ dotazy a reprodukovatelnost odpovědí.
  • Důvěra: ukládejte skóre jistoty extrakce a linkingu; LLM pak vyjadřuje nejistotu a ž ádá upřesnění.

Provenience, citace a auditovatelnost

Každý uzel a hrana má metadata: zdroj, čas, autor, jistota, právní rámec. Odpověď LLM proto nese:

  • odkazy na konkrétní uzly/hrany (ID dodavatele, ID certifikace),
  • odkazy na primární dokumenty (stránka, paragraf),
  • časovou platnost („informace platná k datu…“).

Tento „evidence pack“ zvyšuje důvěru, zkracuje audit a umožňuje retrospektivu („proč jsme doporučili tento krok?“).

Governance, bezpečnost a kvalita dat

Graf je dlouhodobé aktivum. Vyžaduje pravidla obdobná datovým skladům i bezpečnostní architektuře:

  • RBAC/ABAC: práva až na úroveň hrany/atributu; maskování PII.
  • Validace a constrainty: kardinality, typy, unikátní klíče; automatická kontrola při ingestu.
  • Data lineage: cesta od zdrojového systému až k uzlu; SLA kvality a křížové kontroly.
  • Šifrování a perimetr: TLS, segmentace, egress politika pro LLM, redakce PII před odesláním do modelu.
  • Modelová governance: verze LLM, prompty, guardraily, re-ranking; schvalování změn a auditní stopy.

Metriky kvality a výkonu

Měřte napříč vrstvami, jinak zlepšujete naslepo:

  • Extrakce: přesnost/úplnost NER a vztahů, úspěšnost linkingu, počet konfliktů a duplicit.
  • Graf: pokrytí domény (chybějící entity/vztahy), porušení constraintů, latence dotazů.
  • Retrieval: Recall@k, MRR, nDCG; kvalita re-rankingu a coverage „sirotků“.
  • Odpověď LLM: faithfulness (podloženost citacemi), míra halucinací, stabilita formátu.
  • Byznys KPI: zkrácení času rešerše, méně eskalací, lepší shoda s pravidly, snížení rizik.

On-line doplňte A/B testy: čas do odpovědi, re-prompt rate, spokojenost uživatelů, přesnost rozhodnutí podle vzorku auditovaných případů.

Výkon, škálování a náklady

Produkční nasazení vyžaduje disciplínu ve výkonu a TCO:

  • Hybridní dotazování: grafem omezte kandidáty, až poté vektorová rešerše a re-ranking; šetří latenci i tokeny.
  • Context budgeting: do promptu vkládejte jen fakta s přidanou hodnotou; zbytečný kontext prodražuje inference.
  • Cache: odpovědi a často používané cesty v grafu; invalidace při změně relevantních uzlů/hran.
  • Kvantizace a runtime: INT8/INT4 pro LLM, komprese vektorových indexů (např. IVF-PQ) pro velké korpusy.
  • Optimalizace grafových dotazů: indexy, statistiky, plánovač; rozumné patterny a limitace hloubky.

Tooling stack: databáze, validace, orchestrace

  • Databáze: triple store (SPARQL) a/nebo property graph (Cypher/PGQL); volba podle dotazů a sémantiky.
  • Validace: standardizované rámce pro kontrolu schématu a kvality, automatizované při ingestu.
  • Orchestrace: workflow pro extrakci, validaci, linkování, publikaci do grafu a indexů; CI/CD pro znalosti.
  • Observabilita: metriky a tracing pro kroky extrakce, dotazy do grafu a inference LLM.
  • Evidence: model registry (LLM/embeddingy/re-ranker), verze ontologie a indexů, auditní logy.

Use-cases napříč obory

Právní a compliance

Propojení smluv, protistran, jurisdikcí a regulací v grafu dovolí odpovídat na dotazy typu „jaké závazky vyplývají pro produkt X v zemi Y“ s citacemi paragrafů. LLM vytvoří srozumitelné shrnutí, graf zajistí přesnost a dohledatelnost.

Dodavatelské řetězce

Graf spojuje dodavatele, materiály, certifikace, trhy, lead-times a rizika. LLM vysvětlí dopady změn (např. výpadek dodavatele) a nabídne varianty s prokazatelným zdůvodněním skrze cesty v grafu.

Životní cyklus produktu a R&D

Graf jako „paměť“ pro požadavky, testy, incidenty a změny konstrukce. LLM generuje technická shrnutí, navrhuje podobné konstrukční vzory a vyvaruje se známých chyb díky explicitním vztahům.

Zdravotnictví a farmacie

Entity pacient, diagnóza, léčivo, kontraindikace, guideline. LLM odpovídá s oporou v grafech a literatuře, což usnadňuje audit i soulad s etikou a regulací.

Finanční služby

Graf klientů, účtů, transakcí a vazeb, napojený na screening sankčních seznamů. LLM pomáhá analytikovi vysvětlit riziko a generuje strukturované reporty s odkazy na cesty v grafu.

Telco a průmysl

Konfigurace zařízení, topologie sítě, incidenty, zásahy a dopady; LLM vytváří krokové návody s citacemi ze znalostní báze a grafu změn.

Roadmapa adopce: od pilotu k podnikovému nasazení

  1. Vymezení domény a ontologie: minimální, ale pevné jádro tříd a vztahů; identifikátory a kvalita.
  2. Pilot extrakce a linkingu: NER, entity linking, první vztahy z reálných dokumentů a systémů; validace proti schématu.
  3. Hybridní dotazování: přirozený jazyk → grafové dotazy → RAG → odpověď s citacemi; měřte faithfulness a recall.
  4. Hardening: SSO, RBAC/ABAC, audit logy, PII redakce, evidence provenance, monitoring kvality.
  5. Škálování: další domény, vícejazyčnost, multi-tenant, pravidelné „as-of“ evaluace a aktualizace ontologie.

Nejčastější chyby a jak se jim vyhnout

  • Graf bez ontologie: hromady uzlů bez sémantiky se rychle stanou nestravitelným dumpem.
  • Slepé spoléhání na LLM: bez grafu, constraintů a citací roste riziko halucinací a auditních problémů.
  • Chybějící identita: bez stabilních ID je entity linking i deduplikace utrpení.
  • Přetížený prompt: vkládání desítek pasáží bez selekce zvyšuje cenu a snižuje kvalitu.
  • Bez metrik: bez Recall@k, faithfulness a audit logů je zlepšování náhodné.

Závěr: neuro-symbolický duet pro přesnou a důvěryhodnou AI

Propojení znalostních grafů a LLM přináší to nejlepší z obou světů: formální, auditovatelná fakta a přirozenou, srozumitelnou komunikaci. Graf dává hranice, kontext a zdroje, LLM dokáže najít cestu dotazem v jazyce člověka a vysvětlit závěr. Klíčem k úspěchu je pečlivá ontologie, důsledná provenience, hybridní retrieval, disciplinovaná orchestrace a průběžné měření kvality. S takovým základem získáte odpovědi, které jsou nejen užitečné a rychlé, ale také obhajitelné před uživateli, managementem i auditory — a to je v éře AI rozhodující konkurenční výhoda.

Přejít nahoru