Multimodální RAG: jednotné vyhledávání a odpovídání nad PDF, tabulkami, obrázky a CAD

Multimodální RAG posouvá vyhledávání a generování odpovědí z textového světa do reality firemních dat, kde se rozhoduje nad PDF dokumenty, tabulkami, screenshoty, fotografiemi výrobků, schématy i 2D a 3D CAD výkresy. Cílem je, aby se uživatel neptal jednotlivých systémů zvlášť, ale kladl přirozené dotazy a dostal podložené, citované a srozumitelné odpovědi bez ohledu na to, v jakém formátu a kde data leží. Tenhle článek nabízí hluboký, praktický pohled na architekturu, metodiku, governance a měření kvality multimodálního RAG řešení v podnikovém prostředí. více o firemních datech a AI.


Proč multimodální RAG právě teď

Dnešní znalosti firem nejsou jen v textu. Klíčové informace bývají zamčené v PDF přílohách, cenících a manuálech, ve složitých tabulkách, na produktových fotografiích, v procesních schématech a ve výkresové dokumentaci. Klasické přístupy cílí na text a ignorují vizuální kontext a strukturu tabulek, což se v praxi projevuje slepými místy: uživatel se odpovědi domáhá ručně, přepíná systémy a ztrácí čas. Multimodální RAG tyto hranice maže. Spojuje různé modality do jednoho vyhledání a vrací odpovědi s přesnou citací zdroje a často i s vizuální ukázkou relevantní části dokumentu.

  • Realita dat – PDF a obrázky dominují dokumentaci, tabulky nesou číselné pravdy, CAD definuje fyzický svět.
  • Riziko chyb – ruční interpretace tabulek a výkresů je pomalá a náchylná k omylu.
  • Náklady času – znalostní pracovník tráví hodiny hledáním v přílohách a složkách.
  • Regulace a audit – citace zdrojů a prokazatelnost jsou nutné. Multimodální RAG podporuje obojí.

Co je multimodální RAG a jak se liší od klasického RAG

RAG je zkratka pro Retrieval Augmented Generation. Klasický RAG přijme dotaz, vyhledá relevantní textové pasáže, ty vloží do kontextu modelu a vygeneruje odpověď s odkazy. Multimodální RAG dělá totéž, ale napříč modalitami. Umí vyhledat tabulkovou buňku, výřez obrázku, stranu PDF i výřez CAD dílu a všechny tyto nálezy zkombinovat do jedné odpovědi.

  • Více indexů – pro text, tabulky, obrázky a CAD existují specializované indexy, které se dotazují koordinovaně.
  • Fúze výsledků – výsledky se re-rankují a odměřují podle relevance, spolehlivosti a čitelnosti.
  • Odpověď s multimodální citací – text vysvětlí, tabulka doloží čísly, obrázek ukáže výřez, CAD poskytne referenci na díl.

Typy dat: PDF, tabulky, obrázky, CAD a jejich specifika

Každá modalita vyžaduje jiný přístup k ingestu, reprezentaci a citování. Základem je zachovat strukturu a umožnit přesný návrat na zdroj.

Modalita Typické zdroje Výzvy Praktické tipy
PDF Manuály, smlouvy, reporty, datasheety Vícesloupcový layout, footery, nekvalitní skeny Layout-aware extrakce, segmentace na sekce, odkaz na stránku a souřadnice
Tabulky XLSX, CSV, tabulky v PDF Sloučené buňky, hierarchie, jednotky a měny Normalizace jednotek, tabulkové embeddings, citace na úroveň buňky
Obrázky Schémata, fotografie, snímky obrazovky Text v obrazu, nízké rozlišení, diagramová logika OCR, VLM popisy, detekce objektů a výřezy
CAD DWG, DXF, STEP, IGES, STL, výkresy, sestavy Geometrie, vrstvy, měřítka, BOM vazby Export 2D náhledů, extrakce metadat a BOM, grafové reprezentace dílů

Referenční architektura end-to-end

Multimodální RAG tvoří čtyři hlavní okruhy: ingest a obohacení dat, indexing a vektorizace, orchestrace dotazu a generování odpovědi, governance a observabilita. Níže je praktická skladba vrstev, která funguje v podnikovém nasazení.

  1. Ingest a obohacení – připojení k DMS, ECM, cloud úložištím, PLM a sdíleným diskům. Dedup, verze, extrakce metadat, layout analýza, OCR, tabulkový parser, generování náhledů a výřezů, BOM a kusovníky.
  2. Indexy a vektory – textový index, tabulkový index, obrazový index a CAD index. Každý s vlastním optimalizovaným embeddingem a strukturou klíčů pro rychlý návrat zdroje.
  3. Orchestrátor dotazu – porozumění dotazu, výběr modalit, hybridní vyhledávání, re-ranking a agregace nálezů, sestavení kontextu a návrh odpovědi.
  4. Odpověď a citace – generování s přísným groundingem, citace na stránku, buňku, výřez, díl CAD. Možnost vrátit vizuální přílohy a interaktivní prvky.
  5. Governance – přístupová práva, auditní logy, PII a IP ochrana, metriky kvality a driftu, alertry a SLA.

PDF ingest, segmentace a citace na úrovni pasáže

PDF je často směs textu, tabulek a obrázků. První zásada zní: extrahovat layout-aware, tedy rozpoznat sloupce, nadpisy, seznamy, captiony obrázků i tabulek. Druhá zásada: segmentovat dokument do logických chunků, které se dají citovat a vracet uživateli.

Best practices

  • Segmentace – stránka se dělí na sekce podle nadpisů, poté na odstavce. Chunky udržujte krátké a soudržné, ideálně 500 – 1500 znaků s přesahem.
  • Citace – ke každému chunku uložte dokument, stránku, souřadnice bounding boxu, nadpisovou hierarchii a hash verze.
  • Obrázky a tabulky – uložit zvlášť jako referencované objekty s captiony a bounding boxy. V textu zanechat placeholder s odkazem.
  • OCR a kvalita – u skenů používat OCR s opravami. Pokud textový layer existuje, OCR jen pro grafiku a marginálie.

Takto připravený PDF korpus umožní vyhledání pasáže, její zobrazení v originálním kontextu a přesné citování i v budoucnu, kdy se dokument může verzovat.

Tabulky: normalizace, vektory a buněčné citace

Tabulky nejsou obyčejný text. Nesou typy, jednotky, hierarchie a často implicitní význam v hlavičkách. Chytré RAG pracuje s tabulkami jako s první třídou občanem.

Normalizace a obohacení

  • Hlavičky – rozbalit vícero řádků hlaviček, odstranit sloučené buňky, vytvořit jednoznačné názvy sloupců.
  • Jednotky a měny – převést na standard a uložit původní zápis pro věrné citace.
  • Typy – datové typy sloupců držet explicitně, včetně kategorií a klíčů.

Vektory

  • Row embeddings – vektorizovat řádky na základě textu, čísel a kontextu tabulky.
  • Cell embeddings – pro přesné dotazy na konkrétní hodnoty v kombinaci s okolní hlavičkou a řádkem.
  • Table-level embeddings – pro vyhledání celé tabulky podle tématu a metadat.

Citování

  • Adresace – citujte na úrovni buňky, řádku i celé tabulky, včetně názvu listu a souřadnic.
  • Vizualizace – v odpovědi vracejte i malý náhled tabulky s vyznačenou oblastí a možností otevření v originálu.

Obrázky a schémata: OCR, VLM a rozumění diagramům

Obrázky obsahují text, tvary i vztahy. Multimodální RAG využívá OCR pro text v obraze a vizuálně-jazykové modely k pochopení, co na snímku je a jak to souvisí s dotazem.

Postup

  • OCR – extrahovat text, zarovnat s polohou a uložit jako vyhledatelnou vrstvu.
  • VLM captioning – stručný, faktický popis obrázku, klíčové objekty, vztahy, popisky os u grafů.
  • Detekce objektů – pro schémata a technické nákresy zvýraznit komponenty a spoje.
  • Výřezy – generovat výřezy nejrelevantnějších oblastí pro citaci v odpovědi.

Pro engineering a servis se vyplatí trénovat detektory na specifické symboly a komponenty, aby byly výřezy přesné a opakovatelné.

CAD data: 2D výkresy, 3D modely, BOM a geometrie

CAD je speciální svět. Znalosti jsou v 2D výkresech, 3D modelech, kusovnících a metadatech dílů. Uživatelé pokládají otázky typu: Kde je referenční rozměr XY, jaká je tolerance, jaké jsou povrchové úpravy, která varianta se hodí do sestavy Z, jaká je náhrada dílu, jaké jsou kolize.

Reprezentace pro RAG

  • 2D výkresy – export do vysoce kvalitních PDF nebo obrázků se zachováním vrstev a měřítek, OCR popisek a tabulek, extrakce rozměrů a tolerancí do struktury.
  • 3D modely – náhledy z několika úhlů, bounding box charakteristiky, zjednodušená topologie, klíčové kóty a kvalifikátory z metadat.
  • BOM a varianty – kusovníky a vazby na sestavy ukládat jako graf, se schopností dotazu po cestě sestavou a alternativách.

Citace a návrat do CAD

  • Deep link – odkaz na výkres se stránkou a měřítkem, případně na view v PLM.
  • Výřez – zvýraznit oblouk, notu, toleranční značku či tabulku povrchů.
  • Text + čísla – odpověď musí kombinovat popis, konkrétní hodnoty a přesný zdroj.

Vektorizace a fúze modalit: jednotný vs. více-prostorový přístup

Tvrdá volba v multimodálním RAG: snažit se vše nacpat do jednoho společného embeddingu, nebo udržovat specializované vektorové prostory a výsledky fúzovat až po retrievalu. Praxe ve firmách favorizuje druhou možnost, protože přináší vyšší přesnost a flexibilitu.

Dva přístupy

  • Jednotný prostor – jednoduché dotazování, ale kompromisy v přesnosti u tabulek a CAD.
  • Více-prostorový – text, tabulky, obrázky, CAD každý zvlášť. Orchestrátor dotazu agreguje, re-rankuje a skládá.

Re-ranking a fúze

  • Cross-encoder – znovu ohodnocení top K nálezů podle dotazu a obsahu.
  • Modalitní váhy – váhy podle dotazu a záměru, např. číselné otázky preferují tabulky.
  • Důkazní síla – vyšší skóre pro zdroje s přesným číselným shodám nebo shodě notace.

Porozumění dotazu a routování na modality

Dotazy nejsou rovné. Orchestrátor rozpoznává záměr, navrhne vhodné modality a navíc dotaz rozšíří o synonyma a jednotkové převody.

  • Intent a entity – identifikovat, zda jde o číselný dotaz, návrhovou otázku, vizuální porovnání, citaci normy, rozměr nebo tolerance.
  • Synonyma a jednotky – přepočet mm – inch, psi – bar, kód dílu – název, variantní značení.
  • Modality routing – pro každou modalitu vytvořit specializovaný dotaz a poté sloučit výsledky.

Retrieval strategie: hybridní vyhledávání a re-ranking

Robustní vyhledávání kombinuje lexical a dense přístupy. Lexical pomáhá u přesných pojmů a čísel, dense u významové blízkosti a parafrází.

  • Hybrid – BM25 + embedding search se sloučením skóre.
  • Filtry – metadata document_type, autor, verze, datum, systém, jazyk, přístupová práva.
  • Hierarchické vyhledávání – nejdřív dokumenty, pak stránky a pasáže, u tabulek nejdřív listy a tabulky, pak buňky.
  • Top K a diverzita – zajistit pokrytí různých zdrojů, ne jen shluk podobných nálezů.

Skládání odpovědi: grounding, citace, snímky a výřezy

Odpověď musí být užitečná, ověřitelná a vizuálně přehledná. Generativní model má povoleno používat jen dodaný kontext. Roli hraje i forma prezentace: krátká odpověď, detaily v rozbalovací části, citace a přímé odkazy do zdroje.

  • Struktura – nejprve stručné sdělení, poté odůvodnění a nakonec citace.
  • Citace – PDF stránka a koordináty, tabulková buňka či řádek, printscreen výřezu obrázku, deep link do CAD.
  • Vizuální přílohy – zobrazení malého náhledu s vyznačením oblasti, možnost kliknout do originálu.
  • Limity a nejistota – pokud existuje více variant nebo rozpory, odpověď to výslovně uvede a navrhne kroky.

Bezpečnost, governance, PII a IP ochrana

Multimodální RAG pracuje s citlivými dokumenty a duševním vlastnictvím. Proto vyžaduje přísnou kontrolu přístupů a audit.

  • ACL a dědičnost – přístup kopíruje práva zdroje. RAG nesmí odhalit nic, co uživatel v DMS neuvidí.
  • Redakce a maskování – PII a smluvní citlivé údaje maskovat nebo vynechat z indexu.
  • On-prem a šifrování – citlivé indexy držet on-prem nebo v privátním cloudu. Šifrovat data v klidu i v přenosu.
  • Auditní logy – dotazy, výsledky, zobrazení citlivých výřezů a exporty mít v logu pro audit a reakci na incident.

Evaluace kvality a spolehlivosti

Kvalita multimodálního RAG se měří ve dvou krocích: jak dobře najdu zdroj a jak věrně ho odpověď využije. Bez disciplinované evaluace systém časem degraduje.

Retrieval metriky

  • Recall@K – zda je správný zdroj v top K návrzích.
  • nDCG – kvalita žebříčku relevance.
  • Coverage – podíl dotazů, kde existuje citovatelný zdroj.

Odpověď a věrnost

  • Faithfulness – odpověď neobsahuje fakta mimo citovaný kontext.
  • Attribution – každá klíčová věta má citaci.
  • Usefulness – subjektivní užitečnost pro roli uživatele.

Multimodální aspekty

  • Tabulky – správná buňka a interpretace jednotek.
  • Obrázky – relevantní výřez a správný popis.
  • CAD – správný díl, kóta a tolerance.

Provoz, výkon, náklady a SLA

Multimodální řešení bývá náročnější na CPU, GPU a úložiště. Dobrá architektura drží latenci a náklady pod kontrolou.

  • Latence – cíl je pod 2 – 4 s pro běžný dotaz. Náročné výřezy a CAD mohou být delší, proto asynchronní načítání příloh.
  • Caching – výsledky vyhledání a odpovědi často cachovat, invalidovat při změně verze dokumentu.
  • Batching a warmup – u VLM a cross-encodérů předhřívat a dávkovat.
  • Cost control – vyhledávání provádět dense jen tam, kde lexical nestačí, preferovat levnější re-ranking, těžké modely vyvolat až na užší set.

Napojení na DMS, PLM, ERP, ECM a spolupráci

Multimodální RAG není nový silo. Musí číst i zapisovat reference do systémů, kde už lidé pracují.

  • DMS a ECM – SharePoint, Box, Google Drive, OpenText. Důraz na práva a verze.
  • PLM a CAD – Teamcenter, Windchill, Vault. Přístup k náhledům, metadatům a BOM.
  • ERP – odkazy na objednávky, kusovníky, ceníky a revize.
  • Spolupráce – Teams, Slack, Confluence. Sdílení odpovědí s citacemi, sledovatelnost vlákna.

Use-cases napříč firmou

Engineering a kvalita

  • Vyhledání tolerance a povrchů pro konkrétní díl napříč výkresy a normami.
  • Rychlá odpověď na změnu revize a dopad do sestav a BOM.
  • Srovnání variant a odkaz na přesné kóty s výřezem.

Servis a field support

  • alezení kroků postupu v PDF manuálu včetně obrázkového výřezu.
  • Identifikace komponenty z fotografie a propojení na katalog náhradních dílů.

Procurement a nabídky

  • Vyhledání parametrů a certifikací z datasheetů.
  • Porovnání tabulkových specifikací a automatické citace buněk.

Právo a compliance

  • Dotazy napříč smlouvami a normami s citací paragrafů a tabulek cen.
  • Kontrola konzistence mezi PDF dodatky a excelovými ceníky.

Prodej a zákaznická podpora

  • Rychlé odpovědi na produktové otázky z datasheetů a schémat.
  • Vysvětlení rozdílů mezi modely s vizuálními ukázkami.

Roadmapa implementace podle fází

Fáze 1 – objev a datová hygiena

  • Mapujte zdroje: DMS, ECM, PLM, sdílené složky, tabulky, PDF, CAD.
  • Definujte prioritní dotazy a role uživatelů.
  • Ujasněte přístupová práva a zásady PII a IP.

Fáze 2 – text a PDF MVP

  • Layout-aware extrakce PDF, segmentace a textový index.
  • Vyhledání a odpovědi s citacemi stránek a pasáží.

Fáze 3 – tabulky a obrázky

  • ormalizace tabulek, buněčné citace, tabulkový index.
  • OCR a VLM pro obrázky, výřezy a popisy.

Fáze 4 – CAD a PLM integrace

  • Export 2D náhledů, BOM a metadat, grafové vazby.
  • Deep linky na výkresy a vyznačené kóty.

Fáze 5 – kvalita, governance a škálování

  • Re-ranking, evaluace, fairness, logy a SLA.
  • Rozšíření na další týmy a jazyky, standardizace šablon ingestu.

Playbooky, šablony a checklisty

Checklist ingestu

  • ✔ Dedup a verze, hashování dokumentů.
  • ✔ Layout-aware PDF extrakce, OCR jen kde je nutné.
  • ✔ Tabulková normalizace, jednotky a měny.
  • ✔ Obrázkové náhledy a výřezy s bounding boxy.
  • ✔ CAD náhledy, BOM, metadata, graf vazeb.

Checklist vyhledávání

  • ✔ Hybridní dotaz lexical + dense.
  • ✔ Filtry metadat a přístupová práva.
  • ✔ Re-ranking a diverzita výsledků.

Checklist odpovědí

  • ✔ Stručné sdělení, odůvodnění, citace.
  • ✔ Vizuální přílohy a deep linky.
  • ✔ Pouze z poskytnutého kontextu.

Checklist governance

  • ✔ ACL dědičnost, PII a IP ochrana.
  • ✔ Auditní logy, metriky, alerty a SLA.
  • ✔ Retence a právo být zapomenut.

Pasti a antipatterny

  • OCR všeho za každou cenu – zhoršíte kvalitu a náklady. Preferujte text layer, OCR jen na nutné části.
  • Jeden embedding pro všechno – tabulky a CAD budou trpět. Udržte specializované indexy.
  • Bez citací – ztratíte důvěru. Každé tvrzení musí mít zdroj.
  • Ignorování práv – RAG nesmí obcházet ACL. Vyhoříte u auditu.
  • Žádná evaluace – kvalita degraduje a to tiše. Zaveďte rutinu testů a re-tréninků.

FAQ

Jak si poradí multimodální RAG s více jazyky

Držte zdroje v originálním jazyce, indexujte multijazyčně a překlady dělejte až v odpovědi. Citace vždy v originálu, aby byla ověřitelná.

Co když jsou tabulky obrovské

Chunkujte na bloky řádků a indexujte i na úroveň buněk s kontextem hlaviček. V odpovědi vracejte jen relevantní výřez a odkaz na celý list.

Jak řešit CAD, když nemám PLM

Začněte s exporty 2D náhledů, metadaty a kusovníky. BOM a vazby můžete vést v grafovém úložišti, odkazy směřovat na DMS s výkresy.

Jak chránit know-how v cloudu

Citlivé indexy držte on-prem nebo v privátním VPC, šifrujte, omezte přístupové role, auditujte a pravidelně testujte únikové scénáře.

Co je nejtěžší na škálování

Kvalita ingestu a governance. Standardizujte pipeline, validujte metadata, měřte drift a udržujte důsledné logy a eval sady.


Závěr a doporučení

Multimodální RAG je realistická cesta, jak zpřístupnit firemní znalosti napříč PDF, tabulkami, obrázky a CAD. Úspěch nestojí na jednom zázračném modelu, ale na disciplíně: kvalitní ingest s respektem k layoutu, specializované indexy, chytré routování dotazů, důsledné citace a pevná governance. Začněte tam, kde vás dnes bolí nejvíc: technická dokumentace, datasheety, tabulkové ceníky, výkresy a BOM. V pilotu dokažte zkrácení času hledání a snížení chyb. Poté přidejte další modality a týmy. n

Držte se tří zásad: 1) vše musí být ověřitelné a citované, 2) přístup k datům kopíruje práva zdroje, 3) kvalitu průběžně měřte a zlepšujte. Tím z multimodálního RAG uděláte spolehlivý nástroj, který denně šetří čas a snižuje riziko špatných rozhodnutí.

Glossář pojmů

RAG
Retrieval Augmented Generation – přístup, který kombinuje vyhledání relevantního kontextu s generativní odpovědí.
Multimodální RAG
RAG napříč modalitami – text, tabulky, obrázky, CAD – s jednotnou otázkou a odpovědí s citacemi.
OCR
Optical Character Recognition – extrakce textu z obrazu.
VLM
Vision Language Model – model chápající obraz i text, schopný popsat obrázek a odpovídat na dotazy o něm.
BOM
Bill of Materials – kusovník sestavy s díly, množstvími a verzemi.
PLM
Product Lifecycle Management – systém pro správu vývoje, dokumentace a životního cyklu výrobku.
Hybrid search
Kombinace lexical a dense vyhledávání s fúzí skóre a re-rankingem.
Přejít nahoru