Multimodální RAG: jednotné vyhledávání nad PDF, tabulkami, obrázky a CAD

Multimodální RAG posouvá vyhledávání a generování odpovědí z textového světa do reality firemních dat, kde se rozhoduje nad PDF dokumenty, tabulkami, screenshoty, fotografiemi výrobků, schématy i 2D a 3D CAD výkresy. Cílem je, aby se uživatel neptal jednotlivých systémů zvlášť, ale kladl přirozené dotazy a dostal podložené, citované a srozumitelné odpovědi bez ohledu na to, v jakém formátu a kde data leží. Tenhle článek nabízí hluboký, praktický pohled na architekturu, metodiku, governance a měření kvality multimodálního RAG řešení v podnikovém prostředí. více o firemních datech a AI.

Proč multimodální RAG právě teď

Dnešní znalosti firem nejsou jen v textu. Klíčové informace bývají zamčené v PDF přílohách, cenících a manuálech, ve složitých tabulkách, na produktových fotografiích, v procesních schématech a ve výkresové dokumentaci. Klasické přístupy cílí na text a ignorují vizuální kontext a strukturu tabulek, což se v praxi projevuje slepými místy: uživatel se odpovědi domáhá ručně, přepíná systémy a ztrácí čas. Multimodální RAG tyto hranice maže. Spojuje různé modality do jednoho vyhledání a vrací odpovědi s přesnou citací zdroje a často i s vizuální ukázkou relevantní části dokumentu.

Realita dat – PDF a obrázky dominují dokumentaci, tabulky nesou číselné pravdy, CAD definuje fyzický svět.
Riziko chyb – ruční interpretace tabulek a výkresů je pomalá a náchylná k omylu.
Náklady času – znalostní pracovník tráví hodiny hledáním v přílohách a složkách.
Regulace a audit – citace zdrojů a prokazatelnost jsou nutné. Multimodální RAG podporuje obojí.

Co je multimodální RAG a jak se liší od klasického RAG

RAG je zkratka pro Retrieval Augmented Generation. Klasický RAG přijme dotaz, vyhledá relevantní textové pasáže, ty vloží do kontextu modelu a vygeneruje odpověď s odkazy. Multimodální RAG dělá totéž, ale napříč modalitami. Umí vyhledat tabulkovou buňku, výřez obrázku, stranu PDF i výřez CAD dílu a všechny tyto nálezy zkombinovat do jedné odpovědi.

Více indexů – pro text, tabulky, obrázky a CAD existují specializované indexy, které se dotazují koordinovaně.
Fúze výsledků – výsledky se re-rankují a odměřují podle relevance, spolehlivosti a čitelnosti.
Odpověď s multimodální citací – text vysvětlí, tabulka doloží čísly, obrázek ukáže výřez, CAD poskytne referenci na díl.

Typy dat: PDF, tabulky, obrázky, CAD a jejich specifika

Každá modalita vyžaduje jiný přístup k ingestu, reprezentaci a citování. Základem je zachovat strukturu a umožnit přesný návrat na zdroj.

Modalita	Typické zdroje	Výzvy	Praktické tipy
PDF	Manuály, smlouvy, reporty, datasheety	Vícesloupcový layout, footery, nekvalitní skeny	Layout-aware extrakce, segmentace na sekce, odkaz na stránku a souřadnice
Tabulky	XLSX, CSV, tabulky v PDF	Sloučené buňky, hierarchie, jednotky a měny	Normalizace jednotek, tabulkové embeddings, citace na úroveň buňky
Obrázky	Schémata, fotografie, snímky obrazovky	Text v obrazu, nízké rozlišení, diagramová logika	OCR, VLM popisy, detekce objektů a výřezy
CAD	DWG, DXF, STEP, IGES, STL, výkresy, sestavy	Geometrie, vrstvy, měřítka, BOM vazby	Export 2D náhledů, extrakce metadat a BOM, grafové reprezentace dílů

Referenční architektura end-to-end

Multimodální RAG tvoří čtyři hlavní okruhy: ingest a obohacení dat, indexing a vektorizace, orchestrace dotazu a generování odpovědi, governance a observabilita. Níže je praktická skladba vrstev, která funguje v podnikovém nasazení.

Ingest a obohacení – připojení k DMS, ECM, cloud úložištím, PLM a sdíleným diskům. Dedup, verze, extrakce metadat, layout analýza, OCR, tabulkový parser, generování náhledů a výřezů, BOM a kusovníky.
Indexy a vektory – textový index, tabulkový index, obrazový index a CAD index. Každý s vlastním optimalizovaným embeddingem a strukturou klíčů pro rychlý návrat zdroje.
Orchestrátor dotazu – porozumění dotazu, výběr modalit, hybridní vyhledávání, re-ranking a agregace nálezů, sestavení kontextu a návrh odpovědi.
Odpověď a citace – generování s přísným groundingem, citace na stránku, buňku, výřez, díl CAD. Možnost vrátit vizuální přílohy a interaktivní prvky.
Governance – přístupová práva, auditní logy, PII a IP ochrana, metriky kvality a driftu, alertry a SLA.

PDF ingest, segmentace a citace na úrovni pasáže

PDF je často směs textu, tabulek a obrázků. První zásada zní: extrahovat layout-aware, tedy rozpoznat sloupce, nadpisy, seznamy, captiony obrázků i tabulek. Druhá zásada: segmentovat dokument do logických chunků, které se dají citovat a vracet uživateli.

Best practices

Segmentace – stránka se dělí na sekce podle nadpisů, poté na odstavce. Chunky udržujte krátké a soudržné, ideálně 500 – 1500 znaků s přesahem.
Citace – ke každému chunku uložte dokument, stránku, souřadnice bounding boxu, nadpisovou hierarchii a hash verze.
Obrázky a tabulky – uložit zvlášť jako referencované objekty s captiony a bounding boxy. V textu zanechat placeholder s odkazem.
OCR a kvalita – u skenů používat OCR s opravami. Pokud textový layer existuje, OCR jen pro grafiku a marginálie.

Takto připravený PDF korpus umožní vyhledání pasáže, její zobrazení v originálním kontextu a přesné citování i v budoucnu, kdy se dokument může verzovat.

Tabulky: normalizace, vektory a buněčné citace

Tabulky nejsou obyčejný text. Nesou typy, jednotky, hierarchie a často implicitní význam v hlavičkách. Chytré RAG pracuje s tabulkami jako s první třídou občanem.

Normalizace a obohacení

Hlavičky – rozbalit vícero řádků hlaviček, odstranit sloučené buňky, vytvořit jednoznačné názvy sloupců.
Jednotky a měny – převést na standard a uložit původní zápis pro věrné citace.
Typy – datové typy sloupců držet explicitně, včetně kategorií a klíčů.

Vektory

Row embeddings – vektorizovat řádky na základě textu, čísel a kontextu tabulky.
Cell embeddings – pro přesné dotazy na konkrétní hodnoty v kombinaci s okolní hlavičkou a řádkem.
Table-level embeddings – pro vyhledání celé tabulky podle tématu a metadat.

Citování

Adresace – citujte na úrovni buňky, řádku i celé tabulky, včetně názvu listu a souřadnic.
Vizualizace – v odpovědi vracejte i malý náhled tabulky s vyznačenou oblastí a možností otevření v originálu.

Obrázky a schémata: OCR, VLM a rozumění diagramům

Obrázky obsahují text, tvary i vztahy. Multimodální RAG využívá OCR pro text v obraze a vizuálně-jazykové modely k pochopení, co na snímku je a jak to souvisí s dotazem.

Postup

OCR – extrahovat text, zarovnat s polohou a uložit jako vyhledatelnou vrstvu.
VLM captioning – stručný, faktický popis obrázku, klíčové objekty, vztahy, popisky os u grafů.
Detekce objektů – pro schémata a technické nákresy zvýraznit komponenty a spoje.
Výřezy – generovat výřezy nejrelevantnějších oblastí pro citaci v odpovědi.

Pro engineering a servis se vyplatí trénovat detektory na specifické symboly a komponenty, aby byly výřezy přesné a opakovatelné.

CAD data: 2D výkresy, 3D modely, BOM a geometrie

CAD je speciální svět. Znalosti jsou v 2D výkresech, 3D modelech, kusovnících a metadatech dílů. Uživatelé pokládají otázky typu: Kde je referenční rozměr XY, jaká je tolerance, jaké jsou povrchové úpravy, která varianta se hodí do sestavy Z, jaká je náhrada dílu, jaké jsou kolize.

Reprezentace pro RAG

2D výkresy – export do vysoce kvalitních PDF nebo obrázků se zachováním vrstev a měřítek, OCR popisek a tabulek, extrakce rozměrů a tolerancí do struktury.
3D modely – náhledy z několika úhlů, bounding box charakteristiky, zjednodušená topologie, klíčové kóty a kvalifikátory z metadat.
BOM a varianty – kusovníky a vazby na sestavy ukládat jako graf, se schopností dotazu po cestě sestavou a alternativách.

Citace a návrat do CAD

Deep link – odkaz na výkres se stránkou a měřítkem, případně na view v PLM.
Výřez – zvýraznit oblouk, notu, toleranční značku či tabulku povrchů.
Text + čísla – odpověď musí kombinovat popis, konkrétní hodnoty a přesný zdroj.

Vektorizace a fúze modalit: jednotný vs. více-prostorový přístup

Tvrdá volba v multimodálním RAG: snažit se vše nacpat do jednoho společného embeddingu, nebo udržovat specializované vektorové prostory a výsledky fúzovat až po retrievalu. Praxe ve firmách favorizuje druhou možnost, protože přináší vyšší přesnost a flexibilitu.

Dva přístupy

Jednotný prostor – jednoduché dotazování, ale kompromisy v přesnosti u tabulek a CAD.
Více-prostorový – text, tabulky, obrázky, CAD každý zvlášť. Orchestrátor dotazu agreguje, re-rankuje a skládá.

Re-ranking a fúze

Cross-encoder – znovu ohodnocení top K nálezů podle dotazu a obsahu.
Modalitní váhy – váhy podle dotazu a záměru, např. číselné otázky preferují tabulky.
Důkazní síla – vyšší skóre pro zdroje s přesným číselným shodám nebo shodě notace.

Porozumění dotazu a routování na modality

Dotazy nejsou rovné. Orchestrátor rozpoznává záměr, navrhne vhodné modality a navíc dotaz rozšíří o synonyma a jednotkové převody.

Intent a entity – identifikovat, zda jde o číselný dotaz, návrhovou otázku, vizuální porovnání, citaci normy, rozměr nebo tolerance.
Synonyma a jednotky – přepočet mm – inch, psi – bar, kód dílu – název, variantní značení.
Modality routing – pro každou modalitu vytvořit specializovaný dotaz a poté sloučit výsledky.

Retrieval strategie: hybridní vyhledávání a re-ranking

Robustní vyhledávání kombinuje lexical a dense přístupy. Lexical pomáhá u přesných pojmů a čísel, dense u významové blízkosti a parafrází.

Hybrid – BM25 + embedding search se sloučením skóre.
Filtry – metadata document_type, autor, verze, datum, systém, jazyk, přístupová práva.
Hierarchické vyhledávání – nejdřív dokumenty, pak stránky a pasáže, u tabulek nejdřív listy a tabulky, pak buňky.
Top K a diverzita – zajistit pokrytí různých zdrojů, ne jen shluk podobných nálezů.

Skládání odpovědi: grounding, citace, snímky a výřezy

Odpověď musí být užitečná, ověřitelná a vizuálně přehledná. Generativní model má povoleno používat jen dodaný kontext. Roli hraje i forma prezentace: krátká odpověď, detaily v rozbalovací části, citace a přímé odkazy do zdroje.

Struktura – nejprve stručné sdělení, poté odůvodnění a nakonec citace.
Citace – PDF stránka a koordináty, tabulková buňka či řádek, printscreen výřezu obrázku, deep link do CAD.
Vizuální přílohy – zobrazení malého náhledu s vyznačením oblasti, možnost kliknout do originálu.
Limity a nejistota – pokud existuje více variant nebo rozpory, odpověď to výslovně uvede a navrhne kroky.

Bezpečnost, governance, PII a IP ochrana

Multimodální RAG pracuje s citlivými dokumenty a duševním vlastnictvím. Proto vyžaduje přísnou kontrolu přístupů a audit.

ACL a dědičnost – přístup kopíruje práva zdroje. RAG nesmí odhalit nic, co uživatel v DMS neuvidí.
Redakce a maskování – PII a smluvní citlivé údaje maskovat nebo vynechat z indexu.
On-prem a šifrování – citlivé indexy držet on-prem nebo v privátním cloudu. Šifrovat data v klidu i v přenosu.
Auditní logy – dotazy, výsledky, zobrazení citlivých výřezů a exporty mít v logu pro audit a reakci na incident.

Evaluace kvality a spolehlivosti

Kvalita multimodálního RAG se měří ve dvou krocích: jak dobře najdu zdroj a jak věrně ho odpověď využije. Bez disciplinované evaluace systém časem degraduje.

Retrieval metriky

Recall@K – zda je správný zdroj v top K návrzích.
nDCG – kvalita žebříčku relevance.
Coverage – podíl dotazů, kde existuje citovatelný zdroj.

Odpověď a věrnost

Faithfulness – odpověď neobsahuje fakta mimo citovaný kontext.
Attribution – každá klíčová věta má citaci.
Usefulness – subjektivní užitečnost pro roli uživatele.

Multimodální aspekty

Tabulky – správná buňka a interpretace jednotek.
Obrázky – relevantní výřez a správný popis.
CAD – správný díl, kóta a tolerance.

Provoz, výkon, náklady a SLA

Multimodální řešení bývá náročnější na CPU, GPU a úložiště. Dobrá architektura drží latenci a náklady pod kontrolou.

Latence – cíl je pod 2 – 4 s pro běžný dotaz. Náročné výřezy a CAD mohou být delší, proto asynchronní načítání příloh.
Caching – výsledky vyhledání a odpovědi často cachovat, invalidovat při změně verze dokumentu.
Batching a warmup – u VLM a cross-encodérů předhřívat a dávkovat.
Cost control – vyhledávání provádět dense jen tam, kde lexical nestačí, preferovat levnější re-ranking, těžké modely vyvolat až na užší set.

Napojení na DMS, PLM, ERP, ECM a spolupráci

Multimodální RAG není nový silo. Musí číst i zapisovat reference do systémů, kde už lidé pracují.

DMS a ECM – SharePoint, Box, Google Drive, OpenText. Důraz na práva a verze.
PLM a CAD – Teamcenter, Windchill, Vault. Přístup k náhledům, metadatům a BOM.
ERP – odkazy na objednávky, kusovníky, ceníky a revize.
Spolupráce – Teams, Slack, Confluence. Sdílení odpovědí s citacemi, sledovatelnost vlákna.

Use-cases napříč firmou

Engineering a kvalita

Vyhledání tolerance a povrchů pro konkrétní díl napříč výkresy a normami.
Rychlá odpověď na změnu revize a dopad do sestav a BOM.
Srovnání variant a odkaz na přesné kóty s výřezem.

Servis a field support

alezení kroků postupu v PDF manuálu včetně obrázkového výřezu.
Identifikace komponenty z fotografie a propojení na katalog náhradních dílů.

Procurement a nabídky

Vyhledání parametrů a certifikací z datasheetů.
Porovnání tabulkových specifikací a automatické citace buněk.

Právo a compliance

Dotazy napříč smlouvami a normami s citací paragrafů a tabulek cen.
Kontrola konzistence mezi PDF dodatky a excelovými ceníky.

Prodej a zákaznická podpora

Rychlé odpovědi na produktové otázky z datasheetů a schémat.
Vysvětlení rozdílů mezi modely s vizuálními ukázkami.

Roadmapa implementace podle fází

Fáze 1 – objev a datová hygiena

Mapujte zdroje: DMS, ECM, PLM, sdílené složky, tabulky, PDF, CAD.
Definujte prioritní dotazy a role uživatelů.
Ujasněte přístupová práva a zásady PII a IP.

Fáze 2 – text a PDF MVP

Layout-aware extrakce PDF, segmentace a textový index.
Vyhledání a odpovědi s citacemi stránek a pasáží.

Fáze 3 – tabulky a obrázky

ormalizace tabulek, buněčné citace, tabulkový index.
OCR a VLM pro obrázky, výřezy a popisy.

Fáze 4 – CAD a PLM integrace

Export 2D náhledů, BOM a metadat, grafové vazby.
Deep linky na výkresy a vyznačené kóty.

Fáze 5 – kvalita, governance a škálování

Re-ranking, evaluace, fairness, logy a SLA.
Rozšíření na další týmy a jazyky, standardizace šablon ingestu.

Playbooky, šablony a checklisty

Checklist ingestu

✔ Dedup a verze, hashování dokumentů.
✔ Layout-aware PDF extrakce, OCR jen kde je nutné.
✔ Tabulková normalizace, jednotky a měny.
✔ Obrázkové náhledy a výřezy s bounding boxy.
✔ CAD náhledy, BOM, metadata, graf vazeb.

Checklist vyhledávání

✔ Hybridní dotaz lexical + dense.
✔ Filtry metadat a přístupová práva.
✔ Re-ranking a diverzita výsledků.

Checklist odpovědí

✔ Stručné sdělení, odůvodnění, citace.
✔ Vizuální přílohy a deep linky.
✔ Pouze z poskytnutého kontextu.

Checklist governance

✔ ACL dědičnost, PII a IP ochrana.
✔ Auditní logy, metriky, alerty a SLA.
✔ Retence a právo být zapomenut.

Pasti a antipatterny

OCR všeho za každou cenu – zhoršíte kvalitu a náklady. Preferujte text layer, OCR jen na nutné části.
Jeden embedding pro všechno – tabulky a CAD budou trpět. Udržte specializované indexy.
Bez citací – ztratíte důvěru. Každé tvrzení musí mít zdroj.
Ignorování práv – RAG nesmí obcházet ACL. Vyhoříte u auditu.
Žádná evaluace – kvalita degraduje a to tiše. Zaveďte rutinu testů a re-tréninků.

FAQ

Jak si poradí multimodální RAG s více jazyky

Držte zdroje v originálním jazyce, indexujte multijazyčně a překlady dělejte až v odpovědi. Citace vždy v originálu, aby byla ověřitelná.

Co když jsou tabulky obrovské

Chunkujte na bloky řádků a indexujte i na úroveň buněk s kontextem hlaviček. V odpovědi vracejte jen relevantní výřez a odkaz na celý list.

Jak řešit CAD, když nemám PLM

Začněte s exporty 2D náhledů, metadaty a kusovníky. BOM a vazby můžete vést v grafovém úložišti, odkazy směřovat na DMS s výkresy.

Jak chránit know-how v cloudu

Citlivé indexy držte on-prem nebo v privátním VPC, šifrujte, omezte přístupové role, auditujte a pravidelně testujte únikové scénáře.

Co je nejtěžší na škálování

Kvalita ingestu a governance. Standardizujte pipeline, validujte metadata, měřte drift a udržujte důsledné logy a eval sady.

Závěr a doporučení

Multimodální RAG je realistická cesta, jak zpřístupnit firemní znalosti napříč PDF, tabulkami, obrázky a CAD. Úspěch nestojí na jednom zázračném modelu, ale na disciplíně: kvalitní ingest s respektem k layoutu, specializované indexy, chytré routování dotazů, důsledné citace a pevná governance. Začněte tam, kde vás dnes bolí nejvíc: technická dokumentace, datasheety, tabulkové ceníky, výkresy a BOM. V pilotu dokažte zkrácení času hledání a snížení chyb. Poté přidejte další modality a týmy. n

Držte se tří zásad: 1) vše musí být ověřitelné a citované, 2) přístup k datům kopíruje práva zdroje, 3) kvalitu průběžně měřte a zlepšujte. Tím z multimodálního RAG uděláte spolehlivý nástroj, který denně šetří čas a snižuje riziko špatných rozhodnutí.

Glossář pojmů

RAG: Retrieval Augmented Generation – přístup, který kombinuje vyhledání relevantního kontextu s generativní odpovědí.
Multimodální RAG: RAG napříč modalitami – text, tabulky, obrázky, CAD – s jednotnou otázkou a odpovědí s citacemi.
OCR: Optical Character Recognition – extrakce textu z obrazu.
VLM: Vision Language Model – model chápající obraz i text, schopný popsat obrázek a odpovídat na dotazy o něm.
BOM: Bill of Materials – kusovník sestavy s díly, množstvími a verzemi.
PLM: Product Lifecycle Management – systém pro správu vývoje, dokumentace a životního cyklu výrobku.
Hybrid search: Kombinace lexical a dense vyhledávání s fúzí skóre a re-rankingem.