Multimodální RAG posouvá vyhledávání a generování odpovědí z textového světa do reality firemních dat, kde se rozhoduje nad PDF dokumenty, tabulkami, screenshoty, fotografiemi výrobků, schématy i 2D a 3D CAD výkresy. Cílem je, aby se uživatel neptal jednotlivých systémů zvlášť, ale kladl přirozené dotazy a dostal podložené, citované a srozumitelné odpovědi bez ohledu na to, v jakém formátu a kde data leží. Tenhle článek nabízí hluboký, praktický pohled na architekturu, metodiku, governance a měření kvality multimodálního RAG řešení v podnikovém prostředí. více o firemních datech a AI.
Proč multimodální RAG právě teď
Dnešní znalosti firem nejsou jen v textu. Klíčové informace bývají zamčené v PDF přílohách, cenících a manuálech, ve složitých tabulkách, na produktových fotografiích, v procesních schématech a ve výkresové dokumentaci. Klasické přístupy cílí na text a ignorují vizuální kontext a strukturu tabulek, což se v praxi projevuje slepými místy: uživatel se odpovědi domáhá ručně, přepíná systémy a ztrácí čas. Multimodální RAG tyto hranice maže. Spojuje různé modality do jednoho vyhledání a vrací odpovědi s přesnou citací zdroje a často i s vizuální ukázkou relevantní části dokumentu.
- Realita dat – PDF a obrázky dominují dokumentaci, tabulky nesou číselné pravdy, CAD definuje fyzický svět.
- Riziko chyb – ruční interpretace tabulek a výkresů je pomalá a náchylná k omylu.
- Náklady času – znalostní pracovník tráví hodiny hledáním v přílohách a složkách.
- Regulace a audit – citace zdrojů a prokazatelnost jsou nutné. Multimodální RAG podporuje obojí.
Co je multimodální RAG a jak se liší od klasického RAG
RAG je zkratka pro Retrieval Augmented Generation. Klasický RAG přijme dotaz, vyhledá relevantní textové pasáže, ty vloží do kontextu modelu a vygeneruje odpověď s odkazy. Multimodální RAG dělá totéž, ale napříč modalitami. Umí vyhledat tabulkovou buňku, výřez obrázku, stranu PDF i výřez CAD dílu a všechny tyto nálezy zkombinovat do jedné odpovědi.
- Více indexů – pro text, tabulky, obrázky a CAD existují specializované indexy, které se dotazují koordinovaně.
- Fúze výsledků – výsledky se re-rankují a odměřují podle relevance, spolehlivosti a čitelnosti.
- Odpověď s multimodální citací – text vysvětlí, tabulka doloží čísly, obrázek ukáže výřez, CAD poskytne referenci na díl.
Typy dat: PDF, tabulky, obrázky, CAD a jejich specifika
Každá modalita vyžaduje jiný přístup k ingestu, reprezentaci a citování. Základem je zachovat strukturu a umožnit přesný návrat na zdroj.
| Modalita | Typické zdroje | Výzvy | Praktické tipy |
|---|---|---|---|
| Manuály, smlouvy, reporty, datasheety | Vícesloupcový layout, footery, nekvalitní skeny | Layout-aware extrakce, segmentace na sekce, odkaz na stránku a souřadnice | |
| Tabulky | XLSX, CSV, tabulky v PDF | Sloučené buňky, hierarchie, jednotky a měny | Normalizace jednotek, tabulkové embeddings, citace na úroveň buňky |
| Obrázky | Schémata, fotografie, snímky obrazovky | Text v obrazu, nízké rozlišení, diagramová logika | OCR, VLM popisy, detekce objektů a výřezy |
| CAD | DWG, DXF, STEP, IGES, STL, výkresy, sestavy | Geometrie, vrstvy, měřítka, BOM vazby | Export 2D náhledů, extrakce metadat a BOM, grafové reprezentace dílů |
Referenční architektura end-to-end
Multimodální RAG tvoří čtyři hlavní okruhy: ingest a obohacení dat, indexing a vektorizace, orchestrace dotazu a generování odpovědi, governance a observabilita. Níže je praktická skladba vrstev, která funguje v podnikovém nasazení.
- Ingest a obohacení – připojení k DMS, ECM, cloud úložištím, PLM a sdíleným diskům. Dedup, verze, extrakce metadat, layout analýza, OCR, tabulkový parser, generování náhledů a výřezů, BOM a kusovníky.
- Indexy a vektory – textový index, tabulkový index, obrazový index a CAD index. Každý s vlastním optimalizovaným embeddingem a strukturou klíčů pro rychlý návrat zdroje.
- Orchestrátor dotazu – porozumění dotazu, výběr modalit, hybridní vyhledávání, re-ranking a agregace nálezů, sestavení kontextu a návrh odpovědi.
- Odpověď a citace – generování s přísným groundingem, citace na stránku, buňku, výřez, díl CAD. Možnost vrátit vizuální přílohy a interaktivní prvky.
- Governance – přístupová práva, auditní logy, PII a IP ochrana, metriky kvality a driftu, alertry a SLA.
PDF ingest, segmentace a citace na úrovni pasáže
PDF je často směs textu, tabulek a obrázků. První zásada zní: extrahovat layout-aware, tedy rozpoznat sloupce, nadpisy, seznamy, captiony obrázků i tabulek. Druhá zásada: segmentovat dokument do logických chunků, které se dají citovat a vracet uživateli.
Best practices
- Segmentace – stránka se dělí na sekce podle nadpisů, poté na odstavce. Chunky udržujte krátké a soudržné, ideálně 500 – 1500 znaků s přesahem.
- Citace – ke každému chunku uložte dokument, stránku, souřadnice bounding boxu, nadpisovou hierarchii a hash verze.
- Obrázky a tabulky – uložit zvlášť jako referencované objekty s captiony a bounding boxy. V textu zanechat placeholder s odkazem.
- OCR a kvalita – u skenů používat OCR s opravami. Pokud textový layer existuje, OCR jen pro grafiku a marginálie.
Takto připravený PDF korpus umožní vyhledání pasáže, její zobrazení v originálním kontextu a přesné citování i v budoucnu, kdy se dokument může verzovat.
Tabulky: normalizace, vektory a buněčné citace
Tabulky nejsou obyčejný text. Nesou typy, jednotky, hierarchie a často implicitní význam v hlavičkách. Chytré RAG pracuje s tabulkami jako s první třídou občanem.
Normalizace a obohacení
- Hlavičky – rozbalit vícero řádků hlaviček, odstranit sloučené buňky, vytvořit jednoznačné názvy sloupců.
- Jednotky a měny – převést na standard a uložit původní zápis pro věrné citace.
- Typy – datové typy sloupců držet explicitně, včetně kategorií a klíčů.
Vektory
- Row embeddings – vektorizovat řádky na základě textu, čísel a kontextu tabulky.
- Cell embeddings – pro přesné dotazy na konkrétní hodnoty v kombinaci s okolní hlavičkou a řádkem.
- Table-level embeddings – pro vyhledání celé tabulky podle tématu a metadat.
Citování
- Adresace – citujte na úrovni buňky, řádku i celé tabulky, včetně názvu listu a souřadnic.
- Vizualizace – v odpovědi vracejte i malý náhled tabulky s vyznačenou oblastí a možností otevření v originálu.
Obrázky a schémata: OCR, VLM a rozumění diagramům
Obrázky obsahují text, tvary i vztahy. Multimodální RAG využívá OCR pro text v obraze a vizuálně-jazykové modely k pochopení, co na snímku je a jak to souvisí s dotazem.
Postup
- OCR – extrahovat text, zarovnat s polohou a uložit jako vyhledatelnou vrstvu.
- VLM captioning – stručný, faktický popis obrázku, klíčové objekty, vztahy, popisky os u grafů.
- Detekce objektů – pro schémata a technické nákresy zvýraznit komponenty a spoje.
- Výřezy – generovat výřezy nejrelevantnějších oblastí pro citaci v odpovědi.
Pro engineering a servis se vyplatí trénovat detektory na specifické symboly a komponenty, aby byly výřezy přesné a opakovatelné.
CAD data: 2D výkresy, 3D modely, BOM a geometrie
CAD je speciální svět. Znalosti jsou v 2D výkresech, 3D modelech, kusovnících a metadatech dílů. Uživatelé pokládají otázky typu: Kde je referenční rozměr XY, jaká je tolerance, jaké jsou povrchové úpravy, která varianta se hodí do sestavy Z, jaká je náhrada dílu, jaké jsou kolize.
Reprezentace pro RAG
- 2D výkresy – export do vysoce kvalitních PDF nebo obrázků se zachováním vrstev a měřítek, OCR popisek a tabulek, extrakce rozměrů a tolerancí do struktury.
- 3D modely – náhledy z několika úhlů, bounding box charakteristiky, zjednodušená topologie, klíčové kóty a kvalifikátory z metadat.
- BOM a varianty – kusovníky a vazby na sestavy ukládat jako graf, se schopností dotazu po cestě sestavou a alternativách.
Citace a návrat do CAD
- Deep link – odkaz na výkres se stránkou a měřítkem, případně na view v PLM.
- Výřez – zvýraznit oblouk, notu, toleranční značku či tabulku povrchů.
- Text + čísla – odpověď musí kombinovat popis, konkrétní hodnoty a přesný zdroj.
Vektorizace a fúze modalit: jednotný vs. více-prostorový přístup
Tvrdá volba v multimodálním RAG: snažit se vše nacpat do jednoho společného embeddingu, nebo udržovat specializované vektorové prostory a výsledky fúzovat až po retrievalu. Praxe ve firmách favorizuje druhou možnost, protože přináší vyšší přesnost a flexibilitu.
Dva přístupy
- Jednotný prostor – jednoduché dotazování, ale kompromisy v přesnosti u tabulek a CAD.
- Více-prostorový – text, tabulky, obrázky, CAD každý zvlášť. Orchestrátor dotazu agreguje, re-rankuje a skládá.
Re-ranking a fúze
- Cross-encoder – znovu ohodnocení top K nálezů podle dotazu a obsahu.
- Modalitní váhy – váhy podle dotazu a záměru, např. číselné otázky preferují tabulky.
- Důkazní síla – vyšší skóre pro zdroje s přesným číselným shodám nebo shodě notace.
Porozumění dotazu a routování na modality
Dotazy nejsou rovné. Orchestrátor rozpoznává záměr, navrhne vhodné modality a navíc dotaz rozšíří o synonyma a jednotkové převody.
- Intent a entity – identifikovat, zda jde o číselný dotaz, návrhovou otázku, vizuální porovnání, citaci normy, rozměr nebo tolerance.
- Synonyma a jednotky – přepočet mm – inch, psi – bar, kód dílu – název, variantní značení.
- Modality routing – pro každou modalitu vytvořit specializovaný dotaz a poté sloučit výsledky.
Retrieval strategie: hybridní vyhledávání a re-ranking
Robustní vyhledávání kombinuje lexical a dense přístupy. Lexical pomáhá u přesných pojmů a čísel, dense u významové blízkosti a parafrází.
- Hybrid – BM25 + embedding search se sloučením skóre.
- Filtry – metadata document_type, autor, verze, datum, systém, jazyk, přístupová práva.
- Hierarchické vyhledávání – nejdřív dokumenty, pak stránky a pasáže, u tabulek nejdřív listy a tabulky, pak buňky.
- Top K a diverzita – zajistit pokrytí různých zdrojů, ne jen shluk podobných nálezů.
Skládání odpovědi: grounding, citace, snímky a výřezy
Odpověď musí být užitečná, ověřitelná a vizuálně přehledná. Generativní model má povoleno používat jen dodaný kontext. Roli hraje i forma prezentace: krátká odpověď, detaily v rozbalovací části, citace a přímé odkazy do zdroje.
- Struktura – nejprve stručné sdělení, poté odůvodnění a nakonec citace.
- Citace – PDF stránka a koordináty, tabulková buňka či řádek, printscreen výřezu obrázku, deep link do CAD.
- Vizuální přílohy – zobrazení malého náhledu s vyznačením oblasti, možnost kliknout do originálu.
- Limity a nejistota – pokud existuje více variant nebo rozpory, odpověď to výslovně uvede a navrhne kroky.
Bezpečnost, governance, PII a IP ochrana
Multimodální RAG pracuje s citlivými dokumenty a duševním vlastnictvím. Proto vyžaduje přísnou kontrolu přístupů a audit.
- ACL a dědičnost – přístup kopíruje práva zdroje. RAG nesmí odhalit nic, co uživatel v DMS neuvidí.
- Redakce a maskování – PII a smluvní citlivé údaje maskovat nebo vynechat z indexu.
- On-prem a šifrování – citlivé indexy držet on-prem nebo v privátním cloudu. Šifrovat data v klidu i v přenosu.
- Auditní logy – dotazy, výsledky, zobrazení citlivých výřezů a exporty mít v logu pro audit a reakci na incident.
Evaluace kvality a spolehlivosti
Kvalita multimodálního RAG se měří ve dvou krocích: jak dobře najdu zdroj a jak věrně ho odpověď využije. Bez disciplinované evaluace systém časem degraduje.
Retrieval metriky
- Recall@K – zda je správný zdroj v top K návrzích.
- nDCG – kvalita žebříčku relevance.
- Coverage – podíl dotazů, kde existuje citovatelný zdroj.
Odpověď a věrnost
- Faithfulness – odpověď neobsahuje fakta mimo citovaný kontext.
- Attribution – každá klíčová věta má citaci.
- Usefulness – subjektivní užitečnost pro roli uživatele.
Multimodální aspekty
- Tabulky – správná buňka a interpretace jednotek.
- Obrázky – relevantní výřez a správný popis.
- CAD – správný díl, kóta a tolerance.
Provoz, výkon, náklady a SLA
Multimodální řešení bývá náročnější na CPU, GPU a úložiště. Dobrá architektura drží latenci a náklady pod kontrolou.
- Latence – cíl je pod 2 – 4 s pro běžný dotaz. Náročné výřezy a CAD mohou být delší, proto asynchronní načítání příloh.
- Caching – výsledky vyhledání a odpovědi často cachovat, invalidovat při změně verze dokumentu.
- Batching a warmup – u VLM a cross-encodérů předhřívat a dávkovat.
- Cost control – vyhledávání provádět dense jen tam, kde lexical nestačí, preferovat levnější re-ranking, těžké modely vyvolat až na užší set.
Napojení na DMS, PLM, ERP, ECM a spolupráci
Multimodální RAG není nový silo. Musí číst i zapisovat reference do systémů, kde už lidé pracují.
- DMS a ECM – SharePoint, Box, Google Drive, OpenText. Důraz na práva a verze.
- PLM a CAD – Teamcenter, Windchill, Vault. Přístup k náhledům, metadatům a BOM.
- ERP – odkazy na objednávky, kusovníky, ceníky a revize.
- Spolupráce – Teams, Slack, Confluence. Sdílení odpovědí s citacemi, sledovatelnost vlákna.
Use-cases napříč firmou
Engineering a kvalita
- Vyhledání tolerance a povrchů pro konkrétní díl napříč výkresy a normami.
- Rychlá odpověď na změnu revize a dopad do sestav a BOM.
- Srovnání variant a odkaz na přesné kóty s výřezem.
Servis a field support
- alezení kroků postupu v PDF manuálu včetně obrázkového výřezu.
- Identifikace komponenty z fotografie a propojení na katalog náhradních dílů.
Procurement a nabídky
- Vyhledání parametrů a certifikací z datasheetů.
- Porovnání tabulkových specifikací a automatické citace buněk.
Právo a compliance
- Dotazy napříč smlouvami a normami s citací paragrafů a tabulek cen.
- Kontrola konzistence mezi PDF dodatky a excelovými ceníky.
Prodej a zákaznická podpora
- Rychlé odpovědi na produktové otázky z datasheetů a schémat.
- Vysvětlení rozdílů mezi modely s vizuálními ukázkami.
Roadmapa implementace podle fází
Fáze 1 – objev a datová hygiena
- Mapujte zdroje: DMS, ECM, PLM, sdílené složky, tabulky, PDF, CAD.
- Definujte prioritní dotazy a role uživatelů.
- Ujasněte přístupová práva a zásady PII a IP.
Fáze 2 – text a PDF MVP
- Layout-aware extrakce PDF, segmentace a textový index.
- Vyhledání a odpovědi s citacemi stránek a pasáží.
Fáze 3 – tabulky a obrázky
- ormalizace tabulek, buněčné citace, tabulkový index.
- OCR a VLM pro obrázky, výřezy a popisy.
Fáze 4 – CAD a PLM integrace
- Export 2D náhledů, BOM a metadat, grafové vazby.
- Deep linky na výkresy a vyznačené kóty.
Fáze 5 – kvalita, governance a škálování
- Re-ranking, evaluace, fairness, logy a SLA.
- Rozšíření na další týmy a jazyky, standardizace šablon ingestu.
Playbooky, šablony a checklisty
Checklist ingestu
- ✔ Dedup a verze, hashování dokumentů.
- ✔ Layout-aware PDF extrakce, OCR jen kde je nutné.
- ✔ Tabulková normalizace, jednotky a měny.
- ✔ Obrázkové náhledy a výřezy s bounding boxy.
- ✔ CAD náhledy, BOM, metadata, graf vazeb.
Checklist vyhledávání
- ✔ Hybridní dotaz lexical + dense.
- ✔ Filtry metadat a přístupová práva.
- ✔ Re-ranking a diverzita výsledků.
Checklist odpovědí
- ✔ Stručné sdělení, odůvodnění, citace.
- ✔ Vizuální přílohy a deep linky.
- ✔ Pouze z poskytnutého kontextu.
Checklist governance
- ✔ ACL dědičnost, PII a IP ochrana.
- ✔ Auditní logy, metriky, alerty a SLA.
- ✔ Retence a právo být zapomenut.
Pasti a antipatterny
- OCR všeho za každou cenu – zhoršíte kvalitu a náklady. Preferujte text layer, OCR jen na nutné části.
- Jeden embedding pro všechno – tabulky a CAD budou trpět. Udržte specializované indexy.
- Bez citací – ztratíte důvěru. Každé tvrzení musí mít zdroj.
- Ignorování práv – RAG nesmí obcházet ACL. Vyhoříte u auditu.
- Žádná evaluace – kvalita degraduje a to tiše. Zaveďte rutinu testů a re-tréninků.
FAQ
Jak si poradí multimodální RAG s více jazyky
Držte zdroje v originálním jazyce, indexujte multijazyčně a překlady dělejte až v odpovědi. Citace vždy v originálu, aby byla ověřitelná.
Co když jsou tabulky obrovské
Chunkujte na bloky řádků a indexujte i na úroveň buněk s kontextem hlaviček. V odpovědi vracejte jen relevantní výřez a odkaz na celý list.
Jak řešit CAD, když nemám PLM
Začněte s exporty 2D náhledů, metadaty a kusovníky. BOM a vazby můžete vést v grafovém úložišti, odkazy směřovat na DMS s výkresy.
Jak chránit know-how v cloudu
Citlivé indexy držte on-prem nebo v privátním VPC, šifrujte, omezte přístupové role, auditujte a pravidelně testujte únikové scénáře.
Co je nejtěžší na škálování
Kvalita ingestu a governance. Standardizujte pipeline, validujte metadata, měřte drift a udržujte důsledné logy a eval sady.
Závěr a doporučení
Multimodální RAG je realistická cesta, jak zpřístupnit firemní znalosti napříč PDF, tabulkami, obrázky a CAD. Úspěch nestojí na jednom zázračném modelu, ale na disciplíně: kvalitní ingest s respektem k layoutu, specializované indexy, chytré routování dotazů, důsledné citace a pevná governance. Začněte tam, kde vás dnes bolí nejvíc: technická dokumentace, datasheety, tabulkové ceníky, výkresy a BOM. V pilotu dokažte zkrácení času hledání a snížení chyb. Poté přidejte další modality a týmy. n
Držte se tří zásad: 1) vše musí být ověřitelné a citované, 2) přístup k datům kopíruje práva zdroje, 3) kvalitu průběžně měřte a zlepšujte. Tím z multimodálního RAG uděláte spolehlivý nástroj, který denně šetří čas a snižuje riziko špatných rozhodnutí.
Glossář pojmů
- RAG
- Retrieval Augmented Generation – přístup, který kombinuje vyhledání relevantního kontextu s generativní odpovědí.
- Multimodální RAG
- RAG napříč modalitami – text, tabulky, obrázky, CAD – s jednotnou otázkou a odpovědí s citacemi.
- OCR
- Optical Character Recognition – extrakce textu z obrazu.
- VLM
- Vision Language Model – model chápající obraz i text, schopný popsat obrázek a odpovídat na dotazy o něm.
- BOM
- Bill of Materials – kusovník sestavy s díly, množstvími a verzemi.
- PLM
- Product Lifecycle Management – systém pro správu vývoje, dokumentace a životního cyklu výrobku.
- Hybrid search
- Kombinace lexical a dense vyhledávání s fúzí skóre a re-rankingem.



