On-device AI přesouvá inteligenci z cloudu přímo do zařízení — do telefonů, notebooků, tabletů, headsetů i periferií. Je to víc než jen zrychlení modelu: mění to produktovou architekturu, náklady, bezpečnost, způsob vývoje i očekávání uživatelů. Výrobci čipů integrují NPU (Neural Processing Unit), operační systémy přidávají API a systémové asistenty a vývojáři navrhují menší, efektivně kvantizované modely, které běží spolehlivě a úsporně. Tento rozšířený průvodce jde ještě hlouběji: přidává mikro-architekturu NPU, praktické návrhové vzory, zkušenosti z testování „in the wild“, pokročilé optimalizace a úplný provozní rámec od MLOps po compliance.
Proč právě teď: rychlost, soukromí, náklady, diferenciace
On-device AI řeší tři dlouhodobé bolesti digitálních produktů. Latenci: diktování, titulky, vizuální asistence a multimodál potřebují odezvu v desítkách milisekund. Soukromí: citlivý obsah (foto, hlas, pracovní dokumenty) zůstává v zařízení a snižuje právní i reputační riziko. Ekonomiku: masové systémové funkce by v čistém cloudu generovaly nepředvídatelné účty a škrtící latenci; lokální inference škáluje s hardwarem, ne s počtem požadavků. Přidejme čtvrtý prvek — diferenciaci: hluboce integrované, plynulé a „magické“ funkce zvyšují loajalitu a bariéry přechodu ke konkurenci.
Čipová základna a mikro-architektura NPU
NPU jsou specializované akcelerátory pro maticové operace s nízkou přesností (INT8/INT4), někdy s podporou FP16/BF16. Klíčem je paralelismus a přesun výpočtu ke datům, nikoli naopak. NPU typicky obsahují:
- Compute tiles (MAC pole) — paralelní bloky provádějící matmul/conv s vysokou propustností.
- On-chip SRAM — rychlá paměť přiléhající k výpočtu; zásadní pro dlaždicování.
- DMA enginy — efektivní přesuny dlaždic mezi DRAM a SRAM.
- Scheduler — rozklad grafu a plánování výpočetních etap tak, aby se minimalizovaly přesuny.
Rozdíly mezi vendory jsou v podporovaných operátorech, šířce vektoru, sparsity podpoře (strukturovaná vs. unstructured) a v tom, jak dobře kompilátor sloučí operátory (fusion). Výsledek: ne každý model poběží stejně i při podobných „TOPS“ číslech.
Paměťová hierarchie a důsledky pro návrh modelu
Paměť je král. Přístup do DRAM je řádově dražší než MAC operace v on-chip SRAM. Z toho plyne několik zásad:
- Menší tenzory, větší locality: zmenšení rozlišení/šířky kanálů často přinese víc než honba za velkým modelem.
- Operator fusion: sekvence (conv + bn + act) musí být sloučené, jinak se ztrácí výhoda NPU.
- Dlaždicování: model navrhnout tak, aby se vešel do SRAM dlaždicemi bez nadbytečných přenosů.
- Kvantizace: INT8/INT4 jsou nejen o rychlosti, ale i o menší paměťové stopě.
Praktická rada: profilovat před optimalizacemi celou pipeline a teprve poté lovit úzká hrdla v předzpracování/post-processingu.
Softwarové stacky a vývojářské cesty
Na iOS vede cesta přes Core ML a model compiler; na Androidu přes TFLite/NNAPI a systémové služby pro on-device modely; na Windows přes ONNX Runtime s DirectML (a exekutory pro GPU/NPU). Důležité je držet se podporovaných operátorů a mít build-time validaci, že graf nepadá na CPU fallback.
| Platforma | Formát/Runtime | Typické akcelerátory | Silné stránky | Citlivá místa |
|---|---|---|---|---|
| iOS / iPadOS / macOS | Core ML (.mlmodel) | ANE, GPU | Hluboká integrace, stabilní API | Nutnost mapovat operátory na ANE |
| Android | TFLite / NNAPI | NPU, DSP, GPU | Široká dostupnost, malé binárky | Různorodost zařízení a ovladačů |
| Windows | ONNX Runtime + DirectML | NPU, GPU | Univerzální rozhraní, více EP | Rovnováha mezi EP a fallbacky |
Architektura on-device AI a integrační body
Celá pipeline od senzoru po výsledek:
- Akvizice — kamera/mikrofon/soubor; správné rozlišení vzorkování, ISP nastavení.
- Předzpracování — resize, normalizace, tokenizace; offloading na GPU/DSP.
- Inference — exekuce grafu na NPU s kvantizací a fusion.
- Post-processing — NMS, dekodéry, diarizace, jälová logika.
- Rozhodnutí — akce v OS/app; lokální RAG/vektorová paměť.
- Telemetrie — latence, confidence, kvalita vstupů; privacy-by-design.
- Aktualizace — podepsané balíčky, canary rollout, rollback.
Dobrá praxe je vrstvit modely do „pyramidy“: rychlý detektor (levný) běží často, přesnější verifikátor jen při podezření, a výjimečně se zapne kontrolovaný cloud.
Privátní inference, offline režimy a datová minimalizace
Privátní inference = syrová data neodcházejí. Offline režimy nejsou jen doplněk, ale produktový požadavek. Zásady:
- Default je lokální — cloud je výjimka, explicitně vyžádaná a zdůvodněná.
- Posílají se jen minimální deriváty (embeddingy, anonymní metriky), ideálně nic.
- Auditní stopa: kdy a proč došlo k vzdálenému volání, jaká data a jak dlouho byla uchována.
Use-cases do hloubky: foto/video, hlas, text, multimodál, enterprise
Foto/video
Reálný přínos: živé segmentace, bokeh a „clean-up“ bez odesílání snímku; inteligentní HDR spojený s detekcí scény; on-device super-resolution pro zoom. Přesun inference do NPU šetří baterii oproti GPU-heavy pipeline a hlavně drží latenci v konstantě i bez sítě.
Hlas
On-device ASR/TTS/diarizace poskytují diktování, meetingové titulky a „push-to-talk“ asistenci i v offline prostředí (vlak, letadlo, zabezpečené provozy). Při návrhu počítejte s adaptací na mikrofon zařízení a se správou jazyku/akustiky přímo v aplikaci.
Text a produktivita
Systémové přepisování, sumarizace a změna tonality nad jakýmkoliv textovým polem. Podnikové aplikace využijí lokální kontrolu PII (značkování citlivých údajů), která funguje i bez sítě a zamezí úniku dat.
Multimodální asistenti
Asistent „vidí“ obrazovku, rozumí hlasu, obsluhuje soubory a dělá kontextové akce: vyhledá relevantní snímky, připraví e-mail z PDF, vyplní formulář. On-device část řeší 80–90 % interakcí; složitější požadavky přepne do přísně kontrolovaného režimu vzdálené inference.
Enterprise scénáře
- On-device compliance vrstva: varuje při odchozí poště s PII.
- Lokální RAG: vyhledávání v pracovních dokumentech uložených v šifrovaném úložišti zařízení; generace odpovědi malým modelem.
- Bezpečnost: analýza notifikací/URL on-device před otevřením — snížení rizika phishingu.
Výkon, latence a energie: jak opravdu měřit
Zapomeňte na samotné „TOPS“. Měřte to, co cítí uživatel a co platí CFO:
| Metrika | Popis | Proč je důležitá |
|---|---|---|
| E2E latence | Čas od vstupu po render výstupu | Plynulost a pocit „okamžitosti“ |
| P99 latence | Nejhorší běžné případy | Interaktivita nesmí občas „spadnout“ |
| Fallback rate | Podíl běhů mimo NPU | Tichý zabiják výkonu i výdrže |
| Power/teplota | Spotřeba a throttling | Výdrž a stabilita během delších seancí |
| Kvalita „in the wild“ | WER/mAP/IoU v reálných podmínkách | Laboratorní metriky často klamou |
Pro praxi se osvědčuje i „latency budget“ na úrovni pipeline: I/O, předzpracování, inference, post-process, UI. Každý krok musí mít strop a alarmy.
Pokročilé optimalizace modelů
Kvantizace
INT8 a někdy INT4 výrazně šetří paměť i energii. Post-training kvantizaci doplňte kalibrací na reálných datech (šero, šum, dialekty). U složitých vrstev (attention) zvažte smíšené přesnosti.
Distilace
Teacher-student přístup přenese chování velkého modelu. Student bývá 3–10× menší při srovnatelné užitné kvalitě. Skvělé pro jazyk a multimodál.
Pruning a sparsity
Strukturovaný pruning (kanály/hloubky) prospívá NPU. Unstructured sparsity nelze vždy využít; záleží na akcelerátoru.
Adaptery/LoRA
Lehká personalizace bez plného re-trénu a bez odtoku dat. Adapter lze aktualizovat OTA jako malý artefakt.
Streaming a early-exit
U ASR/LLM zkracuje čas do první tokenové odpovědi a šetří energii.
Kompilátory, delegáti a „operator coverage“
Úspěch stojí na tom, zda runtime pokryje vaše operátory a zda kompilátor provede fusion a správné dlaždicování:
- Core ML compiler: mapování na ANE/GPU/CPU, smíšené přesnosti.
- TFLite + NNAPI: vendor delegates; vyžaduje testy napříč generacemi zařízení.
- ONNX Runtime + DirectML: více execution providers, možnost preferovat NPU a střežit fallbacky.
Build-time validace a runtime „capability probing“ s jasným logem jsou must-have. Jakmile padáte na CPU, je hotovo — latence a baterie utečou.
MLOps pro on-device a správa flotily
On-device nasazení vyžaduje operace srovnatelné s backendem, jen distribuované ke klientům.
- Artefakt: model + pre/post + konfigurace + kvantizační tabulky v jednom podepsaném balíčku.
- OTA: canary rollout, staged distribuce, delta aktualizace, rollback.
- Observabilita: latence (p50/p90/p99), fallbacky, kvalita vstupu, confidence; anonymní a minimální.
- Drift: hlídat posun distribuce vstupů a aktivně sbírat malé vzorky pro re-labeling (se souhlasem).
- Kompatibilita: manifest požadované verze OS/ovladačů/EP; ochrana před „tichými“ regresemi.
Testování „in the wild“, automatizace a benchmarking
Reálné prostředí je nelítostné. Testovací režim by měl pokrývat:
- Různá zařízení (generace NPU/GPU, velikosti RAM/úložiště).
- Podmínky: světlo/šero/šum, multitasking, nízká baterie, zahřátí.
- Dlouhé relace (10–30 min), aby se projevil throttling a leakage.
- „Edge cases“: otočené dokumenty, dialekty, rozmazané snímky.
Automatizujte E2E měření (včetně UI), ne jen mikro-bench inference. Přidejte vizuální regresní testy (CV), WER/cer pro ASR na lokálně nahraných vzorcích a validaci fallback rate.
Ekonomika a ROI: model nákladů a citlivost
Jednoduchý rámec pro CFO:
ROI = (Δ Latence × dopad na konverzi/engagement) + (úspora cloud OPEX) + (úspora rizika úniku dat) − (náklady na optimalizaci, QA a správu flotily)
Pro masové funkce typu diktování, titulky a systémové psaní je on-device prakticky povinnost — cloudové účty by jinak rostly lineárně s každým uživatelem i minutou použití. Citlivostní analýza by měla zahrnovat variace ve fallback rate, v délce relací a v míře offline použití.
Limity, rizika a návrh odolnosti
Fragmentace a operátory
Různé NPU = různá podpora. Pomáhá „lowest common denominator“ a více profilů modelu (S/M/L), capability probing a agresivní testy.
Thermal a výdrž
Na mobilu plánujte inference do krátkých dávek, snižujte rozlišení a adaptujte frekvenci podle teploty. Na PC držte NPU workload mimo špičky GPU.
Fail-safe UX
Když se přepíná na cloud, musí to být transparentní a řízené souhlasem. Při absenci sítě se funkce „nesmí rozpadnout“ — nabídněte degradovaný režim.
UX a přístupnost: jak navrhovat on-device funkce
- Indikujte stav: lokální vs. vzdálené zpracování, offline/online.
- Zkraťte čas do první odezvy: streaming, náhled výsledku, skeleton UI.
- Respektujte přístupnost: titulky, diktování, kontrasty, haptická odezva.
- Dejte uživateli kontrolu nad daty a přepínač „jen lokálně“.
On-device RAG a lokální paměť
RAG (retrieval-augmented generation) na zařízení kombinuje malý generativní model s lokální vektorovou pamětí. Tok je jednoduchý: dotaz → lokální vyhledání ve vektorech → kontext → generace odpovědi. Vše zůstává v zařízení. Praktické tipy:
- Menší embedding dimenze (např. 256–512) pro rychlé vyhledání.
- Kompaktní index (HNSW/IVF) a šifrované úložiště.
- Adaptery pro doménový jazyk a osobní styl.
Bezpečnost a compliance: od secure boot po audit
- Secure boot a integrita: spouštět jen podepsané binárky a modely; verifikace po OTA.
- Šifrování úložiště pro modely, adaptery a vektorovou paměť; řízení klíčů v TEE.
- Zero-trust uvnitř aplikace: minimální oprávnění pro přístup k senzorům a souborům.
- Auditní stopa: evidence verzí, kdy a na čem model běžel; důležité pro DPIA a interní audity.
Implementační playbook: od nápadu po produkci
- Vyberte scénář s jasnou hodnotou (latence/soukromí/offline).
- Zvolte nejmenší použitelný model a cílový akcelerátor.
- Kompilujte a validujte operátory; nastavte build-time guardy proti fallbackům.
- Nastavte „pyramidu“ (detektor → verifikátor → výjimečný cloud).
- Zaveďte podepsané OTA, canary rollout a telemetrii (minimální, anonymní).
- Testujte v „divočině“ a měřte E2E latenci, P99, power a kvalitu.
- Škálujte na flotilu zařízení a jazyky; přidejte adaptery a on-device RAG.
Výhled 2025–2027: lokální multimodál a personalizace
Výkon NPU v noteboocích (desítky TOPS) a optimalizované malé multimodální modely umožní na zařízení spouštět bohatší asistenty: rozumí obrazovce, dokumentům, hlasu i fotoaparátu a pracují s lokální pamětí. Personalizace přes adaptery a lokální vektorové indexy omezí potřebu cloudu na výjimky. OS budou aktivně plánovat běhy inference podle teploty a energie a jemně přesměrovávat workload mezi NPU/GPU/CPU.
Závěr
On-device AI je nový default pro interaktivní a citlivé scénáře. Přináší rychlost, soukromí a lepší ekonomiku, ale vyžaduje disciplínu: modely navržené pro NPU, čistou pipeline, telemetrii, bezpečné OTA, testování „in the wild“ a transparentní přepínač do řízeného cloudu pro výjimečné případy. Začněte malým, jasně hodnotným scénářem, postavte robustní lokální jádro a rozšiřujte směrem k on-device RAG a multimodálu. Tak získáte produkt, který je rychlejší, bezpečnější a dlouhodobě udržitelný — pro uživatele i pro váš rozpočet.



