On-device AI: proč velcí hráči tlačí AI do telefonů a PC

On-device AI přesouvá inteligenci z cloudu přímo do zařízení — do telefonů, notebooků, tabletů, headsetů i periferií. Je to víc než jen zrychlení modelu: mění to produktovou architekturu, náklady, bezpečnost, způsob vývoje i očekávání uživatelů. Výrobci čipů integrují NPU (Neural Processing Unit), operační systémy přidávají API a systémové asistenty a vývojáři navrhují menší, efektivně kvantizované modely, které běží spolehlivě a úsporně. Tento rozšířený průvodce jde ještě hlouběji: přidává mikro-architekturu NPU, praktické návrhové vzory, zkušenosti z testování „in the wild“, pokročilé optimalizace a úplný provozní rámec od MLOps po compliance.

Proč právě teď: rychlost, soukromí, náklady, diferenciace

On-device AI řeší tři dlouhodobé bolesti digitálních produktů. Latenci: diktování, titulky, vizuální asistence a multimodál potřebují odezvu v desítkách milisekund. Soukromí: citlivý obsah (foto, hlas, pracovní dokumenty) zůstává v zařízení a snižuje právní i reputační riziko. Ekonomiku: masové systémové funkce by v čistém cloudu generovaly nepředvídatelné účty a škrtící latenci; lokální inference škáluje s hardwarem, ne s počtem požadavků. Přidejme čtvrtý prvek — diferenciaci: hluboce integrované, plynulé a „magické“ funkce zvyšují loajalitu a bariéry přechodu ke konkurenci.

Čipová základna a mikro-architektura NPU

NPU jsou specializované akcelerátory pro maticové operace s nízkou přesností (INT8/INT4), někdy s podporou FP16/BF16. Klíčem je paralelismus a přesun výpočtu ke datům, nikoli naopak. NPU typicky obsahují:

Compute tiles (MAC pole) — paralelní bloky provádějící matmul/conv s vysokou propustností.
On-chip SRAM — rychlá paměť přiléhající k výpočtu; zásadní pro dlaždicování.
DMA enginy — efektivní přesuny dlaždic mezi DRAM a SRAM.
Scheduler — rozklad grafu a plánování výpočetních etap tak, aby se minimalizovaly přesuny.

Rozdíly mezi vendory jsou v podporovaných operátorech, šířce vektoru, sparsity podpoře (strukturovaná vs. unstructured) a v tom, jak dobře kompilátor sloučí operátory (fusion). Výsledek: ne každý model poběží stejně i při podobných „TOPS“ číslech.

Paměťová hierarchie a důsledky pro návrh modelu

Paměť je král. Přístup do DRAM je řádově dražší než MAC operace v on-chip SRAM. Z toho plyne několik zásad:

Menší tenzory, větší locality: zmenšení rozlišení/šířky kanálů často přinese víc než honba za velkým modelem.
Operator fusion: sekvence (conv + bn + act) musí být sloučené, jinak se ztrácí výhoda NPU.
Dlaždicování: model navrhnout tak, aby se vešel do SRAM dlaždicemi bez nadbytečných přenosů.
Kvantizace: INT8/INT4 jsou nejen o rychlosti, ale i o menší paměťové stopě.

Praktická rada: profilovat před optimalizacemi celou pipeline a teprve poté lovit úzká hrdla v předzpracování/post-processingu.

Softwarové stacky a vývojářské cesty

Na iOS vede cesta přes Core ML a model compiler; na Androidu přes TFLite/NNAPI a systémové služby pro on-device modely; na Windows přes ONNX Runtime s DirectML (a exekutory pro GPU/NPU). Důležité je držet se podporovaných operátorů a mít build-time validaci, že graf nepadá na CPU fallback.

Platforma	Formát/Runtime	Typické akcelerátory	Silné stránky	Citlivá místa
iOS / iPadOS / macOS	Core ML (.mlmodel)	ANE, GPU	Hluboká integrace, stabilní API	Nutnost mapovat operátory na ANE
Android	TFLite / NNAPI	NPU, DSP, GPU	Široká dostupnost, malé binárky	Různorodost zařízení a ovladačů
Windows	ONNX Runtime + DirectML	NPU, GPU	Univerzální rozhraní, více EP	Rovnováha mezi EP a fallbacky

Architektura on-device AI a integrační body

Celá pipeline od senzoru po výsledek:

Akvizice — kamera/mikrofon/soubor; správné rozlišení vzorkování, ISP nastavení.
Předzpracování — resize, normalizace, tokenizace; offloading na GPU/DSP.
Inference — exekuce grafu na NPU s kvantizací a fusion.
Post-processing — NMS, dekodéry, diarizace, jälová logika.
Rozhodnutí — akce v OS/app; lokální RAG/vektorová paměť.
Telemetrie — latence, confidence, kvalita vstupů; privacy-by-design.
Aktualizace — podepsané balíčky, canary rollout, rollback.

Dobrá praxe je vrstvit modely do „pyramidy“: rychlý detektor (levný) běží často, přesnější verifikátor jen při podezření, a výjimečně se zapne kontrolovaný cloud.

Privátní inference, offline režimy a datová minimalizace

Privátní inference = syrová data neodcházejí. Offline režimy nejsou jen doplněk, ale produktový požadavek. Zásady:

Default je lokální — cloud je výjimka, explicitně vyžádaná a zdůvodněná.
Posílají se jen minimální deriváty (embeddingy, anonymní metriky), ideálně nic.
Auditní stopa: kdy a proč došlo k vzdálenému volání, jaká data a jak dlouho byla uchována.

Use-cases do hloubky: foto/video, hlas, text, multimodál, enterprise

Foto/video

Reálný přínos: živé segmentace, bokeh a „clean-up“ bez odesílání snímku; inteligentní HDR spojený s detekcí scény; on-device super-resolution pro zoom. Přesun inference do NPU šetří baterii oproti GPU-heavy pipeline a hlavně drží latenci v konstantě i bez sítě.

Hlas

On-device ASR/TTS/diarizace poskytují diktování, meetingové titulky a „push-to-talk“ asistenci i v offline prostředí (vlak, letadlo, zabezpečené provozy). Při návrhu počítejte s adaptací na mikrofon zařízení a se správou jazyku/akustiky přímo v aplikaci.

Text a produktivita

Systémové přepisování, sumarizace a změna tonality nad jakýmkoliv textovým polem. Podnikové aplikace využijí lokální kontrolu PII (značkování citlivých údajů), která funguje i bez sítě a zamezí úniku dat.

Multimodální asistenti

Asistent „vidí“ obrazovku, rozumí hlasu, obsluhuje soubory a dělá kontextové akce: vyhledá relevantní snímky, připraví e-mail z PDF, vyplní formulář. On-device část řeší 80–90 % interakcí; složitější požadavky přepne do přísně kontrolovaného režimu vzdálené inference.

Enterprise scénáře

On-device compliance vrstva: varuje při odchozí poště s PII.
Lokální RAG: vyhledávání v pracovních dokumentech uložených v šifrovaném úložišti zařízení; generace odpovědi malým modelem.
Bezpečnost: analýza notifikací/URL on-device před otevřením — snížení rizika phishingu.

Výkon, latence a energie: jak opravdu měřit

Zapomeňte na samotné „TOPS“. Měřte to, co cítí uživatel a co platí CFO:

Metrika	Popis	Proč je důležitá
E2E latence	Čas od vstupu po render výstupu	Plynulost a pocit „okamžitosti“
P99 latence	Nejhorší běžné případy	Interaktivita nesmí občas „spadnout“
Fallback rate	Podíl běhů mimo NPU	Tichý zabiják výkonu i výdrže
Power/teplota	Spotřeba a throttling	Výdrž a stabilita během delších seancí
Kvalita „in the wild“	WER/mAP/IoU v reálných podmínkách	Laboratorní metriky často klamou

Pro praxi se osvědčuje i „latency budget“ na úrovni pipeline: I/O, předzpracování, inference, post-process, UI. Každý krok musí mít strop a alarmy.

Pokročilé optimalizace modelů

Kvantizace

INT8 a někdy INT4 výrazně šetří paměť i energii. Post-training kvantizaci doplňte kalibrací na reálných datech (šero, šum, dialekty). U složitých vrstev (attention) zvažte smíšené přesnosti.

Distilace

Teacher-student přístup přenese chování velkého modelu. Student bývá 3–10× menší při srovnatelné užitné kvalitě. Skvělé pro jazyk a multimodál.

Pruning a sparsity

Strukturovaný pruning (kanály/hloubky) prospívá NPU. Unstructured sparsity nelze vždy využít; záleží na akcelerátoru.

Adaptery/LoRA

Lehká personalizace bez plného re-trénu a bez odtoku dat. Adapter lze aktualizovat OTA jako malý artefakt.

Streaming a early-exit

U ASR/LLM zkracuje čas do první tokenové odpovědi a šetří energii.

Kompilátory, delegáti a „operator coverage“

Úspěch stojí na tom, zda runtime pokryje vaše operátory a zda kompilátor provede fusion a správné dlaždicování:

Core ML compiler: mapování na ANE/GPU/CPU, smíšené přesnosti.
TFLite + NNAPI: vendor delegates; vyžaduje testy napříč generacemi zařízení.
ONNX Runtime + DirectML: více execution providers, možnost preferovat NPU a střežit fallbacky.

Build-time validace a runtime „capability probing“ s jasným logem jsou must-have. Jakmile padáte na CPU, je hotovo — latence a baterie utečou.

MLOps pro on-device a správa flotily

On-device nasazení vyžaduje operace srovnatelné s backendem, jen distribuované ke klientům.

Artefakt: model + pre/post + konfigurace + kvantizační tabulky v jednom podepsaném balíčku.
OTA: canary rollout, staged distribuce, delta aktualizace, rollback.
Observabilita: latence (p50/p90/p99), fallbacky, kvalita vstupu, confidence; anonymní a minimální.
Drift: hlídat posun distribuce vstupů a aktivně sbírat malé vzorky pro re-labeling (se souhlasem).
Kompatibilita: manifest požadované verze OS/ovladačů/EP; ochrana před „tichými“ regresemi.

Testování „in the wild“, automatizace a benchmarking

Reálné prostředí je nelítostné. Testovací režim by měl pokrývat:

Různá zařízení (generace NPU/GPU, velikosti RAM/úložiště).
Podmínky: světlo/šero/šum, multitasking, nízká baterie, zahřátí.
Dlouhé relace (10–30 min), aby se projevil throttling a leakage.
„Edge cases“: otočené dokumenty, dialekty, rozmazané snímky.

Automatizujte E2E měření (včetně UI), ne jen mikro-bench inference. Přidejte vizuální regresní testy (CV), WER/cer pro ASR na lokálně nahraných vzorcích a validaci fallback rate.

Ekonomika a ROI: model nákladů a citlivost

Jednoduchý rámec pro CFO:

ROI = (Δ Latence × dopad na konverzi/engagement) + (úspora cloud OPEX) + (úspora rizika úniku dat) − (náklady na optimalizaci, QA a správu flotily)

Pro masové funkce typu diktování, titulky a systémové psaní je on-device prakticky povinnost — cloudové účty by jinak rostly lineárně s každým uživatelem i minutou použití. Citlivostní analýza by měla zahrnovat variace ve fallback rate, v délce relací a v míře offline použití.

Limity, rizika a návrh odolnosti

Fragmentace a operátory

Různé NPU = různá podpora. Pomáhá „lowest common denominator“ a více profilů modelu (S/M/L), capability probing a agresivní testy.

Thermal a výdrž

Na mobilu plánujte inference do krátkých dávek, snižujte rozlišení a adaptujte frekvenci podle teploty. Na PC držte NPU workload mimo špičky GPU.

Fail-safe UX

Když se přepíná na cloud, musí to být transparentní a řízené souhlasem. Při absenci sítě se funkce „nesmí rozpadnout“ — nabídněte degradovaný režim.

UX a přístupnost: jak navrhovat on-device funkce

Indikujte stav: lokální vs. vzdálené zpracování, offline/online.
Zkraťte čas do první odezvy: streaming, náhled výsledku, skeleton UI.
Respektujte přístupnost: titulky, diktování, kontrasty, haptická odezva.
Dejte uživateli kontrolu nad daty a přepínač „jen lokálně“.

On-device RAG a lokální paměť

RAG (retrieval-augmented generation) na zařízení kombinuje malý generativní model s lokální vektorovou pamětí. Tok je jednoduchý: dotaz → lokální vyhledání ve vektorech → kontext → generace odpovědi. Vše zůstává v zařízení. Praktické tipy:

Menší embedding dimenze (např. 256–512) pro rychlé vyhledání.
Kompaktní index (HNSW/IVF) a šifrované úložiště.
Adaptery pro doménový jazyk a osobní styl.

Bezpečnost a compliance: od secure boot po audit

Secure boot a integrita: spouštět jen podepsané binárky a modely; verifikace po OTA.
Šifrování úložiště pro modely, adaptery a vektorovou paměť; řízení klíčů v TEE.
Zero-trust uvnitř aplikace: minimální oprávnění pro přístup k senzorům a souborům.
Auditní stopa: evidence verzí, kdy a na čem model běžel; důležité pro DPIA a interní audity.

Implementační playbook: od nápadu po produkci

Vyberte scénář s jasnou hodnotou (latence/soukromí/offline).
Zvolte nejmenší použitelný model a cílový akcelerátor.
Kompilujte a validujte operátory; nastavte build-time guardy proti fallbackům.
Nastavte „pyramidu“ (detektor → verifikátor → výjimečný cloud).
Zaveďte podepsané OTA, canary rollout a telemetrii (minimální, anonymní).
Testujte v „divočině“ a měřte E2E latenci, P99, power a kvalitu.
Škálujte na flotilu zařízení a jazyky; přidejte adaptery a on-device RAG.

Výhled 2025–2027: lokální multimodál a personalizace

Výkon NPU v noteboocích (desítky TOPS) a optimalizované malé multimodální modely umožní na zařízení spouštět bohatší asistenty: rozumí obrazovce, dokumentům, hlasu i fotoaparátu a pracují s lokální pamětí. Personalizace přes adaptery a lokální vektorové indexy omezí potřebu cloudu na výjimky. OS budou aktivně plánovat běhy inference podle teploty a energie a jemně přesměrovávat workload mezi NPU/GPU/CPU.

Závěr

On-device AI je nový default pro interaktivní a citlivé scénáře. Přináší rychlost, soukromí a lepší ekonomiku, ale vyžaduje disciplínu: modely navržené pro NPU, čistou pipeline, telemetrii, bezpečné OTA, testování „in the wild“ a transparentní přepínač do řízeného cloudu pro výjimečné případy. Začněte malým, jasně hodnotným scénářem, postavte robustní lokální jádro a rozšiřujte směrem k on-device RAG a multimodálu. Tak získáte produkt, který je rychlejší, bezpečnější a dlouhodobě udržitelný — pro uživatele i pro váš rozpočet.