🧩 Jak na lokální AI modely

Záznam a materiály

Ke stažení: 📄 Prezentace (PDF) · 📝 Přepis session (MD) · ⭐ To nejlepší ze session (MD) · 🧰 Tipy na aplikace (MD)

TL;DR

Lokální ≠ open source. Lokální = neběží v cloudu. Open source = zveřejněné váhy. Dvě nezávislé vlastnosti
Open source modely dohánějí komerční špičku — velké (Llama 4, Qwen 3.5) jsou srovnatelné s GPT-5, Sonnet 4.6, Gemini 3
Modely dnes na středním PC = GPT-3.5 až GPT-4 úroveň z minulosti. 14B model běží na MacBooku Pro M3
Apple je tichý vítěz díky sjednocené paměti CPU/GPU — Mac Mini M4 (32 GB, ~30k Kč) rozběhne 14B
Kdy lokální dává smysl: citlivá data, hromadné zpracování, firemní RAG, regulatorika, offline

Hlavní koncept

Dva různé pojmy, které se zaměňují:

Lokální model = běží na tvém počítači nebo firemní infrastruktuře. Data neopouštějí zařízení.

Open source / open weight = model s veřejně dostupnými váhami. Můžeš ho stáhnout, spustit, upravit — nebo k němu přistupovat přes API (pak to není lokální).

Příklad: Qwen 3 v LM Studiu na tvém disku = lokální + open source. Qwen 3 přes Hugging Face API = open source, ale ne lokální.

Klíčové koncepty

Kategorie modelů podle velikosti:

Kategorie	Parametry	Příklad	RAM
Miniaturní	1-3 B	Gemma 3 4B	8 GB
Malé	4-14 B	Qwen 3 14B, Llama 3 8B	16 GB
Střední	20-70 B	Qwen 3 32B, Gemma 3 27B	32 GB
Velké	70-200+ B	DeepSeek V3, Llama 4	64+ GB
Frontier	400-700+ B	Serverové modely	Serverové GPU

Kvantizace — komprese modelu (např. 32-bit → 4-bit). Menší paměť, rychlejší běh, mírný pokles kvality. Dělá malé modely použitelnými na běžném hardwaru.

Harness — orchestrační vrstva nástroje (prompt + kontext + tool use + nástroje). Často důležitější než model samotný. Cursor má dobrý harness → kvalitní výsledky i s menším modelem.

Finetuning vs. RAG — Finetuning: přetrénuj model na doménových datech (technicky náročné). RAG (Retrieval-Augmented Generation): model nepřetrénovávej, ale přes vektorovou DB mu poskytuj relevantní dokumenty jako kontext. Jednodušší, flexibilnější.

Knowledge cutoff — lokální model ví jen to, na čem byl natrénován. Bez web searche nemá přístup k aktuálním informacím (výjimka: Perplexica s integrovaným vyhledáváním).

Cloudové vs. lokální

Aspekt	Cloud	Lokální
Kvalita	Špičková	Těsně za špičkou
Ochrana dat	Data do cloudu	Zůstávají u tebe
Náklady	Předplatné/tokeny	HW jednou, pak 0
Web search	Integrovaný	Bez (mimo Perplexica)
Rychlost nasazení	Okamžitá	Instalace + stažení
Aktualizace	Automatické	Manuálně
Kustomizace	Omezená	Plná (RAG, finetuning)
Vendor lock-in	Vysoký	Nulový

Hardware

PC: Malý model (14B) = 16 GB RAM + střední GPU. Střední (32B) = 32 GB + herní NVIDIA. Velký (70B+) = 64 GB+ s více GPU.

Mac — tichý vítěz:

Mac Mini M4 (32 GB): ~30 000 Kč, rozběhne 14B modely, které na PC chtějí 2-3× dražší HW
Mac Mini M4 (64 GB): ~70 000+ Kč
MacBook Pro M3: zvládne 14B pro offline práci
Mac Studio: propojení přes exolabs.net cluster pro větší modely

Telly aplikace

Pro Telly marketing týmu je lokální AI okrajový use case — běžná práce s kampaněmi, contentem a analýzou zvládne Claude/Gemini cloudově bez problémů (vypnuté trénování, GDPR OK).

Kdy by mohl dávat smysl:

Analýza zákaznických dat (smlouvy, call centrum přepisy) — data z Česka, citlivé, GDPR. RAG nad lokálním modelem = znalostní báze bez rizika
Hromadné zpracování tisíců mailů/ticketů — breakeven s Haiku 4.5 je vysoký (Haiku zpracuje 30-40/min za cca 0,3 USD za tisíc)
České radiokomunikace (GPU/Model as a Service) jako hybridní kompromis: data v ČR, bez vlastního HW

Scénáře kdy NE

Potřebuješ absolutně nejlepší kvalitu
Vibe coding (nejchytřejší model kompenzuje nedostatek znalostí)
Jednorázové dotazy v malém objemu (cloudové předplatné je jednodušší)
Potřebuješ aktuální informace (web search chybí)

Úkol na týden

Nainstaluj LM Studio (GUI, zdarma)
Stáhni Qwen 3 14B nebo Gemma 3 (malý)
Vyzkoušej 1 úkol — shrnutí dokumentu, konzultace textu, klasifikace
Porovnej výstup s tím, co znáš z Claude/ChatGPT — zaregistruj rozdíly
(Volitelně) Zkus na Hugging Face Chat online 2-3 modely, bez stahování

Nástroje

Nástroj	K čemu
LM Studio	GUI pro lokální modely, doporučené pro začátečníky
Ollama	CLI alternativa, rychlejší setup
AnythingLLM	Lokální modely + RAG nad dokumenty
Hugging Face Chat	Online test modelů bez stahování
BottleCap AI scan	Test biasů, skrytých vlastností modelů
Artificial Analysis	Benchmarky a srovnání
České radiokomunikace	GPU/Model as a Service, data v ČR

Zdroje

Modul 2 — Nástroje s AI — lokální modely jako jedna z pěti úrovní
Návod: Bezpečnost AI — kdy lokální vs. placený cloud

Hlášky na zapamatování

„Ty modely, které si dnes rozběhnete na středně výkonném počítači, mají schopnosti, které před dvěma lety mělo to nejlepší, co bylo na trhu.”

„Není to jenom o promptu, kontextu a modelu — je to o organizaci práce. Ten harness určí, jak kvalitní výsledky z té spolupráce dostanete.”

„Apple se najednou stává tichým vítězem v téhle soutěži.”

Telly AI Academy · interní zdroj Telly s.r.o. · inspirováno Future AI Leader