🧩 Jak na lokální AI modely
Záznam a materiály
Sekce “Záznam a materiály”Ke stažení: 📄 Prezentace (PDF) · 📝 Přepis session (MD) · ⭐ To nejlepší ze session (MD) · 🧰 Tipy na aplikace (MD)
TL;DR
Sekce “TL;DR”- Lokální ≠ open source. Lokální = neběží v cloudu. Open source = zveřejněné váhy. Dvě nezávislé vlastnosti
- Open source modely dohánějí komerční špičku — velké (Llama 4, Qwen 3.5) jsou srovnatelné s GPT-5, Sonnet 4.6, Gemini 3
- Modely dnes na středním PC = GPT-3.5 až GPT-4 úroveň z minulosti. 14B model běží na MacBooku Pro M3
- Apple je tichý vítěz díky sjednocené paměti CPU/GPU — Mac Mini M4 (32 GB, ~30k Kč) rozběhne 14B
- Kdy lokální dává smysl: citlivá data, hromadné zpracování, firemní RAG, regulatorika, offline
Hlavní koncept
Sekce “Hlavní koncept”Dva různé pojmy, které se zaměňují:
Lokální model = běží na tvém počítači nebo firemní infrastruktuře. Data neopouštějí zařízení.
Open source / open weight = model s veřejně dostupnými váhami. Můžeš ho stáhnout, spustit, upravit — nebo k němu přistupovat přes API (pak to není lokální).
Příklad: Qwen 3 v LM Studiu na tvém disku = lokální + open source. Qwen 3 přes Hugging Face API = open source, ale ne lokální.
Klíčové koncepty
Sekce “Klíčové koncepty”Kategorie modelů podle velikosti:
| Kategorie | Parametry | Příklad | RAM |
|---|---|---|---|
| Miniaturní | 1-3 B | Gemma 3 4B | 8 GB |
| Malé | 4-14 B | Qwen 3 14B, Llama 3 8B | 16 GB |
| Střední | 20-70 B | Qwen 3 32B, Gemma 3 27B | 32 GB |
| Velké | 70-200+ B | DeepSeek V3, Llama 4 | 64+ GB |
| Frontier | 400-700+ B | Serverové modely | Serverové GPU |
Kvantizace — komprese modelu (např. 32-bit → 4-bit). Menší paměť, rychlejší běh, mírný pokles kvality. Dělá malé modely použitelnými na běžném hardwaru.
Harness — orchestrační vrstva nástroje (prompt + kontext + tool use + nástroje). Často důležitější než model samotný. Cursor má dobrý harness → kvalitní výsledky i s menším modelem.
Finetuning vs. RAG — Finetuning: přetrénuj model na doménových datech (technicky náročné). RAG (Retrieval-Augmented Generation): model nepřetrénovávej, ale přes vektorovou DB mu poskytuj relevantní dokumenty jako kontext. Jednodušší, flexibilnější.
Knowledge cutoff — lokální model ví jen to, na čem byl natrénován. Bez web searche nemá přístup k aktuálním informacím (výjimka: Perplexica s integrovaným vyhledáváním).
Cloudové vs. lokální
Sekce “Cloudové vs. lokální”| Aspekt | Cloud | Lokální |
|---|---|---|
| Kvalita | Špičková | Těsně za špičkou |
| Ochrana dat | Data do cloudu | Zůstávají u tebe |
| Náklady | Předplatné/tokeny | HW jednou, pak 0 |
| Web search | Integrovaný | Bez (mimo Perplexica) |
| Rychlost nasazení | Okamžitá | Instalace + stažení |
| Aktualizace | Automatické | Manuálně |
| Kustomizace | Omezená | Plná (RAG, finetuning) |
| Vendor lock-in | Vysoký | Nulový |
Hardware
Sekce “Hardware”PC: Malý model (14B) = 16 GB RAM + střední GPU. Střední (32B) = 32 GB + herní NVIDIA. Velký (70B+) = 64 GB+ s více GPU.
Mac — tichý vítěz:
- Mac Mini M4 (32 GB): ~30 000 Kč, rozběhne 14B modely, které na PC chtějí 2-3× dražší HW
- Mac Mini M4 (64 GB): ~70 000+ Kč
- MacBook Pro M3: zvládne 14B pro offline práci
- Mac Studio: propojení přes exolabs.net cluster pro větší modely
Telly aplikace
Sekce “Telly aplikace”Pro Telly marketing týmu je lokální AI okrajový use case — běžná práce s kampaněmi, contentem a analýzou zvládne Claude/Gemini cloudově bez problémů (vypnuté trénování, GDPR OK).
Kdy by mohl dávat smysl:
- Analýza zákaznických dat (smlouvy, call centrum přepisy) — data z Česka, citlivé, GDPR. RAG nad lokálním modelem = znalostní báze bez rizika
- Hromadné zpracování tisíců mailů/ticketů — breakeven s Haiku 4.5 je vysoký (Haiku zpracuje 30-40/min za cca 0,3 USD za tisíc)
- České radiokomunikace (GPU/Model as a Service) jako hybridní kompromis: data v ČR, bez vlastního HW
Scénáře kdy NE
Sekce “Scénáře kdy NE”- Potřebuješ absolutně nejlepší kvalitu
- Vibe coding (nejchytřejší model kompenzuje nedostatek znalostí)
- Jednorázové dotazy v malém objemu (cloudové předplatné je jednodušší)
- Potřebuješ aktuální informace (web search chybí)
Úkol na týden
Sekce “Úkol na týden”- Nainstaluj LM Studio (GUI, zdarma)
- Stáhni Qwen 3 14B nebo Gemma 3 (malý)
- Vyzkoušej 1 úkol — shrnutí dokumentu, konzultace textu, klasifikace
- Porovnej výstup s tím, co znáš z Claude/ChatGPT — zaregistruj rozdíly
- (Volitelně) Zkus na Hugging Face Chat online 2-3 modely, bez stahování
Nástroje
Sekce “Nástroje”| Nástroj | K čemu |
|---|---|
| LM Studio | GUI pro lokální modely, doporučené pro začátečníky |
| Ollama | CLI alternativa, rychlejší setup |
| AnythingLLM | Lokální modely + RAG nad dokumenty |
| Hugging Face Chat | Online test modelů bez stahování |
| BottleCap AI scan | Test biasů, skrytých vlastností modelů |
| Artificial Analysis | Benchmarky a srovnání |
| České radiokomunikace | GPU/Model as a Service, data v ČR |
Zdroje
Sekce “Zdroje”- Modul 2 — Nástroje s AI — lokální modely jako jedna z pěti úrovní
- Návod: Bezpečnost AI — kdy lokální vs. placený cloud
Hlášky na zapamatování
Sekce “Hlášky na zapamatován프Ty modely, které si dnes rozběhnete na středně výkonném počítači, mají schopnosti, které před dvěma lety mělo to nejlepší, co bylo na trhu.”
„Není to jenom o promptu, kontextu a modelu — je to o organizaci práce. Ten harness určí, jak kvalitní výsledky z té spolupráce dostanete.”
„Apple se najednou stává tichým vítězem v téhle soutěži.”