Přeskočit na obsah

🧩 Jak na lokální AI modely

Ke stažení: 📄 Prezentace (PDF) · 📝 Přepis session (MD) · ⭐ To nejlepší ze session (MD) · 🧰 Tipy na aplikace (MD)

  • Lokální ≠ open source. Lokální = neběží v cloudu. Open source = zveřejněné váhy. Dvě nezávislé vlastnosti
  • Open source modely dohánějí komerční špičku — velké (Llama 4, Qwen 3.5) jsou srovnatelné s GPT-5, Sonnet 4.6, Gemini 3
  • Modely dnes na středním PC = GPT-3.5 až GPT-4 úroveň z minulosti. 14B model běží na MacBooku Pro M3
  • Apple je tichý vítěz díky sjednocené paměti CPU/GPU — Mac Mini M4 (32 GB, ~30k Kč) rozběhne 14B
  • Kdy lokální dává smysl: citlivá data, hromadné zpracování, firemní RAG, regulatorika, offline

Dva různé pojmy, které se zaměňují:

Lokální model = běží na tvém počítači nebo firemní infrastruktuře. Data neopouštějí zařízení.

Open source / open weight = model s veřejně dostupnými váhami. Můžeš ho stáhnout, spustit, upravit — nebo k němu přistupovat přes API (pak to není lokální).

Příklad: Qwen 3 v LM Studiu na tvém disku = lokální + open source. Qwen 3 přes Hugging Face API = open source, ale ne lokální.

Kategorie modelů podle velikosti:

KategorieParametryPříkladRAM
Miniaturní1-3 BGemma 3 4B8 GB
Malé4-14 BQwen 3 14B, Llama 3 8B16 GB
Střední20-70 BQwen 3 32B, Gemma 3 27B32 GB
Velké70-200+ BDeepSeek V3, Llama 464+ GB
Frontier400-700+ BServerové modelyServerové GPU

Kvantizace — komprese modelu (např. 32-bit → 4-bit). Menší paměť, rychlejší běh, mírný pokles kvality. Dělá malé modely použitelnými na běžném hardwaru.

Harness — orchestrační vrstva nástroje (prompt + kontext + tool use + nástroje). Často důležitější než model samotný. Cursor má dobrý harness → kvalitní výsledky i s menším modelem.

Finetuning vs. RAG — Finetuning: přetrénuj model na doménových datech (technicky náročné). RAG (Retrieval-Augmented Generation): model nepřetrénovávej, ale přes vektorovou DB mu poskytuj relevantní dokumenty jako kontext. Jednodušší, flexibilnější.

Knowledge cutoff — lokální model ví jen to, na čem byl natrénován. Bez web searche nemá přístup k aktuálním informacím (výjimka: Perplexica s integrovaným vyhledáváním).

AspektCloudLokální
KvalitaŠpičkováTěsně za špičkou
Ochrana datData do clouduZůstávají u tebe
NákladyPředplatné/tokenyHW jednou, pak 0
Web searchIntegrovanýBez (mimo Perplexica)
Rychlost nasazeníOkamžitáInstalace + stažení
AktualizaceAutomatickéManuálně
KustomizaceOmezenáPlná (RAG, finetuning)
Vendor lock-inVysokýNulový

PC: Malý model (14B) = 16 GB RAM + střední GPU. Střední (32B) = 32 GB + herní NVIDIA. Velký (70B+) = 64 GB+ s více GPU.

Mac — tichý vítěz:

  • Mac Mini M4 (32 GB): ~30 000 Kč, rozběhne 14B modely, které na PC chtějí 2-3× dražší HW
  • Mac Mini M4 (64 GB): ~70 000+ Kč
  • MacBook Pro M3: zvládne 14B pro offline práci
  • Mac Studio: propojení přes exolabs.net cluster pro větší modely

Pro Telly marketing týmu je lokální AI okrajový use case — běžná práce s kampaněmi, contentem a analýzou zvládne Claude/Gemini cloudově bez problémů (vypnuté trénování, GDPR OK).

Kdy by mohl dávat smysl:

  • Analýza zákaznických dat (smlouvy, call centrum přepisy) — data z Česka, citlivé, GDPR. RAG nad lokálním modelem = znalostní báze bez rizika
  • Hromadné zpracování tisíců mailů/ticketů — breakeven s Haiku 4.5 je vysoký (Haiku zpracuje 30-40/min za cca 0,3 USD za tisíc)
  • České radiokomunikace (GPU/Model as a Service) jako hybridní kompromis: data v ČR, bez vlastního HW
  • Potřebuješ absolutně nejlepší kvalitu
  • Vibe coding (nejchytřejší model kompenzuje nedostatek znalostí)
  • Jednorázové dotazy v malém objemu (cloudové předplatné je jednodušší)
  • Potřebuješ aktuální informace (web search chybí)
  1. Nainstaluj LM Studio (GUI, zdarma)
  2. Stáhni Qwen 3 14B nebo Gemma 3 (malý)
  3. Vyzkoušej 1 úkol — shrnutí dokumentu, konzultace textu, klasifikace
  4. Porovnej výstup s tím, co znáš z Claude/ChatGPT — zaregistruj rozdíly
  5. (Volitelně) Zkus na Hugging Face Chat online 2-3 modely, bez stahování
NástrojK čemu
LM StudioGUI pro lokální modely, doporučené pro začátečníky
OllamaCLI alternativa, rychlejší setup
AnythingLLMLokální modely + RAG nad dokumenty
Hugging Face ChatOnline test modelů bez stahování
BottleCap AI scanTest biasů, skrytých vlastností modelů
Artificial AnalysisBenchmarky a srovnání
České radiokomunikaceGPU/Model as a Service, data v ČR

Hlášky na zapamatování

Sekce “Hlášky na zapamatování”

„Ty modely, které si dnes rozběhnete na středně výkonném počítači, mají schopnosti, které před dvěma lety mělo to nejlepší, co bylo na trhu.”

„Není to jenom o promptu, kontextu a modelu — je to o organizaci práce. Ten harness určí, jak kvalitní výsledky z té spolupráce dostanete.”

„Apple se najednou stává tichým vítězem v téhle soutěži.”

Telly AI Academy · interní zdroj Telly s.r.o. · inspirováno Future AI Leader