Učenie posilňovaním (Reinforcement Learning) je učený prístup, pri ktorom agent vykonáva akcie v prostredie s cieľom maximalizovať odmena odmenu. Model sa učí politiky („policy“), ktoré na základe aktuálneho stavu (state) vyberajú najlepšiu akciu.
Agent: model, ktorý prijíma rozhodnutia.
Prostredie: svet, v ktorom model pôsobí (trh, internetový obchod, dodávateľský reťazec, burza).
Odmena (reward): číslo, ktoré vyjadruje, ako dobrá bola akcia (napr. vyššia marža, nižšie náklady na zásoby).
Politika: stratégia, ktorá vyberie akciu vzhľadom na stav.
Vysvetlenie skratiek:
RL = Posilňované učenie
MDP = Markovov rozhodovací proces (matematický rámec pre RL)
MLOps = Prevádzka strojového učenia (prevádzková stránka: dáta, modely, nasadenie, monitorovanie)
Kontinuálne učenie: RL upravuje politiku, keď sa zmení dopyt, ceny alebo správanie.
rozhodovanie-orientované: Nielen predpovedať, ale skutočne optimalizovať výsledok.
priateľský k simuláciám: Môžete bezpečne spúšťať „čo ak“ scenáre pred nasadením naživo.
najprv spätná väzba: Použite skutočné KPI (margina, konverzia, obrat zásob) ako priamu odmenu.
Dôležité: AlphaFold je prielom v hlbokom učení pre skladanie bielkovín; typický príklad RL je to AlphaGo/AlphaZero (rozhodovanie s odmenami). Pointa zostáva: učenie cez spätnú väzbu poskytuje vynikajúce politiky v dynamických prostrediach.
AlphaFold používa kombináciu generatívnej AI na predpovedanie kombinácie GEN namiesto slovných kombinácií (tokenov). Používa posilňovacie učenie na predpovedanie najpravdepodobnejšieho tvaru danej bielkovinovej štruktúry.
Cieľ: maximálne hrubá marža pri stabilnej konverzii.
Stav: čas, zásoby, cena konkurencie, návštevnosť, história.
Akcia: vybrať cenový stupeň alebo typ propagácie.
Odměna: marža – (náklady na promo + riziko vrátenia).
Bonus: RL zabraňuje „overfittingu“ na historickú cenovú elasticitu tým, že preskúmava.
Cieľ: úroveň služieb ↑, náklady na zásoby ↓.
Akcia: upravovať objednávkové body a veľkosti objednávok.
Odměna: obrat – náklady na zásoby a oneskorené objednávky.
Cieľ: maximalizovať ROAS/CLV (Návratnosť výdavkov na reklamu / Hodnota životnosti zákazníka).
Akcia: rozdelenie rozpočtu medzi kanály a kreatívy.
Odměna: priradená marža v krátkom aj dlhšom horizonte.
Cieľ: vážené rizikom maximalizácia výnosu.
Stav: cenové vlastnosti, volatilita, kalendárové/makro udalosti, spravodajské/sentimentové vlastnosti.
Akcia: úprava pozície (zvýšiť/znížiť/neutralizovať) alebo „žiadny obchod“.
Odměna: PnL (Zisk a strata) – transakčné náklady – penalizácia rizika.
Pozor: nie je investičné poradenstvo; zabezpečte prísne limity rizika, modely pre sklz (slippage) a súlade.
Takto zabezpečujeme kontinuálne učenie v NetCare:
Analýza (Analyze)
Audit dát, definícia KPI, návrh odmien, offline validácia.
Trénovanie
Optimalizácia politiky (napr. PPO/DDDQN). Stanovenie hyperparametrov a obmedzení.
Simulovať
Digitálny dvojča alebo simulátor trhu pre čo-keby a scenáre A/B.
Prevádzka
Kontrolované nasadenie (canary/postupné). Feature store + realtime inferencia.
Vyhodnotiť
Živé KPI, detekcia driftu, spravodlivosť/guardrails, meranie rizika.
Znova trénovať
Periodické alebo udalostne riadené opätovné trénovanie s čerstvými údajmi a spätnou väzbou o výsledkoch.
Klasické supervised modely predpovedajú výsledok (napr. tržby alebo dopyt). Ale najlepšia predpoveď automaticky neznamená najlepší výsledok akcia. RL optimalizuje priamo priestor rozhodnutí s reálnym KPI ako odmenou — a učí sa z dôsledkov.
Stručne:
Supervised: „Aká je pravdepodobnosť, že X nastane?“
RL: „Ktorá akcia maximalizuje môj cieľ teraz a dlhodobo?“
Dobre navrhnite odmenu
Skombinujte krátkodobé KPI (denná marža) s dlhodobou hodnotou (CLV, zdravotný stav zásob).
pridajte pokuty pre riziko, súlad a dopad na zákazníka.
Obmedzte riziko explorácie
Začnite v simulácii; prejdite do živého režimu s canary release-y a limitmi (napr. max. zmena ceny/deň).
Postavte bezpečnostné mantinely: stop-lossy, rozpočtové limity, schvaľovacie toky.
Preverte drift dát a úniky
Použite feature store s riadením verzií.
Monitorujte drift (zmena štatistík) a automaticky znovu natrénujte.
Zabezpečiť MLOps a governance
CI/CD pre modely, reprodukovateľné pipeliney, vysvetliteľnosť a auditné záznamy.
Prepojte na DORA/IT-governance a rámce ochrany súkromia.
Vyberte KPI-striktne ohraničený prípad použitia (napr. dynamické ceny alebo alokácia rozpočtu).
Vytvorte jednoduchý simulátor s hlavnými dynamikami a obmedzeniami.
Začnite s bezpečnou politikou (pravidlové) ako východisková línia; potom otestovať RL-politiku vedľa seba.
Merať v reálnom čase, v malom rozsahu (canary) a zväčšujte po preukázanom zlepšení.
Automatizujte opätovné trénovanie (plány + spúšťače udalostí) a upozornenia na drift.
Pri NetCare kombinujeme stratégia, dátové inžinierstvo a MLOps s agentovo založeným RL:
Discovery a návrh KPI: odmeny, obmedzenia, limity rizika.
Dáta a simulácia: feature stores, digitálne dvojčatá, A/B rámec.
RL-politiky: od východiskového modelu → PPO/DDQN → politiky citlivé na kontext.
Pripravené na produkciu: CI/CD, monitorovanie, drift, opätovné trénovanie a správa.
Dopad na podnikanie: zameranie na maržu, úroveň služby, ROAS/CLV alebo rizikom upravený PnL.
Chcete vedieť, ktoré cyklické priebežné učenie prinášajú najväčší úžitok vašej organizácii?
👉 Naplánujte si úvodný rozhovor cez netcare.nl – radi vám ukážeme demo, ako aplikovať Reinforcement Learning v praxi.