Posilovací učení (RL) je učební přístup, při kterém agent provádí akce v prostředí k odměna maximalizovat. Model se učí politiku, která na základě aktuálního stavu (state) vybírá nejlepší akci.
Agent: model, který přijímá rozhodnutí.
Prostředí: svět, ve kterém model operuje (trh, webový obchod, dodavatelský řetězec, burza).
Odměna (reward): číslo, které udává, jak dobrá akce byla (např. vyšší marže, nižší náklady na sklad).
Politika: strategie, která vybírá akci vzhledem k danému stavu.
Vysvětlené zkratky:
RL = Posilovací učení
MDP = Markovův rozhodovací proces (matematický rámec pro RL)
MLOps = Operace strojového učení (operační stránka: data, modely, nasazení, monitorování)
Kontinuální učení: RL upravuje politiku, když se mění poptávka, ceny nebo chování.
Rozhodování orientované: Nejen předpovídat, ale skutečně optimalizovat z výsledku.
Přátelský k simulacím: Můžete bezpečně spouštět „co‑kdyby“ scénáře, než přejdete do provozu.
Zpětná vazba první: Používejte skutečné KPI (marže, konverze, rychlost obratu zásob) jako přímou odměnu.
Důležité: AlphaFold je průlom v deep learningu pro skládání proteinů; to Typický příklad RL je AlphaGo/AlphaZero (rozhodování s odměnami). Podstatné zůstává: učit se prostřednictvím zpětné vazby dodává nadřazené politiky v dynamických prostředích.
Alphafold používá kombinaci generativní AI k předpovědi kombinace genů místo předpovědi slovních kombinací (tokenů). Využívá reinforcement learning k předpovědi nejpravděpodobnějšího tvaru konkrétní proteinové struktury.
Cíl: maximální hrubá marže při stabilní konverzi.
Stav: čas, zásoby, konkurenční cena, provoz, historie.
Akce: vybrat cenový krok nebo typ propagace.
Odměna: marže – (náklady na propagaci + riziko vrácení).
Bonus: RL zabraňuje „přetrénování“ na historické cenové elasticitě tím, že zkoumá.
Cíl: úroveň služby ↑, náklady na zásoby ↓.
Akce: upravit objednávací body a velikosti objednávek.
Odměna: obrat – náklady na zásoby a nedodané objednávky.
Cíl: maximalizovat ROAS/CLV (Návratnost investic do reklamy / Hodnota zákazníka po celý život).
Akce: rozdělení rozpočtu mezi kanály a kreativy.
Odměna: přidělená marže v krátkodobém i dlouhodobém horizontu.
Cíl: rizikově vážený maximalizovat výnos
Stav: cenové faktory, volatilita, kalendářní/makro události, novinové/sentimentální faktory
Akce: úprava pozice (zvýšit/snížit/neutralizovat) nebo „žádný obchod“
Odměna: Zisk a ztráta (Zisk a ztráta) – transakční náklady – riziková penalizace
Pozor: žádné investiční poradenství; zajistěte přísné limity rizika, modely skluzu a shoda.
Takto zajišťujeme kontinuální učení v NetCare:
Analýza (Analyze)
Audit dat, definice KPI, návrh odměn, offline validace.
Trénovat
Optimalizace politik (např. PPO/DDDQN). Určete hyperparametry a omezení.
Simulovat
Digitální dvojče nebo tržní simulátor pro co‑kdyby a A/B scénáře.
Provozovat
Kontrolované nasazení (canary/postupné). Feature store + realtime inferenční výpočty.
Vyhodnotit
Live KPI, detekce driftu, spravedlnost/ochranné zábrany, měření rizika.
Přeškolit
Periodické nebo událostmi řízené přeškolení s čerstvými daty a zpětnou vazbou o výsledcích.
Klasické supervizované modely předpovídají výsledek (např. obrat nebo poptávku). Ale Nejlepší předpověď automaticky nevede k nejlepšímu akce. RL optimalizuje přímo v rozhodovacím prostoru s reálným KPI jako odměnou—a učí se z následků.
Stručně:
Supervizovaný: „Jaká je pravděpodobnost, že se X stane?“
RL: „Která akce maximalizuje můj cíl“ nyní a na dlouhodobém horizontu?
Navrhněte odměnu správně
Kombinujte krátkodobé KPI (denní marže) s dlouhodobou hodnotou (CLV, zdraví zásob).
Přidejte pokuty pro riziko, shodu a dopad na zákazníka.
Omezte riziko průzkumu
Začněte v simulaci; přejděte do provozu s kanárské nasazení a limity (např. maximální cenový krok za den).
Vytvořte ochranné zábrany: stop-lossy, rozpočtové limity, schvalovací toky.
Zabraňte driftu a úniku dat
Použijte úložiště vlastností s řízením verzí.
Sledujte odchylka (statistiky se mění) a automaticky znovu trénujte.
Řídit MLOps a governance
CI/CD pro modely, reprodukovatelné pipeline, vysvětlitelnost a auditní stopy.
Napojte se na DORA/IT governance a rámce ochrany soukromí.
Vyberte úzce definovaný případ s KPI (např. dynamické stanovování cen nebo alokace rozpočtu).
Vytvořte jednoduchý simulátor s nejdůležitějšími dynamikami a omezeními.
Začněte s bezpečnou politikou (pravidlově založený) jako výchozí; poté testujte RL politiku vedle sebe.
Měřte v reálném čase, v malém měřítku (canary) a škálujte po prokázaném zvýšení.
Automatizujte opětovné trénování (schéma + spouštěče událostí) a upozornění na drift.
U NetCare kombinujeme strategie, data engineering a MLOps s RL založené na agentech:
Objevování a návrh KPI: odměny, omezení, limity rizika.
Data a simulace: úložiště funkcí, digitální dvojčata, A/B rámec.
RL politiky: od baseline → PPO/DDQN → kontextově uvědomělé politiky.
Produkčně připravené: CI/CD, monitorování, drift, přeškolení a správa.
Obchodní dopad: zaměření na marži, úroveň služby, ROAS/CLV nebo rizikově korigovaný PnL.
Chcete vědět, který kontinuální učící smyčka přinese nejvíce pro vaši organizaci?
👉 Naplánujte průzkumný rozhovor přes netcare.nl – rádi vám ukážeme demo, jak můžete Reinforcement Learning v praxi použít.