Učenje potkrepljenjem (RL) je pristup učenju pri kojem agent poduzima radnje u okolina kako bi maksimizirao nagrada nagrada. Model uči politike ("policy") koje na temelju trenutačnog stanja (state) odabiru najbolju radnju.
Agent: model koji donosi odluke.
Okolina: svijet u kojem model djeluje (tržište, web-trgovina, lanac opskrbe, burza).
Nagrada (reward): brojčana vrijednost koja pokazuje koliko je neka radnja bila dobra (npr. veća marža, niži troškovi zaliha).
Politika: strategija koja bira akciju s obzirom na stanje.
Kratice objašnjene:
RL = Učenje pojačanjem
MDP = Markovljev proces odlučivanja (matematički okvir za RL)
MLOps = Operacije strojног učenja (operativna strana: podaci, modeli, implementacija, nadzor)
Kontinuirano učenje: RL prilagođava politiku kada se potražnja, cijene ili ponašanje promijene.
odlučno orijentirano: Ne samo predviđati, nego stvarno optimizirati ishod.
Prikladno za simulacije: Možete sigurno pokretati "što-ako" scenarije prije nego što krenete uživo.
povratne informacije na prvom mjestu: Koristite stvarne KPI-jeve (marža, konverzija, brzina obrta zaliha) kao neposrednu nagradu.
Važno: AlphaFold je proboj dubokog učenja za savijanje proteina; prvoklasan primjer RL-a to je poput AlphaGo/AlphaZero (odlučivanje s nagradama). Poanta ostaje: učenje putem povratnih informacija dostavlja superiorne politike u dinamičkim okruženjima.
AlphaFold koristi kombinaciju generativne AI da bi umjesto predviđanja kombinacija riječi (tokena) predvidio kombinaciju gena. Koristi pojačano učenje za predviđanje najvjerojatnijeg oblika određene proteinske strukture.
Cilj: maksimalno bruto marža pri stabilnoj konverziji.
Stanje: vrijeme, zaliha, cijena konkurencije, promet, povijest.
Akcija: odabrati razinu cijene ili tip promocije.
Nagrada: marža – (troškovi promocije + rizik povrata).
Bonus: RL sprječava prekomjerno prilagođavanje povijesnoj cjenovnoj elastičnosti jer istražuje istražuje.
Cilj: razina usluge ↑, troškovi zaliha ↓.
Akcija: prilagoditi točke naručivanja i veličine narudžbi.
Nagrada: prihod – troškovi zaliha i nepodmirenih narudžbi.
Cilj: maksimizirati ROAS/CLV (Povrat ulaganja u oglašavanje / Vrijednost životnog vijeka kupca).
Akcija: raspodjela proračuna po kanalima i kreativama.
Nagrada: pripisana marža na kratki i duži rok.
Cilj: teženo rizikom maksimiziranje prinosa.
Stanje: značajke cijene, volatilnost, kalendarski/makro događaji, vijesti/sentiment značajke.
Akcija: prilagodba pozicije (povećanje/smanjenje/neutraliziranje) ili "bez trgovanja".
Nagrada: PnL (Dobit i gubitak) – transakcijski troškovi – kazna za rizik.
Pažnja: nije investicijski savjet; osigurajte stroga ograničenja rizika, modeli klizanja i usklađenost.
Kako osiguravamo kontinuirano učenje u NetCareu:
Analiza (Analyze)
Revizija podataka, definiranje KPI‑eva, dizajn nagrađivanja, offline validacija.
Treniraj
Optimizacija politike (npr. PPO/DDDQN). Odredite hiperparametre i ograničenja.
Simuliraj
Digitalni blizanac ili simulador tržišta za what-if i A/B scenarije.
Operiraj
Kontrolirano uvođenje (canary/postupno). Feature store + realtime inferencija.
Procijeniti
Live KPI-jevi, otkrivanje odskačanja, pravednost/zaštitne mjere, mjerenje rizika.
Ponovno treniranje
Periodično ili događajno vođeno ponovno treniranje s novim podacima i povratnom informacijom o ishodu.
Klasični nadzirani modeli predviđaju ishod (npr. prihod ili potražnju). Ali najbolje predviđanje ne vodi automatski najboljemu akcija. RL optimizira izravno u prostoru odluka s pravim KPI-jem kao nagradom — i uči iz posljedica.
Ukratko:
Nadzirano: "Kolika je vjerojatnost da će X dogoditi?"
RL: "Koja akcija maksimizira moj cilj?" sada i na dugoročnoj razini?"
Dizajnirajte nagradu pravilno
Povežite kratkoročne KPI-jeve (dnevna marža) s dugoročnom vrijednošću (CLV, zdravlje zaliha).
Dodajte kazne za rizik, usklađenost i utjecaj na klijenta.
Ograničite rizik istraživanja
Počnite u simulaciji; idite uživo s kanary objave i ograničenjima (npr. max promjena cijene/dan).
Izgradite sigurnosne mjere: stop-lossove, ograničenja budžeta, tijekove odobrenja.
Spriječite drift podataka i curenje
Koristite feature store s upravljanjem verzijama.
Nadzor drift (statistike se mijenjaju) i automatski ponovno trenirajte.
Uredite MLOps i upravljanje
CI/CD za modele, reproducibilne pipelineove, objašnjivost i zapisnike revizije.
Povežite sa DORA/IT-upravom i okvirima privatnosti.
Odaberite KPI-jem jasno definirani slučaj (npr. dinamičko određivanje cijena ili raspodjela proračuna).
Izgradite jednostavan simulator s ključnim dinamika i ograničenjima.
Počnite s sigurnom politikom (temeljen na pravilima) kao osnovu; potom usporedite RL-polisu paralelno.
Mjerenje uživo, u malom opsegu (canary), i skalirajte nakon dokazanog poboljšanja.
Automatizirajte ponovno treniranje (raspored + event-okidači) i upozorenja za drift.
Kod NetCare kombiniramo strategija, inženjering podataka i MLOps s agentno utemeljenim RL-om:
Otkrivanje i dizajn KPI-ja: nagrade, ograničenja, granice rizika.
Podaci i simulacija: spremišta značajki, digitalni blizanci, A/B-okvir.
RL-politike: od osnovne razine → PPO/DDQN → politike osjetljive na kontekst.
Spremno za produkciju: CI/CD, nadzor, drift, ponovno učenje i upravljanje.
Poslovni učinak: fokus na maržu, razinu usluge, ROAS/CLV ili rizikom korigirani PnL.
Želite li znati koje petlja kontinuiranog učenja donosi najviše za vašu organizaciju?
👉 Zakažite uvodni razgovor putem netcare.nl – rado ćemo vam pokazati demo kako primijeniti Reinforcement Learning u praksi.