TL;DR
Učenje potkrepljivanjem (RL) moćan je način izgradnje modela koji učenje kroz rad. Umjesto da se oslanja samo na povijesne podatke, RL optimizira odluke putem nagrada i povratnih petlji—iz stvarne proizvodnje i iz simulacija. Rezultat: modeli koji nastavljaju poboljšavati dok se svijet mijenja. Zamislite primjene od donošenja odluka na razini AlphaGo do optimizacije prihoda i dobiti, strategija zaliha i cijena, pa čak i signalizacije dionica (uz odgovarajuće upravljanje).
Agent: model koji donosi odluke.
Okruženje: svijet u kojem model djeluje (tržište, web trgovina, opskrbni lanac, burza).
Nagrada (reward): brojčana vrijednost koja pokazuje koliko je akcija bila uspješna (npr. veća marža, niži troškovi zaliha).
Politika (policy): strategija koja odabire akciju s obzirom na stanje.
Objašnjenje kratica:
RL = Reinforcement Learning (učenje potkrepljivanjem)
MDP = Markovljev proces odlučivanja (matematički okvir za RL)
MLOps = Operacije strojnog učenja (operativna strana: podaci, modeli, implementacija, nadzor)
Kontinuirano učenje: RL prilagođava politiku kada se promijene potražnja, cijene ili ponašanje.
Usmjerenost na donošenje odluka: Ne samo predviđanje, već stvarno optimiziranje ishoda.
Pogodno za simulacije: Možete sigurno pokretati „što-ako” scenarije prije nego što krenete uživo.
Povratne informacije na prvom mjestu: Koristite stvarne KPI-jeve (marža, konverzija, brzina obrtaja zaliha) kao izravnu nagradu.
Važno: AlphaFold je proboj dubokog učenja za savijanje proteina; to izvrstan primjer učenja potkrepljivanjem (RL) je AlphaGo/AlphaZero (donošenje odluka s nagradama). Poanta ostaje: učenje putem povratnih informacija daje superiorne politike u dinamičnim okruženjima.
Alphafold koristi kombinaciju generativne umjetne inteligencije kako bi, umjesto predviđanja kombinacija riječi (tokena), predvidio način kombiniranja gena. Koristi učenje potkrepljivanjem (Reinforcement Learning) za predviđanje najvjerojatnijeg oblika određene strukture proteina.
Cilj: maksimalna bruto marža pri stabilnoj konverziji.
Stanje: vrijeme, zalihe, konkurentska cijena, promet, povijesni podaci.
Akcija: odabir razine cijene ili vrste promocije.
Nagrada: marža – (troškovi promocije + rizik povrata).
Bonus: RL sprječava "prekomjerno prilagođavanje" (overfitting) povijesnoj elastičnosti cijena jer istražuje.
Cilj: razina usluge ↑, troškovi zaliha ↓.
Akcija: prilagodba točaka i količina narudžbi.
Nagrada: promet – troškovi zaliha i zaostalih narudžbi.
Cilj: maksimiziranje ROAS/CLV (Povrat na potrošnju na oglase / Vrijednost životnog vijeka korisnika).
Akcija: raspodjela proračuna po kanalima i kreativnim rješenjima.
Nagrada: pripisana marža na kratki i dugi rok.
Cilj: prilagođeno riziku maksimiziranje povrata.
Stanje: značajke cijena, volatilnost, kalendarski/makro događaji, značajke vijesti/sentimenta.
Akcija: prilagodba pozicije (povećanje/smanjenje/neutralizacija) ili „bez trgovanja“.
Nagrada: PnL (Dobit i gubitak) – transakcijski troškovi – rizični penal.
Pozor: nije investicijski savjet; osigurajte stroga ograničenja rizika, modeli odstupanja (slippage) i usklađenost.
Ovako osiguravamo kontinuirano učenje u NetCare-u:
Analiza (Analyze)
Revizija podataka, definicija KPI-jeva, dizajn nagrađivanja, izvanmrežna validacija.
Treniraj
Optimizacija pravila (npr. PPO/DDDQN). Odredite hiperparametre i ograničenja.
Simuliraj
Digitalni blizanac ili tržišni simulator za što-ako i A/B scenariji.
Operiraj
Kontrolirano uvođenje (canary/postupno). Spremište značajki (feature store) + zaključivanje u stvarnom vremenu.
Evaluiraj
KPI-jevi uživo, detekcija odstupanja (drift), pravednost/zaštitni mehanizmi, mjerenje rizika.
Ponovno treniraj
Periodično ili događajem potaknuto ponovno treniranje s novim podacima i povratnim informacijama o ishodu.
Klasični nadzirani modeli predviđaju ishod (npr. promet ili potražnju). Ali najbolje predviđanje ne vodi automatski do najboljeg akcija. RL optimizira izravno na prostoru odlučivanja sa stvarnim KPI-jem kao nagradom—i uči iz posljedica.
Ukratko:
Nadzirano (Supervised): „Kolika je vjerojatnost da će se X dogoditi?”
RL: „Koja radnja maksimizira moj cilj sada i dugoročno?”
Dobro osmislite nagradu
Kombinirajte kratkoročne KPI-jeve (dnevna marža) s dugoročnom vrijednošću (CLV, zdravlje zaliha).
Dodajte penale za rizik, usklađenost i utjecaj na kupce.
Ograničite rizik istraživanja
Započnite u simulaciji; krenite uživo s canary izdanja i ograničenja (npr. maksimalni korak cijene/dan).
Izgradnja zaštitne mjere: stop-loss nalozi, proračunska ograničenja, tijekovi odobravanja.
Spriječite odstupanje podataka (data drift) i curenje podataka
Koristite spremište značajki (feature store) s kontrolom verzija.
Nadzirite odstupanje (drift) (promjene statistike) i automatski ponovno trenirajte.
Uspostavite MLOps i upravljanje
CI/CD za modele, ponovljivi cjevovodi, objašnjivost i revizijski tragovi.
Uskladite se s DORA/IT upravljanjem i okvirima privatnosti.
Odaberite strogo definiran slučaj s jasnim KPI-jevima (npr. dinamičko određivanje cijena ili raspodjela proračuna).
Izgradite jednostavan simulator s najvažnijim dinamikama i ograničenjima.
Započnite sa sigurnom politikom (temeljen na pravilima) kao osnovu; nakon toga testirajte RL-politiku usporedno.
Mjerite uživo, u malom opsegu (canary), i povećajte opseg nakon dokazanog poboljšanja.
Automatizirajte ponovno treniranje (raspored + okidači događaja) i upozorenja o odstupanju (drift).
Kod NetCare kombiniramo strategija, podatkovni inženjering i MLOps s RL temeljen na agentima:
Otkrivanje i dizajn KPI-jeva: nagrade, ograničenja, granice rizika.
Podaci i simulacija: spremišta značajki (feature stores), digitalni blizanci, A/B okvir.
RL pravila (RL-Policies): od osnovne linije → PPO/DDQN → pravila svjesna konteksta.
Spremno za produkciju: CI/CD, nadzor, odstupanja (drift), ponovno treniranje i upravljanje.
Poslovni utjecaj: fokus na maržu, razinu usluge, ROAS/CLV ili PnL prilagođen riziku.
Želite li znati što petlja kontinuiranog učenja donosi najviše koristi vašoj organizaciji?
👉 Zakažite uvodni razgovor putem netcare.hr – rado ćemo vam pokazati demo o tome kako primijeniti učenje potkrepljivanjem (Reinforcement Learning) u praksi.