Kursplan
1. Introduksjon til Deep Reinforcement Learning
- Hva er Reinforcement Learning?
- Forskjeller mellom Supervised, Unsupervised, og Reinforcement Learning
- Applikasjoner av DRL i 2025 (robotikk, helsevesen, finans, logistikk)
- Forstå agent-miljø interaksjonsløkken
2. Grunnleggende Reinforcement Learning
- Markov Decision Processes (MDP)
- Tilstand, handling, belønning, policy, og verdi-funksjoner
- Exploration vs. Exploitation trade-off
- Monte Carlo metoder og Temporal-Difference (TD) learning
3. Implementering av grunnleggende RL-algoritmer
- Tabular metoder: Dynamic Programming, Policy Evaluation, og Iteration
- Q-Learning og SARSA
- Epsilon-greedy exploration og decaying strategier
- Implementering av RL-miljøer med OpenAI Gymnasium
4. Overgang til Deep Reinforcement Learning
- Begrensninger ved tabular metoder
- Bruk av neural nets for funksjonsapproksimasjon
- Deep Q-Network (DQN) arkitektur og arbeidsflyt
- Erfaring gjennomgang og mål-netts
5. Avanserte DRL-algoritmer
- Double DQN, Dueling DQN, og Prioritized Experience Replay
- Policy Gradient Metoder: REINFORCE algoritmen
- Actor-Critic arkitekturer (A2C, A3C)
- Proximal Policy Optimization (PPO)
- Soft Actor-Critic (SAC)
6. Arbeid med kontinuerlige handlingrom
- Utfordringer ved kontinuerlig kontroll
- Bruk av DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Praktiske verktøy og rammeverk
- Bruk av Stable-Baselines3 og Ray RLlib
- Logging og overvåking med TensorBoard
- Hyperparameter justering for DRL modeller
8. Belønningsingeniør og miljødesign
- Belønningsformering og straffebalanse
- Sim-to-real transfer learning konsepter
- Skapelse av egendefinerte miljøer i Gymnasium
9. Delvis observasjonsmiljøer og generalisering
- Håndtering av ufullstendig tilstandsinformasjon (POMDPs)
- Minnebaserte tilnærminger ved bruk av LSTMs og RNNs
- Forbedring av agentens robusthet og generalisering
10. Spelteori og Multi-Agent Reinforcement Learning
- Introduksjon til multi-agent miljøer
- Samarbeid vs. konkurranse
- Applikasjoner i motstandsdyktig trening og strategioptimalisering
11. Case Studies og virkelige applikasjoner
- Autonome kjøresimuleringer
- Dynamisk prising og finansielle handlingsstrategier
- Robotikk og industriell automatisering
12. Feilsøking og optimalisering
- Diagnose av ustabil trening
- Håndtering av belønningssparsitet og overfitting
- Skalering av DRL modeller på GPUs og distribuerte systemer
13. Oppsummering og neste steg
- Gjennomgang av DRL arkitektur og viktige algoritmer
- Industritrender og forskningsretninger (f.eks. RLHF, hybrid modeller)
- Ytterligere ressurser og lesestoff
Krav
- Dyktighet i Python-programmering
- Forståelse av Kalkulus og Lineær Algebra
- Grundleggende kunnskap i Sannsynlighetsregning og Statistikk
- Erfaring med å bygge maskinlæring-modeller med Python og NumPy eller TensorFlow/PyTorch
Målgruppe
- Utviklere interessert i AI og intelligente systemer
- Data Scientists som utforsker forsterkende læringsrammeverk
- Maskinlæringingeniører som arbeider med autonome systemer
Referanser (5)
Hunter er fabelaktig, veldig engasjerende, ekstremt kunnskapsrik og omgjengelig. Veldig bra gjort.
Rick Johnson - Laramie County Community College
Kurs - Artificial Intelligence (AI) Overview
Maskinoversatt
Very flexible.
Frank Ueltzhoffer
Kurs - Artificial Neural Networks, Machine Learning and Deep Thinking
I liked the new insights in deep machine learning.
Josip Arneric
Kurs - Neural Network in R
Ann created a great environment to ask questions and learn. We had a lot of fun and also learned a lot at the same time.
Gudrun Bickelq
Kurs - Introduction to the use of neural networks
It was very interactive and more relaxed and informal than expected. We covered lots of topics in the time and the trainer was always receptive to talking more in detail or more generally about the topics and how they were related. I feel the training has given me the tools to continue learning as opposed to it being a one off session where learning stops once you've finished which is very important given the scale and complexity of the topic.