Kursplan

1. Introduksjon til Deep Reinforcement Learning

  • Hva er Reinforcement Learning?
  • Forskjeller mellom Supervised, Unsupervised, og Reinforcement Learning
  • Applikasjoner av DRL i 2025 (robotikk, helsevesen, finans, logistikk)
  • Forstå agent-miljø interaksjonsløkken

2. Grunnleggende Reinforcement Learning

  • Markov Decision Processes (MDP)
  • Tilstand, handling, belønning, policy, og verdi-funksjoner
  • Exploration vs. Exploitation trade-off
  • Monte Carlo metoder og Temporal-Difference (TD) learning

3. Implementering av grunnleggende RL-algoritmer

  • Tabular metoder: Dynamic Programming, Policy Evaluation, og Iteration
  • Q-Learning og SARSA
  • Epsilon-greedy exploration og decaying strategier
  • Implementering av RL-miljøer med OpenAI Gymnasium

4. Overgang til Deep Reinforcement Learning

  • Begrensninger ved tabular metoder
  • Bruk av neural nets for funksjonsapproksimasjon
  • Deep Q-Network (DQN) arkitektur og arbeidsflyt
  • Erfaring gjennomgang og mål-netts

5. Avanserte DRL-algoritmer

  • Double DQN, Dueling DQN, og Prioritized Experience Replay
  • Policy Gradient Metoder: REINFORCE algoritmen
  • Actor-Critic arkitekturer (A2C, A3C)
  • Proximal Policy Optimization (PPO)
  • Soft Actor-Critic (SAC)

6. Arbeid med kontinuerlige handlingrom

  • Utfordringer ved kontinuerlig kontroll
  • Bruk av DDPG (Deep Deterministic Policy Gradient)
  • Twin Delayed DDPG (TD3)

7. Praktiske verktøy og rammeverk

  • Bruk av Stable-Baselines3 og Ray RLlib
  • Logging og overvåking med TensorBoard
  • Hyperparameter justering for DRL modeller

8. Belønningsingeniør og miljødesign

  • Belønningsformering og straffebalanse
  • Sim-to-real transfer learning konsepter
  • Skapelse av egendefinerte miljøer i Gymnasium

9. Delvis observasjonsmiljøer og generalisering

  • Håndtering av ufullstendig tilstandsinformasjon (POMDPs)
  • Minnebaserte tilnærminger ved bruk av LSTMs og RNNs
  • Forbedring av agentens robusthet og generalisering

10. Spelteori og Multi-Agent Reinforcement Learning

  • Introduksjon til multi-agent miljøer
  • Samarbeid vs. konkurranse
  • Applikasjoner i motstandsdyktig trening og strategioptimalisering

11. Case Studies og virkelige applikasjoner

  • Autonome kjøresimuleringer
  • Dynamisk prising og finansielle handlingsstrategier
  • Robotikk og industriell automatisering

12. Feilsøking og optimalisering

  • Diagnose av ustabil trening
  • Håndtering av belønningssparsitet og overfitting
  • Skalering av DRL modeller på GPUs og distribuerte systemer

13. Oppsummering og neste steg

  • Gjennomgang av DRL arkitektur og viktige algoritmer
  • Industritrender og forskningsretninger (f.eks. RLHF, hybrid modeller)
  • Ytterligere ressurser og lesestoff

Krav

  • Dyktighet i Python-programmering
  • Forståelse av Kalkulus og Lineær Algebra
  • Grundleggende kunnskap i Sannsynlighetsregning og Statistikk
  • Erfaring med å bygge maskinlæring-modeller med Python og NumPy eller TensorFlow/PyTorch

Målgruppe

  • Utviklere interessert i AI og intelligente systemer
  • Data Scientists som utforsker forsterkende læringsrammeverk
  • Maskinlæringingeniører som arbeider med autonome systemer
 21 timer

Antall deltakere


Pris per deltaker

Referanser (5)

Kommende kurs

Relaterte kategorier