Kursplan
1. Introduksjon til Deep Reinforcement Learning
- Hva er Reinforcement Learning?
- Forskjeller mellom Supervised, Unsupervised, og Reinforcement Learning
- Applikasjoner av DRL i 2025 (robotikk, helsevesen, finans, logistikk)
- Forstå agent-miljø interaksjonsløkken
2. Grunnleggende Reinforcement Learning
- Markov Decision Processes (MDP)
- Tilstand, handling, belønning, policy, og verdi-funksjoner
- Exploration vs. Exploitation trade-off
- Monte Carlo metoder og Temporal-Difference (TD) learning
3. Implementering av grunnleggende RL-algoritmer
- Tabular metoder: Dynamic Programming, Policy Evaluation, og Iteration
- Q-Learning og SARSA
- Epsilon-greedy exploration og decaying strategier
- Implementering av RL-miljøer med OpenAI Gymnasium
4. Overgang til Deep Reinforcement Learning
- Begrensninger ved tabular metoder
- Bruk av neural nets for funksjonsapproksimasjon
- Deep Q-Network (DQN) arkitektur og arbeidsflyt
- Erfaring gjennomgang og mål-netts
5. Avanserte DRL-algoritmer
- Double DQN, Dueling DQN, og Prioritized Experience Replay
- Policy Gradient Metoder: REINFORCE algoritmen
- Actor-Critic arkitekturer (A2C, A3C)
- Proximal Policy Optimization (PPO)
- Soft Actor-Critic (SAC)
6. Arbeid med kontinuerlige handlingrom
- Utfordringer ved kontinuerlig kontroll
- Bruk av DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Praktiske verktøy og rammeverk
- Bruk av Stable-Baselines3 og Ray RLlib
- Logging og overvåking med TensorBoard
- Hyperparameter justering for DRL modeller
8. Belønningsingeniør og miljødesign
- Belønningsformering og straffebalanse
- Sim-to-real transfer learning konsepter
- Skapelse av egendefinerte miljøer i Gymnasium
9. Delvis observasjonsmiljøer og generalisering
- Håndtering av ufullstendig tilstandsinformasjon (POMDPs)
- Minnebaserte tilnærminger ved bruk av LSTMs og RNNs
- Forbedring av agentens robusthet og generalisering
10. Spelteori og Multi-Agent Reinforcement Learning
- Introduksjon til multi-agent miljøer
- Samarbeid vs. konkurranse
- Applikasjoner i motstandsdyktig trening og strategioptimalisering
11. Case Studies og virkelige applikasjoner
- Autonome kjøresimuleringer
- Dynamisk prising og finansielle handlingsstrategier
- Robotikk og industriell automatisering
12. Feilsøking og optimalisering
- Diagnose av ustabil trening
- Håndtering av belønningssparsitet og overfitting
- Skalering av DRL modeller på GPUs og distribuerte systemer
13. Oppsummering og neste steg
- Gjennomgang av DRL arkitektur og viktige algoritmer
- Industritrender og forskningsretninger (f.eks. RLHF, hybrid modeller)
- Ytterligere ressurser og lesestoff
Krav
- Dyktighet i Python-programmering
- Forståelse av Kalkulus og Lineær Algebra
- Grundleggende kunnskap i Sannsynlighetsregning og Statistikk
- Erfaring med å bygge maskinlæring-modeller med Python og NumPy eller TensorFlow/PyTorch
Målgruppe
- Utviklere interessert i AI og intelligente systemer
- Data Scientists som utforsker forsterkende læringsrammeverk
- Maskinlæringingeniører som arbeider med autonome systemer
Referanser (3)
Jeg likte virkelig avslutningen hvor vi tok tiden til å leke med CHAT GPT. Rommet var ikke satt opp på den beste måten for dette - istedenfor én stor bord ville det vært lurt med noen mindre bord slik at vi kunne dele oss inn i små grupper og brainstorme.
Nola - Laramie County Community College
Kurs - Artificial Intelligence (AI) Overview
Maskinoversatt
Å jobbe ut fra grunnleggende prinsipper på en konsernet måte, og gå over til å anvende kasusstudier samme dag
Maggie Webb - Department of Jobs, Regions, and Precincts
Kurs - Artificial Neural Networks, Machine Learning, Deep Thinking
Maskinoversatt
At det brukt reelle selskapsdata. Instruktøren hadde en veldig god tilnærming ved å få deltakerne til å delta og konkurrere
Jimena Esquivel - Zaklad Uslugowy Hakoman Andrzej Cybulski
Kurs - Applied AI from Scratch in Python
Maskinoversatt