Nazwa przedmiotu:
Uczenie ze wzmocnieniem
Koordynator przedmiotu:
Dr hab. inż. Maria Ganzha, prof. PW
Status przedmiotu:
Obowiązkowy
Poziom kształcenia:
Studia II stopnia
Program:
Informatyka i Systemy Informacyjne
Grupa przedmiotów:
Wspólne
Kod przedmiotu:
1120-INMSI-MSP-0115
Semestr nominalny:
2 / rok ak. 2022/2023
Liczba punktów ECTS:
4
Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
1. Godziny kontaktowe – 52 h; w tym a) obecność na wykładach – 15 h b) obecność na zajęciach projektowych – 30 h c) konsultacje – 5 h d) obecność na egzaminie – 2 h 2. praca własna studenta – 60 h; w tym a) zapoznanie się z literaturą – 15 h b) przygotowanie do zajęć projektowych – 15 h c) przygotowanie raportu/prezentacji – 15 h d) przygotowanie do egzaminu – 15 h Razem 112 h, co odpowiada 4 pkt. ECTS
Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
1. obecność na wykładach – 15 h 2 obecność na zajęciach projektowych – 30 h 3. konsultacje – 5 h 4. obecność na egzaminie – 2 h Razem 52 h, co odpowiada 2 pkt. ECTS
Język prowadzenia zajęć:
polski
Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
1. obecność na zajęciach projektowych – 30 h 2. przygotowanie do zajęć projektowych – 15 h Razem 45 h, co odpowiada 2 pkt. ECTS
Formy zajęć i ich wymiar w semestrze:
  • Wykład15h
  • Ćwiczenia0h
  • Laboratorium0h
  • Projekt30h
  • Lekcje komputerowe0h
Wymagania wstępne:
.
Limit liczby studentów:
Bez limitu
Cel przedmiotu:
Celem jest zapoznanie studentów z podstawowymi pojęciami, metodami i wybranymi algorytmami uczenia ze wzmocnieniem. W trakcie zajęć praktycznych (projekt) studenci zdobędą doświadczenia związane z implementacją i stosowaniem takich algorytmów.
Treści kształcenia:
Wykład: 1. Uczenie ze wzmocnieniem – podstawowe pojęcia: środowisko, nagrody/polityka, uczeń/agent. Przykładowe problemy. 2. Procesy decyzyjne Markowa (MDP); funkcja wartości. 3. Programowanie dynamiczne w rozwiązywaniu MDP. 4. Predykcja funkcji wartości (metoda Monte-Carlo, TD-learning). 5. Uczenie ze wzmocnieniem w dużej (nieograniczonej) przestrzeni stanów – algorytmy aproksymacyjne; algorytm TD(lambda), gradient TD-learning (algorytmy Suttona). 6. Uczenie się optymalnej (prawie optymalnej) strategii; problem „wielorękiego bandyty”. 7. Uczenie typu Q-learning. 8. Metody aktor-krytyk (SARSA, metody zachłanne, …). Projekt: Studenci wybierają temat projektu na drugich zajęciach. Wynikami projektu są: prezentacja końcowa, raport techniczny, udokumentowany kod.
Metody oceny:
Ocena końcowa z przedmiotu ustalana jest według standardowej skali, na podstawie łącznej liczby punktów uzyskanych z egzaminu (50%) oraz projektu (50%).
Egzamin:
tak
Literatura:
1. 1. R. Sutton, A.G. Barto, Reinforcement Learning: an introduction. 2. C. Szepesv'ari, Algorithms for Reinforcement Learning. 3. S. Russel, P. Norvig, Artificial Intelligence: A Modern Approach. 4. T. Mitchell, Machine Learning.
Witryna www przedmiotu:
brak
Uwagi:

Efekty uczenia się

Profil ogólnoakademicki - wiedza

Charakterystyka W01
Zna i rozumie zaawansowane metody uczenia ze wzmocnieniem, procesy decyzyjne Markowa, jak również podstawy programowania dynamicznego
Weryfikacja: ocena prac domowych i egzaminu
Powiązane charakterystyki kierunkowe: I2_W02, I2SI_W02, I2SI_W03
Powiązane charakterystyki obszarowe: P7U_W, I.P7S_WG.o
Charakterystyka W02
Wie jak wybrać i zastosować zaawansowane metody uczenia ze wzmocnieniem i dostosować je do rozwiązywanego problemu
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe: I2SI_W01, I2SI_W06
Powiązane charakterystyki obszarowe:
Charakterystyka W03
Posiada wiedzę o trendach rozwojowych i najistotniejszych nowych osiągnięciach w zakresie teorii i praktycznych zastosowań uczenia ze wzmocnieniem
Weryfikacja: ocena prac domowych i egzaminu
Powiązane charakterystyki kierunkowe: I2SI_W02
Powiązane charakterystyki obszarowe:

Profil ogólnoakademicki - umiejętności

Charakterystyka U01
Potrafi pozyskiwać informacje dotyczące uczenia ze wzmocnieniem z literatury, baz danych i innych źródeł; potrafi integrować uzyskane informacje, dokonywać ich interpretacji i krytycznej oceny, a także wyciągać wnioski oraz formułować i wyczerpująco uzasadniać opinie
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe: I2_U02
Powiązane charakterystyki obszarowe:
Charakterystyka U02
Potrafi pracować indywidualnie; potrafi ocenić czasochłonność zadania
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe: I2_U11
Powiązane charakterystyki obszarowe:
Charakterystyka U03
Potrafi opracować szczegółową dokumentację wyników realizacji eksperymentu związanego ze stosowaniem metod uczenia ze wzmocnieniem, zadania projektowego lub badawczego; potrafi przygotować opracowanie zawierające omówienie tych wyników
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe: I2_U06, I2_U07, I2_U08
Powiązane charakterystyki obszarowe:
Charakterystyka U04
Potrafi przygotować i przedstawić prezentację na temat realizacji zadania projektowego lub badawczego oraz poprowadzić dyskusję dotyczącą przedstawionej prezentacji
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe: I2_U08, I2_U09
Powiązane charakterystyki obszarowe:
Charakterystyka U05
Potrafi dobrać narzędzia odpowiednie do implementacji metod uczenia ze wzmocnieniem, uwzględniając przy tym możliwości współczesnych komputerów
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe: I2_U04, I2_U08, I2_U15**
Powiązane charakterystyki obszarowe:

Profil ogólnoakademicki - kompetencje społeczne

Charakterystyka K01
Krytycznie ocenia posiadaną wiedzę i odbierane treści
Weryfikacja: ocena prezentacji i projektu
Powiązane charakterystyki kierunkowe: I2_K01
Powiązane charakterystyki obszarowe:
Charakterystyka K02
Jest gotowy stosować metody uczenia ze wzmocnieniem w sposób nieszablonowy i skuteczny
Weryfikacja: .
Powiązane charakterystyki kierunkowe: I2_K04
Powiązane charakterystyki obszarowe: