Nazwa przedmiotu:
Uczenie ze wzmocnieniem
Koordynator przedmiotu:
Dr hab. inż. Maria Ganzha, prof. PW
Status przedmiotu:
Obowiązkowy
Poziom kształcenia:
Studia II stopnia
Program:
Informatyka i Systemy Informacyjne
Grupa przedmiotów:
Wspólne
Kod przedmiotu:
1120-INMSI-MSP-0115
Semestr nominalny:
2 / rok ak. 2020/2021
Liczba punktów ECTS:
4
Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
.
Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
.
Język prowadzenia zajęć:
polski
Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
.
Formy zajęć i ich wymiar w semestrze:
  • Wykład15h
  • Ćwiczenia0h
  • Laboratorium0h
  • Projekt30h
  • Lekcje komputerowe0h
Wymagania wstępne:
.
Limit liczby studentów:
Bez limitu
Cel przedmiotu:
Celem jest zapoznanie studentów z podstawowymi pojęciami, metodami i wybranymi algorytmami uczenia ze wzmocnieniem. W trakcie zajęć praktycznych (projekt) studenci zdobędą doświadczenia związane z implementacją i stosowaniem takich algorytmów.
Treści kształcenia:
Wykład: Uczenie ze wzmocnieniem – podstawowe pojęcia: środowisko, nagrody/polityka, uczeń/agent. Przykładowe problemy. Procesy decyzyjne Markowa (MDP); funkcja wartości. Programowanie dynamiczne w rozwiązywaniu MDP. Predykcja funkcji wartości (metoda Monte-Carlo, TD-learning). Uczenie ze wzmocnieniem w dużej (nieograniczonej) przestrzeni stanów – algorytmy aproksymacyjne; algorytm TD(lambda), gradient TD-learning (algorytmy Suttona). Uczenie się optymalnej (prawie optymalnej) strategii; problem „wielorękiego bandyty”. Uczenie typu Q-learning. Metody aktor-krytyk (SARSA, metody zachłanne, ...). Projekt: Studenci wybierają temat projektu na drugich zajęciach. Wynikami projektu są: prezentacja końcowa, raport techniczny, udokumentowany kod.
Metody oceny:
Ocena końcowa z przedmiotu ustalana jest według standardowej skali, na podstawie łącznej liczby punktów uzyskanych z egzaminu (50%) oraz projektu (50%).
Egzamin:
tak
Literatura:
1. 1. R. Sutton, A.G. Barto, Reinforcement Learning: an introduction. 2. C. Szepesv'ari, Algorithms for Reinforcement Learning. 3. S. Russel, P. Norvig, Artificial Intelligence: A Modern Approach. 4. T. Mitchell, Machine Learning.
Witryna www przedmiotu:
brak
Uwagi:

Efekty uczenia się

Profil ogólnoakademicki - wiedza

Charakterystyka W01
Zna i rozumie zaawansowane metody uczenia ze wzmocnieniem, procesy decyzyjne Markowa, jak również podstawy programowania dynamicznego
Weryfikacja: ocena prac domowych i egzaminu
Powiązane charakterystyki kierunkowe: I2SI_W02
Powiązane charakterystyki obszarowe:
Charakterystyka W02
Wie jak wybrać i zastosować zaawansowane metody uczenia ze wzmocnieniem i dostosować je do rozwiązywanego problemu
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe: I2SI_W06
Powiązane charakterystyki obszarowe:
Charakterystyka W03
Posiada wiedzę o trendach rozwojowych i najistotniejszych nowych osiągnięciach w zakresie teorii i praktycznych zastosowań uczenia ze wzmocnieniem
Weryfikacja: ocena prac domowych i egzaminu
Powiązane charakterystyki kierunkowe: I2_W02, I2SI_W02
Powiązane charakterystyki obszarowe: P7U_W, I.P7S_WG.o

Profil ogólnoakademicki - umiejętności

Charakterystyka U01
Potrafi pozyskiwać informacje dotyczące uczenia ze wzmocnieniem z literatury, baz danych i innych źródeł; potrafi integrować uzyskane informacje, dokonywać ich interpretacji i krytycznej oceny, a także wyciągać wnioski oraz formułować i wyczerpująco uzasadniać opinie
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe: I2_U01, I2_U05
Powiązane charakterystyki obszarowe:
Charakterystyka U02
Potrafi pracować indywidualnie; potrafi ocenić czasochłonność zadania
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe: I2_U11
Powiązane charakterystyki obszarowe:
Charakterystyka U03
Potrafi opracować szczegółową dokumentację wyników realizacji eksperymentu związanego ze stosowaniem metod uczenia ze wzmocnieniem, zadania projektowego lub badawczego; potrafi przygotować opracowanie zawierające omówienie tych wyników
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe: I2_U06, I2_U07
Powiązane charakterystyki obszarowe:
Charakterystyka U04
Potrafi przygotować i przedstawić prezentację na temat realizacji zadania projektowego lub badawczego oraz poprowadzić dyskusję dotyczącą przedstawionej prezentacji
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe: I2_U01, I2_U06
Powiązane charakterystyki obszarowe:
Charakterystyka U05
Potrafi dobrać narzędzia odpowiednie do implementacji metod uczenia ze wzmocnieniem, uwzględniając przy tym możliwości współczesnych komputerów
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe: I2_U04
Powiązane charakterystyki obszarowe:

Profil ogólnoakademicki - kompetencje społeczne

Charakterystyka K01
Potrafi stosować metody uczenia ze wzmocnieniem w sposób nieszablonowy i skuteczny
Weryfikacja: ocena prezentacji i projektu
Powiązane charakterystyki kierunkowe: I2_K05, I2_K01
Powiązane charakterystyki obszarowe: