Katalog ECTS - Politechnika Warszawska

Drukuj Eksport do pliku (MS Word)

Nazwa przedmiotu:

Metody odkrywania wiedzy

Koordynator przedmiotu:

Paweł CICHOSZ

Status przedmiotu:

Fakultatywny dowolnego wyboru

Poziom kształcenia:

Studia II stopnia

Program:

Elektronika

Grupa przedmiotów:

Przedmioty techniczne - zaawansowane

Kod przedmiotu:

MOW

Semestr nominalny:

2 / rok ak. 2019/2020

Liczba punktów ECTS:

Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:

1. udział w wykładach: 15 x 2 godz. = 30 godz. 2. przygotowanie do kolejnych wykładów i realizacji projektu (przejrzenie materiałów z wykładu i dodatkowej literatury, próba rozwiązania ćwiczeń domowych sformułowanych na wykładzie): 15 x 20 min. = 5 godz. 2. udział w konsultacjach związanych z realizacją projektu: 6 x 30 min. = 3 godz. 3. realizacja zadań projektowych: 30 godz. (w tym zapoznanie się z literaturą, analiza zadania, implementacja algorytmów, strojenie parametrów, przeprowadzenie badań, sporządzenie dokumentacji) 4. przygotowanie do kolokwiów: 2 x 5 godz. = 10 godz. Razem: 30 + 5 + 3 + 30 + 10 = 78 godz.

Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:

1 wykład: 30 godz. konsultacje: 3 godz. razem: 33 godz. (1 punkt ECTS)

Język prowadzenia zajęć:

polski

Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:

1 projekt 30 godz. konsultacje: 3 godz. razem: 33 godz. (1 punkt ECTS)

Formy zajęć i ich wymiar w semestrze:

Wykład30h
Ćwiczenia0h
Laboratorium0h
Projekt15h
Lekcje komputerowe0h

Wymagania wstępne:

podstawowa wiedza z zakresu metod probabilistycznych podstawowa wiedza z zakresu informatyki podstawowa umiejętność programowania

Limit liczby studentów:

Cel przedmiotu:

1. Zapoznanie studentów z najważniejszymi algorytmami stosowanymi do odkrywania wiedzy w danych, czyli odkrywania występujących w danych zależności i formułowania ich w postaci umożliwiającej wnioskowanie 2. Zapoznanie studentów z zasadami stosowania algorytmów odkrywania wiedzy. 3. Ukształtowanie umiejętności w zakresie stosowania algorytmów odkrywania wiedzy do analizowania rzeczywistych zbiorów danych.

Treści kształcenia:

Plan wykładu: Wprowadzenie. Informacje o przedmiocie. Sformułowanie zadania odkrywania wiedzy. Charakterystyka procesu odkrywania wiedzy. Rodzaje wiedzy. Terminologia i notacja. Przykładowe zastosowania. Narzędzia ze statystyki i teorii informacji. Charakterystyka rozkładów atrybutów dyskretnych i ciągłych. Estymacja parametrów rozkładów. Identyfikacja wartości odstających. Estymacja przedziałowa. Testy statystyczne. Statystyczne i teorioinformacyjne miary zależności. Zadanie klasyfikacji. Sformułowanie zadania. Podstawowe miary jakości modeli. Nadmierne dopasowanie. Przykładowe zastosowania. Indukcja drzew decyzyjnych. Reprezentacja modelu. Zstępująca konstrukcja drzewa. Kryteria stopu. Kryteria wyboru testu. Przycinanie drzew decyzyjnych. Probabilistyczne drzewa decyzyjne. Przetwarzanie przykładów z brakującymi wartościami atrybutów. Klasyfikacja probabilistyczna. Twierdzenie Bayesa. Naiwny klasyfikator bayesowski. Minimalizacja prawdopodobieństwa pomyłki. Minimalizacja kosztów pomyłek. Zasada minimalnej długości kodu. Ocena modeli klasyfikacji. Analiza kosztów pomyłek. Wskaźniki jakości oparte na macierzy pomyłek. Analiza ROC. Procedury oceny modeli. Zadanie regresji. Sformułowanie zadania. Podstawowe miary jakości modeli. Nadmierne dopasowanie. Przykładowe zastosowania. Modele parametryczne. Reprezentacja parametryczna. Algorytm spadku gradientu. Model liniowy. Metoda najmniejszych kwadratów. Drzewa regresji. Reprezentacja modelu. Kryteria stopu. Kryteria wyboru testu. Drzewa modelowania. Metody pamięciowe. Algorytm najbliższych sąsiadów. Miary odległości. Lokalne modelowanie. Agregacja modeli. Koncepcja i motywacja. Techniki agregacji: bagging, boosting, las losowy. Modyfikacja reprezentacji. Dyskretyzacja atrybutów ciągłych. Numeryczne kodowanie atrybutów dyskretnych. Selekcja atrybutów. Funkcje jądrowe. Algorytm SVM. Zadanie grupowania. Sformułowanie zadania. Grupowanie płaskie i hierarchiczne. Przykładowe zastosowania. Grupowanie na podstawie niepodobieństwa. Miary niepodobieństwa. Rodzina algorytmów k środków. Hierarchiczne grupowanie wstępujące. Ocena modeli grupowania. Odkrywanie reguł asocjacyjnych. Sformułowanie zadania. Przykładowe zastosowania. Ocena jakości reguł asocjacyjnych. Algorytm Apriori. Sieci bayesowskie. Definicja sieci bayesowskiej. Założenia o warunkowej niezależności. Reprezentacja łącznego rozkładu prawdopodobieństwa. Wnioskowanie w sieciach bayesowskich. Nie-całkiem-naiwny klasyfikator bayesowski. Odkrywanie wiedzy w tekście. Reprezentacja wektorowa. Klasyfikacja tekstu. Grupowanie tekstu. Zakres projektu: Proponowane tematy projektów są podzielone na dwa rodzaje: analityczne oraz implementacyjno-analityczne. Środowiskiem do realizacji tematów obydwu rodzajów jest język R, zapoznanie się z którym jest efektem ubocznym wykonania projektu. Realizacja tematów analitycznych obejmuje pełen proces wnikliwej i szeroko zakrojonej analizy rzeczywistych danych oraz budowy modeli z wykorzystaniem szeregu algorytmów, których implementacje są dostępne w pakietach języka R. Zakres niezbędnych prac może obejmować przygotowanie danych, statystyczny opis danych, zmianę reprezentacji (modyfikację zestawu atrybutów) oraz tworzenie modeli i ocenę ich jakości. Tematy implementacyjno-analityczne obejmują część implementacyjną i część analityczną. Część implementacyjna polega albo na samodzielnej implementacji pewnego algorytmu, albo na modyfikacji istniejącej implementacji pewnego algorytmu. Część analityczna polega na eksperymentalnym zademonstrowaniu działania zaimplementowanego/zmodyfikowanego algorytmu w zastosowaniu do kilku wybranych zbiorów danych, w porównaniu z innymi algorytmami dostępnymi w R realizującymi to samo zadanie.

Metody oceny:

Ocena sumatywna oparta na wynikach kolokwiów, wstępnej dokumentacji oraz realizacji projektu. Ocena formatywna na podstawie interakcji ze studentami w czasie wykładu, rozwiązań ćwiczeń domowych formułowanych na wykładzie oraz pytań w ramach konsultacji.

Egzamin:

nie

Literatura:

1. Witten, I.H., Frank, E., Hall, M.A. (2011). Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann. 2. Cichosz, P. (2000, 2007). Systemy uczące się. WNT. 3. Publikacje w czasopismach (m.in. Machine Learning, Journal of Machine Learning Research, Artificial Intelligence, Journal of Artificial Intelligence Research) i materiałach konferencji (m.in. International Conference on Machine Learning).

Witryna www przedmiotu:

http://www.ise.pw.edu.pl/~cichosz/mow

Uwagi:

Efekty uczenia się

Profil ogólnoakademicki - wiedza

Charakterystyka MOW_W1: ma wiedzę na temat najważniejszych zadań i etapów procesu odkrywania wiedzy
Weryfikacja: kolokwium
Powiązane charakterystyki kierunkowe: K_W02, K_W03
Powiązane charakterystyki obszarowe:
Charakterystyka MOW_W2: ma wiedzę dotyczącą podstawowych technik opisu danych i wykrywania zależności
Weryfikacja: kolokwium
Powiązane charakterystyki kierunkowe: K_W01, K_W02, K_W03, K_W06
Powiązane charakterystyki obszarowe:
Charakterystyka MOW_W3: ma wiedzę na temat mechanizmów działania i zasad stosowania algorytmów tworzenia modeli predykcyjnych
Weryfikacja: kolokwium
Powiązane charakterystyki kierunkowe: K_W01, K_W04, K_W06
Powiązane charakterystyki obszarowe:
Charakterystyka MOW_W4: ma wiedzę dotyczącą metod oceny jakości modeli predykcyjnych
Weryfikacja: kolokwium
Powiązane charakterystyki kierunkowe: K_W06
Powiązane charakterystyki obszarowe:

Profil ogólnoakademicki - umiejętności

Charakterystyka MOW_U1: potrafi planować proces odkrywania wiedzy, dostosowując zakres analizy i dobierając algorytmy w zależności od potrzeb właściwości danych
Weryfikacja: projekt
Powiązane charakterystyki kierunkowe: K_U01, K_U14, K_U15
Powiązane charakterystyki obszarowe:
Charakterystyka MOW_U2: potrafi stosować algorytmy odkrywania wiedzy do rzeczywistych danych, intepretować uzyskane wyniki i poszukiwać możliwości ich poprawienia
Weryfikacja: projekt
Powiązane charakterystyki kierunkowe: K_U01, K_U07, K_U10, K_U13, K_U15, K_U16
Powiązane charakterystyki obszarowe:
Charakterystyka MOW_U4: potrafi przedstawić plan, przyjęte założenia i wyniki procesu odkrywania wiedzy w formie ustnej i pisemnej
Weryfikacja: projekt
Powiązane charakterystyki kierunkowe: K_U02, K_U03, K_U04
Powiązane charakterystyki obszarowe:
Charakterystyka projekt: potrafi posługiwać się językiem R i jego pakietami do analizy danych oraz implementacji i stosowania algorytmów odkrywania wiedzy, a także pozyskiwać informacje niezbędne do samodzielnego rozwiązywania związanych z tym problemów technicznych
Weryfikacja: MOW_U3
Powiązane charakterystyki kierunkowe: K_U01, K_U05, K_U15, K_U16
Powiązane charakterystyki obszarowe:

Profil ogólnoakademicki - kompetencje społeczne

Charakterystyka MOW_K1: potrafi realizować złożone zadania z zakresu odkrywania wiedzy pracując w zespole
Weryfikacja: projekt
Powiązane charakterystyki kierunkowe:
Powiązane charakterystyki obszarowe:
Charakterystyka MOW_K2: przezwyciężać problemy związane ze złożonością rozwiązywanych zadań odkrywania wiedzy oraz stosowanymi algorytmami i narzędziami
Weryfikacja: projekt
Powiązane charakterystyki kierunkowe: K_K01
Powiązane charakterystyki obszarowe:

PolitechnikaWarszawskaKatalogECTS

Efekty uczenia się

Profil ogólnoakademicki - wiedza

Profil ogólnoakademicki - umiejętności

Profil ogólnoakademicki - kompetencje społeczne

Politechnika
Warszawska
Katalog
ECTS