Nazwa przedmiotu:
Metody eksploracji danych w odkrywaniu wiedzy
Koordynator przedmiotu:
Marzena Kryszkiewicz
Status przedmiotu:
Fakultatywny ograniczonego wyboru
Poziom kształcenia:
Studia II stopnia
Program:
Informatyka
Grupa przedmiotów:
Przedmioty techniczne - zaawansowane
Kod przedmiotu:
MED
Semestr nominalny:
2 / rok ak. 2018/2019
Liczba punktów ECTS:
5
Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
30 godzin wykładu 20 godzin przygotowania do egzaminu 15 godzin ćwiczeń laboratoryjnych 15 godzin przygotowania do ćwiczeń laboratoryjnych 15 godzin spotkań projektowych 30 godzin realizacji zadań projektowych
Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
30 godzin wykładu 15 godzin ćwiczeń laboratoryjnych 15 godzin spotkań projektowych co daje ok. 2.5 ECTS
Język prowadzenia zajęć:
polski
Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
15 godzin ćwiczeń laboratoryjnych 15 godzin przygotowania do ćwiczeń laboratoryjnych 15 godzin spotkań projektowych 30 godzin realizacji zadań projektowych co daje ok. 3 ECTS
Formy zajęć i ich wymiar w semestrze:
  • Wykład30h
  • Ćwiczenia0h
  • Laboratorium15h
  • Projekt15h
  • Lekcje komputerowe0h
Wymagania wstępne:
zalecana jest znajomość baz danych
Limit liczby studentów:
36
Cel przedmiotu:
Celem przedmiotu jest przekazanie studentom wiedzy z dziedziny eksploracji danych. Prezentowane techniki i algorytmy mają istotne znaczenie praktyczne – dobrze nadają się do wydobywania wzorców ukrytych w olbrzymich zasobach danych rzeczywistych. Przewiduje się, że prezentowane metody będą miały pierwszorzędne znaczenie dla ewolucji systemów baz danych do postaci efektywnych systemów baz wiedzy. W rezultacie studenci powinni posiąść umiejętność tworzenia efektywnych systemów odkrywania nowej, nietrywialnej, użytecznej wiedzy z dużych zasobów danych.
Treści kształcenia:
Eksploracja danych jako wielodyscyplinarna dziedzina: Przedstawiony będzie rozwój i główne wyzwania w dziedzinie eksploracji danych. Zostanie zaprezentowana szczegółowa klasyfikacja zadań eksploracji danych. Wstępne przetwarzanie danych dla celów eksploracji: Zostaną przedstawione metody czyszczenia, integracji, transformacji i redukcji (zbędnych) danych oraz użycie hierarchii pojęć do dyskretyzacji. Język eksploracji danych: Na bazie przykładowego języka eksploracji danych zostanie zaprezentowana koncepcja specyfikowania wiedzy interesującej dla użytkownika. Techniki budowania deskryptorów pojęć: Zostaną przedstawione techniki opisywania pojęć. Omówiona będzie technika generalizacji atrybutowej oraz jej implementacje. Zostaną przedyskutowane miary statystyczne do celów eksploracji opisowej. Wzorce częste i reguły asocjacyjne: Zostaną zaprezentowane metody odkrywania wzorców częstych i reguł asocjacyjnych (w tym hierarchicznych) w transakcyjnych i relacyjnych bazach danych. Zostaną opisane strategie wyszukiwania reguł interesujących poprzez efektywne wykorzystanie narzuconych ograniczeń do redukcji przestrzeni rozwiązań. Zwięzłe reprezentacje wzorców częstych: Zostanie dokonany przegląd zwięzłych bezstratnych reprezentacji wzorców częstych, takich jak: reprezentacje oparte na generatorach, zbiorach zamkniętych, zbiorach (generatorach) wolnych od dysjunkcji. Zostaną przedstawione algorytmy odkrywania tych reprezentacji. Zwięzłe reprezentacje reguł asocjacyjnych: Dokonany zostanie przegląd zwięzłych bezstratnych reprezentacji reguł asocjacyjnych, w tym reguły reprezentatywne, minimalne reguły nieredundantne, baza podstawowa i informacyjna, baza Duquenne-Guigues'a oraz baza właściwa. Omówione będą mechanizmy wyprowadzania reguł. Przedstawione będą algorytmy bezpośredniego odkrywania reprezentacji reguł asocjacyjnych z reprezentacji zbiorów częstych. Inne wzorce częste i reguły: Zostaną przedstawione rozszerzenia wzorców częstych i reguł asocjacyjnych na ilościowe reguły asocjacyjne, wzorce sekwencyjne, reguły epizodyczne, częste grafy, klasyfikatory w postaci drzew decyzyjnych i reguł oraz reguły decyzyjne zachowujące przybliżenia dolne i górne zbiorów przybliżonych. Zostaną omówione skalowalne algorytmy odkrywania wyżej wymienionych rodzajów wiedzy. Grupowanie pojęciowe: Zostanie przedstawiona klasyfikacja metod grupowania pojęciowego. Szczegółowo zostaną omówieni wybrani reprezentanci poszczególnych typów metod grupowania pojęciowego, którzy zapewniają skalowalność rozwiązania. Wnioskowanie w warunkach niepełności: Zostaną przedstawione zarówno uprawnione mechanizmy wnioskowania z danych z brakującymi wartościami, jak i mechanizmy wyprowadzania wiedzy z dostarczonego jej fragmentu bez dostępu do źródła danych. Zastosowania eksploracji danych: Omówione będą przykładowe zastosowania eksploracji danych do analizy danych: finansowych, telekomunikacyjnych, biomedycznych i DNA. Zostanie dokonany krótki przegląd wybranych systemów eksploracji danych, które już pojawiły się w komercyjnym użyciu, jak i obiecujących prototypów badawczych. Zakres laboratorium Celem laboratorium jest zaznajomienie studentów z nowoczesnymi technologiami eksploracji danych. W trakcie laboratorium studenci zapoznają się z możliwościami prowadzenia eksploracji danych w wybranym komercyjnym systemie, np. IBM Warehouse Design Studio. Przykładowa tematyka ćwiczeń laboratoryjnych: Przygotowanie danych do procesu eksploracji: selekcja atrybutów, dyskretyzacja, generowanie danych testowych, ...; Odkrywanie reguł asocjacyjnych; Klasyfikacja; Odkrywanie wzorców sekwencyjnych; Grupowanie danych. Zakres projektu Projekt będzie polegał na zaimplementowaniu i przetestowaniu wybranych algorytmów odkrywania wiedzy przedstawionych na wykładzie lub innych z dziedziny eksploracji danych. Przykłady algorytmów do zaimplementowania w ramach projektu: Algorytmy wyznaczania wzorców częstych; Algorytmy wyznaczania zwięzłych reprezentacji wzorców częstych; Algorytmy odkrywania wzorców sekwencyjnych; Algorytmy grupowania danych; Algorytmy odkrywania reduktów/reguł teorii zbiorów przybliżonych; Algorytmy odkrywania zależności funkcyjnych i zależności przybliżonych; Algorytmy budowy i użycia klasyfikatorów; Nie stawia się żadnych wstępnych warunków na narzędzia programistyczne, które zostaną zastosowane do realizacji prac projektowych.
Metody oceny:
Warunkiem zaliczenia przedmiotu MED jest uzyskanie przez studenta pozytywnej oceny z każdego z trzech komponentów tego przedmiotu: części wykładowej (ocenianej na podstawie egzaminu), części projektowej (ocenianej na podstawie zrealizowanego oprogramowania i przeprowadzonych testów z jego użyciem, sprawozdania i prezentacji z realizacji projektu) oraz części laboratoryjnej (uznanej za zaliczoną, jeżeli wszystkie sprawdzające zadania laboratoryjne w liczbie pięciu są wykonane prawidłowo). Pozytywna ocena końcowa jest wyznaczana na podstawie średniej z oceny z egzaminu i oceny z projektu. Jeśli ocena z egzaminu jest niższa od oceny z projektu, wtedy ocena końcowa jest wyznaczana jako zaokrąglenie w dół tejże średniej. W przeciwnym przypadku jest wyznaczana jako zaokrąglenie w górę tejże średniej.
Egzamin:
tak
Literatura:
Han J., Kamber M., Pei, J., Data Mining: Concepts and Techniques, The Morgan Kaufmann Series in Data Management Systems, 3rd edition, Morgan Kaufmann, 2011 Morzy T., Eksploracja danych, Metody i algorytmy, Wydawnictwo Naukowe PWN, 2013 Fayyad U.M. , Piatetsky-Shapiro G. , Smyth P., ()Uthurusamy R. (eds.), Advances in Knowledge Discovery and Data Mining, AAAI, Menlo Park, California, 1996 Kryszkiewicz M., Concise Representations of Frequent Patterns and Association Rules, Prace Naukowe, Elektronika, Oficyna Wydawnicza Politechniki Warszawskiej, z. 142 (2002) Communications of the ACM, November 1996, Vol. 39. No 11., 1996 Ganter B., Wille R., Formal Concept Analysis, Mathematical Foundations, Springer-Verlag, 1999 oraz szereg dostępnych na stronach Internetowych najnowszych publikacji z dziedziny eksploracji danych, o których wykładowca będzie informował na bieżąco w trakcie zajęć.
Witryna www przedmiotu:
https://usosweb.usos.pw.edu.pl/kontroler.php?_action=katalog2/przedmioty/pokazPrzedmiot&prz_kod=103B-INxxx-MSP-MED
Uwagi:

Efekty uczenia się

Profil ogólnoakademicki - wiedza

Charakterystyka MED_W01
ma wiedzę dotyczącą odkrywania wzorców i zależności za pomocą metod eksploracji danych
Weryfikacja: egzamin
Powiązane charakterystyki kierunkowe: K_W06, K_W08, K_W09
Powiązane charakterystyki obszarowe: I.P7S_WG, III.P7S_WG.o
Charakterystyka MED_W02
ma podbudowaną teoretycznie wiedzę szczegółową dotycząca metod reprezentacji częstych wzorców i wnioskowania z ich użyciem
Weryfikacja: egzamin
Powiązane charakterystyki kierunkowe: K_W06
Powiązane charakterystyki obszarowe: I.P7S_WG, III.P7S_WG.o
Charakterystyka MED_W03
ma wiedzę z zakresu nowoczesnych technologii eksploracji danych
Weryfikacja: sprawdzające ćwiczenia laboratoryjne
Powiązane charakterystyki kierunkowe: K_W11
Powiązane charakterystyki obszarowe: I.P7S_WG

Profil ogólnoakademicki - umiejętności

Charakterystyka MED_U01
potrafi zaplanować proces odkrywania wiedzy, zrealizować go za pomocą zaimplementowanych przez siebie algorytmów oraz dokonać interpretacji uzyskanych wyników
Weryfikacja: projekt
Powiązane charakterystyki kierunkowe: K_U01, K_U06, K_U09, K_U13
Powiązane charakterystyki obszarowe: I.P7S_UK, I.P7S_UW, III.P7S_UW.1.o, III.P7S_UW.3.o
Charakterystyka MED_U02
potrafi przedstawić plan, realizację i wyniki procesu odkrywania wiedzy oraz interpretację uzyskanych wyników w formie ustnej i pisemnej
Weryfikacja: projekt
Powiązane charakterystyki kierunkowe: K_U03, K_U06
Powiązane charakterystyki obszarowe: I.P7S_UK, I.P7S_UW
Charakterystyka MED_U03
potrafi odkrywać wiedzę posługując się nowoczesnymi technologiami eksploracji danych
Weryfikacja: sprawdzające ćwiczenia laboratoryjne
Powiązane charakterystyki kierunkowe: K_U13
Powiązane charakterystyki obszarowe: III.P7S_UW.3.o, I.P7S_UW