Nazwa przedmiotu:
Metody eksploracji danych w odkrywaniu wiedzy
Koordynator przedmiotu:
Marzena Kryszkiewicz
Status przedmiotu:
Fakultatywny ograniczonego wyboru
Poziom kształcenia:
Studia II stopnia
Program:
Informatyka
Grupa przedmiotów:
Przedmioty techniczne - zaawansowane
Kod przedmiotu:
MED
Semestr nominalny:
4 / rok ak. 2012/2013
Liczba punktów ECTS:
5
Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
125
Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
3
Język prowadzenia zajęć:
polski
Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
3
Formy zajęć i ich wymiar w semestrze:
  • Wykład30h
  • Ćwiczenia0h
  • Laboratorium15h
  • Projekt15h
  • Lekcje komputerowe0h
Wymagania wstępne:
zalecana jest znajomość baz danych
Limit liczby studentów:
36
Cel przedmiotu:
Celem przedmiotu jest przekazanie studentom wiedzy z dziedziny eksploracji danych. Prezentowane techniki i algorytmy mają istotne znaczenie praktyczne – dobrze nadają się do wydobywania wzorców ukrytych w olbrzymich zasobach danych rzeczywistych. Przewiduje się, że prezentowane metody będą miały pierwszorzędne znaczenie dla ewolucji systemów baz danych do postaci efektywnych systemów baz wiedzy. W rezultacie studenci powinni posiąść umiejętność tworzenia efektywnych systemów odkrywania nowej, nietrywialnej, użytecznej wiedzy z dużych zasobów danych.
Treści kształcenia:
Eksploracja danych jako wielodyscyplinarna dziedzina: Przedstawiony będzie rozwój i główne wyzwania w dziedzinie eksploracji danych. Zostanie zaprezentowana szczegółowa klasyfikacja zadań eksploracji danych. Wstępne przetwarzanie danych dla celów eksploracji: Zostaną przedstawione metody czyszczenia, integracji, transformacji i redukcji (zbędnych) danych oraz użycie hierarchii pojęć do dyskretyzacji. Język eksploracji danych: Na bazie przykładowego języka eksploracji danych zostanie zaprezentowana koncepcja specyfikowania wiedzy interesującej dla użytkownika. Techniki budowania deskryptorów pojęć: Zostaną przedstawione techniki opisywania pojęć. Omówiona będzie technika generalizacji atrybutowej oraz jej implementacje. Zostaną przedyskutowane miary statystyczne do celów eksploracji opisowej. Wzorce częste i reguły asocjacyjne: Zostaną zaprezentowane metody odkrywania wzorców częstych i reguł asocjacyjnych (w tym hierarchicznych) w transakcyjnych i relacyjnych bazach danych. Zostaną opisane strategie wyszukiwania reguł interesujących poprzez efektywne wykorzystanie narzuconych ograniczeń do redukcji przestrzeni rozwiązań. Zwięzłe reprezentacje wzorców częstych: Zostanie dokonany przegląd zwięzłych bezstratnych reprezentacji wzorców częstych, takich jak: reprezentacje oparte na generatorach, zbiorach zamkniętych, zbiorach (generatorach) wolnych od dysjunkcji. Zostaną przedstawione algorytmy odkrywania tych reprezentacji. Zwięzłe reprezentacje reguł asocjacyjnych: Dokonany zostanie przegląd zwięzłych bezstratnych reprezentacji reguł asocjacyjnych, w tym reguły reprezentatywne, minimalne reguły nieredundantne, baza podstawowa i informacyjna, baza Duquenne-Guigues'a oraz baza właściwa. Omówione będą mechanizmy wyprowadzania reguł. Przedstawione będą algorytmy bezpośredniego odkrywania reprezentacji reguł asocjacyjnych z reprezentacji zbiorów częstych. Inne wzorce częste i reguły: Zostaną przedstawione rozszerzenia wzorców częstych i reguł asocjacyjnych na ilościowe reguły asocjacyjne, wzorce sekwencyjne, reguły epizodyczne, częste grafy, klasyfikatory w postaci drzew decyzyjnych i reguł oraz reguły decyzyjne zachowujące przybliżenia dolne i górne zbiorów przybliżonych. Zostaną omówione skalowalne algorytmy odkrywania wyżej wymienionych rodzajów wiedzy. Grupowanie pojęciowe: Zostanie przedstawiona klasyfikacja metod grupowania pojęciowego. Szczegółowo zostaną omówieni wybrani reprezentanci poszczególnych typów metod grupowania pojęciowego, którzy zapewniają skalowalność rozwiązania. Wnioskowanie w warunkach niepełności: Zostaną przedstawione zarówno uprawnione mechanizmy wnioskowania z danych z brakującymi wartościami, jak i mechanizmy wyprowadzania wiedzy z dostarczonego jej fragmentu bez dostępu do źródła danych. Zastosowania eksploracji danych: Omówione będą przykładowe zastosowania eksploracji danych do analizy danych: finansowych, telekomunikacyjnych, biomedycznych i DNA. Zostanie dokonany krótki przegląd wybranych systemów eksploracji danych, które już pojawiły się w komercyjnym użyciu, jak i obiecujących prototypów badawczych.
Metody oceny:
Warunkiem zaliczenia przedmiotu jest uzyskanie co najmniej oceny 3 z egzaminu, co najmniej oceny 3 z projektu oraz zaliczenie laboratorium. Pozytywna ocena końcowa jest wyznaczana na podstawie średniej z oceny z egzaminu i oceny z projektu. Jeśli ocena z egzaminu jest niższa od oceny z projektu, wtedy ocena końcowa jest wyznaczana jako zaokrąglenie w dół tejże średniej. W przeciwnym przypadku jest wyznaczana jako zaokrąglenie w górę tejże średniej.
Egzamin:
tak
Literatura:
Han J., Kamber M., Data Mining: Concepts and Techniques, The Morgan Kaufmann Series in Data Management Systems, 2nd edition, Morgan Kaufmann, 2006 Advances in Knowledge Discovery and Data Mining, eds. U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy, AAAI, Menlo Park, California, 1996 Kryszkiewicz M., Concise Representations of Frequent Patterns and Association Rules, Prace Naukowe, Elektronika, Oficyna Wydawnicza Politechniki Warszawskiej, z. 142 (2002) Communications of the ACM, November 1996, Vol. 39. No 11., 1996 Ganter B., Wille R., Formal Concept Analysis, Mathematical Foundations, Springer-Verlag, 1999 oraz szereg dostępnych na stronach Internetowych najnowszych publikacji z dziedziny eksploracji danych, o których wykładowca będzie informował na bieżąco w trakcie zajęć.
Witryna www przedmiotu:
Uwagi:
Celem laboratorium jest zaznajomienie studentów z nowoczesnymi technologiami eksploracji danych. W trakcie laboratorium studenci zapoznają się z możliwościami prowadzenia eksploracji danych w wybranym komercyjnym systemie, np. IBM Warehouse Design Studio. Projekt będzie polegał na zaimplementowaniu i przetestowaniu wybranych algorytmów odkrywania wiedzy przedstawionych na wykładzie lub innych z dziedziny eksploracji danych.

Efekty uczenia się

Profil ogólnoakademicki - wiedza

Efekt MED_W01
ma wiedzę dotyczącą odkrywania wzorców i zależności za pomocą metod eksploracji danych
Weryfikacja: egzamin
Powiązane efekty kierunkowe: K_W06, K_W08, K_W09
Powiązane efekty obszarowe: T2A_W04, T2A_W07, T2A_W03
Efekt MED_W02
ma podbudowaną teoretycznie wiedzę szczegółową dotycząca metod reprezentacji częstych wzorców i wnioskowania z ich użyciem
Weryfikacja: egzamin
Powiązane efekty kierunkowe: K_W06
Powiązane efekty obszarowe: T2A_W04
Efekt MED_W03
ma wiedzę z zakresu nowoczesnych technologii eksploracji danych
Weryfikacja: laboratorium
Powiązane efekty kierunkowe: K_W11
Powiązane efekty obszarowe: T2A_W03, T2A_W04, T2A_W07

Profil ogólnoakademicki - umiejętności

Efekt MED_U01
potrafi zaplanować proces odkrywania wiedzy, zrealizować go za pomocą zaimplementowanych przez siebie algorytmów oraz dokonać interpretacji uzyskanych wyników
Weryfikacja: projekt
Powiązane efekty kierunkowe: K_U01, K_U06, K_U09, K_U13
Powiązane efekty obszarowe: T2A_U01, T2A_U08, T2A_U09, T2A_U11, T2A_U18
Efekt MED_U02
potrafi przedstawić plan, realizację i wyniki procesu odkrywania wiedzy oraz interpretację uzyskanych wyników w formie ustnej i pisemnej
Weryfikacja: projekt
Powiązane efekty kierunkowe: K_U03, K_U06
Powiązane efekty obszarowe: T2A_U03, T2A_U08, T2A_U09
Efekt MED_U03
potrafi odkrywać wiedzę posługując się nowoczesnymi technologiami eksploracji danych
Weryfikacja: laboratorium
Powiązane efekty kierunkowe: K_U13
Powiązane efekty obszarowe: T2A_U18