Nazwa przedmiotu:
Przetwarzanie i analiza danych tekstowych
Koordynator przedmiotu:
dr inż. Anna Wróblewska
Status przedmiotu:
Obowiązkowy
Poziom kształcenia:
Studia II stopnia
Program:
Inżynieria i Analiza Danych
Grupa przedmiotów:
Wspólne
Kod przedmiotu:
.
Semestr nominalny:
3 / rok ak. 2019/2020
Liczba punktów ECTS:
6
Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
1. godziny kontaktowe – 85 h; w tym a) obecność na wykładach – 30 h b) obecność na zajęciach projektowych – 45 h c) obecność na egzaminie – 5 h d) konsultacje – 5 h 2. praca własna studenta – 70 h; w tym a) przygotowanie do zajęć projektowych – 35 h b) przygotowanie raportu i prezentacji projektu – 10 h c) zapoznanie się z literaturą – 10 h d) przygotowanie do egzaminu – 15 h Razem 155 h, co odpowiada 6 pkt. ECTS
Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
a) obecność na wykładach – 30 h b) obecność na zajęciach projektowych – 45 h c) obecność na egzaminie – 5 h d) konsultacje – 5 h Razem 85 h, co odpowiada 3 pkt. ECTS
Język prowadzenia zajęć:
polski
Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
a) przygotowanie do zajęć projektowych – 35 h b) obecność na zajęciach projektowych – 45 h Razem 80 h, co odpowiada 3 pkt. ECTS
Formy zajęć i ich wymiar w semestrze:
  • Wykład15h
  • Ćwiczenia15h
  • Laboratorium0h
  • Projekt45h
  • Lekcje komputerowe0h
Wymagania wstępne:
Wstęp do uczenia maszynowego, Programowanie w R i Python
Limit liczby studentów:
.
Cel przedmiotu:
Celem przedmiotu jest przedstawienie podstawowej teorii, modeli i metod przetwarzania, analizy i odkrywania wiedzy w różnych zbiorach danych tekstowych. W trakcie nauki będzie można dowiedzieć się o podstawowych i zaawansowanych technikach systemów informacyjnych oraz rozwiązaniach przetwarzania tekstu metodami uczenia głębokiego. W ramach przedmiotu, studenci powinni zdobyć praktyczną umiejętność wykorzystania wybranych metod do analizy danych tekstowych.
Treści kształcenia:
trakcie nauki będzie można dowiedzieć się o podstawowych i zaawansowanych technikach systemów informacyjnych: ekstrakcja informacji, indeksowanie tekstu, mierzenie jakości systemów wyszukiwania i eksploracji, architektury współczesnych systemów wyszukiwania wiedzy i zarządzania informacją. Podane będą także współczesne rozwiązania przetwarzania tekstu metodami uczenia głębokiego, m.in. najnowsze architektury tj. sieci rekurencyjne LSTM, GRU, modele reprezentacji tekstu - word embeddings. Wykład i projekty będą zawierały wybrane tematy z poniższej listy: 1. Wstęp do wyszukiwania informacji: teoria informacji, metody NLP/text mining, statystyka, lingwistyka, zagadnienia w procesie przetwarzania tekstu: lematyzacja, stemming 2. Słowa i zdania: wyrażenia regularne, tokenizacja, odległość edytorska, lingwistyka: poziomy opisu języka, morfologia: słowotwórstwo, fleksja, stemmery, części mowy, algorytm soundex , błędy ortograficzne 3. Źródła danych: korpusy tekstu 4. Modele reprezentacji tekstu, m.in. modele wektorowe (word embeddings) - word2vec, gloVe, FastText 5. Architektury głębokich modeli neuronowych - rekurencyjne, rekursywne, konwolucyjne i dynamiczne sieci do zastosowań rozpoznawania tekstu: modelowania języka, analizy opinii, parsowania tekstu, klasyfikacji zdań 6. Statystyczne metody przetwarzania języka naturalnego, modelowanie języka, n-gramy, kolokacje, ujednoznacznianie (word sense disambiguation) 7. Analiza gramatyczna (HMM, POS tagging, parsowanie) 8. Ekstrakcja informacji, NER (named-entity recognition), ekstrakcja relacji, semantyka informacji (ontologie, budowa ontologii z tekstu) 9. Wyszukiwanie informacji: indeks odwrócony, miary podobieństwa, ranking wyników, analiza linków (PageRank, HITS), architektury komercyjnych systemów, mierzenie jakości zwracanych wyników, wizualizacja wyników wyszukiwania, architektury komercyjnych systemów wyszukiwania informacji/baz wiedzy 10. Zastosowania: a. Kategoryzacja i grupowanie dokumentów (grupowanie hierarchiczne, LDA – latent dirichlet allocation) b. Analiza zabarwienia emocjonalnego tekstu (sentiment analysis) c. Odpowiadanie na zapytania (question answering) d. agenci dialogowi (chatbots) e. Streszczanie dokumentów f. Tłumaczenia automatyczne g. Rekomendacje oparte na treści Projekt: Opracowanie metod i aplikacji z zakresu tematyki przedmiotu, aplikacje będą miały na celu przetwarzanie tekstu i danych pochodzących ze stron internetowych lub korpusów tekstu.
Metody oceny:
Zaliczenie przedmiotu oparte jest o wyniki realizacji zadań realizowanych w ramach projektu (w sumie maksymalnie 60 pkt) oraz wyniki egzaminu (maksymalnie 40 pkt). W przypadku zadań realizowanych w laboratorium oceniana jest zarówno jakość rozwiązań jak i terminowość ich realizacji. Szczegółowe zasady przyznawania punktów przedstawiane są studentom podczas pierwszych zajęć projektowych (dot. zaliczenia projektu) oraz wykładowych (dot. egzaminu). Ocena końcowa zależy od łącznej liczby punktów uzyskanych z projektów oraz egzaminu i jest wyznaczana zgodnie z poniższymi regułami: 0-50 pkt – 2.0, 51-60 pkt – 3.0, 61-70 pkt – 3.5, 71-80 pkt – 4.0, 81-90 pkt – 4.5, 91-100 pkt – 5.0. Warunkiem koniecznym uzyskania oceny pozytywnej jest zdobycie co najmniej 30 pkt z laboratorium oraz 20 pkt z egzaminu.
Egzamin:
tak
Literatura:
1. D. Jurafsky, J. Martin, Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition, Prentice Hall Series in Artificial Intelligence, Pearson/Prentice Hall 2009 2. H. Schutze, C. Manning, P. Raghavan, Introduction to information retrieval, 2008 http://nlp.stanford.edu/IR-book/pdf/irbookprint.pdf 3. J. Hirschberg, C. Manning, Advances in natural language processing”, Science (New York, N.Y.), 17 July 2015, Vol.349(6245), pp.261-6 4. M. Kłopotek, Inteligentne wyszukiwarki internetowe, Warszawa: Akademicka Oficyna Wydawnicza EXIT, 2001 5. Python NLTK (Natural Language Toolkit) http://nltk.sourceforge.net 6. Open NLP http://opennlp.sourceforge.net/ 7. Deep Learning (Adaptive Computation and Machine Learning series) – November 18, 2016, Ian Goodfellow, Yoshua Bengio , Aaron Courville
Witryna www przedmiotu:
.
Uwagi:
Program 4 semestralny - 3 semestr Program 3 semestralny - 2 semestr

Efekty uczenia się

Profil ogólnoakademicki - wiedza

Charakterystyka W01
Zna teoretyczne podstawy metod odkrywania wiedzy w zbiorach danych tekstowych
Weryfikacja: ocena z egzaminu, ocena z projektu i prezentacji projektu, ocena z egzaminu
Powiązane charakterystyki kierunkowe: DS2_W04
Powiązane charakterystyki obszarowe: I.P7S_WG
Charakterystyka W02
Zna podstawowe metody reprezentacji danych tekstowych niestrukturalnych
Weryfikacja: ocena z egzaminu
Powiązane charakterystyki kierunkowe: DS2_W04
Powiązane charakterystyki obszarowe: I.P7S_WG

Profil ogólnoakademicki - umiejętności

Charakterystyka U01
Potrafi zaprojektować algorytmy rozwiązujące określony problem posiadający praktyczne znaczenie z obszaru eksploracji i wizualizacji danych tekstowych
Weryfikacja: ocena z projektu i prezentacji projektu, ocena z egzaminu
Powiązane charakterystyki kierunkowe: DS2_U04, DS2_U05, DS2_U06, DS2_U07, DS2_U21
Powiązane charakterystyki obszarowe: I.P7S_UW, I.P7S_UK
Charakterystyka U02
Potrafi wybrać właściwe narzędzia programistyczne do zaprojektowania algorytmu dotyczącego danych tekstowych
Weryfikacja: ocena z projektu i prezentacji projektu, ocena z egzaminu
Powiązane charakterystyki kierunkowe: DS2_U01, DS2_U02, DS2_U05, DS2_U06
Powiązane charakterystyki obszarowe: I.P7S_UW
Charakterystyka U03
Posiada umiejętność korzystania ze źródeł literaturowych oraz zasobów internetowych dotyczących rozwiązywanego zadania
Weryfikacja: ocena z egzaminu, ocena z projektu i prezentacji projektu, ocena z egzaminu
Powiązane charakterystyki kierunkowe: DS2_U07
Powiązane charakterystyki obszarowe: I.P7S_UW, I.P7S_UK

Profil ogólnoakademicki - kompetencje społeczne

Charakterystyka K01
Potrafi pracować indywidualnie i w zespole, oraz kierować niedużym zespołem
Weryfikacja: ocena z projektu
Powiązane charakterystyki kierunkowe: DS2_K03, DS2_K04
Powiązane charakterystyki obszarowe: I.P7S_KR
Charakterystyka K02
Posiada zdolność do kontynuacji kształcenia oraz świadomość potrzeby samokształcenia w ramach procesu kształcenia ustawicznego
Weryfikacja: ocena z projektu i prezentacji projektu, ocena z egzaminu
Powiązane charakterystyki kierunkowe: DS2_K01
Powiązane charakterystyki obszarowe: I.P7S_KK
Charakterystyka K03
Ma świadomość odpowiedzialności za wspólnie realizowane zadania w ramach pracy zespołowej
Weryfikacja: ocena z projektu
Powiązane charakterystyki kierunkowe: DS2_K04
Powiązane charakterystyki obszarowe: I.P7S_KR