- Nazwa przedmiotu:
- Zaawansowane przetwarzanie danych multimedialnych
- Koordynator przedmiotu:
- Rajmund Kożuszek
- Status przedmiotu:
- Fakultatywny dowolnego wyboru
- Poziom kształcenia:
- Studia II stopnia
- Program:
- Informatyka
- Grupa przedmiotów:
- Przedmioty techniczne - podstawowe
- Kod przedmiotu:
- ZPDM
- Semestr nominalny:
- 4 / rok ak. 2021/2022
- Liczba punktów ECTS:
- 4
- Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
- 1.	liczba godzin kontaktowych – 64 godz., w tym
obecność na wykładach 30 godz.,
obecność na laboratorium 15 godz.,
obecność na egzaminie 2 godz.
spotkania projektowe 15 godz.
konsultacje 2 godz.
2.	praca własna studenta – 61 godz., w tym
realizacja projektu 25 godz.,
przygotowanie do laboratorium 20 godz.,
przygotowanie do egzaminu 16 godz.
Łączny nakład pracy studenta wynosi 125 godz., co odpowiada 5 pkt. ECTS.
- Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
- 2,56 pkt. ECTS, co odpowiada 79 godz. kontaktowym
- Język prowadzenia zajęć:
- polski
- Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
- 2,20 pkt. ECTS, co odpowiada 55 godz. zajęć praktycznych
- Formy zajęć i ich wymiar w semestrze:
- 
            
                - Wykład30h
- Ćwiczenia0h
- Laboratorium15h
- Projekt15h
- Lekcje komputerowe0h
 
- Wymagania wstępne:
- Osoby uczęszczające na przedmiot powinny przede wszystkim mieć wiedzę związaną z podstawami cyfrowego przetwarzania sygnałów dźwiękowych i obrazów. Wymagana będzie również umiejętność programowania w języku Python lub korzystania ze środowiska Matlab.
- Limit liczby studentów:
- 32
- Cel przedmiotu:
- Celem przedmiotu jest omówienie i analiza zaawansowanych zagadnień związanych z cyfrowym przetwarzaniem danych multimedialnych, obejmujących przede wszystkim przetwarzanie sygnałów muzyki, mowy i obrazu z uwzględnieniem akustycznych i optycznych zjawisk fizycznych, ograniczeń percepcji słuchowej i wzrokowej oraz efektów psychoakustycznych. Poruszane zagadnienia będą przedstawiane w formie interaktywnej z uwzględnieniem możliwości wykorzystania metod uczenia maszynowego (w tym sieci głębokich) w analizie, przetwarzaniu i syntezie sygnałów multimedialnych.
- Treści kształcenia:
- Wykład (30h):
1.	Zagadnienia wstępne (2h):
•	Sygnały oraz systemy foniczne i wizyjne, przetwarzanie analogowo-cyfrowe (próbkowanie, nadpróbkowanie, kwantyzacja, kształtowanie szumu), modulacje cyfrowe, przetworniki foniczne konwencjonalne (PCM) i sigma-delta (SDM).
•	Współczesne systemy przetwarzania danych multimedialnych.
2.	Kompresja, kodowanie i transmisja dźwięku (3h):
•	Algorytmy kompresji stratnej z wykorzystaniem transformacji MDCT, modulacji ADPCM, SBC i innych sygnałów audio.
•	Algorytmy kompresji bezstratnej.
•	Standardy przewodowej i bezprzewodowej transmisji dźwięku.
3.	Filtracja cyfrowa (2h).
•	Filtry o stałej częstotliwości próbkowania.
•	Zespoły filtrów i filtry o zmiennej częstotliwości próbkowania.
•	Filtry adaptacyjne.
4.	Cyfrowe efekty dźwiękowe (4h):
•	Algorytmy przetwarzania dźwięku w dziedzinie amplitudy (procesory dynamiki sygnału, bramki szumów).
•	Algorytmy przetwarzania dźwięku w dziedzinie czasu (echo, opóźnienia, pogłos, flanger, chorus).
•	Algorytmy przetwarzania dźwięku w dziedzinie częstotliwości (korekcja charakterystyk częstotliwościowych, filtracja, redukcja szumów i zniekształceń).
5.	Lokalizacja i śledzenie źródeł dźwięku, detekcja, śledzenie i rozpoznawanie obiektów, metody akwizycji i analizy obrazu (4h).
6.	Algorytmy syntezy i rozpoznawania w przetwarzaniu danych multimedialnych (3h).
7.	Ekstrakcja i analiza cech sygnałów dźwiękowych (2h).
8.	Analiza semantyczna obrazu (2h).
9.	Uczenie maszynowe w przetwarzaniu sygnałów fonicznych, obrazów i sekwencji wizyjnych (8h):
•	Wspomaganie algorytmów ASR, detekcja, klasyfikacja sygnałów dźwiękowych, rozpoznawanie mówców, języka naturalnego, tłumaczenie.
•	Detekcja, analiza, klasyfikacja i rozpoznawanie sygnałów muzycznych oraz środowiskowych.
•	Wspomaganie przetwarzania danych multimedialnych z przetworników analogowo-cyfrowych i wizyjnych w lokalizacji i śledzeniu źródeł dźwięku i obiektów.
•	Detekcja i klasyfikacja obiektów obrazach statycznych i sekwencjach obrazów.
Laboratorium (15h):
Ćwiczenia laboratoryjne są zorganizowane w formie pięciu bloków tematycznych po trzy godziny zajęć i są realizowane w zespołach 2 osobowych w grupach laboratoryjnych 8 osobowych. Treści zadań laboratoryjnych obejmują: (1) badanie algorytmów kompresji i kodowania dźwięku oraz implementację algorytmów automatycznego rozpoznawania mowy (ASR), (2) implementację wybranych cyfrowych efektów dźwiękowych, (3) przetwarzanie sygnałów z macierzy mikrofonowych i głośnikowych oraz badanie algorytmów lokalizacji i śledzenia, (4) detekcję i klasyfikację obiektów w sekwencji obrazów oraz (5) ekstrakcję i analizę cech danych multimedialnych. Student zapoznaje się również z technikami projektowania i programowania algorytmów niezbędnych w badaniach związanych z analizą danych multimedialnych.
Projekt (15h):
Projekt jest definiowany w formie wymagań i parametrów, jakie musi spełniać aplikacja i jest realizowany w grupach projektowych złożonych z 4-6 osób. Grupa projektowa wybiera implementację aplikacji z aktualnej listy projektów lub proponuje własną aplikację do akceptacji prowadzącego zajęcia projektowe. Treści zadań projektowych dotyczą zagadnień uczenia maszynowego w przetwarzaniu sygnałów fonicznych, obrazów i sekwencji wizyjnych.
- Metody oceny:
- Zajęcia laboratoryjne są prowadzone w grupach 2 osobowych z podziałem na zespoły laboratoryjne liczące 8 osób (5 terminów po 3 godziny).
Projekt jest realizowany w grupach liczących od 4 do 6 osób. Spotkanie projektowe w sumie dla każdej grupy to 3 godziny.
- Egzamin:
- tak
- Literatura:
- 1.	LERCH, Alexander. An introduction to audio content analysis: Applications in signal processing and music informatics. Wiley-IEEE Press, 2012.
2.	HILL, Paul. Audio and Speech Processing with MATLAB. CRC Press, 2018.
3.	LI, Francis F.; COX, Trevor J. Digital Signal Processing in Audio and Acoustical Engineering. CRC Press, 2019.
4.	ZÖLZER, Udo. Digital audio signal processing. New York: Wiley, 2008.
5.	ZIELIŃSKI, T. P.; KOROHODA, P.; RUMIAN, R. Cyfrowe przetwarzanie sygnałów w telekomunikacji. Wydawnictwo Naukowe PWN, 2014.
6.	DOWNEY, Allen B. Think DSP: digital signal processing in Python. " O'Reilly Media, Inc.", 2016.
- Witryna www przedmiotu:
- https://usosweb.usos.pw.edu.pl/kontroler.php?_action=katalog2/przedmioty/pokazPrzedmiot&prz_kod=103A-TLTBM-MSP-ZPDM
- Uwagi:
- (-)
Efekty uczenia się