Sztuczna inteligencja w walce z deep fakeami - publiczna obrona rozprawy doktorskiej w WAT
7 grudnia 2023 r. odbyła się publiczna obrona rozprawy doktorskiej mgr. inż. Maciej Gołgowskiego pt. „Wybrane metody uczenia maszynowego w zadaniach wykrywania anomalii procesów”. Doktorant obronił pracę w Dyscyplinie Informatyka Techniczna i Telekomunikacja Wojskowej Akademii Technicznej. Promotorem rozprawy był prof. dr hab. inż. Stanisław Osowski z WAT, zaś recenzentami: prof. dr hab. inż. Krzysztof Ślot z Instytutu Informatyki Stosowanej Politechniki Łódzkiej, dr hab. inż. Małgorzata Krętowska, prof. PB z Wydziału Informatyki Politechnika Białostockiej oraz prof. dr hab. inż. Rafał Scherer z Katedry Inteligentnych Systemów Informatycznych Wydziału Inżynierii Mechanicznej i Informatyki Politechniki Częstochowskiej.
Rozprawa doktorska poświęcona jest opracowaniu systemów wykrywania anomalii procesów na podstawie zarejestrowanych sygnałów. Zaproponowane rozwiązania zostały przetestowane na trzech rodzajach problemów. Dwa z nich bazują na zarejestrowanych szeregach czasowych i dotyczą wykrywania anomalii w sygnałach EKG oraz uszkodzenia łożysk tocznych. Trzeci problem związany jest w wykrywaniem podróbek obrazów typu deep fake wyekstrahowanych z filmów video. Przebadane zostały różne warianty doboru parametrów obu systemów, uzyskując w efekcie bardzo dobre wyniki wykrycia anomalii, lepsze lub porównywalne z najlepszymi rezultatami prezentowanymi w literaturze światowej.
Praca mgr. inż. Macieja Gołgowskiego składa się ze streszczenia, spisu treści, sześciu rozdziałów oraz bibliografii. Dokument liczy 104 strony. Pierwszy rozdział jest krótkim wprowadzeniem do tematyki. Autor definiuje pojęcie anomalii procesu, istotę detekcji anomalii oraz omawia problemy związane ze stosowaniem metod klasyfikacji do wykrywanie anomalii takie jak częste niezbalansowanie danych dotyczących anomalii, trudności w definiowanie przebiegów normalnych i anormalnych, czy określeniu zakresu zmienności przebiegów normalnych. Metody wykrywania anomalii podzielono na odległościowe oraz bazujące na gęstości rozkładu. Podano cel pracy, którym jest stworzenie nowych metod wykrywania anomalii procesów głównie z wykorzystaniem transformacji folkowych ciągłych i dyskretnych do generacji cech i użycie różnych klasyfikatorów do wykrywania anomalii. Rozdział pierwszy kończy się przeglądem zawartości rozprawy. Rozdział drugi prezentuje metody uczenia maszynowego stosowane w badaniach. Omówiono transformację falkową ciągłą oraz dyskretną. Autor przybliżył klasyfikatory używane w eksperymentach przeprowadzonych w dalszych rozdziałach, a mianowicie: losowy las drzew decyzyjnych, zespół klasyfikatorów gradient boosting, klasyfikator SVM, klasyfikator k-NN, klasyfikator oparty na procesie gaussowskim, sieć wielowarstwowy perceptron nieliniowy oraz naiwny klasyfikator Bayesa. Na końcu omówione zostały dokładniej sieci splotowe używane do analizy sygnałów, głównie obrazów. Podano przykład struktury AlexNet oraz wymieniono szereg późniejszych popularnych modeli CNN dostępnych w literaturze. Rozdział 3 omawia wykrywanie anomalii w sygnałach EKG. Zaprezentowano krótki przegląd literatury dotyczącej wykrywania analizy EKG przy pomocy metod uczenia maszynowego. Omówiono sam sygnał EKG z pięcioma podstawowymi załamkami. Podkreślono dlaczego transformacja falkowa nadaje się dobrze do analizy sygnałów EKG przez jego nietypową charakterystykę. Do badań zastosowano zbiory danych pochodzące ze strony https://physionet.org/ ze 162 nagraniami sygnału EKG. Próbki były podzielone na trzy grupy: arytmię, niewydolność serca oraz pracę normalną. Sygnały były próbkowane z częstotliwością 128 herców. Doktorant podzielił dane w stosunku 70 do 30 na uczące i testujące. Przybliżono sposoby ekstrakcji cech za pomocą z wykorzystaniem szybkiej transformacji Fouriera, algorytmu Pana-Tompkinsa, oraz z zastosowaniem dyskretnej dekompozycji falkowej (DWT). W wyniku DWT uzyskuje się 78 cech (13 miar statystycznych dla sześciu sygnałów). Automatycznie dobrane cechy sygnału zostały poddane analizie zgodności chi-kwadrat. Wybrane cechy zostały użyte jako wektor wejściowy dla ośmiu popularnych klasyfikatorów. Eksperymenty przeprowadzono na zestawach I 2, 24, 48 oraz 78 cech. Autor wykonał eksperymenty dla wszystkich kombinacji klasyfikatorów i zestawów cech pokazujące, że najlepiej zachowywał się zestaw 24 cech i klasyfikator random forest. Dla tego zestawu cech, z sześciu najlepiej działających klasyfikatorów Autor stworzył zespół oparty na głosowaniu większościowym, co dalej poprawiło jakość klasyfikacji. Ciągła transformacja folkowa pozwoliła wyekstrahować cechy w formie obrazu, który mógł być analizowany przez standardowe sieci splotowe 2D używane do obrazów. Obrazy cech zostały zmniejszone do standardowych rozdzielczości używanych przez obecne sieci CNN. W badaniach użyto sieć o trzech warstwach splotowych z funkcją ReLU i funkcją max pooling. Meta parametry sieci splotowej zostały wybrane eksperymentalnie, natomiast nie podano przykładowych zależności jak zmieniała się dokładność klasyfikacji w zależności od meta parametrów sieci. Takie podejście polegające na analizie bitmapy cech jak zwykłego obrazu nie dało dobrych wyników. I tutaj Autor podaje możliwe powody: dużą kompresję wejściowego obrazu cech oraz małą liczebność zbiorów danych. W dalszych badaniach zostały użyte gotowe popularne sieci splotowe dostępne w sieci Internet, nauczone klasyfikacji 1 OOO klas obiektów wizualnych, czyli zbioru ImageNet. Zmieniono oczywiście liczbę wyjść, dostosowując struktury do rozważanego problemu. Uczono jedynie warstwy w pełni połączone odpowiedzialne za klasyfikację. Osiem takich architektur CNN po nauczeniu zadania wykrywania anomalii połączono w zespół, którego wyjście ustala się przez głosowanie większościowe. Uzyskane wyniki są porównywalne z najlepszymi wynikami uzyskanymi przez klasyfikatory tradycyjne. Natomiast, odbyło się to najprawdopodobniej za cenę bardzo dużej złożoności obliczeniowej takiego zespołu. Rozdział 4 poświęcony jest wykrywaniu uszkodzeń łożysk tocznych poprzez analizę sygnałów pochodzących z czujników akcelerometrycznych. Zostały użyte dane pochodzące z serwisu Mendeley Data, zawierające cztery rodzaje uszkodzeń i stan normalny. Autor omówił problemy z wykorzystaniem podejścia opartego o transformację Fouriera, oraz dlaczego w tym przypadku transfonnacja falkowa powinna lepiej sprawdzić się przy analizie takiego procesu. Ogólnie podejście w tym rozdziale jest podobne jak w przypadku analizy sygnałów EKG, to znaczy tworzone są cechy z zastosowaniem DWT oraz CWT. Cechy dyskretne tworzone są automatycznie i poddane analizie testem chi-kwadrat w celu wyliczenia ważności poszczególnych cech. Wektory takich cech były danymi wejściowymi do sześciu popularnych klasyfikatorów oraz na ich bazie stworzono zespół oparty o głosowanie większościowe. W następnym kroku, podobnie jak poprzednio, zastosowano sieci splotowe do analizy obrazu z danymi wejściowymi w postaci obrazów powstałych w wyniku CWT. I znowu, początkowo użyto sieci splotowej tworzonej (uczonej) od podstaw, a następnie użyto metody transfer learning z użyciem ośmiu popularnych sieci splotowych wstępnie uczonych na zbiorze lmageNet. Rozdział 5 dotyczy wykrywania obrazów wygenerowanych i zmanipulowanych przez systemy uczące się. Opisano pokrótce sieci GAN służące do tworzenia takich obrazów. W badaniach użyto zbioru danych FaceForensics++. W zbiorze danych występowały materiały tworzone przez metodę FaceSwap, gdzie sieć przenosiła obraz wykryty jako twarz z wideo wejściowego do wideo wyjściowego, przez metodę DeepFake, która używa autoenkodera do tworzenia syntetycznego obrazu, oraz metody Face2Face, która zmienia ekspresję twarzy w docelowym wideo. W rozprawie rozpatrywane są dwuwymiarowe obrazy twarzy i dlatego należało użyć metodę automatycznego ich wyodrębniania. Doktorant użył popularnej metody histogramu zorientowanych gradientów (HOG). Do określenia prawdziwości obrazu stworzył autorską procedurę polegającą na wykryciu punktów orientacyjnych twarzy, użyciu transformaty CWT, a następnie, tak jak poprzednio, zastosowanie jej wyników w postaci obrazów dwuwymiarowych jako danych wejściowych dla sieci splotowych. Ponieważ Autor używał ośmiu sieci splotowych trenowanych na zbiorze lmageNet, sieci te przyjmowały tensor o trzecim wymiarze zgodnym z kanałami RGB. Dlatego, mając te trzy kanały do dyspozycji, przetestował różne kombinacje obrazów cech - w różnych skalach oraz dla reprezentacji modułów i kątowych. Dalej następuje podsumowanie pracy oraz bibliografia składająca się z 96 pozycji.
Jak zauważa recenzent rozprawy prof. dr hab. inż. Krzysztof Ślot z Instytutu Informatyki Stosowanej Politechniki Łódzkiej
„ zagadnienie detekcji anomalii ma ogromne znaczenie praktyczne dostarczając potencjalnych narzędzi prognozowania wystąpienia stanów awaryjnych, detekcji nieprawidłowości przebiegu monitorowanych procesów lub ostrzegania o możliwych nieuprawnionych ingerencjach w pracę systemów.”
Wykrywanie anomalii jest ważnym narzędziem w wielu dziedzinach życia, zarówno w nauce, jak i technice i biznesie. Może być wykorzystane w cyberbezpieczeństwie, monitorowaniu procesów przemysłowych, medycynie, finansach, sieciach społecznościowych, monitorowaniu środowiska naturalnego itd. W rozprawie występują przykłady monitorowania maszyn, diagnostyki medycznej oraz wykrywania prób manipulacji informacjami. Wykrywanie anomalii jest istotnym narzędziem do identyfikacji nieprawidłowości, które mogą mieć negatywne skutki w różnych dziedzinach życia i gospodarki.