Czym są filmy Deepfake i wykrywanie ich mrugnięcia okiem

Nowa forma dezinformacji może rozprzestrzenić się w społecznościach internetowych, gdy kampanie wyborcze w połowie kadencji w 2018 r. nasilają się. Nazywane „deepfakes” po pseudonimowe konto internetowe, które spopularyzowało technikę – który mógł wybrać swoją nazwę, ponieważ proces wykorzystuje metodę techniczną zwaną „głębokim uczeniem” – te fałszywe filmy wyglądają bardzo realistycznie.

Do tej pory ludzie używali deepfake wideo w pornografia i satyra żeby wyglądało na to, że sławni ludzie robią rzeczy, których normalnie by nie robili.

Ale to prawie pewne deepfake pojawią się w sezonie kampanii, rzekomo przedstawiająca kandydatów mówienie rzeczy lub udać się w miejsca, w których prawdziwy kandydat nie chciał.

To Barack Obama – a może?

{youtube}cQ54GDm1eL0{/youtube}

Ponieważ te techniki są tak nowe, ludzie mają problem z odróżnieniem prawdziwych filmów od filmów typu deepfake. Moja praca, z moim kolegą Ming-Ching Chang i naszym doktorem. studentka Yuezun Li, znalazła sposób na niezawodnie odróżnij prawdziwe filmy od fałszywych filmów. Nie jest to rozwiązanie trwałe, ponieważ technologia będzie się poprawiać. Ale to początek i daje nadzieję, że komputery będą w stanie pomóc ludziom odróżnić prawdę od fikcji.


wewnętrzna grafika subskrypcji


Czym właściwie jest „głębokie fałszerstwo”?

Tworzenie wideo typu deepfake przypomina tłumaczenie między językami. Usługi takie jak tłumacz Google korzystać z uczenia maszynowego – analiza komputerowa dziesiątek tysięcy tekstów w wielu językach – do wykrywać wzorce użycia słów którego używają do tworzenia tłumaczenia.

Algorytmy Deepfake działają w ten sam sposób: wykorzystują rodzaj systemu uczenia maszynowego zwanego a głęboka sieć neuronowa zbadać ruchy twarzy jednej osoby. Następnie syntetyzują obrazy twarzy innej osoby wykonując analogiczne ruchy. W ten sposób skutecznie tworzy się film, na którym osoba docelowa wydaje się robić lub mówić rzeczy, które zrobiła osoba źródłowa.

Jak powstają filmy typu deepfake.

{youtube}8LhI-e2B8Lg{/youtube}

Głębokie sieci neuronowe, zanim będą mogły poprawnie działać, potrzebują wielu informacji źródłowych, takich jak zdjęcia osób będących źródłem lub celem podszywania się. Im więcej obrazów zostanie użytych do wytrenowania algorytmu deepfake, tym bardziej realistyczne będzie podszywanie się pod cyfrę.

Wykrywanie mrugania

Ten nowy typ algorytmu wciąż ma wady. Jedna z nich dotyczy tego, jak symulowane twarze mrugają – albo nie. Zdrowi dorośli ludzie mrugają gdzieś między co 2 a 10 sekund, a jedno mrugnięcie trwa od jednej dziesiątej do czterech dziesiątych sekundy. To byłoby normalne, gdyby można było zobaczyć na filmie mówiącej osoby. Ale to nie dzieje się w wielu filmach typu deepfake.

Prawdziwa osoba mruga podczas rozmowy.

{youtube}https://www.youtube.com/watch?v=-MMXXEA3UaM{/youtube}

Symulowana twarz nie mruga tak, jak robi to prawdziwa osoba.

{youtube}EttSA9-YIuI{/youtube}

Kiedy algorytm deepfake jest szkolony na obrazach twarzy osoby, zależy to od zdjęć dostępnych w Internecie, które można wykorzystać jako dane treningowe. Nawet dla osób, które są często fotografowane, niewiele zdjęć jest dostępnych online, pokazujących ich zamknięte oczy. Nie tylko takie zdjęcia są rzadkie – ponieważ oczy ludzi są przez większość czasu otwarte – ale fotografowie zwykle nie publikują zdjęć, w których oczy głównych bohaterów są zamknięte.

Bez obrazów szkoleniowych ludzi mrugających, algorytmy deepfake rzadziej tworzą twarze, które normalnie mrugają. Kiedy obliczymy ogólny wskaźnik mrugania i porównamy to z naturalnym zasięgiem, stwierdziliśmy, że postacie w filmach typu deepfake mrugają znacznie rzadziej w porównaniu z prawdziwymi ludźmi. Nasze badania wykorzystują uczenie maszynowe do badaj otwieranie i zamykanie oczu w filmach.

To daje nam inspirację do wykrywania filmów typu deepfake. Następnie opracowujemy metodę wykrywania, kiedy osoba na filmie mruga. Mówiąc dokładniej, skanuje każdą klatkę danego filmu, wykrywa w nim twarze, a następnie automatycznie lokalizuje oczy. Następnie wykorzystuje inną głęboką sieć neuronową, aby określić, czy wykryte oko jest otwarte, czy zamknięte, wykorzystując wygląd oka, cechy geometryczne i ruch.

Wiemy, że nasza praca wykorzystuje lukę w rodzaju dostępnych danych do trenowania algorytmów deepfake. Aby nie padać ofiarą podobnej wady, wyszkoliliśmy nasz system na dużej bibliotece obrazów zarówno otwartych, jak i zamkniętych oczu. Ta metoda wydaje się działać dobrze iw rezultacie osiągnęliśmy ponad 95-procentowy wskaźnik wykrywalności.

Oczywiście nie jest to ostatnie słowo na temat wykrywania deepfake'ów. Technologia jest szybko się poprawia, a rywalizacja między generowaniem i wykrywaniem fałszywych filmów jest analogiczna do gry w szachy. W szczególności do filmów typu deepfake można dodać mruganie, dołączając obrazy twarzy z zamkniętymi oczami lub wykorzystując sekwencje wideo do treningu. Ludzie, którzy chcą wprowadzać w błąd opinię publiczną, będą lepsi w tworzeniu fałszywych filmów – a my i inni członkowie społeczności technologicznej będziemy musieli nadal znajdować sposoby ich wykrywania.Konwersacje

O autorze

Siwei Lyu, profesor nadzwyczajny informatyki; Dyrektor, Laboratorium Wizji Komputerowej i Uczenia Maszynowego, Uniwersytet w Albany, State University of New York

Ten artykuł został pierwotnie opublikowany w Konwersacje. Przeczytać oryginalny artykuł.

Powiązane książki

at Rynek wewnętrzny i Amazon