Jak Twoi znajomi na Twitterze mogą oddać Ci Twoją anonimowość

Podczas przeglądania Internetu reklamodawcy online śledzą prawie każdą odwiedzaną witrynę, gromadząc mnóstwo informacji o Twoich zwyczajach i preferencjach. Gdy odwiedzasz witrynę z wiadomościami, mogą zobaczyć, że jesteś fanem koszykówki, opery i kryminałów, i odpowiednio wybrać reklamy dostosowane do Twoich upodobań.

Reklamodawcy wykorzystują te informacje do tworzenia wysoce spersonalizowanych treści, ale zazwyczaj nie wiedzą dokładnie, kim jesteś. Obserwują tylko twój cyfrowy ślad, a nie samą tożsamość, więc możesz mieć wrażenie, że zachowałeś pewien stopień anonimowości.

Ale w artykule, którego jestem współautorem z Anshem Shukla, Sharadem Goelem i Arvindem Narayananem, pokazujemy, że te anonimowe dane dotyczące przeglądania sieci często można powiązać z rzeczywistymi tożsamościami.

Aby przetestować nasze podejście, zbudowaliśmy Strona internetowa gdzie ludzie mogliby przekazać swoją historię przeglądania na potrzeby tego badania. Następnie próbowaliśmy sprawdzić, czy możemy powiązać ich historie z ich profilami na Twitterze, korzystając wyłącznie z publicznie dostępnych danych. Siedemdziesiąt dwa procent osób, które próbowaliśmy zdeanonimizować, zostało prawidłowo zidentyfikowanych jako najlepszy kandydat w wynikach wyszukiwania, a 81 procent znalazło się wśród 15 najlepszych kandydatów.

prywatność2 2 8Zrzuty ekranu strony deanonimizacji.

Według naszej wiedzy jest to jak dotąd największa demonstracja deanonimizacji, ponieważ wybiera właściwego użytkownika spośród setek milionów możliwych użytkowników Twittera. Ponadto nasza metoda wymaga jedynie, aby dana osoba kliknęła w linki pojawiające się w jej kanałach społecznościowych, a nie zamieszczała jakiekolwiek treści – więc nawet osoby, które ostrożnie podchodzą do tego, co udostępniają w Internecie, nadal są narażone na ten atak.


wewnętrzna grafika subskrypcji


Jak to działa?

Na wysokim poziomie nasze podejście opiera się na prostej obserwacji. Każda osoba ma bardzo charakterystyczną sieć społeczną, obejmującą rodzinę i przyjaciół ze szkoły, pracy i różnych etapów życia. W rezultacie zestaw linków w Twoich kanałach na Facebooku i Twitterze jest bardzo charakterystyczny. Kliknięcie tych linków pozostawia charakterystyczny ślad w historii przeglądania.

Przyglądając się zestawowi stron internetowych, które dana osoba odwiedziła, byliśmy w stanie wybrać podobne kanały w mediach społecznościowych, uzyskując listę kandydatów, którzy prawdopodobnie wygenerowali tę historię przeglądania sieci. W ten sposób możemy powiązać rzeczywistą tożsamość danej osoby z niemal pełnym zestawem odwiedzonych przez nią linków, w tym linków, które nigdy nie były publikowane na żadnym portalu społecznościowym.

Realizacja tej strategii wiąże się z dwoma kluczowymi wyzwaniami. Pierwsza jest teoretyczna: jak określić ilościowo podobieństwo określonego kanału w mediach społecznościowych do danej historii przeglądania sieci? Prostym sposobem jest zmierzenie części linków w historii przeglądania, które pojawiają się również w kanale. Działa to dość dobrze w praktyce, ale zawyża podobieństwo w przypadku dużych kanałów, ponieważ zawierają one po prostu więcej linków. Zamiast tego stosujemy alternatywne podejście. Zakładamy stylizowany, probabilistyczny model zachowania przeglądania sieci, a następnie obliczamy prawdopodobieństwo, że użytkownik z tym kanałem mediów społecznościowych wygenerował obserwowaną historię przeglądania. Następnie wybieramy kanał mediów społecznościowych, który jest najbardziej prawdopodobny.

Drugie wyzwanie polega na identyfikacji najbardziej podobnych kanałów w czasie rzeczywistym. Tutaj zwracamy się do Twittera, ponieważ kanały Twittera (w przeciwieństwie do Facebooka) są w dużej mierze publiczne. Jednak nawet jeśli kanały są publiczne, nie możemy po prostu utworzyć lokalnej kopii Twittera, na podstawie której moglibyśmy uruchamiać nasze zapytania. Zamiast tego stosujemy szereg technik, aby radykalnie zmniejszyć przestrzeń wyszukiwania. Następnie łączymy techniki buforowania z przeszukiwaniem sieci na żądanie, aby konstruować kanały najbardziej obiecujących kandydatów. Na tym zredukowanym zbiorze kandydatów stosujemy naszą miarę podobieństwa, aby uzyskać ostateczne wyniki. Biorąc pod uwagę historię przeglądania, zazwyczaj możemy przeprowadzić cały ten proces w mniej niż 60 sekund.

Nasza metoda jest dokładniejsza dla osób, które aktywniej przeglądają Twittera. Dziewięćdziesiąt procent uczestników, którzy kliknęli na 100 lub więcej linków na Twitterze, można było dopasować do ich tożsamości.

Wiele firm dysponuje zasobami śledzącymi, aby przeprowadzić taki atak, nawet bez zgody uczestnika. Próbowaliśmy zdeanonimizować każdego z naszych uczestników eksperymentu, wykorzystując tylko te części ich historii przeglądania, które były widoczne dla określonych firm śledzących (ponieważ firmy te mają moduły śledzące na tych stronach). Odkryliśmy, że kilka firm dysponowało zasobami umożliwiającymi dokładną identyfikację uczestników.

prywatność 2 8Inne badania deanonimizacji

Kilka innych badań wykorzystało publicznie dostępne ślady do deanonimizacji wrażliwych danych.

Być może najsłynniejsze badanie w tym kierunku zostało przeprowadzone przez Latanya sweeney na Uniwersytecie Harvarda w 2002 roku. Odkryła to 87 procent Amerykanów można było jednoznacznie zidentyfikować na podstawie kombinacji ich kodu pocztowego, płci i daty urodzenia. Te trzy atrybuty były dostępne zarówno w publicznych danych rejestracyjnych wyborców (które kupiła za 20 USD), jak i anonimowych danych medycznych (które były szeroko rozpowszechniane, ponieważ ludzie myśleli, że dane są anonimowe). Łącząc te źródła danych, znalazła dokumentację medyczną gubernatora Massachusetts.

W 2006, Netflix ogłosił konkurs poprawić jakość swoich rekomendacji filmowych. Opublikowali anonimowy zbiór danych o ocenach filmów ludzi i zaoferowali zespołowi 1 milion dolarów, który mógłby ulepszyć ich algorytm rekomendacji o 10 procent. Informatycy Arvind Narayan i Witalij Szmatikow zauważyli, że filmy, które oglądali ludzie, były bardzo charakterystyczne, a większość osób w zbiorze danych można było jednoznacznie zidentyfikować na podstawie niewielkiego podzbioru ich filmów. Innymi słowy, na podstawie wyborów filmów Netflix i recenzji IMDB, badacze byli w stanie ustalić, kim naprawdę byli ci użytkownicy Netflix.

Wraz z rozwojem mediów społecznościowych coraz więcej osób udostępnia informacje, które wydają się nieszkodliwe, ale w rzeczywistości ujawniają wiele danych osobowych. Badanie prowadzone przez Michał Kosiński z University of Cambridge wykorzystał Facebooka do przewidywania upodobań ludzi orientację seksualną, poglądy polityczne i cechy osobowości.

Kolejny zespół, kierowany przez Gilberta Wondracka na Politechnice Wiedeńskiej zbudowali „maszynę do deanonimizacji”, która ustalała, do jakich grup należą ludzie w sieci społecznościowej Xing, i wykorzystywała to, aby dowiedzieć się, kim są – ponieważ grupy, do których należysz, często wystarczają do jednoznacznej identyfikacji Ty.

Co możesz zrobić

Przed większością tych ataków trudno się obronić, chyba że przestaniesz korzystać z internetu lub uczestniczyć w życiu publicznym.

Nawet jeśli przestaniesz korzystać z internetu, firmy nadal mogą gromadzić dane na Twój temat. Jeśli kilku Twoich znajomych prześle swoje kontakty telefoniczne do Facebooka, a Twój numer znajduje się na wszystkich ich listach kontaktów, Facebook może przewidywać Ciebie, nawet jeśli nie korzystasz z ich usług.

Najlepszym sposobem obrony przed algorytmami deanonimizującymi, takimi jak nasz, jest ograniczenie grupy osób, które mają dostęp do Twoich anonimowych danych przeglądania. Rozszerzenia przeglądarki, takie jak Ghostery blokować moduły śledzące innych firm. Oznacza to, że nawet jeśli firma, której witrynę odwiedzasz, będzie wiedziała, że ​​ją odwiedzasz, firmy reklamowe, które wyświetlają reklamy na ich stronie, nie będą mogły gromadzić danych dotyczących przeglądania i agregować je z wielu witryn.

Jeśli jesteś webmasterem, możesz pomóc chronić swoich użytkowników, umożliwiając im przeglądanie witryny za pomocą HTTPS. Przeglądanie przy użyciu protokołu HTTP umożliwia atakującym uzyskanie historii przeglądania poprzez wąchanie ruchu sieciowego, co umożliwia im przeprowadzenie tego ataku. Wiele stron internetowych przeszło już na HTTPS; kiedy powtórzyliśmy nasz eksperyment deanonimizacji z perspektywy sniffera ruchu sieciowego, tylko 31 procent uczestników mogło zostać zdeanonimizowanych.

Jednak ogólnie niewiele można zrobić, aby uchronić się przed atakami deanonimizacji i być może najlepszym sposobem działania jest dostosowanie swoich oczekiwań. W epoce cyfrowej nic nie jest prywatne.

O autorze

Jessica Su, Ph.D. Student Stanforda, Stanford University

Ten artykuł został pierwotnie opublikowany w Konwersacje. Przeczytać oryginalny artykuł.

Powiązane książki

at Rynek wewnętrzny i Amazon