Jak naprawdę działał model targetowania na Facebooku firmy Cambridge AnalyticaJak dokładnie można Cię sprofilować online? Andrew Krasovitckii/Shutterstock.com

Badacz, którego praca jest w centrum zainteresowania Analiza danych Facebook-Cambridge Analytica i zamieszanie związane z reklamami politycznymi ujawnił, że jego metoda działa podobnie Netflix używa do polecania filmów.

W e-mailu wysłanym do mnie, naukowiec z Cambridge University, Aleksandr Kogan, wyjaśnił, w jaki sposób jego model statystyczny przetwarzał dane z Facebooka dla Cambridge Analytica. Dokładność, którą twierdzi, sugeruje, że działa równie dobrze ustalone metody kierowania wyborców na podstawie danych demograficznych, takich jak rasa, wiek i płeć.

Jeśli zostanie to potwierdzone, konto Kogana oznaczałoby, że modelowanie cyfrowe zostało użyte przez firmę Cambridge Analytica trudno nazwać wirtualną kryształową kulą kilku twierdziło. Jednak liczby, które podaje Kogan również pokaż czym jest – a czym nie jest – właściwie możliwe by łączenie danych osobowych z uczeniem maszynowym dla celów politycznych.

Jednak jeśli chodzi o jeden kluczowy problem społeczny, liczby Kogana sugerują, że informacje o osobowościach użytkowników lub „psychografia” to tylko skromna część tego, w jaki sposób model był skierowany do obywateli. Nie był to model osobowości ściśle mówiąc, ale raczej taki, który sprowadził dane demograficzne, wpływy społeczne, osobowość i wszystko inne do dużej skorelowanej bryły. Wydaje się, że to podejście polegające na wychwytywaniu wszystkich korelacji i nazywaniu tego osobowością stworzyło cenne narzędzie kampanii, nawet jeśli sprzedawany produkt nie był taki, jak na fakturze.


wewnętrzna grafika subskrypcji


Obietnica ukierunkowania na osobowość

W następstwie rewelacji, z których korzystali konsultanci kampanii Trumpa, Cambridge Analytica dane od 50 milionów użytkowników Facebooka do kierowania cyfrowych reklam politycznych podczas wyborów prezydenckich w USA w 2016 r., Facebook ma stracił miliardy wartości giełdowej, rządy na po obu stronach Atlantyku mieć wszczęte śledztwai rodzącego się ruch społeczny wzywa użytkowników do #DeleteFacebook.

Ale kluczowe pytanie pozostało bez odpowiedzi: czy firma Cambridge Analytica naprawdę była w stanie skutecznie kierować przekazy kampanii do obywateli w oparciu o ich cechy osobowości — a nawet „wewnętrzne demony”, jak twierdzi informator firmy?

Jeśli ktokolwiek wiedziałby, co Cambridge Analytica zrobiła ze swoimi ogromnymi zasobami danych z Facebooka, byłby to Aleksandr Kogan i Joseph Chancellor. To było ich startup Global Science Research z którego zebrano informacje profilowe 270,000 XNUMX użytkowników Facebooka i dziesiątki milionów ich znajomych za pomocą aplikacji do testowania osobowości o nazwie „thisisyourdigitallife”.

Część moje własne badania koncentruje się na zrozumieniu uczenie maszynowe metody i moja nadchodząca książka omawia, w jaki sposób firmy cyfrowe wykorzystują modele rekomendacji do budowania odbiorców. Miałem przeczucie, jak działa model Kogana i Chancellora.

Wysłałem więc e-maila do Kogana z zapytaniem. Kogan nadal jest naukowiec na Uniwersytecie Cambridge; jego współpracownik Kanclerz pracuje teraz na Facebooku. W niezwykłym pokazie akademickiej uprzejmości odpowiedział Kogan.

Jego odpowiedź wymaga trochę rozpakowania i trochę tła.

Od nagrody Netflixa do „psychometrii”

W 2006 roku, kiedy jeszcze była firmą dostarczającą DVD pocztą, Netflix zaoferował nagrodę w wysokości 1 miliona dolarów każdemu, kto opracował lepszy sposób przewidywania rankingów filmów użytkowników niż firma, którą już posiadała. Niespodziewanym czołowym zawodnikiem był m.in niezależny programista używający pseudonimu Simon Funk, którego podstawowe podejście zostało ostatecznie uwzględnione we wszystkich zgłoszeniach najlepszych drużyn. Funk zaadaptował technikę zwaną „rozkład według wartości osobliwych”, skondensowanie ocen użytkowników filmów do formatu a serie czynników lub składników – zasadniczo zestaw wywnioskowanych kategorii uszeregowanych według ważności. jako Funka wyjaśniono w poście na blogu,

„Na przykład kategoria może reprezentować filmy akcji, z filmami z dużą ilością akcji na górze i wolnymi filmami na dole, a odpowiednio użytkownicy, którzy lubią filmy akcji na górze, i ci, którzy wolą wolne filmy na dole spód."

Czynniki to sztuczne kategorie, które nie zawsze przypominają kategorie wymyślone przez ludzi. The najważniejszy czynnik we wczesnym modelu Netflixa Funka została zdefiniowana przez użytkowników, którzy kochali filmy takie jak „Pearl Harbor” i „The Wedding Planner”, a jednocześnie nienawidzili filmów takich jak „Między słowami” czy „Wieczne słońce bez pamięci”. Jego model pokazał, w jaki sposób uczenie maszynowe może znaleźć korelacje między grupami ludzi i grupami filmów, których sami ludzie nigdy by nie zauważyli.

Ogólne podejście Funka wykorzystywało 50 lub 100 najważniejszych czynników zarówno dla użytkowników, jak i filmów, aby zgadnąć, jak każdy użytkownik oceni każdy film. Ta metoda, często nazywana redukcja wymiarowości lub faktoryzacja macierzy, nie była nowa. Wykazali to politolodzy podobne techniki wykorzystujące dane z głosowań imiennych mógł przewidzieć głosy członków Kongresu z 90-procentową dokładnością. W psychologii „Wielka Piątka” był również używany do przewidywania zachowania poprzez grupowanie pytań dotyczących osobowości, na które zwykle udzielano podobnych odpowiedzi.

Mimo to model Funka był dużym postępem: pozwolił tej technice dobrze pracować z ogromnymi zestawami danych, nawet tymi z dużą ilością brakujących danych – jak zestaw danych Netflix, gdzie typowy użytkownik ocenił tylko kilkadziesiąt filmów z tysięcy w firmie biblioteka. Ponad dekadę po zakończeniu konkursu Netflix Prize, Metody oparte na SVDlub powiązane modele dla danych niejawnych, wciąż są narzędziem wybieranym przez wiele witryn do przewidywania, co użytkownicy będą czytać, oglądać lub kupować.

Modele te mogą również przewidywać inne rzeczy.

Facebook wie, czy jesteś republikaninem

W 2013 roku naukowcy z Cambridge University, Michał Kosiński, David Stillwell i Thore Graepel, opublikowali artykuł nt. siła predykcyjna danych z Facebooka, wykorzystując informacje zebrane za pomocą internetowego testu osobowości. Ich początkowa analiza była prawie identyczna z tą zastosowaną w przypadku nagrody Netflix, wykorzystując SVD do kategoryzowania zarówno użytkowników, jak i rzeczy, które „lubią” w pierwszej setce czynników.

W artykule wykazano, że model czynnikowy stworzony na podstawie samych „polubień” użytkowników na Facebooku był 95 procent dokładne w odróżnianiu czarnych i białych respondentów, 93 procent trafności w odróżnianiu mężczyzn od kobiet i 88 procent trafności w odróżnianiu osób, które identyfikowały się jako homoseksualiści, od mężczyzn, którzy identyfikowali się jako hetero. Potrafił nawet poprawnie odróżnić Republikanów od Demokratów w 85 procentach przypadków. Było to również przydatne, choć nie tak dokładne, dla przewidywanie wyników użytkowników w teście osobowości „Wielkiej Piątki”.

Nie było publiczne oburzenie w odpowiedzi; w ciągu kilku tygodni miał Facebook ustawił polubienia użytkowników jako prywatne domyślnie.

Kogan i Chancellor, również badacze z Uniwersytetu Cambridge, zaczęli wykorzystywać dane z Facebooka do kierowania wyborów w ramach współpracy z firmą macierzystą SCL Cambridge Analytica. Kogan zaprosił Kosińskiego i Stillwella do swojego projektu, ale on nie wyszło. Kosiński podobno podejrzewał, że mogli to zrobić Kogan i Kanclerz dokonał inżynierii wstecznej modelu „polubień” Facebooka dla Cambridge Analytica. Kogan temu zaprzeczył, mówiąc, że jego projekt „zbudowaliśmy wszystkie nasze modele z wykorzystaniem własnych danych, zebranych za pomocą własnego oprogramowania.”

Co właściwie zrobili Kogan i Chancellor?

Gdy śledziłem rozwój wydarzeń, stało się jasne, że Kogan i Chancellor rzeczywiście zgromadzili wiele własnych danych za pośrednictwem aplikacji thisisyourdigitallife. Z pewnością mogli zbudować predykcyjny model SVD, taki jak przedstawiony w opublikowanych badaniach Kosinskiego i Stillwella.

Wysłałem więc e-maila do Kogana z pytaniem, czy właśnie to zrobił. Ku mojemu zdziwieniu odpisał.

„Nie do końca używaliśmy SVD” — napisał, zauważając, że SVD może mieć problemy, gdy niektórzy użytkownicy mają o wiele więcej „polubień” niż inni. Zamiast tego Kogan wyjaśnił: „Technika była czymś, co właściwie sami opracowaliśmy… To nie jest coś, co jest w domenie publicznej”. Nie wchodząc w szczegóły, Kogan opisał swoją metodę jako „wieloetapową współwystępowanie zbliżać się."

Jednak jego wiadomość potwierdziła, że ​​jego podejście było rzeczywiście podobne do SVD lub innych metod faktoryzacji macierzy, jak w konkursie Netflix Prize i modelu Kosinki-Stillwell-Graepel na Facebooku. Podstawą jego modelu była redukcja wymiarowości danych z Facebooka.

Jak dokładne to było?

Kogan zasugerował jednak, że dokładny zastosowany model nie ma większego znaczenia – liczy się dokładność jego przewidywań. Według Kogana „korelacja między przewidywanymi a rzeczywistymi wynikami… wynosiła około [30 procent] dla wszystkich wymiarów osobowości”. Dla porównania, poprzednie wyniki danej osoby w Wielkiej Piątce to ok 70 do 80 procent dokładności w przewidywaniu ich wyników, gdy ponownie przystąpią do testu.

Twierdzenia Kogana dotyczące dokładności nie mogą być oczywiście niezależnie zweryfikowane. A każdy w środku tak głośnego skandalu może mieć motywację, by zaniżać swój wkład. W jego występ w CNN, Kogan wyjaśnił coraz bardziej niedowierzającemu Andersonowi Cooperowi, że w rzeczywistości modele nie działały zbyt dobrze.

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr Kogan odpowiada na pytania w CNN.

W rzeczywistości dokładność, którą twierdzi Kogan, wydaje się nieco niska, ale wiarygodna. Kosiński, Stillwell i Graepel odnotowali porównywalne lub nieco lepsze wyniki, podobnie jak kilku innych inne studia akademickie wykorzystywanie cyfrowych śladów do przewidywania osobowości (chociaż niektóre z tych badań zawierały więcej danych niż tylko „polubienia” na Facebooku). Zaskakujące jest, że Kogan i Chancellor zadali sobie trud zaprojektowania własnego, zastrzeżonego modelu, jeśli gotowe rozwiązania wydawałyby się równie trafne.

Co jednak ważne, dokładność modelu w wynikach osobowości pozwala na porównanie wyników Kogana z innymi badaniami. Opublikowane modele o równoważnej dokładności w przewidywaniu osobowości są znacznie dokładniejsze w odgadywaniu danych demograficznych i zmiennych politycznych.

Na przykład podobny model Kosinski-Stillwell-Graepel SVD był w 85 procentach dokładny w odgadywaniu przynależności partyjnej, nawet bez użycia jakichkolwiek informacji profilowych innych niż polubienia. Model Kogana miał podobną lub lepszą dokładność. Dodanie nawet niewielkiej ilości informacji o znajomych lub danych demograficznych użytkowników prawdopodobnie zwiększyłoby tę dokładność powyżej 90 procent. Przypuszczenia dotyczące płci, rasy, orientacji seksualnej i innych cech prawdopodobnie również byłyby trafne w ponad 90 procentach.

Krytycznie rzecz biorąc, te domysły byłyby szczególnie dobre dla najbardziej aktywnych użytkowników Facebooka – osób, do których model był głównie kierowany. Użytkownicy z mniejszą aktywnością do analizy prawdopodobnie i tak nie korzystają z Facebooka.

Kiedy psychografia to głównie demografia

Wiedza o tym, jak zbudowany jest model, pomaga wyjaśnić pozornie sprzeczne stwierdzenia Cambridge Analytica na temat Rola - lub brak tego – że profilowanie osobowości i psychografia odgrywały rolę w jej modelowaniu. Wszystkie są technicznie zgodne z tym, co opisuje Kogan.

Model taki jak Kogana dawałby oszacowania dla każdej zmiennej dostępnej dla dowolnej grupy użytkowników. Oznacza to, że automatycznie oszacować wyniki osobowości Wielkiej Piątki dla każdego wyborcy. Ale te wyniki osobowości są wynikiem modelu, a nie danymi wejściowymi. Wszystko, co model wie, to to, że niektóre polubienia na Facebooku i niektórzy użytkownicy mają tendencję do grupowania się.

Dzięki temu modelowi Cambridge Analytica mogła powiedzieć, że identyfikuje osoby o niskiej otwartości na doświadczenie i wysokim neurotyzmie. Ale ten sam model, z dokładnie takimi samymi przewidywaniami dla każdego użytkownika, mógłby równie dokładnie twierdzić, że identyfikuje mniej wykształconych starszych republikanów.

Informacje Kogana pomagają również wyjaśnić zamieszanie wokół tego, czy Cambridge Analytica faktycznie usunął swoje skarby danych Facebooka, gdy modele budowane są na podstawie danych wydają się nadal krążyć, A nawet dalej rozwijane.

KonwersacjeCały sens modelu redukcji wymiarów polega na matematycznym przedstawieniu danych w prostszej formie. To tak, jakby firma Cambridge Analytica zrobiła zdjęcie o bardzo wysokiej rozdzielczości, zmniejszyła je, aby było mniejsze, a następnie usunęła oryginał. Zdjęcie wciąż istnieje – i tak długo, jak istnieją modele Cambridge Analytica, istnieją również dane.

O autorze

Matthew Hindman, profesor nadzwyczajny ds. mediów i spraw publicznych, George Washington University

Ten artykuł został pierwotnie opublikowany w Konwersacje. Przeczytać oryginalny artykuł.

Powiązane książki

at Rynek wewnętrzny i Amazon