Jak Twitter daje naukowcom okno na ludzkie szczęście i zdrowie?

Od swojego publicznego uruchomienia 10 lat temu, Twitter jest wykorzystywany jako platforma społecznościowa wśród znajomych, komunikator internetowy dla użytkowników smartfonów oraz narzędzie promocyjne dla korporacji i polityków.

Ale było to również nieocenione źródło danych dla badaczy i naukowców – takich jak ja – którzy chcą badać, jak ludzie czują się i funkcjonują w złożonych systemach społecznych.

Analizując tweety, byliśmy w stanie obserwować i gromadzić dane na temat interakcji społecznych milionów ludzi „na wolności”, poza kontrolowanymi eksperymentami laboratoryjnymi.

Umożliwiło nam to opracowanie narzędzi do monitorowania zbiorowe emocje dużych populacji, znaleźć najszczęśliwsze miejsca w Stanach Zjednoczonych i wiele więcej.

Jak więc dokładnie Twitter stał się tak wyjątkowym źródłem informacji dla socjologów obliczeniowych? A co pozwoliło nam to odkryć?


wewnętrzna grafika subskrypcji


Największy prezent Twittera dla naukowców

15 lipca 2006 r. Twittr (jak wtedy nazywano) publicznie uruchomiona jako „usługa mobilna, która pomaga grupom znajomych odbijać przypadkowe myśli za pomocą SMS-ów”. Możliwość wysyłania bezpłatnych 140-znakowych tekstów grupowych skłoniła wielu wczesnych użytkowników (w tym mnie) do korzystania z platformy.

Z czasem liczba użytkowników eksplodował: z 20 mln w 2009 do 200 mln w 2012 i 310 mln obecnie. Zamiast komunikować się bezpośrednio ze znajomymi, użytkownicy po prostu opowiadali swoim obserwatorom, jak się czuli, odpowiadali na wiadomości pozytywnie lub negatywnie lub żartowali.

Dla badaczy największym darem Twittera jest dostarczanie dużych ilości otwartych danych. Twitter był jedną z pierwszych dużych sieci społecznościowych, która dostarczała próbki danych za pośrednictwem interfejsów programowania aplikacji (API), które umożliwiają badaczom wyszukiwanie na Twitterze określonych typów tweetów (np. tweetów zawierających określone słowa), a także informacji o użytkownikach .

Doprowadziło to do eksplozji projektów badawczych wykorzystujących te dane. Dzisiaj wyszukiwanie hasła „Twitter” w Google Scholar przynosi sześć milionów odwiedzin, w porównaniu z pięcioma milionami w przypadku „Facebooka”. Różnica jest szczególnie uderzająca, biorąc pod uwagę, że Facebook ma mniej więcej pięć razy więcej użytkowników niż Twitter (i jest dwa lata starszy).

Hojna polityka danych Twittera niewątpliwie doprowadziła do doskonałej bezpłatnej reklamy dla firmy, ponieważ interesujące badania naukowe zostały podchwycone przez media głównego nurtu.

Studiowanie szczęścia i zdrowia

Ponieważ tradycyjne dane ze spisu powszechnego są powolne i drogie w zbieraniu, otwarte kanały danych, takie jak Twitter, mogą potencjalnie zapewnić okno w czasie rzeczywistym, aby zobaczyć zmiany w dużych populacjach.

Uniwersytet Vermontmont Obliczeniowe Laboratorium Opowieści została założona w 2006 roku i zajmuje się zagadnieniami z zakresu matematyki stosowanej, socjologii i fizyki. Od 2008 roku Story Lab zebrało miliardy tweetów za pośrednictwem kanału „Gardenhose” Twittera, interfejsu API, który przesyła w czasie rzeczywistym losową próbkę 10 procent wszystkich publicznych tweetów.

Spędziłem trzy lata w Computational Story Lab i miałem szczęście być częścią wielu interesujących badań wykorzystujących te dane. Na przykład opracowaliśmy hedonometr który mierzy szczęście Twittersfery w czasie rzeczywistym. Koncentrując się na geolokalizowanych tweetach wysyłanych ze smartfonów, udało nam się: mapa najszczęśliwsze miejsca w Stanach Zjednoczonych. Być może nic dziwnego, że znaleźli Hawaje będą najszczęśliwszym stanem, a Napa najszczęśliwszym miastem dla 2013. 

Mapa 13 milionów tweetów z geolokalizacją w USA z 2013 roku, pokolorowanych według szczęścia, z czerwonym wskazującym na szczęście i niebieskim wskazującym na smutek. PLOS ONE, Autor pod warunkiemMapa 13 milionów tweetów z geolokalizacją w USA z 2013 roku, pokolorowanych według szczęścia, z czerwonym wskazującym na szczęście i niebieskim wskazującym na smutek. PLoS ONE, Autor podał.Badania te miały głębsze zastosowania: skorelowanie użycia słów na Twitterze z danymi demograficznymi pomogło nam zrozumieć podstawowe wzorce społeczno-ekonomiczne w miastach. Na przykład możemy powiązać użycie słów z czynnikami zdrowotnymi, takimi jak otyłość, więc stworzyliśmy leksykokalorymetr do mierzenia „zawartości kalorycznej” postów w mediach społecznościowych. Tweety z konkretnego regionu, które wspominały o wysokokalorycznych potrawach, zwiększyły „zawartość kaloryczną” tego regionu, podczas gdy tweety, które wspominały o ćwiczeniach, zmniejszyły nasz wskaźnik. Odkryliśmy, że ten prosty środek koreluje z innymi wskaźnikami dotyczącymi zdrowia i samopoczucia. Innymi słowy, tweety były w stanie dać nam migawkę w określonym momencie ogólnego stanu zdrowia miasta lub regionu.

Korzystając z bogactwa danych z Twittera, udało nam się również zobacz codzienne wzorce ruchowe ludzi w bezprecedensowych szczegółach. Zrozumienie wzorców mobilności człowieka może z kolei zmienić modelowanie chorób, otwierając nowe pole epidemiologia cyfrowa.

W przypadku innych badań sprawdzaliśmy, czy podróżnicy wyrażają większe szczęście na Twitterze niż ci, którzy zostają w domu (odpowiedź: tak) i czy szczęśliwe osoby mają tendencję do trzymania się razem w sieci społecznościowej (znowu robią). Rzeczywiście, pozytywność wydaje się być zapieczona w samym języku, w tym sensie, że mamy więcej pozytywnych słów niż negatywnych. Nie dotyczyło to tylko Twittera, ale wielu różnych mediów (np. książek, filmów i gazet) i języków.

Te badania – i tysiące podobnych z całego świata – były możliwe tylko dzięki Twitterowi.

Następne lata 10

Czego więc możemy się spodziewać od Twittera w ciągu najbliższych 10 lat?

Niektóre z najbardziej ekscytujących prac obejmują obecnie łączenie danych z mediów społecznościowych z modelami matematycznymi w celu przewidywania zjawisk na poziomie populacji, takich jak epidemie chorób. Badacze odnieśli już pewne sukcesy w rozszerzaniu modeli chorób o dane z Twittera, aby prognozować grypę, w szczególności GrypaOutlook platforma opracowana przez Northeastern University i Institute for Scientific Interchange.

Wciąż jednak pozostaje wiele wyzwań. Dane z mediów społecznościowych mają bardzo niski „stosunek sygnału do szumu”. Innymi słowy, tweety, które są istotne dla konkretnego badania, są często zagłuszane przez nieistotny „hałas”.

Dlatego musimy być stale świadomi tego, co zostało nazwane”arogancja dużych zbiorów danych” przy opracowywaniu nowych metod i nie bądź zbyt pewny naszych wyników. Powinno się z tym wiązać dążenie do stworzenia interpretowalnych prognoz „szklanych” na podstawie tych danych (w przeciwieństwie do prognoz „czarnych skrzynek”, w których algorytm jest ukryty lub niejasny).

Dane z mediów społecznościowych są często (dość) krytykowane za to, że są małe, niereprezentatywna próbka szerszej populacji. Jednym z głównych wyzwań dla badaczy jest ustalenie, jak uwzględnić takie wypaczone dane w modelach statystycznych. Podczas coraz więcej osób korzysta z mediów społecznościowych z roku na rok, musimy nadal próbować zrozumieć błędy systematyczne w tych danych. Na przykład dane nadal mają tendencję do nadreprezentowania młodszych osób kosztem starszych populacji.

Dopiero po opracowaniu lepszych metod korekcji stronniczości badacze będą w stanie dokonywać w pełni pewnych prognoz z tweetów.

O autorze

Lewis Mitchell, wykładowca matematyki stosowanej, University of Adelaide

Ten artykuł został pierwotnie opublikowany w Konwersacje. Przeczytać oryginalny artykuł.

Powiązane książki

at Rynek wewnętrzny i Amazon