Wyjaśnianie pomyłek między korelacją a przyczynowością 

Oto historyczna ciekawostka, o której możesz nie wiedzieć. W latach 1860-1940, wraz ze wzrostem liczby pastorów metodystycznych mieszkających w Nowej Anglii, wzrosła też ilość rumu kubańskiego importowanego do Bostonu – i obaj wzrosły w niezwykle podobny sposób. Tak więc pastorzy metodystyczni musieli kupować w tym czasie dużo rumu!

Właściwie nie, to głupi wniosek. To, co naprawdę się dzieje, to fakt, że obie ilości – pastorzy metodystyczni i kubański rum – zostały zwiększone przez inne czynniki, takie jak wzrost populacji.

Dochodząc do tego błędnego wniosku, popełniliśmy zbyt powszechny błąd: myląca korelacja z przyczynowością.

Co za różnica?

Mówi się, że są dwie ilości współzależny  jeśli oba wzrastają i maleją razem („skorelowane dodatnio”) lub jeśli jedno wzrasta, gdy drugie maleje i odwrotnie („skorelowane ujemnie”).

Korelację można łatwo wykryć dzięki pomiarom statystycznym Współczynnik korelacji Pearsona, który wskazuje, jak ściśle powiązane są te dwie wielkości, w zakresie od -1 (idealnie skorelowane ujemnie) przez 0 (wcale skorelowane) i do 1 (skorelowane idealnie dodatnio).


wewnętrzna grafika subskrypcji


 przyczynowość1Tylervigen.com

Ale tylko dlatego, że dwie wielkości są skorelowane, niekoniecznie oznacza, że ​​jedna jest bezpośrednio spowodowanie drugi do zmiany. Korelacja nie oznacza związku przyczynowego, podobnie jak pochmurna pogoda nie oznacza deszczu, chociaż jest odwrotnie.

Jeśli dwie wielkości są skorelowane, może istnieć prawdziwy związek przyczynowo-skutkowy (taki jak poziom opadów i sprzedaż parasoli), ale być może inne zmienne wpływają na oba (takie jak liczby piratów i globalne ocieplenie), a może to tylko zbieg okoliczności (np. Spożycie sera w USA i uduszenie według prześcieradła).

Nawet tam, gdzie związek przyczynowy jest obecny, musimy uważać, aby nie pomylić przyczyny ze skutkiem, w przeciwnym razie możemy na przykład dojść do wniosku, że zwiększone użycie grzejników powoduje chłodniejszą pogodę.

Aby ustalić przyczynowo-skutkowy, musimy wyjść poza statystykę i poszukać odrębnych dowodów (o charakterze naukowym lub historycznym) oraz logicznego rozumowania. Korelacja może skłaniać nas do poszukiwania takich dowodów, ale w żadnym wypadku nie jest to dowód sam w sobie.

Subtelne problemy

Chociaż powyższe przykłady były oczywiście głupie, korelacja jest bardzo często mylona z przyczynowością w sposób, który nie jest od razu oczywisty w rzeczywistym świecie. Czytając i interpretując statystyki, należy bardzo uważać, aby dokładnie zrozumieć, co oznaczają dane i ich statystyki – a co ważniejsze, czym one są nie sugerując.

 przyczynowość2

Jednym z ostatnich przykładów na potrzebę ostrożności w interpretowaniu danych jest podekscytowanie na początku tego roku związane z pozornym przełomem wykrywanie fal grawitacyjnych – zapowiedź, która wydaje się być dokonana przedwcześnie, zanim wszystkie zmienne wpływające na dane zostały uwzględnione.

Niestety, analizowanie statystyk, prawdopodobieństw i zagrożeń nie jest zestawem umiejętności wpisanym w nasze ludzka intuicja, a więc zbyt łatwo dać się zwieść. Całe książki zostały napisane o subtelnych sposobach, w jakie statystyki mogą być błędnie interpretowane (lub wykorzystywane do wprowadzania w błąd). Aby zachować czujność, oto kilka typowych śliskich problemów statystycznych, o których powinieneś wiedzieć:

1) Efekt zdrowego pracownika, gdzie czasami dwie grupy nie mogą być bezpośrednio porównane na równych zasadach.

Rozważ hipotetyczne badanie porównujące zdrowie grupy pracowników biurowych ze zdrowiem grupy astronautów. Jeśli badanie nie wykazuje znaczącej różnicy między nimi – brak korelacji między zdrowiem a środowiskiem pracy – czy mamy dojść do wniosku, że życie i praca w kosmosie nie niesie za sobą długoterminowego zagrożenia dla zdrowia astronautów?

Nie! Grupy nie są na tej samej stopie: korpus astronautów sprawdza kandydatów w celu znalezienia zdrowych kandydatów, którzy następnie utrzymują kompleksowy reżim sprawnościowy, aby proaktywnie zwalczać skutki życia w „mikrograwitacji”.

Dlatego spodziewalibyśmy się, że będą znacznie zdrowsi niż pracownicy biurowi, i słusznie powinniśmy się martwić, gdyby tak nie było.

2) Kategoryzacja i efekt migracji etapowej – przetasowanie osób między grupami może mieć dramatyczny wpływ na wyniki statystyczne.

Jest to również znane jako Will Rogers efekt, po amerykańskim komiku, który podobno żartował:

Kiedy Okies opuścili Oklahomę i przenieśli się do Kalifornii, podnieśli średni poziom inteligencji w obu stanach.

Aby to zilustrować, wyobraź sobie dzielenie dużej grupy znajomych na grupę „niską” i grupę „wysoką” (być może w celu ułożenia ich do zdjęcia). Po wykonaniu tej czynności zaskakująco łatwo jest podnieść średni wzrost obu grup jednocześnie.

Po prostu poproś najniższą osobę z „wysokiej” grupy, aby przeszła do „niskiej” grupy. Grupa „wysokich” traci najkrótszego członka, tym samym podbijając swój średni wzrost – ale grupa „niska” zyskuje jeszcze najwyższego członka, a tym samym również średni wzrost.

Ma to poważne konsekwencje w badaniach medycznych, gdzie pacjenci są często przypisywani do grup „zdrowych” lub „niezdrowych” w trakcie testowania nowego leczenia. Jeśli metody diagnostyczne ulegną poprawie, niektórzy bardzo nieznacznie niezdrowi pacjenci mogą zostać ponownie skategoryzowani – prowadząc do poprawy wyników zdrowotnych obu grup, niezależnie od tego, jak skuteczne (lub nie) jest leczenie.

 przyczynowość3Przebieranie i wybieranie spośród danych może prowadzić do błędnych wniosków. Sceptycy widzą okres ochłodzenia (kolor niebieski), kiedy dane rzeczywiście pokazują długotrwałe ocieplenie (kolor zielony). scepticalscience.com 

3) Eksploracja danych — w przypadku dużej ilości danych można dobierać fragmenty i fragmenty, aby wesprzeć dowolny wniosek.

To zła praktyka statystyczna, ale jeśli zrobisz to celowo może być trudny do wykrycia bez znajomości oryginalnego, kompletnego zestawu danych.

Rozważmy powyższy wykres pokazujący na przykład dwie interpretacje danych o globalnym ociepleniu. Lub fluor – w niewielkich ilościach jest to jeden z najskuteczniejszych leków profilaktycznych w historii, ale pozytywny efekt znika całkowicie, jeśli weźmie się pod uwagę tylko toksyczne ilości fluoru.

Z podobnych powodów ważne jest, aby procedury dla danego eksperymentu statystycznego zostały ustalone przed rozpoczęciem eksperymentu, a następnie pozostały niezmienione aż do zakończenia eksperymentu.

4) Clustering – czego można się spodziewać nawet w przypadku zupełnie losowych danych.

Rozważ badanie medyczne sprawdzające, jak dana choroba, taka jak rak lub stwardnienie rozsiane, jest rozproszone geograficznie. Jeśli choroba pojawi się losowo (a środowisko nie ma żadnego wpływu), spodziewalibyśmy się, że zobaczymy liczne skupiska pacjentów jako rzecz oczywistą. Gdyby pacjenci byli rozmieszczeni idealnie równomiernie, rozkład byłby w istocie bardzo nielosowy!

Tak więc obecność pojedynczego skupiska lub kilku małych skupisk przypadków jest całkowicie normalna. Potrzebne są wyrafinowane metody statystyczne, aby określić, jak bardzo potrzebne jest grupowanie, aby wywnioskować, że coś w tym obszarze może powodować chorobę.

Niestety, każdy klaster w ogóle – nawet nieistotny – tworzy łatwy (i na pierwszy rzut oka atrakcyjny) nagłówek wiadomości.

 przyczynowość4

Analiza statystyczna, jak każde inne potężne narzędzie, musi być używana bardzo ostrożnie – a w szczególności zawsze należy zachować ostrożność przy wyciąganiu wniosków na podstawie faktu, że dwie wielkości są skorelowane.

Zamiast tego musimy zawsze nalegać na oddzielne dowody, aby argumentować za przyczyną i skutkiem – a dowody te nie będą miały postaci pojedynczej liczby statystycznej.

Pozornie przekonujące korelacje, powiedzmy między danymi genami a schizofrenia lub między a wysoko-tłuszczowa dieta i choroby serca, może się okazać, że opiera się na bardzo wątpliwej metodologii.

Być może jako gatunek jesteśmy poznawczo źle przygotowani do radzenia sobie z tymi problemami. Jako kanadyjski pedagog Kierana Egana umieść to w jego książce Źle od samego początku:

Zła wiadomość jest taka, że ​​nasza ewolucja wyposażyła nas do życia w małych, stabilnych społeczeństwach łowiecko-zbierackich. Jesteśmy plejstocenami, ale nasze językowe mózgi stworzyły ogromne, wielokulturowe, zaawansowane technologicznie i szybko zmieniające się społeczeństwa, w których możemy żyć.

W konsekwencji musimy stale opierać się pokusie dostrzegania sensu w przypadku i mylenia korelacji z przyczynowością.Konwersacje

Ten artykuł został pierwotnie opublikowany w Konwersacje
Czytaj oryginalny artykuł.


O autorach

Borwein JonathanJonathan Borwein (Jon) jest laureatem profesora matematyki na Uniwersytecie w Newcastle. Jest laureatem nagrody profesora matematyki na Uniwersytecie w Newcastle i dyrektorem Center for Computer Assisted Research Mathematics and its Applications (CARMA). Pracował na uniwersytetach Carnegie-Melon, Dalhousie, Simon Fraser i Waterloo oraz kierował dwoma kanadyjskimi katedrami naukowymi w dziedzinie informatyki.

róża michałaMichael Rose jest doktorantem w Szkole Nauk Matematycznych i Fizycznych na Uniwersytecie w Newcastle. Doktorant matematyki pod opieką laureata prof. Jona Borweina na Uniwersytecie w Newcastle w Australii. Obecnie pomaga w badaniach nad zastosowaniem matematyki fraktalnej do modelowania rozkładów synaps w mózgu.

Oświadczenie o ujawnieniu: Autorzy nie pracują, nie konsultują się, nie posiadają udziałów ani nie otrzymują funduszy od żadnej firmy lub organizacji, która odniosłaby korzyść z tego artykułu. Nie mają też żadnych istotnych powiązań.


Zalecana książka:

Pieniądze, seks, wojna, karma: notatki do rewolucji buddyjskiej
przez Davida R. Loya.

Pieniądze, seks, wojna, karma: notatki dotyczące rewolucji buddyjskiej autorstwa Davida R. Loya.David Loy stał się jednym z najpotężniejszych orędowników światopoglądu buddyjskiego, wyjaśniając jak nikt inny jego zdolność do przekształcania społeczno-politycznego krajobrazu współczesnego świata. w Pieniądze, seks, wojna, karma, oferuje ostre, a nawet szokująco jasne prezentacje często błędnie rozumianych buddyjskich podstaw – działania karmy, natury jaźni, przyczyn problemów zarówno na poziomie indywidualnym, jak i społecznym – oraz prawdziwych powodów naszego zbiorowego poczucia „nigdy dość „czy to czas, pieniądze, seks, bezpieczeństwo… nawet wojna. „Buddyjska rewolucja” Davida to nic innego jak radykalna zmiana w sposobie, w jaki możemy podejść do naszego życia, naszej planety, zbiorowych złudzeń, które przenikają nasz język, kulturę, a nawet naszą duchowość.

Kliknij tutaj, aby uzyskać więcej informacji i / lub zamówić tę książkę na Amazon.