Jeden z powodów, dla których niektóre badania naukowe mogą być błędne

Tam jest kryzys odtwarzalności w nauce – niezidentyfikowane „fałszywe pozytywy” to przenikają nawet nasze najlepsze czasopisma naukowe.

Fałszywy wynik pozytywny to twierdzenie, że efekt istnieje, podczas gdy w rzeczywistości tak nie jest. Nikt nie wie, jaki odsetek opublikowanych prac zawiera tak błędne lub zawyżone wyniki, ale są oznaki, że proporcja nie jest mała.

Epidemiolog John Ioannidis podał najlepsze wyjaśnienie tego zjawiska w słynnym artykule z 2005 roku, prowokacyjnie zatytułowanym „Dlaczego większość publikowanych wyników badań jest fałszywa”. Jednym z powodów, dla których Ioannidis podał tak wiele fałszywych wyników, został nazwany „p hacking”, co wynika z presji badaczy na osiągnięcie istotności statystycznej.

Co to jest istotność statystyczna?

Aby wyciągnąć wnioski z danych, badacze zwykle polegają na: testowanie istotności. W uproszczeniu oznacza to obliczenie „p wartość”, co jest prawdopodobieństwem wyników takich jak nasz, jeśli naprawdę nie ma żadnego efektu. Jeśli p wartość jest wystarczająco mała, wynik jest uznawany za istotny statystycznie.

Tradycyjnie a p wartość mniejsza niż 05 jest kryterium istotności. Jeśli zgłosisz a p<05, czytelnicy prawdopodobnie uwierzą, że znalazłeś prawdziwy efekt. Być może jednak nie ma żadnego efektu i zgłosiłeś fałszywie pozytywny wynik.


wewnętrzna grafika subskrypcji


Wiele czasopism publikuje tylko badania, które mogą zgłosić jeden lub więcej statystycznie istotnych efektów. Absolwenci szybko uczą się, że osiągnięcie mitycznego p

Ta presja, aby osiągnąć phakowanie.

Przynęta p włamanie

Ilustrować p hacking, oto hipotetyczny przykład.

Bruce niedawno ukończył doktorat i otrzymał prestiżowy grant, aby dołączyć do jednego z najlepszych zespołów badawczych w swojej dziedzinie. Jego pierwszy eksperyment nie wychodzi dobrze, ale Bruce szybko udoskonala procedury i przeprowadza drugie badanie. Wygląda to bardziej obiecująco, ale nadal nie daje p wartość mniejsza niż 05.

Przekonany, że jest na czymś, Bruce zbiera więcej danych. Postanawia odrzucić kilka wyników, które wyglądały wyraźnie na odległe.

Zauważa wtedy, że jeden z jego środków daje wyraźniejszy obraz, więc skupia się na tym. Jeszcze kilka poprawek i Bruce w końcu identyfikuje nieco zaskakujący, ale naprawdę interesujący efekt, który osiąga p

Bruce tak bardzo starał się znaleźć efekt, że… wiedział gdzieś się czaił. Czuł też presję, by uderzyć p

Jest tylko jeden haczyk: właściwie nie było efektu. Pomimo statystycznie istotnego wyniku, Bruce opublikował fałszywie pozytywny wynik.

Bruce czuł, że wykorzystuje swoje naukowe spostrzeżenia, aby ujawnić czający się efekt, gdy podjął różne kroki po rozpoczęciu badania:

  • Zebrał dalsze dane.
  • Upuścił pewne dane, które wydawały się nieprawidłowe.
  • Zrezygnował z niektórych środków i skupił się na najbardziej obiecujących.
  • Przeanalizował dane nieco inaczej i wprowadził kilka dalszych poprawek.

Problem w tym, że wszystkie te wybory zostały dokonane po widząc dane. Bruce mógł nieświadomie wybierać wiśnie – wybierać i poprawiać, dopóki nie uzyskał nieuchwytnego pp

Statystycy mają takie powiedzenie: jeśli wystarczająco torturujesz dane, przyznają się. Wybory i poprawki dokonane po obejrzeniu danych są wątpliwymi praktykami badawczymi. Korzystanie z nich, celowo lub nie, w celu uzyskania właściwego wyniku statystycznego jest p włamanie, co jest jednym z ważnych powodów, dla których opublikowane, istotne statystycznie wyniki mogą być fałszywie dodatnie.

Jaka część opublikowanych wyników jest błędna?

To dobre pytanie i piekielnie podchwytliwe. Nikt nie zna odpowiedzi, która prawdopodobnie będzie różna w różnych dziedzinach badań.

Duży i imponujący wysiłek, aby odpowiedzieć na pytanie dotyczące psychologii społecznej i poznawczej, został opublikowany w 2015 roku. Kierowany przez Briana Noska i jego współpracowników z Centrum Otwartej Nauki, Projekt powtarzalności: psychologia (RP:P) 100 grup badawczych na całym świecie przeprowadziło staranną replikację jednego ze 100 opublikowanych wyników. Ogólnie, około 40 replikowanych dość dobrze, podczas gdy w około 60 przypadkach badania replikacji przyniosły mniejsze lub znacznie mniejsze efekty.

Badania replikacji 100 RP:P wykazały efekty, które były średnio tylko o połowę mniejsze od efektów zgłoszonych w oryginalnych badaniach. Starannie przeprowadzone replikacje prawdopodobnie dają dokładniejsze szacunki niż prawdopodobnie p zhakował oryginalne badania, więc możemy wywnioskować, że oryginalne badania przeszacowały rzeczywiste efekty średnio o czynnik dwa. To niepokojące!

Jak ominąć p włamanie

Najlepszy sposób na uniknięcie p hakowanie polega na unikaniu dokonywania jakichkolwiek wyborów lub poprawek po obejrzeniu danych. Innymi słowy, unikaj wątpliwych praktyk badawczych. W większości przypadków najlepszym sposobem na to jest użycie rejestracja wstępna.

Rejestracja wstępna wymaga wcześniejszego przygotowania szczegółowego planu badań, w tym analizy statystycznej, która zostanie zastosowana do danych. Następnie dokonujesz wstępnej rejestracji planu, z datownikiem, pod adresem Ramy otwartej nauki lub inny rejestr online.

Następnie przeprowadzić badanie, przeanalizować dane zgodnie z planem i przedstawić wyniki, bez względu na to, jakie one są. Czytelnicy mogą sprawdzić wstępnie zarejestrowany plan i dzięki temu mieć pewność, że analiza została określona z góry, a nie p zhakowany. Rejestracja wstępna jest nowym wyzwaniem dla wielu badaczy, ale prawdopodobnie będzie sposobem na przyszłość.

Szacunek zamiast p wartości

Pokusa… p hack to jedna z największych wad polegania na p wartości. Innym jest to, że praczej tak, jakby powiedzieć, że efekt istnieje lub nie.

Ale świat nie jest czarno-biały. Aby rozpoznać liczne odcienie szarości, znacznie lepiej jest użyć kosztu projektu zamiast p wartości. Celem estymacji jest oszacowanie wielkości efektu – który może być mały lub duży, zerowy, a nawet ujemny. Jeśli chodzi o oszacowanie, wynik fałszywie dodatni to oszacowanie, które jest większe lub znacznie większe niż prawdziwa wartość efektu.

Weźmy hipotetyczne badanie wpływu terapii. Badanie może na przykład oszacować, że terapia daje średnio 7-punktowy spadek lęku. Załóżmy, że obliczamy na podstawie naszych danych a przedział ufności – zakres niepewności po obu stronach naszego najlepszego oszacowania – wynoszący [4, 10]. To mówi nam, że nasze oszacowanie 7 mieści się najprawdopodobniej w granicach około 3 punktów na skali lęku prawdziwego efektu – prawdziwej średniej korzyści z terapii.

Innymi słowy, przedział ufności wskazuje, jak dokładne jest nasze oszacowanie. Znajomość takiego oszacowania i jego przedziału ufności jest znacznie bardziej pouczająca niż jakiekolwiek inne p wartość.

Estymację nazywam jedną z „nowych statystyk”. Same techniki nie są nowe, ale wykorzystanie ich jako głównego sposobu wyciągania wniosków z danych byłoby dla wielu badaczy nowością i dużym krokiem naprzód. Pomogłoby to również uniknąć zniekształceń spowodowanych przez p hakerstwo.

O autorze

Geoff Cumming, emerytowany profesor, Uniwersytet Trobe

Ten artykuł został pierwotnie opublikowany w Konwersacje. Przeczytać oryginalny artykuł.

Powiązane książki:

at Rynek wewnętrzny i Amazon