GLOBALNY PROBLEM WSPÓŁCZESNEJ NAUKI: JAKOŚĆ BADAŃ BIOMEDYCZNYCH

Anna Gorzkiewicz, Uniwersytet Medyczny w Łodzi

GLOBALNY PROBLEM WSPÓŁCZESNEJ NAUKI: JAKOŚĆ BADAŃ BIOMEDYCZNYCH

Wstęp

Zawód naukowca to niezwykle odpowiedzialna profesja. To właśnie od pracy naukowców zależy, w jakim stopniu potrafimy chronić dwie najcenniejsze dla człowieka wartości – zdrowie i życie. Dla wielu nauka to pasja, misja, powołanie. Jednakże złożoność natury i bezwzględność upływającego czasu nie dają naukowcom przywileju powtarzania błędów. Niestety, patrząc globalnie mamy spory problem, jako ludzkość, z dostrzeżeniem tej nadrzędnej prawdy. Ogromna ilość prac badawczych nie jest odtwarzalna, niezliczona ilość danych ginie, bądź nie koresponduje z innymi, a publikowane doniesienia naukowe oraz analiza statystyczna wyników pozostawiają wiele do życzenia. Tymczasem nauka nie wybacza przybliżeń i braku precyzji. Każda niewielka zmiana może doprowadzić do innego wyniku, czy wniosku. Każda pominięta, przeoczona, czy zagubiona informacja może odsunąć w czasie lub wręcz uniemożliwić osiągnięcie naukowego sukcesu. W milionach laboratoriów na całym świecie powstają hipotezy, z których jedynie niewielka część ma potencjał do stworzenia rozwiązania o znaczeniu klinicznym. Zdecydowanie mniejszy odsetek koncepcji naukowych rzeczywiście owocuje wierzytelnym przepisem na rozwiązanie konkretnego, bardzo specyficznego problemu. Spośród tych receptur tylko nieliczne przechodzą próbę wielostopniowego testowania i ostatecznej klinicznej weryfikacji. To czubek góry lodowej pływającej w oceanie potrzeb ludzkości.

Niniejsza praca to przegląd najistotniejszych doniesień naukowych z ostatnich lat ukazujących z różnych perspektyw skalę oraz powagę problemu poziomu jakości badań przedklinicznych oraz samych publikacji naukowych. Przedstawione są również wyniki ankiety własnej przeprowadzonej w okresie od marca do czerwca 2016 roku wśród 33 uczelnianych laboratoriów biomedycznych z całej Polski, w tym w uniwersytetach medycznych z Łodzi, Szczecina, Lublina, Białegostoku, Poznania, Gdańska, Warszawy i Bydgoszczy, w uniwersytetach z Gdańska i Wrocławia oraz w politechnikach z Łodzi i Krakowa. Jej wyniki można znaleźć na końcu rozdziału „Dane utracone”.

Kryzys odtwarzalności prac badawczych

W 2012 roku ogromna firma biotechnologiczna, Amgen, zakomunikowała nieudane próby odtworzenia wyników 47 spośród 53 przełomowych doniesień naukowych z zakresu prac nad nowotworami (Rys. 1.). Lista weryfikowanych publikacji nigdy nie została ujawniona [Baker 2016 (1)].

Kilka miesięcy wcześniej, w potężnej firmie farmaceutycznej Bayer HealthCare w Niemczech, Florian Prinz wraz z zespołem przeprowadzili próbę odtworzenia 67 opublikowanych badań podstawowych, głównie z zakresu onkologii (Rys. 1.). Tylko ćwierć testowanych doniesień naukowych udało się potwierdzić [Prinz 2011].

Rys. 1. Wyniki prób odtworzenia opublikowanych doniesień naukowych, przeprowadzonych przez firmy Bayer HealthCare oraz Amgen w 2011 i 2012 roku.

Spośród 263 starszych wykładowców akademickich, którzy wzięli udział w ankiecie przeprowadzonej w 2013 roku w MD Anderson Cancer Center, w Teksasie, aż 58.5% (154/263) respondentów przyznało, że próbowali, ale  nie byli w stanie odtworzyć badań opublikowanych przez inne zespoły badawcze (Rys.2.) [Mobley 2013]. Co ciekawe, w innym artykule poświęconym problemowi odtwarzalności badań biologicznych powołano się na wyniki tej ankiety, pisząc jednakże, iż wspomniane doświadczenie zadeklarowało ponad 65% ankietowanych. Czyżby zatem nawet w publikacji poświęconej problemowi powszechnie popełnianych błędów wdarł się błąd [Freedman 2014]? Istotnym parametrem odnotowanym we wspomnianej ankiecie jest stopień zainteresowania samych badanych. Ankieta trafiła do 2692 osób (stażystów i doświadczonych naukowców), a odpowiedź uzyskano od 434 osób, co lokuje stopień zainteresowania na poziomie nieco ponad 16% [Mobley 2013]. Znacznie gorzej sytuacja przedstawia się na polskich uczelniach medycznych, gdzie wśród 386 zaproszeń do wzięcia udziału w ankiecie dotyczącej m.in. standaryzacji badań, sposobów zapisu danych oraz systemów pracy, odpowiedziało jedynie 5,44% (21/386) laboratoriów biomedycznych, głównie z Gdańska (ankieta własna).

W październiku 2015 roku opublikowany został osiemdziesięciostronicowy raport z sympozjum przeprowadzonego z udziałem osób reprezentujących cztery kluczowe dla nauk biomedycznych jednostki z Wielkiej Brytanii: Academy of Medical Sciences, BBSRC (Biotechnology and Biological Sciences Research Council), MRC (Medical Research Council) oraz Wellcome Trust. Sympozjum poświęcone było problemowi alarmująco niskiego poziomu odtwarzalności badań biomedycznych, stopnia wiarygodności publikowanych masowo doniesień naukowych, prawdopodobnym przyczynom tego globalnego problemu oraz sugerowanym rozwiązaniom. Udział wysoce autorytatywnych jednostek miał na celu zwrócenie uwagi na rangę problemu [Bishop 2015].

W maju 2016 roku szanowane na całym świecie czasopismo naukowe Nature ujawniło wyniki ankiety przeprowadzonej pośród 1576 naukowców (Rys.2.). Badana była skala odtwarzalności doświadczeń opisywanych w artykułach naukowych. Ponad 70% ankietowanych przyznało, iż próbowało, ale nie było w stanie odtworzyć w swoich laboratoriach doświadczeń opublikowanych przez inne zespoły badawcze, a ponad połowa oświadczyła, iż nie jest w stanie odtworzyć nawet swoich własnych doświadczeń. Tymczasem jedynie 13% nieudanych prób odtworzenia wyników zostało opublikowanych. Ostatecznie aż 90% ankietowanych uznało, że mamy do czynienia ze znaczącym bądź niewielkim „kryzysem odtwarzalności” badań naukowych. Nie zmienia to jednak faktu, że większość naukowców, w szczególności fizyków i chemików, przyznało, że wciąż ufa publikowanym wynikom [Baker 2016 (6)].

Rys. 2. Wyniki ankiet opublikowanych w czasopismach PLoS One oraz Nature, badających ilość naukowców doświadczonych problemem odtwarzalności wyników badań.

Jakość badań przedklinicznych przekłada się na efektywność rozwiązań na poziomie klinicznym. W wieloetapowym, długotrwałym i kosztownym procesie opracowywania funkcjonalnego leku, wiarygodność publikacji wskazujących potencjalne rozwiązania jest kluczowa, ponieważ na ich podstawie firmy farmaceutyczne i biotechnologiczne tworzą potężne projekty, mające na celu opracowanie lub przetestowanie terapii, metody diagnostycznej bądź leku [Mobley 2013, Prinz 2011]. Opublikowany w 2011 roku raport dotyczący skali niepowodzeń w II fazie badań klinicznych ujawnia dramatycznie niski, a co gorsza obniżający się poziom skuteczności rozwiązań, spadając z 28% do 18% testów zakończonych sukcesem w latach 2008-2010 (Rys. 3.) [Arrowsmith 2011]. Konsekwencją problemów z odtwarzalnością badań jest wiele unieważnionych odkryć naukowych, wycofanych artykułów i anulowanych badań klinicznych [Freedman 2014].

Rys. 3. Wykres przedstawiający skalę niepowodzeń w II fazie badań klinicznych.

W zależności od źródła statystyk szacuje się, że nie można odtworzyć od 51% do 89%  opublikowanych badań, wliczając doniesienia z czasopism o wysokich wartościach impact factor, nawet powyżej 20 [Freedman 2015, Mobley 2013]. Analiza ekonomiczna przeprowadzona w 2015 roku wykazała, iż w samych Stanach Zjednoczonych rocznie wydawanych jest 28 miliardów dolarów na badania przedkliniczne, których nie można później odtworzyć, przy założeniu, że problem z odtwarzalnością jest na poziomie 50% [Freedman 2015].

Skala problemu jest ogólnoświatowa, jednakże czym tak naprawdę jest odtwarzalność badań? Na ten temat trwa debata, ponieważ jak zauważono, jest to bardzo ogólne pojęcie i ma różne znaczenia w odmiennych dziedzinach nauki. Niektóre z najbardziej pouczających wyników są odtwarzalne jedynie częściowo, w bardzo konkretnych warunkach. Do tych samych wniosków można dojść poprzez np.: niezależne powtórzenie samych analiz surowych danych; wykonanie badań z użyciem tych samych materiałów, metod i warunków; wykonanie badań w innych warunkach; bądź potwierdzenie ogólnej słuszności koncepcji nawet na innym materiale [Fleischman 2015, Baker 2016 (10)]. Próby definiowania odtwarzalności przybliżają naukowców do porozumienia w obliczu zupełnie różnych wniosków [Baker 2016 (10)]. Warto zatem przyjrzeć się czynnikom mającym wpływ na to szeroko pojęte, problematyczne zjawisko.

Dane utracone

Za jedną z najpoważniejszych przyczyn problemu z odtwarzaniem badań naukowych uważa się selektywne raportowanie, z którym wiąże się nieustandaryzowany zapis danych, brak wymogów dokładnego projektowania badań przed ich rozpoczęciem, bądź co gorsza- pomijanie wyników nieodpowiadających hipotezie badawczej. Powszechnym zjawiskiem obserwowanym w publikacjach jest schematyczny, nieszczegółowy opis wykorzystanych metod i materiałów. Tymczasem w metodologii badań naukowych najmniejsze zmiany, jak np. zamieszanie próbki zamiast jej wstrząśnięcia, mogą wpłynąć na ostateczny wynik [Baker 2016 (6)]. Niestety, uchybienia związane z zapisem informacji o badaniu są obserwowane powszechnie i dotyczą znacznie poważniejszych aspektów prowadzonych doświadczeń. Przykładem jest analiza 15311 publikacji opisujących doświadczenia na myszach, która wykazała, że około 50% doniesień naukowych pomija tak podstawowe informacje jak wiek i płeć wykorzystywanych zwierząt [Flórez-Vargas 2016].

W 2014 roku ukazały się dwa artykuły analizujące 77 badań przeprowadzonych na zwierzętach pod względem metodologicznym oraz etycznym, które opublikowano w trzech czasopismach o wysokim wskaźniku impact factor [Bara 2014 (12), Bara 2014 (13)]. Dane podstawowe, takie jak rasa zwierząt, płeć, waga lub wiek podane zostały w 52 artykułach (68%). W 16 artykułach (21%) nie została podana ilość wykorzystanych zwierząt w sekcji poświęconej metodom. Wzmianki o dokonaniu randomizacji badań obecne były w 47 artykułach (61%), jednakże metoda randomizacji opisana została tylko w jednym (3%) [Bara 2014 (12)]. Informacje dotyczące hodowli w klatce odnotowano w 7 przypadkach (9%), opis warunków utrzymywanych w pomieszczeniu hodowlanym znaleziono w 12 badaniach (16%), a dane dotyczące diety w 16 (21%). Pośród 71 przypadków, w których użyto narkozy, tylko w 5 (7%) opisano kontrolę poziomu anestetyku podczas inwazyjnej procedury. Spośród 49 doświadczeń, w których spodziewano się wystąpienia bólu środki przeciwbólowe zostały zastosowane w 7 przypadkach (14%), a kontrolę poziomu bólu opisano w 2 badaniach (4%). W żadnym z 42 przypadków wstrzymania znieczulenia nie podano uzasadnienia. Opis metody eutanazji zwierzęcia znajdował się w 38 z 65 przypadków (59%) [Bara 2014 (13)].

Na początku 2016 roku opublikowany został przegląd 441 prac pojawiających się w czasopismach biomedycznych w latach 2000-2014. Pominąwszy prace nie zawierające danych empirycznych, tylko jeden spośród 268 przeanalizowanych artykułów zawierał pełen opis protokołu badawczego, jednakże tylko dlatego, że była to praca w całości poświęcona standaryzacji procedury badawczej. W żadnej publikacji nie przedstawiono surowych danych. W artykułach poświęconych medycynie klinicznej prawie dwukrotnie częściej pomijane były informacje o źródłach finansowania, niż w publikacjach dotyczących innych kategorii nauk biomedycznych [Iqbal 2014].

Również na początku 2016 roku ukazał się artykuł ujawniający do czego może doprowadzić manipulacja danymi dotyczącymi ilości zwierząt rzeczywiście biorących udział w doświadczeniu oraz zwierząt utraconych, często nie wliczanych w ostateczny efekt badania. Przeanalizowano 100 artykułów opisujących badania na gryzoniach: 206 doświadczeń dotyczących nowotworów i 316 doświadczeń dotyczących zawału serca. Doświadczenia podzielono na trzy kategorie. Najmniej liczną grupę stanowiły 53 doświadczenia, w których dostrzeżono różnice w podanych ilościach wykorzystanych zwierząt pomiędzy sekcją metod a wyników. Tylko w niewielu przypadkach podano przyczyny utraty zwierząt (1/15 badań o nowotworach; 13/38 badań o zawale). Drugą pod względem liczności grupą były doświadczenia, w których informacje w sekcji metod i wyników były takie same. Trzecią, najliczniejszą grupę, stanowiła ponad połowa przypadków i były to doświadczenia, w których nie było możliwe określenie ilości wykorzystanych i utraconych zwierząt. Następnie porównano wielkości efektów opisywanych w trzech grupach. Okazało się, że zarówno wśród badań nad nowotworami jak i nad zawałem, największe wartości mediany wielkości efektów obserwowano w grupie drugiej, w której nie odnotowano utraty zwierząt. Tymczasem spośród wszystkich przeanalizowanych doświadczeń zdecydowana większość opisywała efekt pozytywny, czyli lepsze wyniki grupy poddanej terapii (więcej o trendzie publikowania wyników pozytywnych w rozdziale „Publikuj, będziesz wielki!”). Co więcej, w grupie pierwszej utrata zwierząt przekraczała 25%, co może doprowadzić do zaobserwowania efektu aż o 25%-175% zawyżonego, wśród wyników istotnych statystycznie [Holman 2016].

Skala i ranga opisywanych uchybień determinują selektywne raportowanie jako bardzo poważny, a wręcz groźny problem, występujący powszechnie i niezależnie od renomy publikującego czasopisma. Za główne przyczyny utraty informacji upatruje się nieustandaryzowany zapis danych w postaci niewystarczająco szczegółowego planowania doświadczeń oraz raportowania wykonanych badań. Przyjrzyjmy się zatem jak sytuacja wygląda w polskich laboratoriach uczelni wyższych, korzystając z wyników ankiety własnej. Wszystkie 33 laboratoria biorące udział w ankiecie prowadzą prace badawcze, a 6 z nich dodatkowo wykonuje prace analityczne. Formą standaryzacji zapisu danych są wymogi akredytacyjne, jednakże tylko 2 laboratoria (6,1%) posiadają, a 3 inne starają się o akredytację lub certyfikat GLP/GMP. Na pytanie dotyczące sposobu planowania badań 31 ankietowanych (93,9%) przyznało, iż w laboratorium korzysta się z zapisu w zeszytach lub na kartkach, a wśród nich 17 (51,5%) dodatkowo wspomaga planowanie programem Excel. W jednym przypadku sposobem planowania jest dyskusja, a w innym korzysta się jedynie z programu Excel. Kolejnym istotnym elementem podlegającym standaryzacji na przykład w dużych firmach, czy korporacjach jest raportowanie wykonanych zadań. Na pytanie czy oprócz bieżących notatek tworzone są raporty opisujące szczegóły wykonanych badań, ponad 60% ankietowanych przyznało, że dokonują takiego zapisu w zeszytach lub na kartkach, z czego jedna trzecia wspomaga się programem Excel. Analogicznie wygląda sytuacja z tworzeniem szczegółowych raportów podsumowujących przebieg hodowli linii komórkowej, tkanki, bądź zwierzęcia. Prawie w 25% laboratoriów nie tworzy się raportów z wykonanych badań, a w ponad 30% laboratoriów nie tworzy się raportów z przebiegu hodowli (Rys. 4.).

Rys. 4. Wyniki ankiety własnej dotyczące sposobów planowania badań,  raportowania badań i raportowania przebiegu hodowli.

Zapis w zeszytach lub na kartkach jest bardzo podatny na błąd ludzki. Każda osoba ma inny charakter pisma oraz sposób zapisu co utrudnia odczyt innym współpracownikom. Ponadto zdecydowana większość laboratoriów nie jest zobowiązana wymogami akredytacyjnymi, a zatem z pewnością niejednokrotnie pomijane są niektóre informacje szczegółowe, co może uniemożliwić porównanie niezależnie przeprowadzonych badań przy zastosowaniu głębszej analizy. Mimo to w żadnym laboratorium nie jest stosowany specjalny system do zapisu codziennych czynności laboratoryjnych z funkcją ich raportowania, a tylko w jednym stosowany jest program Microsoft Access.

Na pytanie dlaczego nie posiadają Państwo systemu ułatwiającego kontrolę asortymentu oraz organizującego pracę w laboratorium ponad 48% ankietowanych odpowiedziało, że nie ma takiej potrzeby, głównie ze względu na niewielką ilość pracowników, gdyż tylko w jednej trzeciej laboratoriów pracuje powyżej 10 osób. Prawie jedna czwarta ankietowanych stwierdziła, iż nikt z zespołu nie pomyślał o wprowadzeniu systemu do laboratorium. Trzeci z najczęściej wymienianych powodów to zbyt wysokie koszty systemu.

Rys. 5. Najczęściej podawane w ankiecie przyczyny braku systemów komputerowych w polskich laboratoriach uczelni wyższych.

Na pytanie w jaki sposób przebiega kontrola asortymentu laboratorium, ponad 81% ankietowanych odpowiedziało, że każdy sam na bieżąco kontroluje asortyment, z którego korzysta. Pomimo, iż prawie połowa ankietowanych nie widzi potrzeby korzystania z systemu komputerowego ułatwiającego kontrolę asortymentu oraz organizację pracy, prawie 85% respondentów przyznaje, że czasami lub często napotykają problem zbyt późnego dostrzeżenia braku lub niewystarczającej ilości jakiegoś odczynnika, sprzętu jednorazowego itp., a ponad 54% ankietowanych czasami lub często ma problem ze zlokalizowaniem i odszukaniem przechowywanych próbek (Rys. 6.). Dane te jednoznacznie wskazują, że systemy komputerowe są niezbędne w akademickich laboratoriach, ponieważ każdorazowe wystąpienie powyższych problemów wprowadza chaos mogący przyczynić się do powstawania błędów, a niejednokrotnie powoduje straty czasowe, materiałowe oraz finansowe.

Rys. 6. Odpowiedzi ankietowanych dotyczące problemu kontroli asortymentu laboratoryjnego.

Ankietowani zapytani zostali również o najbardziej uciążliwe aspekty ich pracy. Trzy najczęściej wymieniane problemy to: zbyt dużo wypełniania papierowej dokumentacji, zbyt długi czas oczekiwania na zamówione odczynniki oraz problemy z organizacją pracy grupy (lub zbyt mała ilość sprzętu), przez co tworzą się kolejki do urządzeń laboratoryjnych i panuje nieporządek w odczynnikach. Często podkreślanym problemem były niewystarczające środki finansowe płynące z grantów.

Publikuj, będziesz wielki!

Drugim poważnym problemem mającym wpływ na odtwarzalność doniesień naukowych jest presja publikowania [Baker 2016 (6)]. Ilość publikacji jest w tych czasach miarą rangi naukowca. Rośnie rywalizacja o fundusze oraz ilości cytowań. Niestety, im więcej publikacji, tym krótszy czas na wykonanie badań i opracowanie wyników. Naukowcy chcący wykonywać badania z dużą ostrożnością i precyzją, analizując każdy etap pracy, muszą poświęcić jej znacznie więcej czasu, bo tego przede wszystkim wymaga dokładność i dbałość o szczegóły. Jednakże takie podejście zostawia naukowców w tyle, ponieważ publikując ze zbyt małą częstotliwością nie wzbudzają zaufania recenzentów projektów, a zatem mają mniejsze szanse na otrzymanie poważniejszych grantów umożliwiających kontynuowanie badań na wysokim poziomie. Co więcej, doświadczamy sporego nacisku, by dzisiejsze projekty badawcze były intrygujące i nowatorskie, choć już prawdziwość wyników oraz słuszność hipotez nie jest doceniana i niestety nie wzbudza tak dużego zainteresowania recenzentów [Yong 2012, Ingfei 2013].

Ilość publikacji rośnie wykładniczo przez ostatnich 250 lat, zbliżając się w 2012 roku do poziomu dwóch milionów nowych sztuk rocznie. Takie tempo niezaprzeczalnie przekłada się na jakość. Świetnym przykładem są badania nad nowotworami. Linia komórek raka piersi użyta w 1,000 opublikowanych doniesieniach naukowych okazała się ostatecznie linią komórek czerniaka. Około jedna trzecia linii komórkowych uznawana jest za zanieczyszczone innymi rodzajami komórek. Szacuje się, że rocznie pojawia się około 10,000 publikacji cytujących badania prowadzone na zanieczyszczonych liniach komórkowych. Brak stabilnej jakości wytwarzanych linii komórkowych, przeciwciał i wszelkiego rodzaju odczynników jest powszechnie znanym problemem w świecie naukowym [Fleischman 2015, Baker 2015]. Wiodący naukowcy co raz częściej przyznają, iż ogromna część prac naukowych jest niewiarygodna [Sarewitz 2016]. Wykazano nawet, że wysokie wartości wskaźnika impact factor, teoretycznie wyznaczającego rangę czasopisma, nie są gwarancją wysokiej jakości publikowanych doniesień [Tressoldi 2013, Mobley 2013]. Błędy i zaniedbania informacyjne można łatwo wytropić w artykułach naukowych, ale już nie tak łatwo jest je naprawić. Wiąże się to z ogólną niechęcią czasopism do podjęcia takich kroków, nie ma procedur ułatwiających zgłaszanie wykrytych błędów, nikt nie traktuje poważnie nieformalnych zawiadomień o wykrytych niezgodnościach lub uchybieniach, a za publikację korekty czyichś błędów czasopisma wymagają wniesienia opłaty [Srikanth 2016].

Poruszając kwestię poziomu wiarygodności doniesień naukowych nie można nie wspomnieć o wybitnym naukowcu, który w 2010 roku został wyróżniony przez magazyn The Atlantics i nazwany jednym z najbardziej wpływowych pośród żyjących naukowców. John P.A. Ioannidis (ur. w Nowym Jorku, 1965) jest profesorem medycyny, nauk o zdrowiu, polityki oraz statystyki. W 2005 roku opublikował artykuł uzasadniający, dlaczego zgodnie z logiką statystyki większość publikowanych wyników badań jest błędna („Why most Published Research Findings are False”). Publikacja ta zdobyła największą popularność w historii istnienia Public Library of Science (PLOS) przekraczając 1,5 miliona odsłon [https://med.stanford.edu/profiles/john-ioannidis]. Profesor Ioannidis przedstawił wyliczenia prawdopodobieństw poprawności przeprowadzanych badań w odniesieniu do kilku kluczowych czynników. W swym artykule Profesor Ioannidis wykazuje, że na niskie prawdopodobieństwo poprawności wyniku badania mają wpływ poniższe czynniki:

1.    mała wielkość (liczebność) próby – dziesiątki powtórzeń nie są wystarczające, ponieważ doświadczenie ma niską moc. Ta tendencja najczęściej obserwowana jest w badaniach molekularnych;
2.    niewielki obserwowany efekt – dziedzina opisująca wiele słabych efektów może być przepełniona błędnymi wnioskami (np. genetyczne lub żywieniowe czynniki ryzyka wystąpienia złożonych efektów, takich jak choroba);
3.    duża liczba i mała selekcja testowanych zależności – badania opisujące dużą ilość wieloczynnikowych zależności mają ekstremalnie niską dodatnią wartość predykcyjną (np. mikromacierze). Przykładem może być metoda skanowania mózgu, fMRI, dostarczająca ogromną ilość danych (100,000 trójwymiarowych pikseli- wokseli), którą można zinterpretować na co najmniej 7000 sposobów, jak wykazano w badaniu przeprowadzonym na Uniwersytecie w Michigan w 2012 roku [Ingfei 2013];
4.    duża elastyczność w projektowaniu badań, definicjach, rodzaju wyników i sposobach analizy – nieustandaryzowana metodologia lub definicje dopuszczają zaistnienie dodatkowych czynników pomijanych przy analizie, jednakże mogących mieć wpływ na ostateczny wynik. Istotna jest jednoznaczność wyników, uniemożliwiająca dowolną interpretację. Dowolność doboru metod analitycznych umożliwia wybieranie do publikacji tylko najkorzystniejszych dla hipotezy badawczej efektów;
5.    konflikty interesów (szczególnie finansowe) oraz stronniczość naukowa – konflikty interesów są niezwykle popularnym zjawiskiem w obrębie badań biomedycznych [Krimsky 1998]. Stronniczość może nie mieć podłoża finansowego. Często związana jest z głębokim przekonaniem naukowca o słuszności swoich hipotez;
6.    wielkość konsorcjum pracujące nad tym samym zagadnieniem – wielozespołowe grupy badawcze są środowiskami sprzyjającymi powstawaniu wewnętrznej konkurencji, skłaniającej naukowców do ujawniania jedynie najbardziej imponujących wyników [Ioannidis 2005].

Trudy naukowców usiłujących rozwikłać zagadki Natury obarczone są powszechną pokusą bycia pierwszym, co niekoniecznie przekłada się na poprawność odkryć. Ciekawym przykładem jest anonimowa ankieta przeprowadzona wśród 140 stażystów w MD Anderson Cancer Center w Houston. Wykazała ona, że prawie jedna trzecia ankietowanych była pod presją udowodnienia hipotezy mentora, nawet gdy wyniki jej nie popierały, natomiast niecałe 20% badanych czuło presję opublikowania niepewnych wyników [Mobley 2013].

Analiza 15311 publikacji opisujących doświadczenia na myszach wykazała, że w badaniach nad chorobami sercowo-naczyniowymi przeważa populacja męska testowanych myszy, a w badaniach nad chorobami zakaźnymi przeważa populacja żeńska myszy, co może przyczyniać się do uzyskiwania efektów bardziej korzystnych dla hipotez badawczych [Flórez-Vargas 2016]. Może to przekładać się na fakt, iż około 80% terapii działających skutecznie na modelu mysim nie daje pożądanego efektu w badaniach klinicznych [Perrin 2014].

Każdy naukowiec w głębi duszy marzy o odkryciu na miarę nagrody Nobla. Zapewne jest to jeden z czynników będących przyczyną trwającego dziesiątki lat trendu- publikowania wyników pozytywnych. Daniele Fanelli, socjolog z Uniwersytetu Edynburskiego, przeprowadził przegląd 4600 badań z różnych obszarów nauki opublikowanych w latach 1990-2007. Publikacje opisujące potwierdzenie hipotezy badawczej dominują w każdej dziedzinie nauki, a trend ten nasilił się o 22% w okresie od 1990 do 2007 roku. Najmniej liczne są publikacje pozytywnych wyników w zakresie nauk o kosmosie i stanowią 70% wszystkich publikacji z tej dziedziny. W przypadku neurobiologii, mikrobiologii i chemii stanowią one około 85% wszystkich publikacji. W zakresie immunologii, biologii molekularnej, genetyki, biologii i biochemii ilość takich publikacji stanowi od około 86% do około 88% wszystkich publikacji, natomiast w przypadku medycyny klinicznej, farmakologii i toksykologii suma pozytywnych doniesień sięga 89% wszystkich publikacji [Fanelli 2012]. Analiza 16397 oryginalnych artykułów z dziedziny ortopedii i chirurgii ogólnej, publikowanych w latach 2000-2006 w 12 czasopismach o wskaźniku impact factor w zakresie 1,067-7,678, bardzo wyraźnie ukazuje wymiar dysproporcji pomiędzy pozytywnymi a negatywnymi doniesieniami naukowymi (Rys. 7.) [Hasenboehler 2007].

Tak duża przewaga publikacji pozytywnych doniesień naukowych może świadczyć nie tyle o dobrej intuicji badaczy do tworzenia prawidłowych hipotez oraz zdolności ich potwierdzania, co chociażby o ignorowaniu rezultatów nieodpowiadających hipotezom niejednokrotnie opartym na literaturze zawierającej zafałszowane wyniki, bądź co gorsza, o bezkrytycznych próbach udowodnienia swych naukowych racji. Taki trend eliminujący negatywne rezultaty nie tylko zakłóca dane literaturowe, lecz może skłaniać naukowców do fabrykowania wyników [Fanelli 2012]. Niestety, środowisko naukowe wciąż nie docenia, a wręcz bagatelizuje istotność negatywnych wyników [Baker 2016 (1)].

Rys. 7. Przegląd ilości wyników pozytywnych, negatywnych i neutralnych przeprowadzony w latach 2000-2006.
Źródło: [Hasenboehler 2007].

Procedury publikacyjne są czasochłonne i kosztują sporo wysiłku, dlatego publikowanie nieudanych prób odtworzenia wyników innych zespołów badawczych po prostu się nie opłaca, a w konsekwencji dane te giną [Baker 2016 (1), Bishop 2015]. Rozwiązaniem może być stworzenie uproszczonej i specjalnie do tego przystosowanej drogi rozpowszechniania takich doniesień, dającej możliwość dyskusji oraz weryfikacji wyników każdemu naukowcowi zajmującemu się danym zagadnieniem. Tego typu rozwiązaniem jest platforma F1000Research umożliwiająca szybkie opublikowanie (w przeciągu 7 dni) doniesienia naukowego zanim zostanie poddane recenzji. Artykuł taki jest od razu ogólnie dostępny, może zostać poddany dyskusji i przede wszystkim zawiera wszystkie dane źródłowe, a zatem jest w pełni transparentny.

Statystyka zmorą biomedyków

Pomimo, że tylko niewielki procent naukowców z branży biomedycznej swobodnie posługuje się złożonymi narzędziami analiz statystycznych, każdy z nas, już od czasów licealnych, zna pojęcie „istotność statystyczna”. Ta standardowo wyliczana wartość oraz znana wszystkim nierówność p<0,05 stały się niemalże wyznacznikiem słuszności tez. Tymczasem, gdy w latach dwudziestych ubiegłego stulecia angielski statystyk, Ronald Fisher, wprowadził pojęcie istotności statystycznej, nie miał on na celu tworzenia z niej wartości rozstrzygającej. Miał to być jedynie nieformalny wskaźnik ułatwiający podjęcie decyzji, czy zebrane dane podstawowe warte są dalszej analizy. Pod koniec lat dwudziestych narastał spór pomiędzy rywalizującymi statystykami, głoszącymi dwie przeciwstawne koncepcje. Oponentami Ronalda A. Fishera w tym sporze stali się polski matematyk, Jerzy Spława-Neyman oraz syn słynnego Karla Pearsona, Egone Pearson, którzy zaproponowali znacznie bardziej rygorystyczny system analiz, nadając znaczenie i określając ważność mocy statystycznej fałszywym wynikom dodatnim oraz fałszywym wynikom ujemnym [Nuzzo 2014]. Uznawana współcześnie teoria wnioskowania statystycznego (tzw. lemat Neymana-Pearsona) nadaje sens algorytmowi budowania hipotez statystycznych oraz wyznacza zależności między istotnością statystyczną, mocą statystyczną oraz licznością próby dla każdego doświadczenia.  Parytet budowy hipotez statystycznych implikuje ich inną, niezmiernie ważną cechę, a mianowicie to, że muszą się one wzajemnie całkowicie wykluczać, aby umożliwić logiczne wnioskowanie na temat prawdziwości lub fałszywości tego, co stwierdzają. Parytet taki oznacza, że weryfikujący hipotezy badacz może zbłądzić na dwa sposoby: kiedy mylnie wskazuje na różnicę lub zależność nieistniejącą w rzeczywistości (tzw. błąd statystyczny I rodzaju) lub kiedy błędnie ukrywa istniejącą w rzeczywistości różnicę (tzw. błąd statystyczny II rodzaju). Każdy z rodzajów tych błędów jest wymiernie szkodliwy dla środowiska naukowego. Pierwszy stwarza iluzję wykrycia czegoś, co nie ma miejsca. Zachęca do pogoni za czymś co nie istnieje, pociągając za sobą nieuchronne ubożenie zasobów oraz stratę czasu. Drugi osłabia zapał do poszukiwania czegoś, co mogłoby mieć wymierną korzyść społeczną, odsuwa w czasie wartościową „zdobycz” naukową. Środowisko naukowe traci z pola widzenia – przynajmniej na jakiś czas, interesujący wątek badawczy.

Obecnie dysponujemy algorytmami umożliwiającymi minimalizowanie obu rodzajów błędów. Zalecenia dobrej praktyki naukowej podpowiadają nam jak planować doświadczenia „z głową”, czego unikać, czego bezwzględnie przestrzegać. O tym, z jaką mocą pragniemy wnioskować, z jaką istotnością orzekać o wykrywanych różnicach i zależnościach, decyduje sam badacz na etapie planowania eksperymentu, przed rozpoczęciem zbierania wyników. Na tej podstawie badacz określa jak duża powinna być jego próba i jaki schemat próbkowania należy zastosować, aby doświadczenie miało sens. Dysponując bogatym warsztatem analitycznym, badacz może ocenić na ile dostrzeżenie przez niego wyniku wyglądającego na istotny mogło być kwestią ślepego trafu, a na ile może być uznane za prawidłowość (metody bootstrap). Zaniechanie niezbędnych algorytmów analizy statystycznej na etapie planowania wiedzie do błędów schematu doświadczenia (nie ma ratunku, straciliśmy czas i zasoby, a niejednokrotnie także bardzo cenny materiał badawczy bezpowrotnie). Nawet poprawnie zaplanowane doświadczenie może dostarczyć wyników, których analiza post-hoc nie jest właściwa. Niewłaściwa analiza statystyczna danych pomiarowych wyklucza prawdziwe wnioski płynące z doświadczenia. Jest na to rada: wyniki należy poddać ponownej, właściwej analizie. Istnieją jednostki, w których analizą wyników laboratoryjnych zajmuje się osoba specjalnie do tego przygotowana, wyedukowana. Niestety, w większości przypadków tak nie jest. Tymczasem analiza matematyczna to cała nauka, ciągle rozwijająca się, dlatego próby dokonywania obliczeń we własnym zakresie powinny zakończyć się na etapie planowania doświadczenia.

Najlepszym przykładem obrazującym łatwość manipulacji informacjami poruszając się w obrębie istotności statystycznej jest badanie przeprowadzone przez Joseph’a Simmons’a, psychologa eksperymentalnego z Uniwersytetu w Filadelfii, który wykazał, że po wysłuchaniu utworu The Beatles „When I'm Sixty-four” wiek badanych maleje o półtora roku. Doświadczenie to miało na celu pokazanie jak niedopuszczalnie łatwo jest znaleźć istotny statystycznie wynik udowadniający dowolną hipotezę [Simmons 2011].

Jak naprawić jakość współczesnej nauki?

Żyjemy w XXI wieku, w świecie wszechobecnej technologii i lotów w kosmos. Do tego obrazu zupełnie nie pasuje naukowiec robiący notatki w zeszycie. W czasach Big Data zapis papierowy nie ma sensu. Pominąwszy już nawet kwestię podatności takiego zapisu na błąd, nasz umysł nie jest w stanie przetwarzać tak dużych ilości danych w jednym czasie. Doskonale nadaje się do tego technologia, którą, pomimo wielu oporów, musimy zaangażować do współpracy. Istnieją możliwości automatyzacji zapisu danych, wykonywanych procedur, przeliczeń, czy generowania wniosków, co może usprawnić pracę laboratoryjną, wyeliminować większość podstawowych błędów ludzkich i co bardzo istotne- zaoszczędzić czas. Zmiany powinniśmy zacząć od naszych nawet najmniejszych laboratoriów. Nieuniknione są wdrożenia systemów usprawniających codzienną prace laboratoryjną. Istotnym posunięciem będzie włączenie do pracy naukowej specjalistów zajmujących się analizami statystycznymi i matematycznymi. Niezwykle pomocne są symulacje komputerowe, umożliwiające tworzenie bardzo użytecznych modeli. Z pewnością z niejednej puli pozornie bezwartościowych wyników wypłyną zadziwiające wnioski. Kolejnym etapem powinna być globalna współpraca mająca na celu standaryzację protokołów badawczych. Takie osiągnięcie zaoszczędzi potężne ilości materiałów, czasu i wydatków związanych z ciągłym „ustawianiem” tych samych metod badawczych w niezależnych laboratoriach. Dopiero zjednoczenie sił wielu laboratoriów pracujących nad podobnym problemem da nam możliwość dokonania porównań i obliczeń na szeroką skalę, a wnioski wyciągnięte na tej podstawie będą zdecydowanie bardziej wiarygodne od wniosków generowanych przez jedno, nawet najsprawniej funkcjonujące laboratorium. Na każde zdarzenie w naturze wpływ mają liczne czynniki, dlatego żeby wyeliminować przypadkowość odkryć, musimy wielokrotnie przewyższyć tę ilość naszą ilością pomiarów. Końcowym etapem dążenia do zmaksymalizowania jakości prac badawczych będzie pełna automatyzacja i robotyzacja laboratoriów, czyli zupełne wyeliminowanie z pracy mechanicznej czynnika ludzkiego, jako największego źródła błędów i niedokładności.

Podsumowanie

Kryzys odtwarzalności badań jest efektem wieloletnich, ogólnoświatowych, kumulujących się zaniedbań, takich jak: brak standaryzacji metod badawczych, pomijanie szczegółowych informacji w publikacjach, niedokładne projektowanie badań, niska moc statystyczna badań, nieprofesjonalna analiza wyników, presja częstego publikowania- w szczególności wyników pozytywnych oraz nacisk na tworzenia głównie ciekawych, nowatorskich projektów. W efekcie powstała ogromna ilość niewiarygodnych publikacji, na których podstawie tworzone są niejednokrotnie błędne hipotezy, a heroiczne próby dociekania prawdy  powodują ogromne straty finansowe, materiałowe oraz czasowe. Mamy do czynienia ze sporym chaosem informacyjnym, którego stosowanymi obecnie metodami pracy nie jesteśmy w stanie opanować. W uporządkowaniu informacji oraz odciążeniu naukowców od rutynowych czynności nie związanych bezpośrednio z pracą badawczą może nam pomóc technologia. To jej powinniśmy zlecić zadania powtarzane wielokrotnie, ale również pamiętanie, precyzję, odnajdowanie zależności i podobieństw w ogromnej ilości danych, a nawet tworzenie predykcji. Jednakże nic się nie zmieni jeśli nie zmienimy sposobu myślenia. Naukowiec nie pracuje dla siebie i na siebie. Naukowiec wypełnia swego rodzaju misję dla dobra ogółu. Pracuje by ratować zdrowie i życie ludzkie.

A gdyby zatem publikacje w ogóle nie były podpisywane nazwiskami autorów? Nie można by się do nich zwrócić z prośbą o udostępnienie szczegółów pracy, dlatego wszystkie musiałyby być zamieszczone. Artykuł nabrałby objętości, ale i wartości. Nikt nie pisałby w pośpiechu, dla kolejnej pozycji pod swoim nazwiskiem. Tym, którym nie zależy na jakości, a jedynie na ilości publikacji zbyt trudno byłoby stworzyć kompletny artykuł i po prostu nie opłacałoby się publikować. Odciążyłoby to wielu naukowców z powołania od różnego rodzaju presji. Wydaje się to być wizją utopijną, ale brzmi jak rozwiązanie. Mogłoby zaistnieć przynajmniej na poziomie akademickim, bo tu się przecież uczymy, więc jak możemy na tym etapie pouczać innych (publikując)? Żaden Profesor nie jest w stanie dopilnować swoich doktorantów, by każda ich czynność była wykonana precyzyjnie. Współpraca akademicka opiera się w dużej mierze na zaufaniu, a w nauce nie ma na nie miejsca. W nauce liczą się tylko fakty. Minąć może jeszcze wiele lat, zanim większość naukowców uświadomi sobie powagę problemu oraz stopnia odpowiedzialności, jaka ciąży na naszej pracy. Każdy zafałszowany wniosek, świadomie lub nie, odsuwa nas od uratowania czyjegoś życia. Henry Ford określił jakość jako pracę wykonywaną poprawnie, gdy nikt nie patrzy. Niestety, błąd ludzki jest największym zagrożeniem współczesnej nauki. Dlatego ostatecznie, z pewnością, powstanie system komputerowy planujący, systematyzujący i zapisujący każdą wykonaną w laboratorium czynność. Brzmi to jak Big Brother dla naukowców, ale wiemy już, że system tajnych procedur w zamkniętych laboratoriach, z których co jakiś czas wypływa zlepek niepełnych informacji, którym mamy zaufać – nie działa.

Nic nie dzieje się bez przyczyny. Jesteśmy wynikiem miliardów lat ewolucji wszechświata i sama tego świadomość powinna wywierać na nas presję pewnego nadrzędnego obowiązku. Nauka musi opierać się na współpracy, a nie rywalizacji. Grając w otwarte karty utworzymy z nauki wspólny projekt, który powoli, acz w systematyczny i uporządkowany sposób przybliży nas do zgłębienia niezliczonych aspektów piękna natury.

Bibliografia

1.    Baker M (2016), Biotech giant publishes failures to confirm high-profile science, Nature, 530(7589):141
2.    Prinz F, Schlange T, Asadullah K (2011), Believe it or not: how much can we rely on published data on potential drug targets?, Nat Rev Drug Discov., 10(9):712
3.    Mobley A, Linder SK, Braeuer R, Ellis LM, Zwelling L (2013), A survey on data reproducibility in cancer research provides insights into our limited ability to translate findings from the laboratory to the clinic, PLoS One., 8(5):e63221
4.    Freedman LP, Inglese J (2014), The Increasing Urgency for Standards in Basic Biologic Research, Cancer Res., 74(15):4024-9
5.    Bishop D (2015), Reproducibility and reliability of biomedical research: improving research practise, The Academy of Medical Sciences, Symposium report, October 2015
6.    Baker M (2016), 1,500 scientists lift the lid on reproducibility, Nature, 533(7604):452-4
7.    Arrowsmith, J (2011), Phase II failures: 2008–2010, Nature Rev. Drug Discov. 10, 328–329
8.    Freedman LP, Cockburn IM, Simcoe TS (2015), The Economics of Reproducibility in Preclinical Research, PLoS Biol., 13(6):e1002165
9.    Fleischman J (2015), ASCB Task Force on Scientific Reproducibility Calls for Action and Reform, The ASCB Post, July 15, 2015
10.    Baker M (2016) Muddled meanings hamper efforts to fix reproducibility crisis, Nature News & Comment, 14 June 2016
11.    Flórez-Vargas O, Brass A, Karystianis G, Bramhall M, Stevens R, Cruickshank S, Nenadic G (2016), Bias in the reporting of sex and age in biomedical research on mouse models, Elife., 5. pii: e13615
12.    Bara M, Joffe AR (2014), The methodological quality of animal research in critical care - the public face of science, Ann Intensive Care., 4:26
13.    Bara M, Joffe AR (2014) The ethical dimension in published animal research in critical care - the public face of science, Crit Care., 18(1):R15
14.    Iqbal SA, Wallach JD, Khoury MJ, Schully SD, Ioannidis JP (2014), Reproducible Research Practices and Transparency across the Biomedical Literature, PLoS Biol., 14(1):e1002333
15.    Holman C, Piper SK, Grittner U, Diamantaras AA, Kimmelman J, Siegerink B, Dirnagl U (2016), Where Have All the Rodents Gone: The Effects of Attrition in Experimental Research on Cancer and Stroke, PLoS Biol., 14(1):e1002331
16.    Yong E (2012), Replication studies: Bad copy, Nature., 485(7398):298-300
17.    Ingfei C (2013), Hidden depths: Brain science is drowning in uncertainty, New Scientist, #2939
18.    Baker M (2015), Reproducibility crisis: Blame it on the antibodies, Nature, 521(7552):274-6
19.    Sarewitz D (2016), The pressure to publish pushes down quality, Nature, 533(7602):147
20.    Tressoldi PE, Giofré D, Sella F, Cumming G (2013), High Impact = High Statistical Standards? Not Necessarily So, PLoS One., 8(2):e56180
21.    Srikanth L (2016), A tragedy of errors, J Pain Palliat Care Pharmacother., 30(2):131-3
22.    Krimsky S, Rothenberg LS, Stott P, Kyle G (1998), Scientific journals and their authors' financial interests: a pilot study, Psychother Psychosom., 67(4-5):194-201.
23.    Ioannidis JP (2005), Why most published research findings are false, PLoS Med., 2(8):e124
24.    Perrin S (2014), Preclinical research: Make mouse studies work, Nature, 507(7493):423-5
25.    Fanelli D (2012), Negative results are disappearing from most disciplines and countries, Scientometrics 90:891–904
26.    Hasenboehler EA, Choudhry IK, Newman JT, Smith WR, Ziran BH, Stahel PF (2007), Bias towards publishing positive results in orthopedic and general surgery: a patient safety issue?, Patient Saf Surg., 1(1):4
27.    Nuzzo R (2014), Statistical errors, Nature News & Comment, vol. 506: 150-152
28.    Simmons JP, Nelson LD, Simonsohn U (2011), False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant, Psychol Sci., 22(11):1359-66

Netnografia

1.    https://med.stanford.edu/profiles/john-ioannidis

 

 

 

 

 

Sponsor:

CookiesAccept

UWAGA! Ten serwis używa cookies i podobnych technologii.

Brak zmiany ustawienia przeglądarki oznacza zgodę na to. Czytaj więcej…

Zrozumiałem

Free Joomla! template by Age Themes