Odpowiednio dobierając dane można znaleźć argumenty na dowolną tezę związaną z epidemią koronawirusa. O czym należy pamiętać, aby nie zgłupieć w zalewie statystyk?
24.03.2020 11:42 GOSC.PL
Jaka jest prawdziwa śmiertelność wywołanej kornawirusem SARS-CoV-2 choroby: poniżej 0,5 proc., jak podają Niemcy, czy blisko 10 proc., jak wynika z danych z Włoch? Czy Polska wykonuje dramatycznie mało testów na obecność nowego patogenu czy wręcz przeciwnie – jesteśmy w awangardzie? Czy COVID-19 to choroba na miarę "hiszpanki", która przed stu laty zdziesiątkowała ludność świata czy wręcz przeciwnie, panika jest przesadzona, a zwykła sezonowa grypa to znacznie groźniejszy zabójca? W sieci znajdą Państwo potwierdzenie dla każdej z tych tez, co ciekawe na każdą z nich można znaleźć tzw. dane statystyczne. O czym należy pamiętać, aby nie zgłupieć w zalewie prawdziwych skądinąd liczb, potwierdzających sprzeczne tezy?
Weźmy na warsztat kilka przykładów. Na początek ten, który rozpala w kraju najwięcej emocji: skala wykonywanych testów na potwierdzenie obecności wirusa SARS-CoV-2. Z relacji środowisk rządowych można wysnuć wniosek, że testujemy znacznie dokładniej niż wiele innych krajów europejskich, natomiast środowiska sceptyczne wobec obecnej władzy alarmują, że jest dokładnie odwrotnie.
Sceptycy wyciągają dane z ilości przeprowadzonych testów lub zdiagnozowanych zachorowań. Kilka dni temu trafiłem na przykład na wpis, w którym zarzucano władzy manipulowanie danymi o zachorowaniach, a na dowód przytoczono ilość wykrytych przypadków zachorowań na 20 marca: w Niemczech czy Francji było to kilkanaście tysięcy, podczas, gdy w Polsce 439. Autor wpisu zauważył też, że nawet w czterokrotnie mniejszej populacji czeskiej zdiagnozowano 883 zachorowania. Z tych prawdziwych danych wyciągnął wniosek, że ilość zachorowań w Polsce jest porównywalna ze wspomnianymi krajami zachodnimi, a oficjalna liczba chorych to dowód na manipulacje władzy, która wykonuje za mało testów. Rzecz w tym, że dane zestawił wg daty, a nie wg dnia epidemii, która w Niemczech czy Francji zaczęła się ponad miesiąc wcześniej, więc siłą rzeczy choroba zdążyła się rozprzestrzenić, a w związku z tym grupa ryzyka, która jest poddawana testom, znacząco się zwiększyła. Polska ma okres potwierdzonych zachorowań liczonych w tysiącach jeszcze przed sobą.
Wydaje się, że wobec tego bardziej rzeczywistość powinny oddawać statystyki dotyczące ilości przeprowadzonych testów na milion mieszkańców w analogicznym dniu od wykrycia tzw. "pacjenta zero" w danym kraju. Tutaj posłużmy się porównaniem Polski z Czechami sprzed kilku dni: czas trwania epidemii podobny, jest kilka dni przesunięcia między wykryciem pierwszego chorego. Czesi w tym czasie wykonali nieco mniej niż 16 tys. testów, Polska trochę ponad 18 tys. Jeśli weźmiemy pod uwagę kryterium wykonanych testów/mln mieszkańców, to Czesi wypadają znacznie lepiej niż Polska. Ale jeśli już uwzględnimy, że tego samego dnia w Czechach zdiagnozowane pozytywnie było ponad tysiąc osób, a w Polsce 600, to liczba osób z grupy ryzyka zakażenia w Czechach średnio powinna obejmować jakieś 30 tys. osób, jeśli w Polsce było to 18 tys. Bo za każdym chorym idzie określona grupa ludzi, którzy mieli z nim kontakt. Więc statystycznie prawdą jest zarówno to, że Czesi robią więcej testów na milion mieszkańców, jak i to, że testują mniej osób z otoczenia przeciętnego potwierdzonego chorego.
Kolejnym przykładem tego, jak wybiórcze stosowanie statystyk zakłamuje rzeczywistość, jest zagadnienie śmiertelności COVID-19. Na jednym biegunie mamy zwolenników bagatelizowania problemu, którzy przytaczają przykład Niemiec ze śmiertelnością poniżej 0,5 proc., na drugim osoby pokazujące przypadek Włoch z ich śmiertelnością na poziomie blisko 10-procentowym. Zarówno dane z Niemiec jak i Włoch są prawdziwe, tyle, że... niewiele mówią o śmiertelności samej choroby. Pokazują jedynie lokalną, chwilową śmiertelność, na którą ma wpływ całe mnóstwo czynników, jak choćby wydolność i wyposażenie systemu ochrony zdrowia, czy – szczególnie w przypadku tej choroby – struktura wiekowa społeczeństwa. A, co najistotniejsze, w obu przypadkach są to dane z wciąż trwającej epidemii, zresztą w obu krajach na różnych etapach rozwoju zarazy. Nie wiemy przecież, czy epidemia u naszych zachodnich sąsiadów osiągnie skalę taką, jak w Italii, gdzie brakuje już miejsc respiratorowych dla najciężej chorych. Ale jeśli do tego dojdzie, to należy spodziewać się znaczącego wzrostu śmiertelności również w Niemczech. Ponadto żadne dane krajowe nie rejestrują faktycznej liczby zakażonych, a jedynie przypadki potwierdzone testami. Tych zaś nikt nie przeprowadza powszechnie, każdy w oparciu o przyjęte kryterium grup ryzyka. Realne dane o śmiertelności COVID-19 będzie można szacować po zakończeniu pandemii i to nie w oparciu o pojedyncze dane lokalne, ale globalne, reprezentatywne dla całej populacji. Zresztą, jak podkreślają wirusolodzy, największym niebezpieczeństwem SARS-CoV-2 i wywołanej przez tego wirusa choroby nie jest wysoka śmiertelność, ale duża zakaźność, która doprowadza do paraliżu systemów ochrony zdrowia nawet w wysokorozwiniętych krajach.
Nic tak pięknie nie zakłamuje rzeczywistości jak liczby, jeśli nie przeanalizujemy ich w całej rozciągłości. Pamiętacie Państwo takie powiedzenie, że istnieją trzy rodzaje kłamstwa: kłamstwo, okropne kłamstwo i statystyka? To oczywiście pewne uproszczenie, bo statystyka może być dla wielu nauk bardzo praktycznym narzędziem. Pod jednym warunkiem – że nie będziemy traktowali liczb jak pałki do okładania oponentów i będziemy je czytać w całym szerokim kontekście wydarzeń, które opisują. Innymi słowy użyjemy je jako narzędzie pomocne w poznawaniu rzeczywistości, a nie do spełniania własnych oczekiwań.
Wojciech Teister