Korzystając ze stron oraz aplikacji mobilnych Medycyny Praktycznej, wyrażasz zgodę na używanie cookies zgodnie z aktualnymi ustawieniami przeglądarki oraz zgodnie z polityką Medycyny Praktycznej dotyczącą plików cookies.
23 sierpnia 2014 roku
poczta
zaloguj się
 
medycyna praktyczna dla lekarzy
 

Testy istotności różnic dla prób niezależnych

16.07.2000
mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof. dr hab. Andrzej Żarnecki)

W badaniach medycznych najczęściej spotykanym problemem statystycznym jest porównanie dwóch populacji pod względem jednej cechy lub dwóch cech. Metody takich porównań można podzielić na dwie grupy:

  • porównywanie pewnych parametrów populacji (średnie, odchylenia standardowe) - wówczas stosuje się najczęściej testy parametryczne;
  • porównanie pewnych cech, które nie są parametrami (np. kształt rozkładu) - w  takich przypadkach zwykle stosuje się testy nieparametryczne.

Wprawdzie parametr jest bardziej poszukiwaną i ważniejszą charakterystyką, zarówno populacji, jak i pojedynczego człowieka, jednakże jego brak nie zmusza do rezygnacji z badań statystycznych.

W medycynie i biologii bardzo często przeprowadza się badania porównujące wartości dwóch lub kilku średnich. Dlatego kilka najbliższych odcinków cyklu zostanie poświęconych temu zagadnieniu.

Zacznę od testów różnic między średnimi z dwóch prób. Testy te weryfikują hipotezę zerową o równości średnich w dwóch grupach.

Przypuśćmy, że podajemy dwa leki nasenne dwóm różnym grupom (18 osobom tworzącym grupę A i 24 w grupie B). Tabela 1  przedstawia czas trwania snu (w minutach) poszczególnych osób po podaniu leku.

SEN_A 438 154 374 250 145 299 404 412 313 215 216 304 234
  302 234 302 123 298 107 115            
SEN_B 416 454 400 315 373 370 203 372 249 275 339 439 262
  372 262 372 249 275 352 320 392 263 379 309 505 310

Szukamy odpowiedzi na pytanie, który z tych leków jest skuteczniejszy. Do rozwiązania takich problemów wykorzystujemy testy dla różnic między średnimi z  dwóch prób dla zmiennych niepowiązanych; najczęściej są to testy t-Studenta dla zmiennych niepowiązanych. Można je też wykorzystać do oceny określonej różnicy między grupą pacjentów zażywających badany lek a grupą pacjentów otrzymujących placebo; rozpatrujemy wówczas dwie grupy: kontrolną i  eksperymentalną.

Przypuśćmy teraz, że w pewnej grupie osób badamy ciśnienie tętnicze przed podaniem leku i po. Pytamy, czy lek ten powoduje istotny spadek ciśnienia. Tym razem mamy dwie serie pomiarów dotyczących tej samej próby (tzn. w tej samej grupie, przed podaniem leku i po) i chcemy zweryfikować hipotezę o średniej wielkości różnic między uzyskanymi wynikami. Pierwsza seria danych to wyniki pomiaru badanej cechy (ciśnienia) w jednym punkcie czasowym (przed zażyciem leku), druga - wyniki pomiaru tej samej cechy u tych samych osób w drugim punkcie czasowym (po zażyciu leku). Do problemów tego typu stosujemy testy t-Studenta dla zmiennych powiązanych.

Zacznę od podania podstawowych założeń testów t-Studenta:

1. Zasada randomizacji

Jeśli chcemy uogólnić wnioski wynikające z badania, to musimy zagwarantować reprezentatywność próby dla populacji. Jest to możliwe jedynie poprzez dobór losowy próby (pierwsza zasada randomizacji). Nierespektowanie tej zasady sprawia, że wyciągnięte wnioski obowiązują jedynie w stosunku do pacjentów z  danego szpitala, osób należących do określonej grupy wiekowej lub danej płci itd.

Badania oceniające skuteczność nowego leku lub zabiegu leczniczego powinny być przeprowadzane w co najmniej dwóch równoważnych grupach osób w celu sprawdzenia nowego leku w porównaniu ze stosowanym dotychczas (lub z placebo). Decyzja o tym, który lek otrzyma dana osoba, ma być podjęta w sposób losowy (druga zasada randomizacji). Nierespektowanie drugiej zasady randomizacji powoduje, że na różnice między średnimi wartościami zmiennej duży wpływ może mieć czynnik selekcji i w efekcie mogą zostać wyciągnięte błędne wnioski.

2. Założenie o normalności rozkładu zmiennej

Istnieją specjalne testy statystyczne pozwalające ocenić, czy dany rozkład empiryczny jest normalny - zostały one omówione w poprzednim odcinku.

3. Założenie jednorodności wariancji

Do sprawdzenia tego założenia służy test F, test Levene'a lub test Bartletta. W przypadku gdy testy te nie wykazały jednorodności wariancji, należy się posłużyć testem Cohrana i Coxa.

Oprócz powyższych założeń musimy też respektować rodzaj porównania. Testy istotności różnic dzieli się na dwa podzbiory:

  • testy dla grup niezależnych (czyli dla zmiennych niepowiązanych)
    Testy te porównują średnie badanej zmiennej dla dwóch grup o równych lub różnych liczebnościach (zwykle są to grupy kontrolna i eksperymentalna).
  • testy dla grup zależnych (czyli dla zmiennych powiązanych)
    Testy te stosuje się dla porównania średnich danej zmiennej w tej samej grupie, ale badanej dwukrotnie w czasie (np. czas trwania snu przed podaniem leku i po jego zastosowaniu).

W zależności od rozpatrywanego problemu należy więc wybrać odpowiedni test. W  tym odcinku omówię testy dla zmiennych niepowiązanych. Rysunek 1. przedstawia algorytm doboru takiego testu.

Jak widać, oprócz wspomnianych wyżej założeń o wyborze testu decyduje też liczebność grupy. W literaturze statystycznej spotyka się wartość 30 jako liczebność graniczną. Wiele testów ma też swoje własne ograniczenia dotyczące minimalnej liczebności porównywanych grup, a niektóre - kilka wariantów dla różnych liczebności grup.

Do dalszych rozważań załóżmy, że obserwowane zmienne mają w dwóch zbiorowościach rozkład normalny; jak postąpić w przeciwnym przypadku - o tym w  następnym odcinku.

Obecnie, gdy mamy do dyspozycji komputer, nikt nie przeprowadza weryfikacji hipotez "na piechotę". Korzystamy z różnych pakietów statystycznych (np. BMDP, SAS, SPSS, STATGRAPHICS, STATISTICA), które również "same" dobierają właściwy test w zależności od liczebności próby. Poniżej przedstawię przykładową analizę za pomocą programu STATISTICA, pomijając matematyczną postać poszczególnych testów, oraz najciekawsze interpretacje graficzne otrzymanych wyników.

W programie STATISTICA do testowania różnic między średnimi z dwóch prób niepowiązanych służy opcja "Testy t dla prób niezależnych" (t-test for independent samples) w module "Podstawowe statystyki i tabele". Test z i test t występują w programie STATISTICA pod wspólną nazwą testy t. Program sam dobiera test odpowiedni dla danej liczebności. Test Cohrana i Coxa to w programie STATISTICA test t z oddzielną oceną wariancji.

Dla naszych przykładowych danych (tab. 1) otrzymamy następujący arkusz wyników (rysunek 2.):

Ponumerowane pola w arkuszu wyników (najważniejsze dla interpretacji) oznaczają odpowiednio:

[1], [2] wartości średnie w grupie pierwszej i drugiej
[3] wartość testu t (przy spełnieniu założeń o jednorodności wariancji)
[4] wyliczony przez komputer poziom istotności (significance level).
[5] wartość testu t dla niejednorodnych wariancji (tzw. test Cochrana i Coxa)
[6] komputerowy poziom prawdopodobieństwa testu t dla niejednorodnych wariancji
[7], [8] liczebności grupy pierwszej i drugiej
[9] odchylenie standardowe w grupie pierwszej
[10] odchylenie standardowe w grupie drugiej
[11] wartość testu F sprawdzającego jednorodność wariancji
[12] wyliczony przez komputer poziom istotności testu F dla jednorodności wariancji
[13] wartość testu Levene'a sprawdzającego jednorodność wariancji
[14] wyliczony przez komputer poziom istotności testu Levene'a dla jednorodności wariancji
[15] wartość testu Browna i Forsythe'a, sprawdzającego jednorodność wariancji
[16] komputerowy poziom prawdopodobieństwa testu Browna i Forsythe'a dla jednorodności wariancji

Uwaga: pola [5] i [6] pojawiają się, gdy w oknie "Opcje" (rys. 3) wybraliśmy test t dla niejednorodnych wariancji, pola [13]-[16] zaś wtedy, gdy wybraliśmy test Levene'a oraz test Browna i Forsythe'a dla jednorodności wariancji.

Rys. 3

Jak się nie pogubić w gąszczu otrzymanych wyników? Na co zwrócić szczególną uwagę?

Zaczynamy od sprawdzenia ostatniego założenia, jakie nam pozostało - założenia o jednorodności wariancji. Hipoteza zerowa, którą chcemy zweryfikować, zakłada jednorodność (równość) wariancji. Istnieją 3 testy weryfikujące tę hipotezę - test F, Levene'a oraz test Browna i Forsythe'a. Ten ostatni cieszy się opinią najlepszego. Wyliczone wartości tych testów program wyświetla w polach oznaczonych numerami [11], [13] i [15]. Poziomy istotności związane z  tymi testami znajdziemy odpowiednio w polach o numerach [12], [14] i [16]. Jak widać, dla danych z naszego przykładu p dla wszystkich 3 testów przekracza 0,05. Nie ma więc podstaw do odrzucenia hipotezy zerowej o  jednorodności wariancji i można przyjąć, że założenie to jest spełnione. W  takiej sytuacji wartości odpowiedniego testu t dla jednorodnych wariancji szukamy w polu [3], a odpowiadającego mu poziomu istotności w polu [4]. Wynika z  nich, że należy odrzucić hipotezę zerową o równości średnich czasów trwania snu. Tak więc średni czas trwania snu po zażyciu leku A różni się istotnie od średniego czasu snu po zażyciu leku B. Można wnioskować (na podstawie wartości średnich), że lek B jest skuteczniejszy od leku A przy poziomie istotności wynoszącym 0,05, a nawet mniejszym (p = 0,0062).

W przypadku gdy założenie o jednorodności wariancji wartości testu t nie jest spełnione, szukamy tzw. testu Cochrana i Coxa w polu [5], a  odpowiadającego mu poziomu istotności p w polu [6].

Rysunek 4. przedstawia graficzną interpretację otrzymanych wyników w postaci tzw. skrzynek z wąsami.

Rys. 4. Wykres "skrzynka z wąsami" - przykład pierwszy

Ta forma graficzna została omówiona w poprzednim odcinku. Kwadracik środkowy reprezentuje wartość średniej, a wąsy wyznaczają 95% przedział ufności danej średniej. Hipotezę o równości średnich można odrzucić, gdy wąsy skrzynek na siebie nie zachodzą (tak jak na tym rysunku).

Jako drugi przykład rozważmy porównanie średniego poziomu salsolinu dla kobiet i mężczyzn chorych na pewna chorobę. W tabeli 2 mamy wyniki pomiarów dla 32 osób.

Salsolin 139,8 118,8 157,5 96,1 99,5 98,9 119,8 230,4 114,7 92,6 123,3
Płeć K K K M K K M M M K K
Salsolin 202,0 136,2 140,9 99,0 100,2 141,5 128,6 191,0 105,0 237,9 203,0
Płeć M M K K K K K K K M K
Salsolin 300,5 170,1 161,9 179,8 254,0 355,0 397,0 375,0 378,0 252,0 -
Płeć M K K M M M M M M K -
K-kobieta, M-mężczyzna

Wyniki testu t dla tych danych pokazuje rysunek 5.

Jak widać (wyniki podkreślone linią), poziomy istotności wszystkich testów sprawdzających jednorodność wariancji przyjmują wartości mniejsze od 0,05. Musimy zatem odrzucić hipotezę zerową o jednorodności wariancji. Ponieważ nie jest spełnione założenie o jednorodności wariancji, bierzemy pod uwagę wartość testu t dla wariancji niejednorodnych (wyniki podkreślone przerywaną linią). Wynika z nich, że poziom istotności przyjmuje wartość p = 0,0079. Możemy więc wnioskować, że występuje istotna różnica pomiędzy średnim poziomem salsolinu u mężczyzn i kobiet. Graficzną interpretację otrzymanych wyników przedstawia rysunek 6.

Rys. 6. Wykres "skrzynka z wąsami" - przykład drugi

Jako ostatni przykład prezentujemy wyniki testu t porównującego liczbę limfocytów w dwóch grupach chorych. Tym razem p wynosi 0,769 (rysunek 7.), nie mamy więc podstaw do odrzucenia hipotezy zerowej o równości średnich.

Otrzymane różnice mogą być wynikiem losowych błędów. Potwierdzają to skrzynki z wąsami na rysunku 8.

Rys. 8. Wykres "skrzynka z wąsami" - przykład trzeci

Kwadraciki reprezentujące wartość średnią są prawie na tym samym poziomie, a  przedział ufności (wyznaczony przez wąsy) dla zmiennej LIMFO_I zawiera się w  przedziale ufności zmiennej LIMFO_II.

Na zakończenie kilka słów o interpretacji otrzymanych wyników. Ocena testu statystycznego ma na ogół postać zdania: "Na ustalonym poziomie istotności alfa =... hipotezę zerową H0 ....... odrzucamy lub nie mamy podstaw do jej odrzucenia". Jednak interpretacja wyników otrzymanych po weryfikacji hipotez jest jednym z najtrudniejszych i  najważniejszych kroków w analizie statystycznej. Poprawna interpretacja nie może być niezależna od charakteru danych i sposobu ich otrzymywania. "Suche" liczby to za mało. Najlepiej, gdy interpretacji wyników dokonuje lekarz wraz ze statystykiem. Pamiętajmy też, że test statystyczny nie dowodzi prawdziwości czy fałszywości hipotezy. Wynik testu statystycznego mówi jedynie o  prawdopodobieństwie prawdziwości hipotezy, i to tylko w powiązaniu z odpowiednio sformułowaną hipotezą alternatywną. Za pomocą testu można albo odrzucić hipotezę zerową, albo też orzec, że wyniki doświadczenia nie przeczą tej hipotezie. Nieodrzucenie hipotezy zerowej nie jest równoznaczne z jej przyjęciem. Różnicę "nieistotną" najlepiej traktować jako "nieudowodnioną". Być może np. zwiększenie liczebności grupy próbnej pokazałoby, że różnica jest jednak istotna. Wynik "negatywny" powinniśmy więc podawać razem z przedziałem ufności. Ostrożnie należy też traktować wyniki z poziomem istotności bliskim 0,05.

O tym się mówi

  • Bukiel: Cynizm, pokaz siły?
    Zgodnie z logiką zaprezentowaną przez Trybunał Konstytucyjny to, do czego Naczelna Rada Lekarska jest upoważniona z mocy ustawy, nie mieści się w zakresie jej działania! – pisze Krzysztof Bukiel.
  • Dwugłos o darmowych lekach dla emerytów
    Oszczędności NFZ są coraz większe, a Platforma nie chce darmowych leków dla ubogich seniorów – oskarża Zbigniew Kuźmiuk (PiS). - To ja zabrałem te leki emerytom – ogłasza Jan Filip Libicki (PO).
  • Opieka koordynowana - jednak nie lekarz rodzinny?
    Lekarz rodzinny niekoniecznie ma chęć i kompetencje do zbierania danych, zarządzania strumieniem pieniędzy i kontrolowania jakości leczenia - mówi Robert Mołdach, prezes Instytutu Zdrowia i Demokracji.
  • Aborcja logicznego myślenia
    Od kilku tygodni obserwuję – jak wiele innych osób – sprawę prof. Bogdana Chazana. Patrzę na nią jednak z nieco innej perspektywy. Przez blisko 10 lat miałem okazję pełnić funkcję rzecznika praw pacjenta w kilku łódzkich szpitalach. I to właśnie temat uprawnień osoby leczonej był dla mnie szczególnie istotny w toczącej się debacie.
  • REKLAMA
    Jakie są nowo-zdefiniowane czynniki ryzyka udaru niedokrwiennego mózgu?

    Zwiększone ryzyko udaru niedokrwiennego mózgu może być związane z takimi czynnikami ryzyka, jak np.: podwyższone stężenie fibrynogenu, E-selektyny, proteiny-10 indukowanej interferonem gamma, rezystyny oraz stężenie całkowitej adiponektyny. Czy prowadzone będą kolejne badania, dzięki którym E-selektyna i rezystyna będą wykorzystywane w codziennej praktyce klinicznej?
    Dowiedz się więcej.
    Partner portalu lekforte.pl Cavinton®Forte