Korzystając ze stron oraz aplikacji mobilnych Medycyny Praktycznej, wyrażasz zgodę na używanie cookies zgodnie z aktualnymi ustawieniami przeglądarki oraz zgodnie z polityką Medycyny Praktycznej dotyczącą plików cookies.
31 lipca 2014 roku
poczta
zaloguj się
 
medycyna praktyczna dla lekarzy
 

Testy zgodności

17.06.2000
mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof. dr hab. Andrzej Żarnecki)

Testy zgodności dotyczą postaci rozkładu teoretycznego badanej zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy dotyczące rozkładu zmiennej losowej. Celem tych testów jest porównanie rozkładów dwóch cech w jednej populacji lub jednej cechy w dwóch populacjach. Są to oczywiście dwa różne zagadnienia, jednakże metody obliczeniowe są w obu przypadkach podobne. Idea tych testów jest oczywista - jeśli jakaś cecha w dwóch populacjach ma taki sam rozkład, to wartości liczbowe pewnych statystyk (np. średnia, mediana) dla obu populacji powinny się niewiele różnić. Jeśli jednak wartości te będą istotnie różnie, to mamy prawo sądzić, że cecha ma odmienny rozkład w różnych populacjach.

Do najczęściej formułowanych hipotez tego rodzaju należy hipoteza o  normalności rozkładu zmiennej losowej ciągłej X:
H0: X ma rozkład normalny N(m, sigma)
przy hipotezie alternatywnej:
H1: X nie ma rozkładu normalnego N(m, sigma)
gdzie m i sigma (wartość oczekiwana i  odchylenie standardowe) to parametry rozkładu normalnego.

W hipotezie zerowej zakładamy, że n-elementowa próba losowa pochodzi ze zbiorowości generalnej, w której rozkład obserwowanej zmiennej losowej jest normalny.
Rozkład normalny jest bowiem jednym z najważniejszych rozkładów w  biologii. Poświęca mu się dużo uwagi, ponieważ rozwiązanie wielu zagadnień statystycznych jest "prostsze", jeśli analizowana cecha ma rozkład normalny. Wiele analiz statystycznych i testów wymaga też założenia o normalności rozważanej zmiennej (testy t-Studenta, analiza wariancji, analiza regresji, analiza kanoniczna itd.). Dlatego musimy przeprowadzić weryfikację charakteru rozkładu, ilekroć chcemy zastosować analizy statystyczne, które wymagają danych o określonym rozkładzie.

Testom normalności, czyli testom weryfikującym wyżej postawioną hipotezę poświęcony jest obecny artykuł. Chodzi oczywiście o jednowymiarowe rozkłady normalne, gdyż rozkładów wielowymiarowych nie można w prosty sposób zweryfikować.

Do najczęściej stosowanych testów weryfikujących normalność rozkładów należą:

  • test Kołmogorowa i Smirnowa
    Test ten opiera się na porównaniu procentów skumulowanych zaobserwowanych z oczekiwanymi. Jako wartość testu podawana jest maksymalna różnica bezwzględna pomiędzy zaobserwowanymi i oczekiwanymi procentami skumulowanymi. Test ten wymaga jednak znajomości parametrów rozkładu (średniej i odchylenia standardowego całej populacji). Gdy ich nie znamy, a tak jest najczęściej, stosujemy test Kołmogorowa i Smirnowa z poprawką Lillieforsa.
  • test W Shapiro i Wilka
    Test ten jest najbardziej polecany, ze względu na dużą moc. Można go również stosować do małych prób.
  • test Pearsona
    W celu weryfikacji hipotezy o  normalności rozkładu wyniki próby dzielone są na rozłączne klasy, a następnie porównuje się liczebności: obserwowaną i oczekiwaną w każdej z tych klas. Jeśli liczebności te różnią się istotnie, to prawdopodobnie dana próba nie pochodzi z  populacji, w której rozkład obserwowanej zmiennej losowej jest normalny. We wszystkich tych testach, jeśli statystyki okażą się istotne (tzn. p <0,05), to odrzucamy hipotezę zerową o zgodności danych z rozkładem normalnym. Oznacza to, że dana zmienna (cecha) nie ma rozkładu normalnego. Na przykład sprawdzimy, czy zmienne "wiek" i "waga" mają rozkład normalny. Wartości tych zmiennych dla 20-elementowej próby podaje tabela

    wiek1834485621742347435441363156276569421934
    waga51,552614860,5717049,548,5738749545147,55980727152

    Oczywiście nie będziemy przeprowadzać żadnych obliczeń, bo w epoce mikrokomputerów nikt już nie liczy "na piechotę". Najważniejsze jest przecież właściwe zinterpretowanie otrzymanych wyników. Do weryfikacji hipotezy H0 wykorzystamy test W Shapiro i Wilka z pakietu statystycznego.

    W pakiecie STATISTICA w wyniku przeprowadzonej analizy otrzymujemy arkusze wyników, których zasadnicze fragmenty pokazują poniższe rysunki.

    Jak widzimy, dla zmiennej "wiek" (rysunek 1) poziom istotności to: p <0,5381. Nie mamy więc podstaw do odrzucenia hipotezy zerowej. Możemy więc przypuszczać, że pobrana próba losowa 20 pacjentów pochodzi z populacji, w której zmienna "wiek" ma rozkład normalny.

    Dla wagi (rysunek 2) sytuacja jest odmienna. Tym razem p <0,0159, więc hipotezę zerową o  normalności rozkładu tej zmiennej odrzucamy.

    Otrzymane wyniki testu możemy połączyć z histogramem przedstawiającym rozkład analizowanej zmiennej (rysunek 3). Histogram po lewej stronie przedstawia rozkład zmiennej "wiek" (rozkład normalny), a po prawej - rozkład zmiennej "waga" (rozkład nie jest normalny). Widać wyraźną różnicę w kształcie histogramu. Na tle liczebności obserwowanych program rysuje też dopasowaną krzywą rozkładu normalnego. Histogram po lewej stronie bardziej "pasuje" do narysowanej krzywej.

    Obok histogramu istnieje inna również interesująca interpretacja graficzna analizowanego zagadnienia. Są to tzw. normalne wykresy prawdopodobieństwa. Takie wykresy dla naszych przykładowych zmiennych "wiek" (lewa strona) i "waga" (prawa strona) przedstawia rysunek 4.

    Jeżeli rozkład jest normalny, wówczas punkty powinny leżeć na linii prostej (lewa strona); w przeciwnym razie punkty odchylają się od prostej (prawa strona). Na wykresie tym mogą ujawnić się również punkty odstające. Wykres ten pozwala więc ocenić odstępstwa rozkładu empirycznego od rozkładu normalnego, dlatego nazywany jest testem "na rzut oka", sprawdzającym normalność rozkładu analizowanej zmiennej. Im bardziej bowiem wszystkie punkty układają się na prostej, tym bardziej mamy prawo sądzić, że dany rozkład jest normalny. Jeśli punkty tworzą jakiś wzór wokół prostej (np. literę S), program podpowiada, że należy zastosować odpowiednie przekształcenie (np. logarytmiczne, "rozciągające" ogony rozkładu) w celu otrzymania rozkładu normalnego (rys. 5).

    Rys. 5. Normalny wykres prawdopodobieństwa

    Na zakończenie przyjrzymy się jeszcze jednemu popularnemu wykresowi. Są to tzw. skrzynki z wąsami (Box And Whiskers), pokazujące zakresy wybranej zmiennej (zmiennych) oraz statystyki opisowe (średnia, mediana, odchylenie standardowe lub błąd standardowy). Na wykresie mogą również być wykreślone odstające punkty danych. Wykres ten wprowadził w 1977 roku J. Tukey. Do czasu pojawienia się pakietów statystycznych był on mało popularny. Dopiero szybkie komputery spopularyzowały takie prezentowanie statystyk pozycyjnych. Możemy utworzyć cztery grupy wykresów ramkowych w zależności od wybranej opcji:

    • punkt centralny - mediana, ramka - kwartyle, wąsy - rozstęp
    • punkt centralny - średnia, ramka - błąd standardowy, wąsy - odchylenie standardowe
    • punkt centralny - średnia, ramka - odchylenie standardowe, wąsy - 95% przedział ufności dla poszczególnych obserwacji wokół średniej
    • punkt centralny - średnia, ramka - błąd standardowy, wąsy - 95% przedział ufności dla wartości średniej
    Przykładowy wykres typu "skrzynka z  wąsami" dla zmiennych "wiek" i "waga" przedstawia rysunek 6. Widać znaczną różnicę w długości "wąsów" i niesymetryczne położenie mediany zmiennej "waga" wskazujące na dużą asymetrię prawostronną. Asymetria taka wyklucza oczywiście rozkład normalny. Rozkład normalny jest bowiem idealnie symetryczny.
  • O tym się mówi

    • Wiceminister: Warto prosić lekarza, by wypisał recepty, używając nazwy międzynarodowej leku
      MZ obiecuje, że dzięki pakietowi kolejkowemu lekarz będzie mógł wystawić recepty nawet na rok. Jak to technicznie możliwe, skoro co 2 miesiące zmienia się lista refundacyjna, a więc i poziomy odpłatności za lek?
    • Zdiagnozowano niedobór lekarzy
      Reglamentacja miejsc na kierunki lekarski i lekarsko-dentystyczny przynosi absurdalne efekty: o jedno miejsce na uczelniach ubiega się po kilkunastu kandydatów, tymczasem Polska ma największy niedobór lekarzy w Unii Europejskiej.
    • Zostaną kolejki, bo został papier
      Pacjent zostawi papierowe skierowanie na badanie w jednej przychodni i w drugiej już nie będzie mógł się na nie zapisać: to rozwiązanie ma zlikwidować kolejki do leczenia. – Pomysł anachroniczny i nieskuteczny – komentują eksperci.
    • Samorząd to my wszyscy
      – Oczekiwania rosną. Lekarze oczekują, że izby będą ich bronić przed medialnymi atakami, organizować kursy i szkolenia zawodowe. Te oczekiwania nie przeszkadzają jednak kwestionować pomysłu podniesienia składki – mówi w rozmowie z mp.pl Konstanty Radziwiłł, sekretarz NRL.