Korzystając ze stron oraz aplikacji mobilnych Medycyny Praktycznej, wyrażasz zgodę na używanie cookies zgodnie z aktualnymi ustawieniami przeglądarki oraz zgodnie z polityką Medycyny Praktycznej dotyczącą plików cookies.
27 listopada 2014 roku
poczta
zaloguj się
 
medycyna praktyczna dla lekarzy
 

Testy zgodności

17.06.2000
mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof. dr hab. Andrzej Żarnecki)

Testy zgodności dotyczą postaci rozkładu teoretycznego badanej zmiennej losowej skokowej lub ciągłej. Weryfikują one stawiane przez badaczy hipotezy dotyczące rozkładu zmiennej losowej. Celem tych testów jest porównanie rozkładów dwóch cech w jednej populacji lub jednej cechy w dwóch populacjach. Są to oczywiście dwa różne zagadnienia, jednakże metody obliczeniowe są w obu przypadkach podobne. Idea tych testów jest oczywista - jeśli jakaś cecha w dwóch populacjach ma taki sam rozkład, to wartości liczbowe pewnych statystyk (np. średnia, mediana) dla obu populacji powinny się niewiele różnić. Jeśli jednak wartości te będą istotnie różnie, to mamy prawo sądzić, że cecha ma odmienny rozkład w różnych populacjach.

Do najczęściej formułowanych hipotez tego rodzaju należy hipoteza o  normalności rozkładu zmiennej losowej ciągłej X:
H0: X ma rozkład normalny N(m, sigma)
przy hipotezie alternatywnej:
H1: X nie ma rozkładu normalnego N(m, sigma)
gdzie m i sigma (wartość oczekiwana i  odchylenie standardowe) to parametry rozkładu normalnego.

W hipotezie zerowej zakładamy, że n-elementowa próba losowa pochodzi ze zbiorowości generalnej, w której rozkład obserwowanej zmiennej losowej jest normalny.
Rozkład normalny jest bowiem jednym z najważniejszych rozkładów w  biologii. Poświęca mu się dużo uwagi, ponieważ rozwiązanie wielu zagadnień statystycznych jest "prostsze", jeśli analizowana cecha ma rozkład normalny. Wiele analiz statystycznych i testów wymaga też założenia o normalności rozważanej zmiennej (testy t-Studenta, analiza wariancji, analiza regresji, analiza kanoniczna itd.). Dlatego musimy przeprowadzić weryfikację charakteru rozkładu, ilekroć chcemy zastosować analizy statystyczne, które wymagają danych o określonym rozkładzie.

Testom normalności, czyli testom weryfikującym wyżej postawioną hipotezę poświęcony jest obecny artykuł. Chodzi oczywiście o jednowymiarowe rozkłady normalne, gdyż rozkładów wielowymiarowych nie można w prosty sposób zweryfikować.

Do najczęściej stosowanych testów weryfikujących normalność rozkładów należą:

  • test Kołmogorowa i Smirnowa
    Test ten opiera się na porównaniu procentów skumulowanych zaobserwowanych z oczekiwanymi. Jako wartość testu podawana jest maksymalna różnica bezwzględna pomiędzy zaobserwowanymi i oczekiwanymi procentami skumulowanymi. Test ten wymaga jednak znajomości parametrów rozkładu (średniej i odchylenia standardowego całej populacji). Gdy ich nie znamy, a tak jest najczęściej, stosujemy test Kołmogorowa i Smirnowa z poprawką Lillieforsa.
  • test W Shapiro i Wilka
    Test ten jest najbardziej polecany, ze względu na dużą moc. Można go również stosować do małych prób.
  • test Pearsona
    W celu weryfikacji hipotezy o  normalności rozkładu wyniki próby dzielone są na rozłączne klasy, a następnie porównuje się liczebności: obserwowaną i oczekiwaną w każdej z tych klas. Jeśli liczebności te różnią się istotnie, to prawdopodobnie dana próba nie pochodzi z  populacji, w której rozkład obserwowanej zmiennej losowej jest normalny. We wszystkich tych testach, jeśli statystyki okażą się istotne (tzn. p <0,05), to odrzucamy hipotezę zerową o zgodności danych z rozkładem normalnym. Oznacza to, że dana zmienna (cecha) nie ma rozkładu normalnego. Na przykład sprawdzimy, czy zmienne "wiek" i "waga" mają rozkład normalny. Wartości tych zmiennych dla 20-elementowej próby podaje tabela

    wiek1834485621742347435441363156276569421934
    waga51,552614860,5717049,548,5738749545147,55980727152

    Oczywiście nie będziemy przeprowadzać żadnych obliczeń, bo w epoce mikrokomputerów nikt już nie liczy "na piechotę". Najważniejsze jest przecież właściwe zinterpretowanie otrzymanych wyników. Do weryfikacji hipotezy H0 wykorzystamy test W Shapiro i Wilka z pakietu statystycznego.

    W pakiecie STATISTICA w wyniku przeprowadzonej analizy otrzymujemy arkusze wyników, których zasadnicze fragmenty pokazują poniższe rysunki.

    Jak widzimy, dla zmiennej "wiek" (rysunek 1) poziom istotności to: p <0,5381. Nie mamy więc podstaw do odrzucenia hipotezy zerowej. Możemy więc przypuszczać, że pobrana próba losowa 20 pacjentów pochodzi z populacji, w której zmienna "wiek" ma rozkład normalny.

    Dla wagi (rysunek 2) sytuacja jest odmienna. Tym razem p <0,0159, więc hipotezę zerową o  normalności rozkładu tej zmiennej odrzucamy.

    Otrzymane wyniki testu możemy połączyć z histogramem przedstawiającym rozkład analizowanej zmiennej (rysunek 3). Histogram po lewej stronie przedstawia rozkład zmiennej "wiek" (rozkład normalny), a po prawej - rozkład zmiennej "waga" (rozkład nie jest normalny). Widać wyraźną różnicę w kształcie histogramu. Na tle liczebności obserwowanych program rysuje też dopasowaną krzywą rozkładu normalnego. Histogram po lewej stronie bardziej "pasuje" do narysowanej krzywej.

    Obok histogramu istnieje inna również interesująca interpretacja graficzna analizowanego zagadnienia. Są to tzw. normalne wykresy prawdopodobieństwa. Takie wykresy dla naszych przykładowych zmiennych "wiek" (lewa strona) i "waga" (prawa strona) przedstawia rysunek 4.

    Jeżeli rozkład jest normalny, wówczas punkty powinny leżeć na linii prostej (lewa strona); w przeciwnym razie punkty odchylają się od prostej (prawa strona). Na wykresie tym mogą ujawnić się również punkty odstające. Wykres ten pozwala więc ocenić odstępstwa rozkładu empirycznego od rozkładu normalnego, dlatego nazywany jest testem "na rzut oka", sprawdzającym normalność rozkładu analizowanej zmiennej. Im bardziej bowiem wszystkie punkty układają się na prostej, tym bardziej mamy prawo sądzić, że dany rozkład jest normalny. Jeśli punkty tworzą jakiś wzór wokół prostej (np. literę S), program podpowiada, że należy zastosować odpowiednie przekształcenie (np. logarytmiczne, "rozciągające" ogony rozkładu) w celu otrzymania rozkładu normalnego (rys. 5).

    Rys. 5. Normalny wykres prawdopodobieństwa

    Na zakończenie przyjrzymy się jeszcze jednemu popularnemu wykresowi. Są to tzw. skrzynki z wąsami (Box And Whiskers), pokazujące zakresy wybranej zmiennej (zmiennych) oraz statystyki opisowe (średnia, mediana, odchylenie standardowe lub błąd standardowy). Na wykresie mogą również być wykreślone odstające punkty danych. Wykres ten wprowadził w 1977 roku J. Tukey. Do czasu pojawienia się pakietów statystycznych był on mało popularny. Dopiero szybkie komputery spopularyzowały takie prezentowanie statystyk pozycyjnych. Możemy utworzyć cztery grupy wykresów ramkowych w zależności od wybranej opcji:

    • punkt centralny - mediana, ramka - kwartyle, wąsy - rozstęp
    • punkt centralny - średnia, ramka - błąd standardowy, wąsy - odchylenie standardowe
    • punkt centralny - średnia, ramka - odchylenie standardowe, wąsy - 95% przedział ufności dla poszczególnych obserwacji wokół średniej
    • punkt centralny - średnia, ramka - błąd standardowy, wąsy - 95% przedział ufności dla wartości średniej
    Przykładowy wykres typu "skrzynka z  wąsami" dla zmiennych "wiek" i "waga" przedstawia rysunek 6. Widać znaczną różnicę w długości "wąsów" i niesymetryczne położenie mediany zmiennej "waga" wskazujące na dużą asymetrię prawostronną. Asymetria taka wyklucza oczywiście rozkład normalny. Rozkład normalny jest bowiem idealnie symetryczny.
  • O tym się mówi

    • Uczelnie medyczne nie chcą konkurencji
      To już pewne: dwie uczelnie niemedyczne – Uniwersytet Jana Kochanowskiego z Kielc i Uniwersytet Rzeszowski – od przyszłego roku zaczną kształcić lekarzy. Na ostatniej prostej jest Uniwersytet Zielonogórski. Uczelnie medyczne protestują, obawiając się odpływu pieniędzy i kadry - pisze "Dziennik Gazeta Prawna".
    • Wyniki wyborów wstrzymają pakiet?
      Co wspólnego mają wybory samorządowe z pakietem onkologicznym? Mogą mieć, i to bardzo dużo. Już kilka godzin po ogłoszeniu sondażowych wyników prominentni politycy PO zaczęli mówić o konieczności pilnego przeglądu planów ministerstw.
    • Przełom w sprawie refundacji leków?
      Narodowy Fundusz Zdrowia nie może żądać od lekarza zwrotu pieniędzy za leki przepisane na błędnie wypełnionej recepcie, jeśli pacjentowi naprawdę były potrzebne - orzekł Sąd Najwyższy.
    • Nieodrobiona lekcja refundacyjna
      Nawet jeśli MZ zdąży z wydaniem rozporządzeń, a NFZ - zarządzeń do pakietu onkologicznego, świadczeniodawcy nie będą mieć szans zapoznania się z nowymi przepisami z odpowiednim wyprzedzeniem i zaplanowania działań w zmienionej rzeczywistości prawnej.
    • REKLAMA
      Mechanizm działania i metabolizm winpocetyny – dawki terapeutyczne

      Winpocetyna jest związkiem o złożonym mechanizmie działania, wynikającym z wielu mechanizmów farmakologicznych. Efekt terapeutyczny wywołuje blokowanie kanałów Na+, Ca2+, blokowanie fosfodiesterazy 1 (PDE1), łączenie się z receptorami glutaminowymi NMDA i AMPA oraz ich blokowanie, a także blokowanie wychwytu zwrotnego adenozyny.
      Dowiedz się więcej.
      Partner portalu lekforte.pl Cavinton®Forte