Korzystając ze stron oraz aplikacji mobilnych Medycyny Praktycznej wyrażasz zgodę na używanie cookies, zgodnie z aktualnymi ustawieniami przeglądarki oraz zgodnie z Polityką Medycyny Praktycznej dotyczącą plików cookies.
21 kwietnia 2014 roku
poczta
zaloguj się
 
medycyna praktyczna dla lekarzy

Rodzaje cech statystycznych
Statystyki opisowe - miary zmienności, asymetrii i koncentracji

22.02.2000
mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie
Miary zmienności

W poprzednim odcinku poznaliśmy liczby opisujące "środek" zbioru danych. Liczby te nie dają jednak pełnego wizerunku naszego zbioru. Na przykład w dwu grupach chorych zmierzono skurczowe ciśnienie tętnicze i otrzymano następujące wyniki (w mm Hg):
- grupa I: 145, 125, 130, 155, 140, 150, 135
- grupa II: 115, 150, 100, 180, 140, 165, 130.

Po wykonaniu obliczeń okazuje się, że średnia i mediana są takie same w obu grupach i wynoszą 140 mm Hg.

Patrząc na te dane, zauważymy jednak, że wartości w drugiej grupie są bardziej rozproszone niż w pierwszej. Aby uzyskać lepsze wyobrażenie o naszych danych, potrzebujemy innego rodzaju liczb "podsumowujących" - miar zmienności (rozrzutu, rozproszenia). Razem ze statystykami opisowymi dostarczają one bardzo zwięzłego opisu danych. Istnieją trzy rodzaje miar zmienności: rozstęp, wariancja i odchylenie standardowe.

Najprostszą miarą zmienności jest rozstęp (czyli różnica między wynikiem największym a najmniejszym [R = xmax - xmin]). Nie jest to jednak miara doskonała. Można sobie bowiem łatwo wyobrazić dwa różne szeregi o jednakowych rozstępach - wartości odstające mogą spowodować, że dane różniące się bardzo między sobą będą miały podobne rozstępy.

W praktyce najczęciej stosuje się dwie miary: wariancję i odchylenie standardowe. Wariancją zmiennej X nazywamy średnią arytmetyczną kwadratów odchyleń poszczególnych wartości zmiennej od średniej arytmetycznej całej zbiorowości.

Jest to jedno z  ważniejszych pojęć w statystyce, i będziemy się z nim spotykać prawie we wszystkich rodzajach wnioskowań statystycznych. Pamiętajmy: im większa wariancja, tym bardziej rozproszone są wyniki naszych pomiarów. Podzielmy całą zbiorowoć według pewnych kryteriów na k grup. Wówczas wariancja dla całej zbiorowości (wariancja ogólna) równa się sumie dwóch składników: średniej arytmetycznej wewnątrzgrupowych wariancji wartości zmiennej (wariancja wewnątrzgrupowa) oraz wariancji średnich grupowych wartości tej zmiennej (wariancja międzygrupowa). Spostrzeżenie to jest podstawą tzw. analizy wariancji, często okrelanej skrótem ANOVA (Analysis of Variance).

Gdy chcemy uzyskać miarę zróżnicowania o mianie zgodnym z mianem zmiennej, obliczamy pierwiastek kwadratowy z wariancji, czyli tzw. odchylenie standardowe (standard deviation - SD).* Odchylenie standardowe jest obok średniej najczęciej stosowanym parametrem statystycznym, który ma następujące podstawowe własności:

1. Odchylenie standardowe oblicza się ze wszystkich wyników. Im zbiorowość jest bardziej zróżnicowana, tym odchylenie standardowe jest większe. W  przedstawionych powyżej dwu grupach chorych odchylenia standardowe wynoszą: w  pierwszej - 10,8, a w drugiej - 27,83. Widać więc, że pomiary w drugiej grupie są bardziej rozproszone niż w pierwszej.

2. Odchylenie standardowe spełnia regułę trzech sigm (rys. 1), według której w przypadku rozkładu normalnego lub zbliżonego do normalnego blisko 31,73% wszystkich wyników różni się od średniej arytmetycznej o więcej niż +/- SD;
tylko 5% obserwacji wykracza poza przedział ( - 2SD, + 2SD);
tylko 0,3% wszystkich obserwacji wykracza poza przedział ( - 3SD, + 3SD).


Rys 1. Reguła trzech sigm

Dotychczas omówione miary zmienności służą do okrelenia absolutnej wielkości zróżnicowania wyników naszej obserwacji i są liczbami mianowanymi, podobnie jak statystyki opisowe. Stwarza to trudności przy porównywaniu zmienności w dwu lub kilku grupach danych. Dlatego wprowadzono nową miarę, zwaną współczynnikiem zmienności - jest to stosunek odchylenia standardowego do średniej arytmetycznej (V = SD/ x 100%). Dla naszych grup, w których badaliśmy ciśnienie tętnicze, współczynniki zmienności wynoszą odpowiednio: 7,71% dla pierwszej grupy i 19,88% (czyli prawie 2,5 raza większy) dla drugiej grupy.

Miary asymetrii

W pewnych sytuacjach badanie średniej wartości zmiennej i rozproszenia wartości zmiennej nie wskazuje na istnienie różnic między badanymi zbiorowościami, natomiast obserwacja rozkładów tych cech wyklucza podobieństwo.

Przykład: w trzech 100-osobowych grupach badano czas reakcji na lek. Dane przedstawiono w postaci tabeli.

Czas reakcji Grupa 1 Grupa 2 Grupa 3
10-20 10 5 10
20-30 20 35 25
30-40 40 25 25
40-50 20 25 35
50-60 10 10 5

Średnia arytmetyczna i wariancja są jednakowe dla wszystkich grup i wynoszą odpowiednio = 35, s2 = 120. Mimo to istnieją duże różnice, co widać wyraźnie na histogramach na rysunku 2.

Można zauważyć, że u większości osób w grupie 2. czas reakcji na lek jest krótszy, natomiast w grupie 3. - dłuższy od przeciętnego. Związane to jest z  asymetrią rozkładu. Spotyka się trzy sytuacje rysunek 3:

   = Me = Mo - rozkład symetryczny
   > Me > Mo - rozkład o asymetrii prawostronnej
   < Me < Mo - rozkład o asymetrii lewostronnej

Do określania kierunku i siły asymetrii wprowadzono współczynnik asymetrii (skośność [skewness], symbol - As). Współczynnik ten jest cennym narzędziem analizy statystycznej. Sama średnia arytmetyczna mówi niewiele. Dopiero w połączeniu z miarą zmienności i miarą asymetrii otrzymujemy pełny obraz różnic, jakie istnieją między szeregami zmiennej. Współczynnik asymetrii równy zeru wskazuje na symetrię rozkładu zmiennej, wartość dodatnia oznacza asymetrię prawostronną (rozkład ma dłuższy prawy "ogon"), a wartość ujemna - asymetrię lewostronną (rozkład ma dłuższy lewy "ogon").

W naszym przykładzie As dla grupy 1. wynosi 0 (rozkład symetryczny), dla grupy 2. - 0,2317 (asymetria prawostronna), a dla grupy 3. - -0,2317 (asymetria lewostronna).

Miary koncentracji

Miary koncentracji (skupienia) doskonale uzupełniają dotychczas poznane parametry. Opisują one koncentrację wartości cechy wokół średniej.
Najpopularniejszą miarą skupienia wyników wokół średniej jest kurtoza (kurtosis, K). Im większa jest wartość K, tym bardziej wysmukła krzywa liczebności, a zatem większa koncentracja wartości zmiennej wokół średniej. Jeżeli K <0, to rozkład jest bardziej spłaszczony od normalnego, a jeżeli K >0 - bardziej wysmukły (rys. 4).


Rys 4. Krzywe liczebności z różną miarą koncentracji

O tym się mówi

  • Los rezydenta
    Jesteśmy traktowani jak tania siła robocza zarówno przez dyrekcje szpitali, jak i starszych kolegów – skarżą się rezydenci.
  • Rektor ŚUM broni studiów z homeopatii
    Autorytet uczelni buduje się poprzez otwartość na myśli i poglądy - napisał rektor Śląskiego Uniwersytu Medycznego prof. Przemysław Jałowiecki.
  • Główny problem to brak lekarzy
    Są w dużej części nieprecyzyjne i widać, że pisane w pośpiechu. Część rozwiązań ma charakter techniczny i nie dotyka istoty sprawy - tak projekty "pakietu antykolejkowego" ocenia była prezes NFZ Agnieszka Pachciarz.
  • MZ planuje zmiany w zakresie przepisywania leków
    Ministerstwo Zdrowia przedstawiło 8 kwietnia do konsultacji projekty, które wspólnie tworzą „pakiet antykolejkowy” zapowiedziany przez Bartosza Arłukowicza. Jakie zmiany dotyczą kwestii wypisywania recept?

Wideo

Konferencje MP