Korzystając ze stron oraz aplikacji mobilnych Medycyny Praktycznej, wyrażasz zgodę na używanie cookies zgodnie z aktualnymi ustawieniami przeglądarki oraz zgodnie z polityką Medycyny Praktycznej dotyczącą plików cookies.
24 lipca 2014 roku
poczta
zaloguj się
 
medycyna praktyczna dla lekarzy
 

Analiza korelacji

04.07.2001
mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof. dr hab. med. Andrzej Żarnecki)

Podstawy statystyki dla prowadzących badania naukowe

Większość zjawisk w otaczającym nas świecie występuje w różnorodnych związkach. Odnosi się to również do zjawisk biologiczno-medycznych. O  powiązaniach między nimi mówią prawa botaniki, zoologii, fizjologii, biochemii i  innych nauk. Statystyka dostarcza narzędzi, które pozwalają te powiązania zweryfikować. Statystyczny opis umożliwia lepsze ich zrozumienie i  modyfikowanie. Często słyszymy stwierdzenie: "rak płuc jest powiązany z paleniem papierosów". Oznacza to, że im więcej papierosów się pali, tym bardziej prawdopodobne jest zachorowanie na raka. Mówimy, że im więcej jednego, tym więcej drugiego. Zamiast używać nieprecyzyjnych słów (więcej, mało itp.) statystycy wolą w ocenie używać liczb. Dlatego powstała matematyczna teoria korelacji i regresji, stanowiąca narzędzie dokładnego określania stopnia powiązania zmiennych ze sobą. Podstawowym problemem statystyki jest stwierdzenie, czy między zmiennymi zachodzi jakiś związek i czy jest on bardziej czy mniej ścisły. Analiza regresji i korelacji to jedna z najważniejszych i  najszerzej stosowanych metod statystycznych. Poświęcimy im więc kilka najbliższych odcinków, a zaczniemy od korelacji.

Dwie zmienne mogą być powiązane zależnością funkcyjną lub zależnością statystyczną (korelacyjną). Związek funkcyjny odznacza się tym, że każdej wartości jednej zmiennej niezależnej (będziemy ją oznaczać jako X) odpowiada tylko jedna, jednoznacznie określona wartość zmiennej zależnej (Y). Wiadomo na przykład, że obwód kwadratu jest funkcją jego boku (O = 4a).

Związek statystyczny polega na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej. Można zatem obliczyć, jak się zmieni (średnio biorąc) wartość zmiennej zależnej Y w  zależności od wartości zmiennej niezależnej X. Oczywiście najpierw na podstawie analizy merytorycznej należy logicznie uzasadnić występowanie związku, a dopiero potem przystąpić do określenia siły i kierunku zależności. Znane są bowiem w literaturze badania zależności (nawet istotnej statystycznie) między liczbą zajętych gniazd bocianich a liczbą urodzeń na danym obszarze czy między liczbą zarejestrowanych odbiorników TV a liczbą chorych umysłowo. Zwróćmy też uwagę, że liczbowe stwierdzenie występowania zależności nie zawsze oznacza występowanie związku przyczynowo-skutkowego między badanymi zmiennymi. Współwystępowanie dwóch zjawisk może również wynikać z bezpośredniego oddziaływania na nie jeszcze innego, trzeciego zjawiska.

W analizie korelacji badacz jednakowo traktuje obie zmienne - nie wyróżniamy zmiennej zależnej i niezależnej. Korelacja między XY jest taka sama, jak między Y i X. Mówi nam ona, na ile obie zmienne zmieniają się równocześnie w sposób liniowy. Precyzyjna definicja zaś brzmi:

Korelacja między zmiennymi X i Y jest miarą siły liniowego związku między tymi zmiennymi.

Analizę związku korelacyjnego między badanymi cechami rozpoczynamy zawsze od sporządzenia wykresu. Wykresy, które reprezentują obrazowo związek pomiędzy zmiennymi, nazywane są wykresami rozrzutu (scatterplot). Wzrokowa ocena ułatwia określenie siły i rodzaju zależności. Przyjmijmy, że zbiorowość jest badana ze względu na dwie zmienne XY, a wartości tych zmiennych w populacji lub próbie n-elementowej są zestawione w postaci dwóch szeregów szczegółowych lub rozdzielczych. W prostokątnym układzie współrzędnych na osi odciętych zaznaczamy wartości jednej zmiennej, a na osi rzędnych - wartości drugiej zmiennej. Punkty odpowiadające poszczególnym wartościom cech tworzą korelacyjny wykres rozrzutu. Rzadko się zdarza, że zaznaczone punkty leżą dokładnie na linii prostej (pełna korelacja); częściej spotykana konfiguracja składa się z wielu zaznaczonych punktów leżących mniej więcej wzdłuż konkretnej krzywej (najczęściej linii prostej). Taka sytuacja przedstawiona jest jako przypadek 1. i 2. na rysunku 1. Przy silnie skorelowanych zmiennych odnosimy wrażenie, jakby te punkty równocześnie się poruszały. Gdy korelacja staje się coraz słabsza, wówczas punkty zaczynają się rozpraszać i przesuwać, tworząc w  pewnym momencie bezkształtną chmurę punktów (brak korelacji). Taka sytuacja ma miejsce w przypadku 3. na rysunku 1. Korelacja dodatnia występuje wtedy, gdy wzrostowi wartości jednej zmiennej odpowiada wzrost średnich wartości drugiej zmiennej (przypadek 1. na rys. 1). Korelacja ujemna występuje wtedy, gdy wzrostowi wartości jednej zmiennej odpowiada spadek średnich wartości drugiej zmiennej (przypadek 2. na rys. 1).

Rys. 1. Korelacyjne wykresy rozrzutu; 1 - korelacja liniowa dodatnia, 2 - korelacja liniowa ujemna, 3 - brak korelacji, 4 - korelacja krzywoliniowa

Siłę współzależności dwóch zmiennych można wyrazić liczbowo za pomocą wielu mierników. Najbardziej popularny jest współczynnik korelacji liniowej Pearsona, oznaczony symbolem rXY i przyjmujący wartości z  przedziału [-1, 1]. Należy zwrócić uwagę, że współczynnik korelacji Pearsona wyliczamy wówczas, gdy obie zmienne są mierzalne i mają rozkład zbliżony do normalnego, a zależność jest prostoliniowa (stąd nazwa). Przy interpretacji współczynnika korelacji liniowej Pearsona należy więc pamiętać, że wartość współczynnika bliska zeru nie zawsze oznacza brak zależności, a jedynie brak zależności liniowej.

Znak współczynnika korelacji informuje nas o kierunku korelacji, natomiast jego bezwzględna wartość - o sile związku. Oczywiście rXY jest równe rYX. Jeśli rXY = 0, oznacza to zupełny brak związku korelacyjnego między badanymi zmiennymi XY (przypadek 3. na rys. 1). Im wartość bezwzględna współczynnika korelacji jest bliższa jedności, tym zależność korelacyjna między zmiennymi jest silniejsza. Gdy rXY = I1I, to zależność korelacyjna przechodzi w zależność funkcyjną (funkcja liniowa).

W analizie statystycznej zwykle przyjmuje się następującą skalę:

rXY = 0 zmienne nie są skorelowane

0 <rXY <0,1 korelacja nikła

0,1 =<rXY <0,3 korelacja słaba

0,3 =<rXY <0,5 korelacja przeciętna

0,5 =<rXY <0,7 korelacja wysoka

0,7 =<rXY <0,9 korelacja bardzo wysoka

0,9 =<rXY <1 korelacja prawie pełna.

Przedstawiona skala jest oczywiście umowna; w literaturze można spotkać również inne określenia.

Tak jak wartość innych parametrów populacji współczynnik korelacji (w populacji) nie jest znany i musimy go oszacować na podstawie znajomości losowej próby par wyników obserwacji zmiennych XY. Tak wyliczony z  próby współczynnik rXY jest estymatorem współczynnika korelacji <M>r w populacji generalnej, a jego wartość liczbowa stanowi ocenę punktową siły powiązania w całej populacji. Stąd konieczność testowania istotności współczynnika korelacji wyliczonego w oparciu o próbę losową. Najpowszechniej stosowany test polega na sprawdzeniu, czy zmienne XY są w ogóle skorelowane. Weryfikujemy więc następujący układ hipotez:

H0: r = 0

H1: r różne od 0

Weryfikacja tej hipotezy zerowej pomoże nam w ocenie, czy istniejąca zależność między XY w próbie jest tylko przypadkowa, czy też jest prawidłowością w populacji. Dlatego test istotności współczynnika korelacji Pearsona spotykamy we wszystkich pakietach statystycznych.

W programie STATISTICA do analizy korelacji służy opcja Macierze korelacji w module PODSTAWOWE STATYSTYKI I TABELE. Po wybraniu tej opcji i naciśnięciu OK (lub po dwukrotnym kliknięciu na nazwie opcji) otwiera się okno Współczynnik korelacji liniowej Pearsona, przedstawione na rysunku 2.

Rys. 2. Okno dialogowe Współczynnik korelacji liniowej Pearsona

Przycisk Korelacje wywołuje arkusz wyników. Jego postać zależy od wyboru dokonanego w grupie opcji Wyniki. Do wyboru mamy:

Macierz kor. (podświetl p) - wyświetlana jest tylko macierz korelacji

Macierz kor. (pokaż p i N) - wyświetlane są współczynniki korelacji wraz z odpowiednimi poziomami istotności. Przykład takiego okna wyników widać na rysunku 3.

Rys. 3. Okno z  wynikami

Dokładna tabela wyników - wyświetlona jest pełna informacja o  przeprowadzonej analizie. Rysunek 4. pokazuje przykładową tabelę wyników dla dwóch zmiennych wraz z objaśnieniami poszczególnych jej pól.

Rys. 4. Okno z  wynikami - opcja Dokładna tabela wyników

[1]
średnie arytmetyczne wybranych zmiennych
[2]
odchylenia standardowe
[3]
współczynnik korelacji Pearsona
[4]
współczynnik determinacji (R2 - kwadrat współczynnika korelacji). Jest to opisowa miara dokładności dopasowania regresji do danych empirycznych. Przyjmuje wartości z przedziału <0, 1> lub w ujęciu procentowym <0, 100%> i  informuje (zgodnie z zapisem), jaka część zaobserwowanej w próbie całkowitej zmienności Y została wyjaśniona (zdeterminowana) regresją względem X. Im większe R2, tym powiązanie jest lepsze, i można mieć większe zaufanie do ewentualnej linii regresji.
[5]
wartość statystyki t badającej istotność współczynnika korelacji
[6]
poziom istotności
[7]
liczebność grupy
[8]
wyraz wolny regresji liniowej Y względem X
[9]
współczynnik regresji liniowej zmiennej Y względem zmiennej X
[10]
wyraz wolny regresji liniowej X względem Y
[11]
współczynnik regresji liniowej zmiennej X względem zmiennej Y.

Punkty [8] i [9] umożliwiają wyliczenie funkcji regresji zmiennej Y względem X i funkcji regresji zmiennej X względem Y, opisujących analityczną postać zależności pomiędzy zmiennymi. Pojęcie regresji zostanie omówione dokładniej w kolejnym odcinku.

Powyższe rozważania teoretyczne zilustrujemy dwoma przykładami. W pierwszym analizujemy 16-osobową grupę wybraną losowo z populacji dzieci i młodzieży. W  grupie tej dokonujemy pomiaru wieku (w latach) i wzrostu (w cm). Otrzymane wyniki przedstawia tabela 1.

Tabela 1

Wiek

7

8

9

10

11

11

5

12

13

14

14

15

16

17

18

18

5

19

Wzrost

122

123

125

131

136

140

141

146

145

150

155

160

158

164

168

170

   

Chcemy zbadać siłę i kierunek zależności między wiekiem a wzrostem. Po wprowadzeniu danych i wykonaniu analizy korelacji (wywołanej przyciskiem Korelacje) otrzymujemy arkusz wyników (rys. 5).

Rys. 5. Arkusz wyników dla danych z  przykładu pierwszego

Jak widać, pomiędzy wiekiem i wzrostem zachodzi prawie pełna, wysoce istotna korelacja. Wartość współczynnika korelacji wynosi aż 0,988. Ponadto, jak mówi o  tym współczynnik determinacji, zmienność jednej cechy (np. wzrostu) jest prawie w 98% wyjaśniona zmiennością drugiej (czyli wieku). Tę idealną sytuację pokazuje wykres rozrzutu (rys. 6).

Rys. 6. Wykres rozrzutu danych z  przykładu pierwszego

Jest to wykres prostej regresji wzrostu osoby badanej względem wieku; na rysunku zaznaczono też 95% przedział ufności linii regresji (obszar zaznaczony przerywanymi liniami).

Drugi przykład pokazuje sytuację nieco bardziej złożoną. Wysunięto hipotezę, że istnieje związek między czasem leczenia chorych na chorobę układu krążenia a  aktywnością pewnego enzymu w ich organizmie. Losowa próba dała wyniki przedstawione w tabeli 2 (czas leczenia w dniach).

Tabela 2

Kobiety

 

Mężczyźni

 

Czas leczenia (dni)

Aktywność enzymu

Czas leczenia (dni)

Aktywność enzymu

1

41

1

42

2

44

2

40

3

35

3

37

4

43

4

39

5

35

5

36

8

43

7

35

10

36

10

30

 

 

14

26

 

 

18

22

 

 

20

20

 

 

24

42

 

 

26

41

Czy korelacja aktywności enzymu względem czasu leczenia jest istotna (na poziomie istotności 0,05)? Jak wygląda ewentualna linia regresji?

Po wprowadzeniu danych do programu STATISTICA i wykonaniu analizy korelacji otrzymujemy wynik jak na rysunku 7.

Rys. 7. Okno z  wynikami - przykład drugi

Tabela wskazuje na brak istotnej korelacji (w próbie wynosiła ona r = -0,404). Spróbujmy znaleźć przyczynę braku istotności korelacji. Wykorzystamy w  tym celu wykres rozrzutu (rys. 8).

Rys. 8. Wykres rozrzutu - przykład drugi

Notabene powinniśmy od niego zacząć analizę korelacji. Wykres ten wskazuje na istnienie dwóch skrajnych wartości, których odrzucenie zmienia całkiem wynik obliczeń. Na rysunku są one zaznaczone kółkiem. Usuwamy więc podejrzane punkty z  analizy. Wynik ponownej analizy po odrzuceniu skrajnych wartości przedstawia rysunek 9.

Rys. 9. Okno z  wynikami - po usunięciu dwóch punktów

Mamy całkowicie odmienną sytuację. Tym razem stwierdzamy, że między aktywnością enzymu a czasem leczenia istnieje wysoka współzależność (r = -0,9). Zależność ta jest istotnie statystyczna nawet na poziomie istotności wynoszącym p = 0,000001. Równanie regresji przyjmuje postać AKTYWNOŚĆ_ENZYMU = -1,114 x CZAS LECZENIA + 43,1374. Współczynnik determinacji (0,81) świadczy o dobrym dopasowaniu funkcji regresji do danych empirycznych. Tylko niecałe 19% informacji o aktywności enzymu nie zostało wyjaśnione przez zmienną "Czas leczenia". Przykład ten zwraca uwagę na możliwość wystąpienia tzw. punktów odstających, które mogą całkowicie zaburzyć wyniki analizy korelacji i regresji. Dlatego punktom tym przyjrzymy się dokładnie w następnych odcinkach. Wykorzystując fakt, że podano płeć pacjentów, możemy sporządzić tzw. skategoryzowany wykres rozrzutu (rys. 10).

Rys. 10. Skategoryzowany wykres rozrzutu

Otrzymamy go po kliknięciu przycisku Skategoryzowany wykres rozrzutu (p. rys. 2). Jako zmienną grupującą wybieramy płeć (kobiety, mężczyźni).

Otrzymany rysunek znów nas zaskakuje, widzimy bowiem inny rodzaj zależności w  tych podgrupach niż dla całej rozważanej próby. Dla mężczyzn mamy prawie doskonałą korelację, podczas gdy dla kobiet prawdopodobnie korelacji nie ma. Być może przyczyną takiej sytuacji jest mała liczebność próby. W takim przypadku zalecane jest powtórzenie badania w większej grupie osób.

O tym się mówi

  • Zostaną kolejki, bo został papier
    Pacjent zostawi papierowe skierowanie na badanie w jednej przychodni i w drugiej już nie będzie mógł się na nie zapisać: to rozwiązanie ma zlikwidować kolejki do leczenia. – Pomysł anachroniczny i nieskuteczny – komentują eksperci.
  • Samorząd to my wszyscy
    – Oczekiwania rosną. Lekarze oczekują, że izby będą ich bronić przed medialnymi atakami, organizować kursy i szkolenia zawodowe. Te oczekiwania nie przeszkadzają jednak kwestionować pomysłu podniesienia składki – mówi w rozmowie z mp.pl Konstanty Radziwiłł, sekretarz NRL.
  • Szpitale na bakier z prawem pracy
    W 2013 r. stan przestrzegania przepisów prawa pracy w podmiotach leczniczych uległ pogorszeniu w stosunku do roku poprzedniego - alarmuje Państwowa Inspekcja Pracy. Na czym polegają najbardziej jaskrawe nierawidłowości?
  • Nie jest to rola chwalebna
    Obowiązkiem dziennikarza jest bezstronność. Bez bezstronności nie ma wiarygodności, a bez wiarygodności dziennikarz przestaje być dziennikarzem, a staje się propagandzistą. Jak było w przypadku tzw. sprawy prof. Chazana? W jakim kierunku zmierza dyskusja?