Korzystając ze stron oraz aplikacji mobilnych Medycyny Praktycznej, wyrażasz zgodę na używanie cookies zgodnie z aktualnymi ustawieniami przeglądarki oraz zgodnie z polityką Medycyny Praktycznej dotyczącą plików cookies.
23 grudnia 2014 roku
poczta
zaloguj się
 
medycyna praktyczna dla lekarzy
 

Analiza dyskryminacyjna

Poleć:
Udostępnij:
04.09.2002
mgr Andrzej Stanisz
z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie
(Kierownik Zakładu: prof. dr hab. inż. Ryszard Tadeusiewicz)
Aby we właściwym momencie zastosować odpowiednie postępowanie zapobiegawcze przy żółtaczce noworodków, powinniśmy już w pierwszym dniu życia noworodka umieć przewidzieć, które dziecko może zachorować na nią w najbliższym czasie. W takiej sytuacji ważną rzeczą staje się znalezienie takich parametrów związanych z noworodkiem lub jego matką, które decydowałyby w różnym stopniu o możliwości wystąpienia żółtaczki. Przedstawiony powyżej problem to typowe zagadnienie wielowymiarowej gałęzi statystyki nazywanej analizą dyskryminacyjną. Analiza dyskryminacyjna jest bowiem stosowana do rozstrzygania, które zmienne wyróżniają (dyskryminują) dwie lub więcej naturalnie wyłaniających się grup. Poszukuje ona reguł postępowania mającego na celu przyporządkowanie wielowymiarowych obiektów do jednej z wielu populacji o znanych parametrach przy możliwie minimalnych błędach klasyfikacji. Ten dział statystyki ma szerokie zastosowanie w naukach biologiczno-medycznych.
W badaniach medycznych możemy na przykład rejestrować różne zmienne biochemiczne związane z przeszłością pacjentów, aby sprawdzić, które zmienne najlepiej prognozują całkowite wyleczenie (grupa 1), częściowe wyleczenie (grupa 2) czy też brak szybkiego powrotu do zdrowia (grupa 3). Jak jednak sprawdzić, które zmienne dyskryminują najlepiej? Rozważmy prosty przykład. Wyobraźmy sobie, że mierzymy wzrost w losowej próbie pacjentów złożonej z 50 mężczyzn i 50 kobiet. Kobiety są przeciętnie niższe od mężczyzn, co znajduje odbicie w różnicy średnich (dla zmiennej: wzrost). Dlatego zmienna wzrost pozwala zróżnicować mężczyzn i kobiety z większym niż przypadkowe prawdopodobieństwem: jeśli pacjent jest wysoki, to bardziej prawdopodobne, że jest mężczyzną, a jeśli niski - to prawdopodobnie jest kobietą.

To porównywanie średnich przypomina przedstawianą we wcześniejszych odcinkach analizę wariancji (ANOVA). Oczywiście możemy uogólnić to rozumowanie na mniej trywialne grupy i zmienne. Jest to właściwe skojarzenie, bo zagadnienie analizy dyskryminacyjnej może być przeformułowane na problem jednoczynnikowej analizy wariancji (ANOVA). Główna idea leżąca u podstaw analizy dyskryminacyjnej to rozstrzyganie, czy grupy różnią się ze względu na średnią pewnej zmiennej, a następnie wykorzystanie tej zmiennej do przewidywania przynależności do grupy (np. nowych przypadków). Możemy więc na przykład zapytać, czy dwie lub więcej grup różni się istotnie od siebie ze względu na średnią pewnej zmiennej. W przypadku pojedynczej zmiennej ostatecznym sprawdzianem tego, czy zmienna dyskryminuje grupy, jest test F opisany w odcinkach dotyczących analizy wariancji. Jest on obliczany jako stosunek wariancji międzygrupowej do wariancji wewnątrzgrupowej. Jeśli wariancja międzygrupowa jest istotnie większa, to muszą występować istotne różnice między średnimi. Sprawa komplikuje się obliczeniowo w przypadku wielu zmiennych. Wówczas mamy macierz całkowitych wariancji i kowariancji; ponadto mamy macierz zgrupowanych wewnątrzgrupowych wariancji i kowariancji. Aby rozstrzygnąć, czy są jakieś istotne różnice (odnoszące się do wszystkich zmiennych) między grupami, możemy porównać te dwie macierze za pomocą wielowymiarowych testów F. Jest to procedura identyczna jak wielowymiarowa analiza wariancji (MANOVA) i wymagająca skomplikowanego aparatu matematycznego. Nie będziemy więc jej tutaj przedstawiać. Jedynie podstawowe idee i interpretację otrzymanych wyników prześledzimy na prezentowanym poniżej przykładzie.

Na zakończenie rozważań teoretycznych dwie ważne uwagi. Pierwsza - w analizie dyskryminacyjnej możemy wyróżnić dwa etapy:

  • etap uczenia - gdy w oparciu o tak zwany zbiór uczący znajdujemy reguły klasyfikacyjne,
  • etap klasyfikacji - gdy w oparciu o znalezione charakterystyki klas dokonujemy klasyfikacji zasadniczego zbioru obiektów, których przynależność jest nam nieznana.
    Druga uwaga dotyczy sposobu przeprowadzenia analizy w pakietach statystycznych. Najczęściej przebiega ona krokowo (postępująca lub wsteczna analiza krokowa). Pakiety, oprócz licznych statystyk wykreślają też tak zwane funkcje klasyfikacyjne, stanowiące doskonałą ilustrację otrzymanych wyników. Co prawda postać tych funkcji może być dowolna, w praktyce jednak najczęściej wykorzystywane są funkcje liniowe. W tym podejściu opisowym obiekt przydzielany jest do tej klasy, dla której funkcja dyskryminacyjna osiąga największą wartość. Przykładowy wykres liniowych funkcji klasyfikacyjnych pokazany jest na rysunku 1.

    Rys. 1. Wykres rozrzutu wraz z funkcjami klasyfikacyjnymi

    Rys. 2. Fragment arkusza danych

    Przykład na rysunku 2. podaje wartości czterech parametrów biochemicznych (CRP w mg/dl, glukoza na czczo w mg/dl, MCV w um3 oraz IgG w g/l) w grupie chorych na pewną chorobę. Celem tej analizy jest pokazanie, jak można przewidzieć przebieg choroby na podstawie wartości tych czterech parametrów biochemicznych.

    Fragment opisywanego pliku danych przedstawiony jest na rysunku 2. W ostatniej rubryce podana jest zmienna grupująca, która identyfikuje przebieg choroby pacjenta o podanych parametrach, mierzonych przy przyjęciu do szpitala.
    Analizę przykładu przeprowadzimy, wykorzystując moduł Analiza dyskryminacyjna, dostępny w pakiecie STATISTICA. Moduł ten oprócz licznych statystyk opisujących funkcje dyskryminacyjne udostępnia również szeroki zakres opcji i statystyk opisowych. Wywołujemy je, klikając przycisk Przegląd korelacji, statystyk i wykresów dla grup w oknie Definicja modelu (rys. 3). Okno to pojawia się po określeniu danych i kodów grupujących.

    Rys. 3. Okno definicji modelu

    Po kliknięciu wspomnianego wyżej przycisku otwiera się okno umożliwiające wybór interesujących nas statystyk i ich interpretacji graficznych (rys. 4).

    Rys. 4. Okno wyboru statystyk opisowych

    Przejrzymy najpierw wartości średnie. Klikamy przycisk Średnie i liczba przypadków, aby wywołać arkusz wyników ze średnimi i liczbą ważnych przypadków dla każdej grupy. Wartości te pokazane są na rysunku 5.

    Rys. 5. Arkusz wartości średnich

    Możemy również obejrzeć histogramy zmiennych w grupach. Tworzymy je, wykorzystując przycisk Histogram skategoryzowany (w grupach). Gdy klikniemy ten przycisk, będziemy mogli wybrać zmienną z listy wcześniej wybranych do analizy zmiennych niezależnych. Przykładowy wyres dla zmiennej GLUKOZA jest pokazany na rysunku 6.

    Rys. 6. Histogram skategoryzowany

    Jak widzimy, zmienna ta ma prawdopodobnie w każdej grupie (przebieg choroby) rozkład normalny. W ten sposób możemy wstępnie ocenić prawdziwość jednego z podstawowych założeń analizy dyskryminacyjnej. Również inny skategoryzowany wykres - wykres rozrzutu - umożliwia podobną ocenę oraz wyszukanie potencjalnych punktów odstających. Punkty takie potrafią całkowicie zmienić przebieg analizy. Zostały one szczegółowo opisane w odcinkach dotyczących analizy regresji. Wracamy teraz do podstawowego celu analizy. W oknie Definicja modelu (rys. 3) wybieramy analizę krokową postępującą. Wyboru tego dokonujemy na liście rozwijalnej Metoda. Przy takim wyborze program będzie wprowadzał zmienne do modelu jedna po drugiej, zawsze wybierając tę zmienną, która wnosi najbardziej istotny wkład do dyskryminacji. Dzięki temu możemy zbudować "model" najlepszego przewidywania przebiegu choroby, znając wybrane do modelu zmienne. W naszych rozważaniach używamy terminu "model", mając na myśli te parametry biochemiczne, które wykorzystamy do przewidywania przebiegu choroby. Jak wspomniano powyżej, model taki budujemy krokowo, włączając zmienne. Wybierając z listy Wyświetlanie opcję Na każdym kroku, możemy śledzić kolejne kroki budowanego modelu.

    Zaczynamy od kroku 0. Wyniki tego kroku pokazane zostały na rysunku 7.

    Rys. 7. Wyniki analizy dyskryminacyjnej - krok zerowy

    Jak widzimy, w kroku 0 do modelu nie zostały jeszcze włączone żadne zmienne. Wobec tego część opcji tego okna jest jeszcze niedostępna (nieaktywna). Prezentujemy je, gdyż wyświetlają szereg statystyk związanych z analizą wariancji. Szczególną uwagę powinniśmy zwrócić na te otoczone pogrubioną ramką. Nie sposób omówić wszystkich opcji w bieżącym artykule, dlatego skupimy się tylko na najważniejszych.
    Ponieważ żadne zmienne nie zostały na razie wprowadzone do modelu, więc przejrzyjmy informacje o potencjalnych kandydatkach. Klikamy w tym celu przycisk Zmienne poza modelem. Na ekranie otworzy się arkusz wyników pokazany na rysunku 8.

    Rys. 8. Zmienne poza modelem

    Arkusz ten zawiera szereg statystyk opisujących potencjalne zmienne oraz wskazujących, które zmienne i w jakiej kolejności powinny być wprowadzane do modelu. W pierwszej rubryce pionowej podano wartość Lambda Wilksa. Jest to standardowa statystyka stosowana do wyznaczenia istotności statystycznej mocy dyskryminacyjnej aktualnego modelu. Jej wartość mieści się w zakresie od 1 (brak mocy dyskryminacyjnej) do 0 (maksymalna moc dyskryminacyjna). Uważajmy więc z interprertacją, bo mamy do czynienia z sytuacją odwrotną niż w przypadku większości poznanych już współczynników. Każda wartość podana w pierwszej kolumnie oznacza Lambdę Wilksa po wprowadzeniu tej zmiennej do modelu. W kolejnej rubryce pionowej mamy podaną cząstkową Lambdę Wilksa, opisującą swoisty wkład danej zmiennej do dyskryminacji grup. W świetle tego, co powiedziano powyżej im ta wartość jest bliższa zeru, tym większy wkład tej zmiennej do dyskryminacji. W przedostatniej kolumnie podano wartość tolerancji. Pojęcie to było omówione w jednym z odcinków dotyczących regresji wielokrotnej. Tu przypominamy tylko, że wartość ta opisuje nadmiarowość danej zmiennej. Jeśli tolerancja jest równa 0 (lub bardzo bliska), oznacza to, że wkład danej zmiennej do dyskryminacji jest minimalny w świetle wkładu pozostałych. Ponieważ nie wybrano na razie żadnych zmiennych, wszystkie wartości tolerancji są równe 1 (jej wartość maksymalna).
    Teraz klikamy przycisk Dalej, aby przejść do następnego kroku. Kroku 1. nie będziemy omawiać, więc klikamy Dalej jeszcze raz, aby przejść do kroku 2. W obecnej sytuacji do modelu zostały już włączone dwie zmienne. Dlatego poznawanie wyliczonych statystyk zaczniemy od przeglądu zmiennych włączonych do modelu i tych, które zostały poza modelem. Otrzymamy je, klikając kolejno przyciski Zmienne w modeluZmienne poza modelem. Arkusze wyników widoczne są na rysunku 9.

    Rys. 9. Wyniki analizy dyskryminacji - krok 2.

    Zauważmy przede wszystkim (linia pogrubiona), że zwiększyła się moc dyskryminacyjna naszego modelu w stosunku do modelu początkowego. Dyskryminacja dalszego przebiegu choroby jest wysoce istotna (p <0,0001; arkusz wyników na rys. 9 pokazuje tylko 4 cyfry po przecinku).
    Widzimy też, że obie zmienne (MCV, GLUKOZA) wprowadzone do modelu są wysoce istotne (p <0,0000001). Również obydwie zmienne (CRP, IgG), które nie zostały jeszcze wprowadzone do modelu, są istotne. Stąd widać, że procedura krokowa będzie kontynuowana i że jako następna do modelu zostanie wprowadzona zmienna IgG. Jeszcze raz klikamy Dalej. Kroku 3. nie będziemy omawiać, więc klikamy przycisk Dalej jeszcze raz, aby przejść do ostatniego - 4. kroku analizy. Dla podsumowania informacji klikamy teraz przycisk Zmienne w modelu, aby przejrzeć niezależny wkład każdej zmiennej do ogólnej dyskryminacji przebiegu choroby. Otrzymany arkusz wyników jest widoczny na rysunku 10.

    Rys. 10. Wyniki analizy dyskryminacji - krok 4.

    Wartość cząstkowej Lambdy Wilksa wskazuje, że zmienna MCV ma największy (bo wartość cząstkowa Lambda jest najmniejsza) wkład do ogólnej dyskryminacji; następna jest zmienna IgG. Zmienna o najmniejszym, lecz wysoce istotnym wkładzie, to białko C-reaktywne. Podsumowując analizę, możemy wnioskować, że MCV oraz IgG są głównymi zmiennymi, które umożliwiają dyskryminację odmiennych procesów chorobowych. Więcej na temat natury tej dyskryminacji dowiemy się, wykonując analizę kanoniczną. Jest to cały szereg statystycznych analiz, które są dostępne po kliknięciu przycisku Analiza kanoniczna i wykresy. W naszym przeglądzie zwrócimy uwagę na dwie ważne informacje zawarte w funkcjach kanonicznych i średnich zmiennych kanonicznych. Wszystkie wymienione współczynniki otrzymamy, klikając przyciski o podobnych nazwach. Otwierające się arkusze wyników widać na rysunku 11.

    Rys. 11. Wybrane wyniki analizy kanonicznej

    W arkuszu po lewej stronie program wyliczył współczynniki dla dwóch funkcji kanonicznych. Na pierwszą funkcję kanoniczną największy wpływ ma IgG i MCV (linia pogrubiona). Druga z kolei funkcja jest wyznaczona głównie przez stężenie glukozy i w mniejszym stopniu również przez MCV oraz IgG. Z arkusza pokazanego po prawej stronie rysunku 11 odczytujemy, że pierwsza funkcja kanoniczna odróżnia głównie przewlekły typ choroby (NAWROTY) od wszystkich innych typów choroby. Średnia kanoniczna dla zmiennej NAWROTY jest bowiem całkiem inna od pozostałych. Druga funkcja kanoniczna prawdopodobnie odróżnia "ciężki" przebieg choroby od innych typów. Potwierdza to graficzna interpretacja wyników pokazana na pierwszym rysunku. Wyraźnie widać, że choroby przewlekłe są na wykresie umieszczone bardziej w prawo. Potwierdza to informację niesioną przez pierwszą funkcję kanoniczną. Przypadki "ciężkie" (kolor czerwony) są położone nieco wyżej po lewej stronie wykresu rozrzutu. Jednak dyskryminacja w tym przypadku nie jest tak wyraźna jak poprzednio.

    Podsumowując: podane parametry biochemiczne najbardziej dyskryminują przewlekły przebieg choroby. Decydujące w tej mierze okazały się MCV oraz IgG. Ujemne wartości współczynników tych parametrów dla pierwszej funkcji kanonicznej oznaczają, że im większe MCV oraz IgG, tym mniejsze jest prawdopodobieństwo, iż u danego pacjenta wystąpi przewlekła postać choroby.
    Moduł Analiza dyskryminacyjna umożliwia też wyliczenia funkcji klasyfikacyjnych. Funkcji tych nie należy mylić z omówionymi wcześniej funkcjami kanonicznymi. Funkcje klasyfikacyjne stosuje się do klasyfikowania nowych przypadków. Wylicza się je w oparciu o podany zbiór danych (tzw. zbiór uczący), gdzie znany jest przebieg choroby dla każdego przypadku. Gdybyśmy zatem wprowadzili nowe przypadki, program automatycznie obliczyłby wartości klasyfikacyjne dla każdej grupy. Schematycznie funkcje klasyfikacyjne wykreślone są na pierwszym rysunku. Przykład ten pokazał podstawowe idee analizy dyskryminacyjnej. Aby poprawnie przeprowadzić klasyfikację, należy to zrobić w dwóch etapach. W pierwszym etapie budujemy funkcje klasyfikacyjne, a w drugim oszacowujemy ich jakość.

  • Poleć:
    Udostępnij:

    O tym się mówi

    • Neumann: Nie bójmy się zmian
      Ta reforma budzi emocje i obawy, ale wprowadzać ją będziemy spokojnie. Jeżeli znajdziemy jakieś miejsca, które należy poprawić, zostaną poprawione, ale zróbmy ten pierwszy krok, tak ważny dla pacjentów – zaapelował do lekarzy wiceminister zdrowia Sławomir Neumann
    • Krajewski: O co walczy PZ
      Lekarze POZ obawiają się wziąć odpowiedzialność za propagandowe, ministerialno-rządowe obietnice składane pacjentom ich kosztem. Restrykcyjne kontrakty z NFZ, w intencji ministra oparte na mafijnej zasadzie „propozycji nie do odrzucenia”, mogą jednak pozostać niepodpisane – pisze Jacek Krajewski.
    • Przejrzystość dobrowolna
      Prywatność jest dobrem, z którego nie powinniśmy rezygnować. Z drugiej strony w dyskusji o relacji lekarzy z przemysłem padają ważne argumenty przemawiające na rzecz większej przejrzystości – mówi dr hab. Romuald Krajewski, wiceprezes NRL.
    • Niepokój w małych szpitalach
      Na tle konfliktu między lekarzami rodzinnymi a Ministerstwem Zdrowia tli się jeszcze jeden spór: dyrektorzy szpitali powiatowych zastanawiają się, czy w ogóle podpisywać umowy na 2015 rok.