Estymacja Bayesowska
Jedną z najczęściej spotykanych naukowych procedur jest porównywanie dwóch grup. Dysponując takimi danymi, badacze zadają różnorodne pytania: Jak bardzo jedna grupa jest różna od drugiej? Czy można mieć wystarczającą pewność, że różnica jest niezerowa? Na ile pewni jesteśmy wielkości tej różnicy? Odpowiedź na te pytania jest trudna, ponieważ dane są skażone przez losową zmienność (pomimo wysiłków badaczy do zminimalizowania zewnętrznych wpływów na dane). Ponadto, eksperymentalne testy nie są w stanie udzielić jednoznacznych, zero-jedynkowych odpowiedzi, w związku z czym, interpretując dane, musimy polegać na metodach statystycznych wnioskowania probabilistycznego.
W teorii prawdopodobieństwa, które jest podstawą wnioskowania statystycznego, istnieją dwie szkoły pojmowania tego, czym w praktyce jest prawdopodobieństwo: częstościowa i Bayesowska. Różnica między nimi polega na tym, że według pierwszej z nich, prawdopodobieństwo zdarzenia losowego jest w rzeczywistości reprezentowane przez częstość występowania tego zdarzenia w odpowiednio dużej ilości identycznych prób, z kolei podejście Bayesowskie, z grubsza rzecz biorąc, rozumie przez termin prawdopodobieństwa miarę racjonalnego przekonania, że dane wydarzenie wystąpi. Definicja częstościowa prawdopodobieństwa jest z kilku względów problematyczna: definiuje pojęcie prawdopodobieństwa odwołując się do niego samego (bowiem identyczne próby to takie, dla których szansa wystąpienia danego zdarzenia jest taka sama), nie ma zastosowania do zdarzeń niepowtarzalnych, dotyczy w istocie zachowania granicznego, nie definiując jednak w sposób ścisły, czym miałaby być w istocie rozważana „granica” lub dostatecznie duża ilość prób. Od powyższych problemów wolne jest natomiast rozumienie prawdopodobieństwa w sposób Bayesowski.
Zgodnie z Bayesowską szkołą pojmowania prawdopodobieństwa, chcąc przeprowadzić wnioskowanie statystyczne, przyjmujemy na początku pewne (subiektywne) prawdopodobieństwo a priori, będące miarą racjonalnego przekonania, że dane wydarzenie wystąpi (może to być np. oceniona na podstawie literatury częstość występowania jakiegoś zjawiska). Następnie wykonując eksperymenty modyfikujemy je, otrzymując tzw. prawdopodobieństwo a posteriori. Związek między prawdopodobieństwem a priori a oraz posteriori, w wypadku rozpatrywania hipotezy badawczej, obrazuje wzór z twierdzenia Bayesa, zapisany w postaci
W powyższym wzorze oznacza słuszność -tej hipotezy, – dany stan wiedzy, czyli informację a priori, – zdarzenie polegające na otrzymaniu konkretnych danych, zaś to prawdopodobieństwo wystąpienia zdarzenia . Wyrażenie interpretujemy jako prawdopodobieństwo hipotezy a priori, jako prawdopodobieństwo otrzymania danych pod warunkiem słuszności hipotezy (tzw. wiarygodność), jako, będące jednocześnie warunkiem normalizacyjnym, prawdopodobieństwo otrzymania konkretnych danych, nazywane ewidencją lub wiarygodnością brzegową, zaś jako prawdopodobieństwo hipotezy a posteriori w świetle uzyskania przez nas danych , czyli nasz stan wiedzy o badanej hipotezie po uzyskaniu danych. Wiarygodność brzegową możemy wyznaczyć ze wzoru na prawdopodobieństwo całkowite, który w tym przypadku wygląda następująco
Przejdźmy teraz do właściwego tematu niniejszego artykułu, czyli Bayesowskiej estymacji parametrów modelu. Będziemy zakładać słuszność modelu . Parametr modelu (lub wektor parametrów) oznaczmy symbolem . Ponieważ rozważymy przypadek ciągły, będziemy przez rozumieć aprioryczną, a przez aposterioryczną funkcję rozkładu parametru . Wiarygodność brzegowa, poprzez analogię do wzoru (2), będzie zadana poprzez równość
.
Bayesowska estymacja parametrów modelu nie polega na znalezieniu konkretnego punktu w przestrzeni parametrów. Poszukujemy za to pełnej gęstości rozkładu prawdopodobieństwa a posteriori, zadanej wzorem
która posłużyć może do znalezienia tzw. obszaru ufności, czyli przedziału na osi parametrów, takiego, że prawdopodobieństwo tego, iż wartość parametru należy do tego przedziału, jest równe określonej z góry wartości (np. ). Inaczej mówiąc, jest to taki obszar (ang. credible region), że dla ustalonego zachodzi
.
Naszą wiedzę aposterioryczną możemy także podsumować wyznaczając wartość oczekiwaną naszego parametru ze wzoru
,
co stanowi pewną analogię do estymacji punktowej w statystyce klasycznej.
W przypadku, gdy model zależy od kilku parametrów (np. ), a nas interesuje jedynie informacja dotycząca kilku parametrów (np. parametrów ), to stosujemy tzw. marginalizację, która polega na scałkowaniu gęstości prawdopodobieństwa a posteriori po parametrach, które są dla nas nieistotne
Chcąc dokonać porównania dwóch grup badawczych, wykorzystując estymację Bayesowską, należy najpierw określić opisowy model dla danych oraz jego parametry, których estymacja będzie naszym celem. W przypadku, gdy założymy, że rozkład danych jest normalny (jak to ma miejsce w tradycyjnym t-teście), naszymi parametrami są średnie () oraz odchylenia standardowe (). Posłużyć one mogą do wskazania różnicy między oboma grupami: różnica średnich () opisuje bowiem znaczącą różnicę pomiędzy centralnymi tendencjami w grupach, zaś różnica odchyleń standardowych () opisuje znaczącą różnicę zmienności w grupach. Ze względu na możliwość wystąpienia wartości odstających, lepiej zamiast rozkładu normalnego użyć w naszym modelu rozkładu t-Studenta. Wówczas oprócz średnich i odchyleń standardowych dochodzi jeszcze jeden parametr - liczba stopni swobody, który w tym przypadku warto nazwać parametrem normalności rozkładu. Im większy bowiem , tym rozkład t-Studenta bardziej przypomina rozkład normalny. Oczywiście możemy użyć do opisu danych innego rozkładu, niż t-Studenta, np. gdy nasze dane są skośne użytecznym jest opisanie ich rozkładem log-normalnym.
Wybierając rozkład parametru a priori powinniśmy się kierować wiedzą jaką posiadamy przed rozpoczęciem badania. Gdy jednak jest ona niewystarczająca, by sensownie dopasować rozkład, powinniśmy dążyć do równego „rozdzielenia prawdopodobieństwa” na wszystkie możliwe przypadki. Przykładowo, gdy nasza wiedza ogranicza się do znajomości tego, w jakim przedziale znajdują się wartości parametru , wskazanym jest za rozkład aprioryczny tego parametru przyjąć rozkład jednostajny na tym przedziale. Warto podkreślić, że dla wystarczająco dużej ilości danych, wybór rozkładu a priori ma jedynie minimalny wpływ na estymację parametrów metodą Bayesowską.
Analityczne rozwiązanie równań z warunkiem normalizacji jest bardzo często trudne, bądź niemożliwe. Z tego względu, aby uzyskać rozkład parametrów a posteriori, stosuje się metodę symulacji Monte Carlo przy użyciu łańcuchów Markowa (MCMC; ang. Markov Chain Monte Carlo). Proces próbkowania MCMC generuje dużą reprezentacyjną próbę wiarygodnych wartości parametrów z rozkładu aposteriorycznego. Im większa jest ta próba, tym lepiej reprezentuje ona rozkład aposterioryczny. Ważne jest, żeby nie pomylić otrzymanej przez MCMC próby parametrów z próbą danych empirycznych. Celem procesu MCMC jest wygenerowanie dokładnego przedstawienia rozkładu aposteriorycznego.
Chcąc dokonać porównania dwóch grup badawczych z wykorzystaniem estymacji Bayesowskiej, za estymowane parametry powinniśmy obrać różnice średnich i odchyleń standardowych w obu grupach. Metodą MCMC otrzymamy wartości parametrów tych różnic z rozkładu aposteriorycznego. Zgodnie ze wzorem (5) zostałby wyznaczony obszar ufności dla parametru będącego różnicą średnich w obu grupach, czyli . Jeśli w obszarze nie znajdzie się, dla ustalonego , wartość parametru równa zero, to wówczas odrzucamy hipotezę o braku różnicy między średnimi w obu grupach danych na poziomie istotności . Analogicznie możemy wykorzystać estymację parametru do zbadania hipotezy zerowej o braku istotnej różnicy między odchyleniami standardowymi w obu badanych grupach. Główna różnica między testami t-Studenta, a estymacją Bayesowską polega na tym, że w tej drugiej oprócz odpowiedzi na to, czy możemy odrzucić hipotezę zerową, otrzymujemy rozkład aposterioryczny dla różnicy średnich, odchyleń standardowych, czy innych badanych parametrów, dzięki czemu dostajemy także odpowiedź z jakim prawdopodobieństwem parametr przyjmuje dane wartości.