Każda próba dopasowania modelu do danych stawia nas przed tym samym dylematem: prosty model jest wygodny, jednak nie może uchwycić wszystkiego, co ważne. Złożony model dopasuje się do danych perfekcyjnie – ale czy naprawdę „rozumie" zjawisko, czy tylko zapamiętuje szum? AIC i BIC to dwa narzędzia, które pomagają rozstrzygnąć ten spór. W poniższym tekście przedstawiamy, czym są, co mierzą oraz dlaczego warto rozumieć je głębiej niż jako wzory do podstawienia.
Wyobraźmy sobie, że mierzymy zależność między temperaturą powietrza a sprzedażą lodów w ciągu 20 dni. Można zbudować model liniowy (2 parametry), kwadratowy (3 parametry) albo wielomian stopnia 19, który – zakładając różne temperatury każdego dnia – przejdzie dokładnie przez każdy punkt pomiarowy. Ten ostatni będzie miał błąd dopasowania równy zero, a jednocześnie będzie bezużyteczny do jakichkolwiek prognoz.
To jest istota problemu przeuczenia (overfitting). Model zbyt złożony dopasowuje się do danych treningowych, w tym do ich przypadkowych fluktuacji, zamiast uchwycić prawdziwy wzorzec. Potrzebujemy kryterium, które nagradza dobre dopasowanie, ale karze za nadmierną złożoność.
Właśnie tu wchodzą AIC i BIC.
Wyobraźmy sobie, że mamy model z pewnymi parametrami i zestaw zebranych danych. Naturalne pytanie brzmi: na ile ten model pasuje do tego, co zaobserwowaliśmy? Funkcja wiarygodności (likelihood) to właśnie miara tego dopasowania – mówi, jak bardzo dane są „zgodne" z modelem przy konkretnych wartościach parametrów.
Metoda największej wiarygodności (MLE) polega na prostym pomyśle: znajdujemy takie wartości parametrów, przy których zaobserwowanie naszych danych byłoby najbardziej prawdopodobne. Innymi słowy – dobieramy parametry tak, żeby model jak najlepiej „tłumaczył" to, co zmierzyliśmy.
Tu pojawia się jednak pewien problem. Im więcej parametrów ma model, tym łatwiej mu nadmiernie dopasowywać się do danych – zawsze. Dodanie kolejnego parametru nigdy nie pogorszy dopasowania, nawet jeśli ten parametr jest zupełnie zbędny. Model z dziesięcioma parametrami będzie wyglądał „lepiej" niż model z dwoma – nie dlatego, że lepiej rozumie dane, lecz dlatego, że ma po prostu więcej swobody.
Dlatego samo dopasowanie to za mało. Potrzebne jest kryterium, które nagradza dobre dopasowanie, ale jednocześnie pyta: czy ta złożoność naprawdę była konieczna?
W 1973 roku japoński statystyk Hirotugu Akaike zaproponował rozwiązanie, wywodząc je z teorii informacji. Jego punkt wyjścia: chcemy znaleźć model, który jest jak najbliższy prawdziwemu rozkładowi generującemu dane – nieznanemu rozkładowi f, z którego pochodzi nasza próba.
Miarą „bliskości" między dwoma rozkładami jest dywergencja Kullbacka-Leiblera (KL):
[endif]-->
gdzie g to rozkład wyspecyfikowany przez nasz model. Minimalizowanie D_KL oznacza, że nasz model jak najlepiej aproksymuje prawdziwy rozkład. Problem: f jest nieznane.
Akaike wykazał, że dla dużych prób oczekiwana wartość D_KL jest asymptotycznie szacowana przez:
[endif]-->
gdzie k to liczba swobodnie estymowanych parametrów modelu. Stąd kryterium:
[endif]-->
gdzie czynnik 2 to konwencja; szukamy modelu minimalizującego AIC.
Co realizuje AIC:
Kara 2k to korekta za optymizm: model z większą liczbą parametrów zawsze może osiągnąć wyższe ℓ, ale część tego wzrostu to artefakt dopasowania do szumu. Kara liniowa względem k wynika wprost z asymptotyki teorii estymacji MLE.
Ważna konsekwencja: AIC zakłada, że prawdziwy model może być nieskończenie złożony, a my szukamy najlepszej skończonej aproksymacji. Z tego powodu AIC jest kryterium efektywnym – preferuje modele, które dobrze przewidują nowe dane z tego samego procesu.
Poprawka dla małych prób: AICc
Gdy liczba obserwacji n jest mała względem k, AIC może być zbyt optymistyczne. Stosuje się wtedy korektę:
[endif]-->
Przy dużym n człon korekcyjny zanika i AICc → AIC.
W 1978 roku Gideon Schwarz podszedł do problemu z zupełnie innej strony – podejścia bayesowskiego. Chcemy wybrać model M maksymalizujący prawdopodobieństwo a posteriori danego modelu przy zaobserwowanych danych:
[endif]-->
Zakładając, że a priori wszystkie modele są równie prawdopodobne, wystarczy zmaksymalizować tzw. marginalne prawdopodobieństwo danych:
[endif]-->
To całkowanie po przestrzeni parametrów jest w ogólności nieobliczalne. Schwarz zastosował aproksymację Laplace'a, uzyskując:
[endif]-->
Szukamy modelu minimalizującego BIC.
Co realizuje BIC
Kara k · ln(n) rośnie logarytmicznie z liczbą obserwacji. Dla n > 7 mamy ln(n) > 2, więc BIC zawsze karze za złożoność mocniej niż AIC. Co ważniejsze, BIC jest kryterium spójnym: gdy liczba obserwacji rośnie do nieskończoności, BIC z prawdopodobieństwem 1 wskaże prawdziwy model – o ile ten należy do rozważanej klasy modeli.
Interpretacja bayesowska: różnica BIC między dwoma modelami przybliża logarytm czynnika Bayesa (Bayes factor), który mówi, ile razy model M₁ jest bardziej wiarygodny a posteriori niż M₂.
Porównanie AIC vs BIC – kiedy używać którego?
|
Cecha |
AIC |
BIC |
|---|---|---|
|
Podstawa teoretyczna |
Teoria informacji (odległość KL) |
Aproksymacja podejścia bayesowskiego |
|
Główny cel |
Optymalizacja zdolności predykcyjnej |
Wybór najbardziej prawdopodobnego modelu |
|
Kara za parametr |
2 |
ln(n) |
|
Zachowanie przy dużym n |
Częściej wybiera modele bardziej złożone |
Silniej preferuje modele oszczędne |
|
Spójność asymptotyczna |
Nie |
Tak |
|
Typowe zastosowanie |
Predykcja |
Identyfikacja struktury modelu i selekcja zmiennych |
Ogólna reguła jest następująca: jeśli zależy nam na trafności predykcji (np. budujemy model prognostyczny), używamy AIC. Jeśli chcemy odkryć strukturę danych (np. ile składowych ma mieszanina gaussowska?), BIC jest bezpieczniejszym wyborem.
AIC i BIC rozwiązują ten sam problem różnymi metodami i z różnymi gwarancjami. AIC, zakorzenione w teorii informacji Akaikego, minimalizuje oczekiwaną stratę predykcyjną – jest naturalnym wyborem, gdy zależy nam na prognozowaniu. BIC, wyprowadzone z aproksymacji bayesowskiej Schwarza, nagradza oszczędność i jest spójne – sprawdza się, gdy chcemy odkryć prawdziwą strukturę danych.
Oba kryteria łączy wspólna filozofia: dobre dopasowanie ma cenę, a tą ceną jest złożoność modelu. Zamiast naiwnie maksymalizować wiarygodność, nakładają na nią karę proporcjonalną do liczby parametrów. To pozornie prosta poprawka, która kryje w sobie głębokie połączenie między teorią informacji, wnioskowaniem bayesowskim i statystyczną teorią decyzji.
Następnym razem, gdy staniemy przed wyborem modelu, należy pamiętać, że niskie AIC lub BIC to nie tylko liczba – to skrystalizowana filozofia parsymoniosa, wyrażona w kilku znakach algebry.