Jak wybrać najlepszy model statystyczny? Zastosowanie kryterium AIC i BIC

09.06.2026
Jak wybrać najlepszy model statystyczny? Zastosowanie kryterium AIC i BIC
Opis problemu
Maksymalna wiarygodność jako fundament obu kryteriów
Kryterium AIC – informacja Akaikego
Kryterium BIC – kryterium Bayesowskie
Ograniczenia narzędzi AIC oraz BIC
Podsumowanie

Każda próba dopasowania modelu do danych stawia nas przed tym samym dylematem: prosty model jest wygodny, jednak nie może uchwycić wszystkiego, co ważne. Złożony model dopasuje się do danych perfekcyjnie – ale czy naprawdę „rozumie" zjawisko, czy tylko zapamiętuje szum? AIC i BIC to dwa narzędzia, które pomagają rozstrzygnąć ten spór. W poniższym tekście przedstawiamy, czym są, co mierzą oraz dlaczego warto rozumieć je głębiej niż jako wzory do podstawienia.

 

Opis problemu

Wyobraźmy sobie, że mierzymy zależność między temperaturą powietrza a sprzedażą lodów w ciągu 20 dni. Można zbudować model liniowy (2 parametry), kwadratowy (3 parametry) albo wielomian stopnia 19, który – zakładając różne temperatury każdego dnia – przejdzie dokładnie przez każdy punkt pomiarowy. Ten ostatni będzie miał błąd dopasowania równy zero, a jednocześnie będzie bezużyteczny do jakichkolwiek prognoz.

To jest istota problemu przeuczenia (overfitting). Model zbyt złożony dopasowuje się do danych treningowych, w tym do ich przypadkowych fluktuacji, zamiast uchwycić prawdziwy wzorzec. Potrzebujemy kryterium, które nagradza dobre dopasowanie, ale karze za nadmierną złożoność.

Właśnie tu wchodzą AIC i BIC.

 

Maksymalna wiarygodność jako fundament obu kryteriów

Wyobraźmy sobie, że mamy model z pewnymi parametrami i zestaw zebranych danych. Naturalne pytanie brzmi: na ile ten model pasuje do tego, co zaobserwowaliśmy? Funkcja wiarygodności (likelihood) to właśnie miara tego dopasowania – mówi, jak bardzo dane są „zgodne" z modelem przy konkretnych wartościach parametrów.

Metoda największej wiarygodności (MLE) polega na prostym pomyśle: znajdujemy takie wartości parametrów, przy których zaobserwowanie naszych danych byłoby najbardziej prawdopodobne. Innymi słowy – dobieramy parametry tak, żeby model jak najlepiej „tłumaczył" to, co zmierzyliśmy.

Tu pojawia się jednak pewien problem. Im więcej parametrów ma model, tym łatwiej mu nadmiernie dopasowywać się do danych – zawsze. Dodanie kolejnego parametru nigdy nie pogorszy dopasowania, nawet jeśli ten parametr jest zupełnie zbędny. Model z dziesięcioma parametrami będzie wyglądał „lepiej" niż model z dwoma – nie dlatego, że lepiej rozumie dane, lecz dlatego, że ma po prostu więcej swobody.

Dlatego samo dopasowanie to za mało. Potrzebne jest kryterium, które nagradza dobre dopasowanie, ale jednocześnie pyta: czy ta złożoność naprawdę była konieczna?

 

 

Kryterium AIC – informacja Akaikego

W 1973 roku japoński statystyk Hirotugu Akaike zaproponował rozwiązanie, wywodząc je z teorii informacji. Jego punkt wyjścia: chcemy znaleźć model, który jest jak najbliższy prawdziwemu rozkładowi generującemu dane – nieznanemu rozkładowi f, z którego pochodzi nasza próba.

Miarą „bliskości" między dwoma rozkładami jest dywergencja Kullbacka-Leiblera (KL):

Statystyka AZ[endif]-->

gdzie g to rozkład wyspecyfikowany przez nasz model. Minimalizowanie D_KL oznacza, że nasz model jak najlepiej aproksymuje prawdziwy rozkład. Problem: f jest nieznane.

Akaike wykazał, że dla dużych prób oczekiwana wartość D_KL jest asymptotycznie szacowana przez:

Statystyka AZ[endif]-->

gdzie k to liczba swobodnie estymowanych parametrów modelu. Stąd kryterium:

Statystyka AZ[endif]-->

gdzie czynnik 2 to konwencja; szukamy modelu minimalizującego AIC.

 

Co realizuje AIC:

Kara 2k to korekta za optymizm: model z większą liczbą parametrów zawsze może osiągnąć wyższe ℓ, ale część tego wzrostu to artefakt dopasowania do szumu. Kara liniowa względem k wynika wprost z asymptotyki teorii estymacji MLE.

Ważna konsekwencja: AIC zakłada, że prawdziwy model może być nieskończenie złożony, a my szukamy najlepszej skończonej aproksymacji. Z tego powodu AIC jest kryterium efektywnym – preferuje modele, które dobrze przewidują nowe dane z tego samego procesu.

Poprawka dla małych prób: AICc

Gdy liczba obserwacji n jest mała względem k, AIC może być zbyt optymistyczne. Stosuje się wtedy korektę:

Statystyka AZ[endif]-->

Przy dużym n człon korekcyjny zanika i AICc → AIC.

 

Kryterium BIC – kryterium Bayesowskie

W 1978 roku Gideon Schwarz podszedł do problemu z zupełnie innej strony – podejścia bayesowskiego. Chcemy wybrać model M maksymalizujący prawdopodobieństwo a posteriori danego modelu przy zaobserwowanych danych:

Statystyka AZ[endif]-->

Zakładając, że a priori wszystkie modele są równie prawdopodobne, wystarczy zmaksymalizować tzw. marginalne prawdopodobieństwo danych:

Statystyka AZ[endif]-->

To całkowanie po przestrzeni parametrów jest w ogólności nieobliczalne. Schwarz zastosował aproksymację Laplace'a, uzyskując:

Statystyka AZ[endif]-->

Szukamy modelu minimalizującego BIC.

Co realizuje BIC

Kara k · ln(n) rośnie logarytmicznie z liczbą obserwacji. Dla n > 7 mamy ln(n) > 2, więc BIC zawsze karze za złożoność mocniej niż AIC. Co ważniejsze, BIC jest kryterium spójnym: gdy liczba obserwacji rośnie do nieskończoności, BIC z prawdopodobieństwem 1 wskaże prawdziwy model – o ile ten należy do rozważanej klasy modeli.

Interpretacja bayesowska: różnica BIC między dwoma modelami przybliża logarytm czynnika Bayesa (Bayes factor), który mówi, ile razy model M₁ jest bardziej wiarygodny a posteriori niż M₂.

Porównanie AIC vs BIC – kiedy używać którego?

Cecha

AIC

BIC

Podstawa teoretyczna

Teoria informacji (odległość KL)

Aproksymacja podejścia bayesowskiego

Główny cel

Optymalizacja zdolności predykcyjnej

Wybór najbardziej prawdopodobnego modelu

Kara za parametr

2

ln(n)

Zachowanie przy dużym n

Częściej wybiera modele bardziej złożone

Silniej preferuje modele oszczędne

Spójność asymptotyczna

Nie

Tak

Typowe zastosowanie

Predykcja

Identyfikacja struktury modelu i selekcja zmiennych

 

Ogólna reguła jest następująca: jeśli zależy nam na trafności predykcji (np. budujemy model prognostyczny), używamy AIC. Jeśli chcemy odkryć strukturę danych (np. ile składowych ma mieszanina gaussowska?), BIC jest bezpieczniejszym wyborem.

 

Ograniczenia narzędzi AIC oraz BIC

  1. Oba kryteria wymagają tych samych danych – nie można porównywać AIC modeli dopasowanych do różnych zbiorów danych ani do danych po różnych transformacjach (np. jeden model do y, drugi do log y) – logarytm wiarygodności jest nieporównywalny.
  2. Minimalizowanie AIC/BIC ≠ dobry model – jeśli żaden z rozważanych modeli nie jest nawet przybliżonym opisem rzeczywistości, najniższe AIC wskazuje tylko „najmniej zły" z rozważanych kandydatów. Kryteria pomagają wybierać spośród modeli, nie twierdzą, że jakikolwiek z nich jest dobry.
  3. Różnice, nie wartości bezwzględne – absolutna wartość AIC nie ma interpretacji. Liczy się różnica ΔAIC = AICᵢ − AIC_min. Reguła Burnhama i Andersona: ΔAIC < 2 oznacza modele porównywalne; ΔAIC > 10 – zdecydowane odrzucenie.
  4. Estymacja MLE musi być poprawna – oba kryteria zakładają, że parametry zostały wyestymowane metodą największej wiarygodności. W modelach bayesowskich z MAP lub metodami momentów interpretacja jest inna.

 

Podsumowanie

AIC i BIC rozwiązują ten sam problem różnymi metodami i z różnymi gwarancjami. AIC, zakorzenione w teorii informacji Akaikego, minimalizuje oczekiwaną stratę predykcyjną – jest naturalnym wyborem, gdy zależy nam na prognozowaniu. BIC, wyprowadzone z aproksymacji bayesowskiej Schwarza, nagradza oszczędność i jest spójne – sprawdza się, gdy chcemy odkryć prawdziwą strukturę danych.

Oba kryteria łączy wspólna filozofia: dobre dopasowanie ma cenę, a tą ceną jest złożoność modelu. Zamiast naiwnie maksymalizować wiarygodność, nakładają na nią karę proporcjonalną do liczby parametrów. To pozornie prosta poprawka, która kryje w sobie głębokie połączenie między teorią informacji, wnioskowaniem bayesowskim i statystyczną teorią decyzji.

Następnym razem, gdy staniemy przed wyborem modelu, należy pamiętać, że niskie AIC lub BIC to nie tylko liczba – to skrystalizowana filozofia parsymoniosa, wyrażona w kilku znakach algebry.

Polecane serwisy: