09.06.2026

Jak wybrać najlepszy model statystyczny? Zastosowanie kryterium AIC i BIC

09.06.2026

Opis problemu

Maksymalna wiarygodność jako fundament obu kryteriów

Kryterium AIC – informacja Akaikego

Kryterium BIC – kryterium Bayesowskie

Ograniczenia narzędzi AIC oraz BIC

Podsumowanie

Każda próba dopasowania modelu do danych stawia nas przed tym samym dylematem: prosty model jest wygodny, jednak nie może uchwycić wszystkiego, co ważne. Złożony model dopasuje się do danych perfekcyjnie – ale czy naprawdę „rozumie" zjawisko, czy tylko zapamiętuje szum? AIC i BIC to dwa narzędzia, które pomagają rozstrzygnąć ten spór. W poniższym tekście przedstawiamy, czym są, co mierzą oraz dlaczego warto rozumieć je głębiej niż jako wzory do podstawienia.

Opis problemu

Wyobraźmy sobie, że mierzymy zależność między temperaturą powietrza a sprzedażą lodów w ciągu 20 dni. Można zbudować model liniowy (2 parametry), kwadratowy (3 parametry) albo wielomian stopnia 19, który – zakładając różne temperatury każdego dnia – przejdzie dokładnie przez każdy punkt pomiarowy. Ten ostatni będzie miał błąd dopasowania równy zero, a jednocześnie będzie bezużyteczny do jakichkolwiek prognoz.

To jest istota problemu przeuczenia (overfitting). Model zbyt złożony dopasowuje się do danych treningowych, w tym do ich przypadkowych fluktuacji, zamiast uchwycić prawdziwy wzorzec. Potrzebujemy kryterium, które nagradza dobre dopasowanie, ale karze za nadmierną złożoność.

Właśnie tu wchodzą AIC i BIC.

Maksymalna wiarygodność jako fundament obu kryteriów

Wyobraźmy sobie, że mamy model z pewnymi parametrami i zestaw zebranych danych. Naturalne pytanie brzmi: na ile ten model pasuje do tego, co zaobserwowaliśmy? Funkcja wiarygodności (likelihood) to właśnie miara tego dopasowania – mówi, jak bardzo dane są „zgodne" z modelem przy konkretnych wartościach parametrów.

Metoda największej wiarygodności (MLE) polega na prostym pomyśle: znajdujemy takie wartości parametrów, przy których zaobserwowanie naszych danych byłoby najbardziej prawdopodobne. Innymi słowy – dobieramy parametry tak, żeby model jak najlepiej „tłumaczył" to, co zmierzyliśmy.

Tu pojawia się jednak pewien problem. Im więcej parametrów ma model, tym łatwiej mu nadmiernie dopasowywać się do danych – zawsze. Dodanie kolejnego parametru nigdy nie pogorszy dopasowania, nawet jeśli ten parametr jest zupełnie zbędny. Model z dziesięcioma parametrami będzie wyglądał „lepiej" niż model z dwoma – nie dlatego, że lepiej rozumie dane, lecz dlatego, że ma po prostu więcej swobody.

Dlatego samo dopasowanie to za mało. Potrzebne jest kryterium, które nagradza dobre dopasowanie, ale jednocześnie pyta: czy ta złożoność naprawdę była konieczna?

Kryterium AIC – informacja Akaikego

W 1973 roku japoński statystyk Hirotugu Akaike zaproponował rozwiązanie, wywodząc je z teorii informacji. Jego punkt wyjścia: chcemy znaleźć model, który jest jak najbliższy prawdziwemu rozkładowi generującemu dane – nieznanemu rozkładowi f, z którego pochodzi nasza próba.

Miarą „bliskości" między dwoma rozkładami jest dywergencja Kullbacka-Leiblera (KL):

[endif]-->

gdzie g to rozkład wyspecyfikowany przez nasz model. Minimalizowanie D_KL oznacza, że nasz model jak najlepiej aproksymuje prawdziwy rozkład. Problem: f jest nieznane.

Akaike wykazał, że dla dużych prób oczekiwana wartość D_KL jest asymptotycznie szacowana przez:

[endif]-->

gdzie k to liczba swobodnie estymowanych parametrów modelu. Stąd kryterium:

[endif]-->

gdzie czynnik 2 to konwencja; szukamy modelu minimalizującego AIC.

Co realizuje AIC:

Kara 2k to korekta za optymizm: model z większą liczbą parametrów zawsze może osiągnąć wyższe ℓ, ale część tego wzrostu to artefakt dopasowania do szumu. Kara liniowa względem k wynika wprost z asymptotyki teorii estymacji MLE.

Ważna konsekwencja: AIC zakłada, że prawdziwy model może być nieskończenie złożony, a my szukamy najlepszej skończonej aproksymacji. Z tego powodu AIC jest kryterium efektywnym – preferuje modele, które dobrze przewidują nowe dane z tego samego procesu.

Poprawka dla małych prób: AICc

Gdy liczba obserwacji n jest mała względem k, AIC może być zbyt optymistyczne. Stosuje się wtedy korektę:

[endif]-->

Przy dużym n człon korekcyjny zanika i AICc → AIC.

Kryterium BIC – kryterium Bayesowskie

W 1978 roku Gideon Schwarz podszedł do problemu z zupełnie innej strony – podejścia bayesowskiego. Chcemy wybrać model M maksymalizujący prawdopodobieństwo a posteriori danego modelu przy zaobserwowanych danych:

[endif]-->

Zakładając, że a priori wszystkie modele są równie prawdopodobne, wystarczy zmaksymalizować tzw. marginalne prawdopodobieństwo danych:

[endif]-->

To całkowanie po przestrzeni parametrów jest w ogólności nieobliczalne. Schwarz zastosował aproksymację Laplace'a, uzyskując:

[endif]-->

Szukamy modelu minimalizującego BIC.

Co realizuje BIC

Kara k · ln(n) rośnie logarytmicznie z liczbą obserwacji. Dla n > 7 mamy ln(n) > 2, więc BIC zawsze karze za złożoność mocniej niż AIC. Co ważniejsze, BIC jest kryterium spójnym: gdy liczba obserwacji rośnie do nieskończoności, BIC z prawdopodobieństwem 1 wskaże prawdziwy model – o ile ten należy do rozważanej klasy modeli.

Interpretacja bayesowska: różnica BIC między dwoma modelami przybliża logarytm czynnika Bayesa (Bayes factor), który mówi, ile razy model M₁ jest bardziej wiarygodny a posteriori niż M₂.

Porównanie AIC vs BIC – kiedy używać którego?

Cecha	AIC	BIC
Podstawa teoretyczna	Teoria informacji (odległość KL)	Aproksymacja podejścia bayesowskiego
Główny cel	Optymalizacja zdolności predykcyjnej	Wybór najbardziej prawdopodobnego modelu
Kara za parametr	2	ln(n)
Zachowanie przy dużym n	Częściej wybiera modele bardziej złożone	Silniej preferuje modele oszczędne
Spójność asymptotyczna	Nie	Tak
Typowe zastosowanie	Predykcja	Identyfikacja struktury modelu i selekcja zmiennych

Ogólna reguła jest następująca: jeśli zależy nam na trafności predykcji (np. budujemy model prognostyczny), używamy AIC. Jeśli chcemy odkryć strukturę danych (np. ile składowych ma mieszanina gaussowska?), BIC jest bezpieczniejszym wyborem.

Ograniczenia narzędzi AIC oraz BIC

Oba kryteria wymagają tych samych danych – nie można porównywać AIC modeli dopasowanych do różnych zbiorów danych ani do danych po różnych transformacjach (np. jeden model do y, drugi do log y) – logarytm wiarygodności jest nieporównywalny.
Minimalizowanie AIC/BIC ≠ dobry model – jeśli żaden z rozważanych modeli nie jest nawet przybliżonym opisem rzeczywistości, najniższe AIC wskazuje tylko „najmniej zły" z rozważanych kandydatów. Kryteria pomagają wybierać spośród modeli, nie twierdzą, że jakikolwiek z nich jest dobry.
Różnice, nie wartości bezwzględne – absolutna wartość AIC nie ma interpretacji. Liczy się różnica ΔAIC = AICᵢ − AIC_min. Reguła Burnhama i Andersona: ΔAIC < 2 oznacza modele porównywalne; ΔAIC > 10 – zdecydowane odrzucenie.
Estymacja MLE musi być poprawna – oba kryteria zakładają, że parametry zostały wyestymowane metodą największej wiarygodności. W modelach bayesowskich z MAP lub metodami momentów interpretacja jest inna.

Podsumowanie

AIC i BIC rozwiązują ten sam problem różnymi metodami i z różnymi gwarancjami. AIC, zakorzenione w teorii informacji Akaikego, minimalizuje oczekiwaną stratę predykcyjną – jest naturalnym wyborem, gdy zależy nam na prognozowaniu. BIC, wyprowadzone z aproksymacji bayesowskiej Schwarza, nagradza oszczędność i jest spójne – sprawdza się, gdy chcemy odkryć prawdziwą strukturę danych.

Oba kryteria łączy wspólna filozofia: dobre dopasowanie ma cenę, a tą ceną jest złożoność modelu. Zamiast naiwnie maksymalizować wiarygodność, nakładają na nią karę proporcjonalną do liczby parametrów. To pozornie prosta poprawka, która kryje w sobie głębokie połączenie między teorią informacji, wnioskowaniem bayesowskim i statystyczną teorią decyzji.

Następnym razem, gdy staniemy przed wyborem modelu, należy pamiętać, że niskie AIC lub BIC to nie tylko liczba – to skrystalizowana filozofia parsymoniosa, wyrażona w kilku znakach algebry.