Regresja
Jest to metoda statystyczna, która:
- Kategoryzuje i modeluje zależności pomiędzy badanymi przez nas wielkościami danych.
- Jest naszą intuicją, gdy mamy oszacować nieznane wartości danych za pomocą znanych wartości oraz na podstawie zbadanych nam zależności (patrz pkt. 1.).
- Szacuje warunkową wartość oczekiwaną zmiennej losowej Y dla odpowiednich zmiennych X.
Ze względu na liczbę predyktorów regresję możemy dokonać podziału na:
- regresję jednoczynnikowa, czyli badającą zależność pomiędzy zmienną zależną i jedną zmienną niezależną
- regresję wieloczynnikową, czyli badającą zależnośc pomiędzy zmienną zależna i większą ilością zmiennych niezależnych.
Jednoczynnikowa regresja liniowa
Regresję liniową obserwujemy, gdy zakładamy, że pomiędzy zmienną zależną, a niezależną istnieje związak dający opisać się z dużą dokładnością za pomocą funkcji liniowej.
Wprowadźmy następujące oznaczenia:
- zmienna objaśniana (zależna)
- zminna objaśniająca (predyktor)
- nieznane parametry, które będziemy estymować
- empiryczne (obserwowane) wartości zmiennej objaśnianej Y
- empiryczne (obserowane) wartości zmiennej objaśniającej X
- czynnik losowy
Dla tak przyjętych oznaczeń model regresji liniowej wyraża się wzorem:
gdzie
i
Estymatory (wartości szacunkowe) i parametrów i wyznaczyć możemy korzystając z Medody Najmniejszych Kwadratów - MNK.
Idea tej metody polega na takim wyznaczeniu ocen parametrów oraz , aby suma kwadratów odchyleń zaobserwowanych wartości zmiennej zależnej od jej warrości uzyskanych z modelu (teoretycznych) była najmniejsza, tzn.
Warunkiem koniecznym, aby funkcja osiągnęła ekstremum jest zerowanie się obydwu pochodnych cząstkowych. Dlatego, aby wyznaczyć poszukiwane minimum obliczmy i przyrównajmy do 0 pochodne cząstkowe obliczone względem oraz .
Wpierw jednak przekształćmy funkcję do prostszej postaci:
Korzystając z rozdzielności mnożenia względem dodawania oraz grupując odpowiednie składniki otrzymujemy:
Przy tej postaci funkcji łatwo możemy obliczyć pochodne cząstkowe:
Przyrównując pochodne do 0 otrzymujemy układ równań:
Dla uproszczenia zapisu układ dzielimy przez 2, a następnie rozwiązujemy metodą podstawienia:
Wstawiając tak wyliczone do równania drugiego dostajemy:
,
co daje nam w wyniku:
Korzystając z wzorów na średnią arytmetyczną oraz i dokonując odpowiednich podstawień otrzymujemy rozwiązanie:
Warunkiem wystarczającym, aby w punkcie istniało minimum funkcji jest nieujemny znak pochodnych oraz . Pochodne te wynoszą odpowiednio oraz , a zatem, rozwiązanie jest estymatorem wyznaczonym Metodą Najmniejszych Kwadratów.