5 najważniejszych metod statystycznych w analizie danych

W dzisiejszych czasach trudno narzekać na brak informacji. Dane zalewają nas z każdej strony, odbieramy je, ale i produkujemy. Dla firm ważne jest, aby mogły z zebranych przez siebie danych wyciągnąć jak najwięcej istotnych wniosków. Słyszymy często o skomplikowanych metodach statystycznych czy machine learningu, używanych do analizy danych. Warto jednak wiedzieć o kilku prostych metodach, pozwalających na szybki przegląd naszych danych:

Średnia

Średnia arytmetyczna jest sumą liczb, podzieloną przez ich ilość. Jest ona jednym z pierwszych narzędzi, po jakie sięgają analitycy, chcąc przejrzeć dane. Średnia daje możliwość szybkiego zorientowania się, jaka jest tendencja danych. Ponadto jej obliczenie jest łatwe i szybkie.

Problem:
Analizowanie danych na podstawie samej średniej jest słabym pomysłem. Zdarza się, że średnia, moda i mediana mają podobne wartości, wtedy sama średnia jest miarodajna. Często jednak analizujemy zbiory danych, w których jest dużo wartości odstających. Nawet jedna bardzo duża obserwacja odstająca może mocno wpłynąć na wartość średniej, czyniąc samą średnią bezużyteczną. Przykładem może być analiza wynagrodzeń Polaków. Średnie wynagrodzenie brutto w 2016r. wyniosło 4347zł, podczas gdy mediana wyniosła zaledwie 3511zł. Oznacza to, że połowa Polaków zarabiała mniej niż 3511zł brutto.

Odchylenie standardowe

Odchylenie standardowe jest miarą odchylenia danych od średniej. Wysoka wartość odchylenia standardowego wskazuje na duże odchylenie danych od średniej, zaś mała wartość pokazuje, że dane są ułożone w pobliżu średniej. Wartość ta jest więc miarą rozrzutu danych.

Problem:
Podobnie jak średnia, odchylenie standardowe nie daje pełnego obrazu danych i nie może być stosowane samodzielnie.

Regresja

Regresja bada relacje między zmiennymi objaśniającymi a zmienną zależną, sprawdzając, czy relacje te są silne. Regresje często przedstawiamy na wykresie punktowym, do którego dodajemy linie trendu.

Problem:
Zdarza się, że obserwacje odstające na wykresie są istotne. Obserwacją odstającą może być na przykład ocena wystawiona przez bardzo krytycznego klienta, kupującego najdroższe produkty w asortymencie. Linia regresji na wykresie sprawia, że takie obserwacje są często pomijane.

Określanie rozmiaru próby

Analizowanie całej populacji, co do której wnioski chcemy wynieść, nie jest potrzebne, ponadto przeprowadzanie takich badań jest czasochłonne i kosztowne. Do celów analitycznych można przyjąć próbę z populacji. Ważne jest, by dobrze dobrać rozmiar próby – ma być dość duży, by wnioski były statystycznie istotne.

Problem:
Testowanie nowej zmiennej musi opierać się na pewnych założeniach. Jeżeli założenia te są niepoprawne, również wielkość próby może zostać źle dobrana, wpływając negatywnie na całą analizę.

Testowanie hipotez

Testowanie hipotez polega na szacowaniu czy pewne założenia są prawdziwe dla zbioru danych. W analizie danych uznajemy, że wynik testowania hipotez jest statystycznie istotny, jeśli wyniki te nie mogły zdarzyć się losowo. Metody tej używamy m. in. w naukach przyrodniczych czy ekonomii.

Problem:
Przy testowaniu hipotez należy uważać na typowe błędy, takie jak efekt placebo (gdy uczestnicy badania oczekują otrzymania jakiegoś wyniku) czy efekt Hawthorne (badani wiedzą o tym, że uczestniczą w badaniu).

Dogłębne poznanie powyższych metod jest istotne dla każdego, kto chce zająć się szeroko pojętą analizą danych. Ważne jest poznanie wad każdego sposobu analizy, aby badacz miał świadomość błędów, jakie może popełnić.

Czym jest analiza danych?

Analiza danych jest procesem, który opiera się na metodach i technikach, które pozwalają na pozyskiwanie surowych danych, wydobycie informacji istotnych z punktu widzenia głównych celów przedsiębiorstwa oraz wykorzystanie tych informacji do przekształcenia danych metrycznych, faktów i liczb w inicjatywy mające na celu ich poprawę.

Istnieją różne metody analizy danych, w dużej mierze oparte na dwóch podstawowych obszarach: metodach analizy danych ilościowych oraz metodach analizy danych w badaniach jakościowych. Każda metoda ma swoje własne techniki. Wywiady i obserwacje są formą badań jakościowych, a eksperymenty i badania są badaniami ilościowymi.

Polecane serwisy: