Przygotowanie danych do analizy statystycznej jest bardziej czasochłonna niż statystyka

analizy statystyczne

Przygotowanie danych do analizy statystycznej jest bardziej czasochłonna niż statystyka

Według moich szacunków 70-80% pracy w analizie danych to przygotowania danych do analizy. Przygotowanie danych jest po prostu niesamowicie czasochłonne a niewielu klientów to rozumie. Tygodnie lub miesiące to realistyczne ramy czasowe. Godziny nie są.

Są trzy części do przygotowania danych: czyszczenia, tworzenia niezbędnych zmiennych i formatowania wszystkich zmiennych.

dopiero po przeprowadzeniu tych operacji mozna skutecznie zająć się analizą statystyczną do pracy nakowej.

 

Czyszczenie danych

Czyszczenie danych oznacza wyszukiwanie i eliminowanie błędów w danych. Sposób podejścia do niego zależy od tego, jak duży jest zestaw danych, ale rodzaje rzeczy, których szukasz, to:

    Niemożliwe lub w inny sposób nieprawidłowe wartości dla określonych zmiennych

    Przypadki w danych, które spełniały kryteria wykluczenia i nie powinny być w badaniu

    Zduplikowane przypadki

    Brakujące dane i wartości odstające

    Pomijanie wzorów lub logicznych awarii

 

 

Nie można uniknąć czyszczenia danych i zawsze zajmuje to trochę czasu, ale istnieją sposoby, aby zwiększyć jego wydajność.

 

 

Na przykład jednym ze sposobów na znalezienie niemożliwych wartości dla zmiennej jest wydrukowanie danych dla przypadków poza normalnym zakresem.

To właśnie w tym miejscu pomaga nauka wyboru kodu w wybranym oprogramowaniu statystycznym. Musisz rozdzielić dane za pomocą instrukcji IF, aby znaleźć te niemożliwe wartości.

Ale jeśli twój zestaw danych nie jest mały, możesz zaoszczędzić sobie mnóstwo czasu, kodu i błędów, włączając w to efektywność, taką jak pętle i makra, dzięki czemu możesz wykonać niektóre z tych sprawdzeń dla wielu zmiennych naraz.

Tworzenie nowych zmiennych

Gdy dane są wolne od błędów, musisz skonfigurować zmienne, które będą bezpośrednio odpowiadać na pytania badawcze.

Jest to rzadki zestaw danych, w którym każda potrzebna zmienna jest mierzona bezpośrednio.

Może więc zajść potrzeba wielokrotnego przekodowywania i obliczania zmiennych.

Przykłady:

    Tworzenie wyników zmian

    Tworzenie wskaźników ze skal

    Łączenie zbyt małych kategorii zmiennych nominalnych

    Centrowanie predyktorów

    Restrukturyzacja danych z formatu szerokiego na długi (lub odwrotny)

 

formatowanie zmiennych

Zarówno oryginalne, jak i nowo utworzone zmienne muszą być poprawnie sformatowane z dwóch powodów:

 

 

Po pierwsze, twoje oprogramowanie działa poprawnie. Niepoprawne sformatowanie brakującego kodu wartości lub sztucznej zmiennej będzie miało poważne konsekwencje dla analizy danych.

 

 

Po drugie, znacznie szybciej jest przeprowadzać analizy i interpretować wyniki, jeśli nie musisz ciągle sprawdzać, która zmienna to Z12.

 

 

Przykłady obejmują:

 

 

    Ustawienie wszystkich brakujących kodów danych, więc brakujące dane są traktowane jako takie

    Formatowanie zmiennych daty jako dat, zmiennych numerycznych jako liczb itd.

    Etykietowanie wszystkich zmiennych i wartości kategorycznych, dzięki czemu nie musisz ich szukać

 

 

Wszystkie trzy kroki wymagają solidnej wiedzy na temat korzystania z oprogramowania statystycznego. Każdy podchodzi do nich trochę inaczej.

 

 

Jest również bardzo ważne, aby śledzić i móc łatwo powtórzyć wszystkie kroki. Zawsze zakładaj, że będziesz musiał coś przerobić. Więc używaj (lub nagrywaj) składni, nie menu.

 

 

Podobne strony

Pomoc statystyczna
Zobacz
Statystyka - robota dla robota?
Zobacz
Analizy statystyczne
Zobacz
Opracowania statystyczne
Zobacz
Badania statystyczne – różnorodne możliwości wyboru
Zobacz
Metoda trendu pełzającego i wag harmonicznych
Zobacz
Statystyka jako nauka służąca wzrostowi
Zobacz
Analizy statystyczne i ich znaczenie dla firm
Zobacz
Najczęściej zadawane pytania
(FAQ)
Co obejmuje proces czyszczenia danych?

Proces czyszczenia danych obejmuje wyszukiwanie i eliminowanie błędów w danych, takich jak niemożliwe lub w inny sposób nieprawidłowe wartości dla określonych zmiennych, przypadki w danych, które spełniały kryteria wykluczenia i nie powinny być w badaniu, zduplikowane przypadki, brakujące dane i wartości odstające, a także pomijanie wzorów lub logicznych awarii.

Dlaczego warto wykorzystać oprogramowanie statystyczne do czyszczenia danych?

Oprogramowanie statystyczne pozwala na wykorzystanie instrukcji IF, które ułatwiają wyszukiwanie niemożliwych wartości dla zmiennej. Dzięki efektywności, takiej jak pętle i makra, można wykonać niektóre z tych sprawdzeń dla wielu zmiennych naraz, co pozwala zaoszczędzić czas, kod i uniknąć błędów.

Co jest ważne w procesie formatowania zmiennych?

W procesie formatowania zmiennych ważne jest, aby oryginalne i nowo utworzone zmienne były poprawnie sformatowane, tak aby oprogramowanie działało poprawnie. Niepoprawne sformatowanie brakującego kodu wartości lub sztucznej zmiennej będzie miało poważne konsekwencje dla analizy danych. Dodatkowo, formatowanie zmiennych ułatwia przeprowadzanie analiz i interpretację wyników, gdy nie trzeba ciągle sprawdzać, która zmienna to np. Z12.