Tag: analiza (1)

Przygotowanie danych do analizy statystycznej jest bardziej czasochłonna niż statystyka.

Według moich szacunków 70-80% pracy w analizie danych to przygotowania danych do analizy. Przygotowanie danych jest po prostu niesamowicie czasochłonne a niewielu klientów to rozumie. Tygodnie lub miesiące to realistyczne ramy czasowe. Godziny nie są.

Są trzy części do przygotowania danych: czyszczenia, tworzenia niezbędnych zmiennych i formatowania wszystkich zmiennych.

dopiero po przeprowadzeniu tych operacji mozna skutecznie zająć się analizą statystyczną do pracy nakowej.

 

Czyszczenie danych

Czyszczenie danych oznacza wyszukiwanie i eliminowanie błędów w danych. Sposób podejścia do niego zależy od tego, jak duży jest zestaw danych, ale rodzaje rzeczy, których szukasz, to:

    Niemożliwe lub w inny sposób nieprawidłowe wartości dla określonych zmiennych

    Przypadki w danych, które spełniały kryteria wykluczenia i nie powinny być w badaniu

    Zduplikowane przypadki

    Brakujące dane i wartości odstające

    Pomijanie wzorów lub logicznych awarii

 

 

Nie można uniknąć czyszczenia danych i zawsze zajmuje to trochę czasu, ale istnieją sposoby, aby zwiększyć jego wydajność.

 

 

Na przykład jednym ze sposobów na znalezienie niemożliwych wartości dla zmiennej jest wydrukowanie danych dla przypadków poza normalnym zakresem.

To właśnie w tym miejscu pomaga nauka wyboru kodu w wybranym oprogramowaniu statystycznym. Musisz rozdzielić dane za pomocą instrukcji IF, aby znaleźć te niemożliwe wartości.

Ale jeśli twój zestaw danych nie jest mały, możesz zaoszczędzić sobie mnóstwo czasu, kodu i błędów, włączając w to efektywność, taką jak pętle i makra, dzięki czemu możesz wykonać niektóre z tych sprawdzeń dla wielu zmiennych naraz.

Tworzenie nowych zmiennych

Gdy dane są wolne od błędów, musisz skonfigurować zmienne, które będą bezpośrednio odpowiadać na pytania badawcze.

Jest to rzadki zestaw danych, w którym każda potrzebna zmienna jest mierzona bezpośrednio.

Może więc zajść potrzeba wielokrotnego przekodowywania i obliczania zmiennych.

Przykłady:

    Tworzenie wyników zmian

    Tworzenie wskaźników ze skal

    Łączenie zbyt małych kategorii zmiennych nominalnych

    Centrowanie predyktorów

    Restrukturyzacja danych z formatu szerokiego na długi (lub odwrotny)

 

formatowanie zmiennych

Zarówno oryginalne, jak i nowo utworzone zmienne muszą być poprawnie sformatowane z dwóch powodów:

 

 

Po pierwsze, twoje oprogramowanie działa poprawnie. Niepoprawne sformatowanie brakującego kodu wartości lub sztucznej zmiennej będzie miało poważne konsekwencje dla analizy danych.

 

 

Po drugie, znacznie szybciej jest przeprowadzać analizy i interpretować wyniki, jeśli nie musisz ciągle sprawdzać, która zmienna to Z12.

 

 

Przykłady obejmują:

 

 

    Ustawienie wszystkich brakujących kodów danych, więc brakujące dane są traktowane jako takie

    Formatowanie zmiennych daty jako dat, zmiennych numerycznych jako liczb itd.

    Etykietowanie wszystkich zmiennych i wartości kategorycznych, dzięki czemu nie musisz ich szukać

 

 

Wszystkie trzy kroki wymagają solidnej wiedzy na temat korzystania z oprogramowania statystycznego. Każdy podchodzi do nich trochę inaczej.

 

 

Jest również bardzo ważne, aby śledzić i móc łatwo powtórzyć wszystkie kroki. Zawsze zakładaj, że będziesz musiał coś przerobić. Więc używaj (lub nagrywaj) składni, nie menu.