Przygotowanie danych do analizy statystycznej jest bardziej czasochłonna niż statystyka
Według moich szacunków 70-80% pracy w analizie danych to przygotowania danych do analizy. Przygotowanie danych jest po prostu niesamowicie czasochłonne a niewielu klientów to rozumie. Tygodnie lub miesiące to realistyczne ramy czasowe. Godziny nie są.
Są trzy części do przygotowania danych: czyszczenia, tworzenia niezbędnych zmiennych i formatowania wszystkich zmiennych.
dopiero po przeprowadzeniu tych operacji mozna skutecznie zająć się analizą statystyczną do pracy nakowej.
Czyszczenie danych
Czyszczenie danych oznacza wyszukiwanie i eliminowanie błędów w danych. Sposób podejścia do niego zależy od tego, jak duży jest zestaw danych, ale rodzaje rzeczy, których szukasz, to:
Niemożliwe lub w inny sposób nieprawidłowe wartości dla określonych zmiennych
Przypadki w danych, które spełniały kryteria wykluczenia i nie powinny być w badaniu
Zduplikowane przypadki
Brakujące dane i wartości odstające
Pomijanie wzorów lub logicznych awarii
Nie można uniknąć czyszczenia danych i zawsze zajmuje to trochę czasu, ale istnieją sposoby, aby zwiększyć jego wydajność.
Na przykład jednym ze sposobów na znalezienie niemożliwych wartości dla zmiennej jest wydrukowanie danych dla przypadków poza normalnym zakresem.
To właśnie w tym miejscu pomaga nauka wyboru kodu w wybranym oprogramowaniu statystycznym. Musisz rozdzielić dane za pomocą instrukcji IF, aby znaleźć te niemożliwe wartości.
Ale jeśli twój zestaw danych nie jest mały, możesz zaoszczędzić sobie mnóstwo czasu, kodu i błędów, włączając w to efektywność, taką jak pętle i makra, dzięki czemu możesz wykonać niektóre z tych sprawdzeń dla wielu zmiennych naraz.
Tworzenie nowych zmiennych
Gdy dane są wolne od błędów, musisz skonfigurować zmienne, które będą bezpośrednio odpowiadać na pytania badawcze.
Jest to rzadki zestaw danych, w którym każda potrzebna zmienna jest mierzona bezpośrednio.
Może więc zajść potrzeba wielokrotnego przekodowywania i obliczania zmiennych.
Przykłady:
Tworzenie wyników zmian
Tworzenie wskaźników ze skal
Łączenie zbyt małych kategorii zmiennych nominalnych
Centrowanie predyktorów
Restrukturyzacja danych z formatu szerokiego na długi (lub odwrotny)
formatowanie zmiennych
Zarówno oryginalne, jak i nowo utworzone zmienne muszą być poprawnie sformatowane z dwóch powodów:
Po pierwsze, twoje oprogramowanie działa poprawnie. Niepoprawne sformatowanie brakującego kodu wartości lub sztucznej zmiennej będzie miało poważne konsekwencje dla analizy danych.
Po drugie, znacznie szybciej jest przeprowadzać analizy i interpretować wyniki, jeśli nie musisz ciągle sprawdzać, która zmienna to Z12.
Przykłady obejmują:
Ustawienie wszystkich brakujących kodów danych, więc brakujące dane są traktowane jako takie
Formatowanie zmiennych daty jako dat, zmiennych numerycznych jako liczb itd.
Etykietowanie wszystkich zmiennych i wartości kategorycznych, dzięki czemu nie musisz ich szukać
Wszystkie trzy kroki wymagają solidnej wiedzy na temat korzystania z oprogramowania statystycznego. Każdy podchodzi do nich trochę inaczej.
Jest również bardzo ważne, aby śledzić i móc łatwo powtórzyć wszystkie kroki. Zawsze zakładaj, że będziesz musiał coś przerobić. Więc używaj (lub nagrywaj) składni, nie menu.