Analiza danych w Pythonie. Już wkrótce nowy kurs online
Już wkrótce w ofercie szkoleniowej Centrum Badawczo-Rozwojowego Biostat pojawi się szkolenie „Data Science w Python - podstawy. Analiza danych”. To ciekawa propozycja dla wszystkich, którzy na co dzień zajmują się analizą danych i chcieliby używać języka Python. Autorem szkolenia jest dr Marian Płaszczyca, który stosuje Pythona w analizie danych biomedycznych od 15 lat.
Kurs „Data Science w Python - podstawy. Analiza danych” już wkrótce znajdzie się na platformie szkoleniowej Biostatu. Jest to szkolenie na poziomie podstawowym, którego adresatami są:
- analitycy danych oraz wszyscy, którzy w codziennej pracy chcieliby korzystać z języka programowania Python
- naukowcy (w tym doktoranci), którzy chcą poszerzyć swoją wiedzę i umiejętności w zakresie analizy danych.
Celem szkolenia jest wskazanie tych obszarów data science, gdzie użycie języka Python może przynieść spore korzyści i być alternatywą dla innych narzędzi. W trakcie kursu pokażemy również jak zainstalować i skonfigurować środowisko Jupiter Lab. Wiele miejsca poświęcimy porządkowaniu, transformacji i wizualizacji danych – wylicza dr Marian Płaszczyca – autor szkolenia, dyrektor działu statystyki w Centrum Badawczo-Rozwojowym Biostat.
Szczegółowy plan kursu „Data Science w Python - podstawy. Analiza danych” przedstawia się następująco:
1. Dlaczego Python?
- Czym jest Python?
- Python czy Excel – dlaczego w ogóle używać języka programowania do pracy z danymi?
- Python czy R?
- Python w erze ChatGPT
- Data science i uczenie maszynowe
2. Instalacja i konfiguracja środowiska Jupyter Lab
- Anaconda
- Jupyter lab
3. Podstawy programowania
- Typy danych – liczby całkowite, liczby rzeczywiste ciągi tekstowe,
- Struktury danych (Listy, słowniki)
- Pętle for
- Warunki If else
4. Podstawy pracy z danymi – biblioteka pandas
- Import pakietów
- wczytywanie danych
- podstawowe operacje
- zapisywanie wyników
5. Schludne dane i strategia Podziel, zastosuj i połącz (Split-apply-combine)
- Dane zabałaganione a dane schludne – forma długa i forma szeroka
- Wyciąganie danych z nazw kolumn
- Reorganizacja danych
- Grupowanie danych
6. Transformacja danych
- Operacje na jednej kolumnie
- Obróbka danych tekstowych (metody str)
- Wyrażenia regularne
- Wyodrębnianie danych z kolumny i podział na wiele kolumn
- Operacje matematyczne
- Dane kategoryczne
- Data i czas
- Uzupełnianie braków danych
- Operacje na wielu kolumnach (apply, np.where, np.select)
- Łączenie zbiorów danych (metody merge)
7. Wizualizacja danych – biblioteki matplotlib i seaborn
- Podstawy tworzenia i dostosowywania wykresów
- Fasetowanie danych
- Organizacja wykresów w figury
8. Podstawy statystyki – scipy.stats, statsmodels
- Stosowanie testów statystycznych
- Wykonywanie analiz z wykorzystaniem regresji liniowej
Dodajmy, że ofercie Biostatu znajdują się też inne szkolenia z zakresu statystyki:
- Podstawy statystyki (dla początkujących)
- Testy statystyczne (dla początkujących)
- Statystyka w badaniach klinicznych – część 1 (dla początkujących)
- Statystyka w badaniach klinicznych część – 2 (poziom średniozaawansowany)
- Statystyka w badaniach klinicznych – część 3 (poziom zaawansowany)
- Statystyczna interpretacja wyników badań medycznych (dla początkujących)
- Wprowadzenie do metaanalizy (dla początkujących)
A już wkrótce dostępne będą kolejne szkolenia online, m.in.:
- Podstawy statystyki w Excelu
- Testy statystyczne w Excelu
- Statystyka dla nie-statystyków
- Wyliczanie wielkości próby.