Cílem jednodenního workshopu je vyzkoušet si, jak může vypadat běžný den datové analytičky v praxi (v komerčním prostředí). Používat budeme zejména python knihovnu pandas, ale nevyhneme se ani základním dotazům v SQL, jelikož je to pořád běžnější jazyk pro práci s daty ve firmách (není nutná znalost SQL).
Workshop je prakticky zaměřen, což znamená, že teoretické seznámení s knihovnou pandas je velmi krátké, až minimalistické. Hlavní část workshopu tvoří praktická část - vypracování fiktivního úkolu v pandas. Na tomto úkolu si procvičíme důležité fuknce z pandas pro čtení, čištění, vizualizaci (pro prezentaci) a zapisování dat do nových souborů i do databází. Na tomto úkolu si ukážeme, co by měl datový analytik pro svou práci vědět a čím může svůj management překvapit.
Seznámení a motivace
- kdo jsme, co děláme a kam smeřujeme
- pro koho je kurz určen
- datová analýza obecně
- kdo mě zaměstná?
- příprava python prostředí
Teoretická část
- Co je to analýza dat?
- Kdo je datový analytik a co by měl umět?
- Proč python a pandas?
- Porovnání python pandas s SQL a R.
- Základní funkce v pandas.
- Proces analýzy dat od začátku do konce na ukázkovém datasetu.
Praktická část: Proces analýzy dat od začátku do konce
- Zadání, specifikace úkolu managmentem
- Návrh řešení úkolu na nečisto
- Exploratory Data Analysis
- Čištění dat
- Zpracování čistých dat
- Vizualizace čistých dat
- Uložení výsledků a úprava skriptu pro další použití
- Tvorba reportu pro management
Závěr
- Shrnutí
- Dotazy
- Kde se nechat zaměstnat
- Chci vědět víc
Předpoklady: Počítač s nainstalovaným python 3, jupyter (ipython notebook) a pandas. (Jak nainstalovat ipython jupyter notebook: http://jupyter.readthedocs.io/en/latest/install.html#installing-jupyter-using-anaconda-and-conda Nebo pomoci pip install jupyter)
Poznámka: Workshop bude veden v slovenštině/češtině, všechny skripty budou napsány v angličtině. Data do workshopu budou z oblasti otevřených dat a svou logikou budou simulovat skutečné data z praxe.