Celé aktivitě kolem získávání a zpracování dat odpovídá proces "zpravodajský cyklus"1.
V tomto kurzu tvoří níže uvedený proces základní rozvržení pracovního prostředí.
Surová (nezpracovaná) data jsou tedy striktně oddělena od dat zpracovaných, které se na výše uvedeném obrázku označují jako informace. V pracovním prostředí se s tímto oddělením lze setkat pod pojmem "vrstvy úložiště", případně "databázové vrstvy".
V závislosti na zvolených typech úložných technologií (viz sekce 2A Úložiště) se pak volí odpovídající nástroje pro analýzu (viz sekce 2C Nástroje).
Výzva | Co řeší | Příklad |
---|---|---|
Získání obrovského množství dat | Metody sběru dat | Zvolíme souborový úložný systém nebo použijeme databázi? |
Spojování různorodých zdrojů | principy datové integrace2 | Budeme držet data v oddělené tabulce nebo připojíme k stávajícím záznamům? |
Udržení konzistentního prostředí | umožněno díky datovému modelování3 pomocí standartizované sady znaků a symbolů | Známe strukturu nového zdroje? Jak jej napojíme do systému? |
Optimální zpracování dat na informace | nasazení datových skladů | Jak často agregovat data? Ukládat s časovýma značkama? |
Získání odpovědí na naše otázky | volba vhodného analytického nástroje |
Při získávání dat používáme jeden z následujících postupů:
- pomocí dotazovacích jazyků4
- pomocí programovacích jazyků (Python, R, ...)
- pomocí analytických nástrojů (Microsoft Power BI, Metabase, ...)
- pomocí dalších jazyků sloužící k získání specifických typů dat (GraphQL, Cypher, ...)
Při spojování více datových souborů se dostáváme do situací, kdy je třeba provádět více krokové přípravy, ty jsou uvedeny v následující sekci aktivity nad daty.
Poznámky:
Footnotes
-
anglicky Intelligence cycle (detaily na wikipedii) nebo v české studii: Zeman, Pavel (2010). Zpravodajský cyklus) ↩
-
anglicky Data Integration (zkratka DI) více informací na https://en.wikipedia.org/wiki/Data_integration ↩
-
anglicky Data Modelling (zkratka DM) více informací na https://en.wikipedia.org/wiki/Data_modeling ↩
-
kompletnější výčet jazyků na dotazování se lze dočíst na https://en.wikipedia.org/wiki/Query_language. ↩