Skip to content

Latest commit

 

History

History
57 lines (33 loc) · 4.02 KB

3A_dotazy.md

File metadata and controls

57 lines (33 loc) · 4.02 KB

Získávání dat

Celé aktivitě kolem získávání a zpracování dat odpovídá proces "zpravodajský cyklus"1.

V tomto kurzu tvoří níže uvedený proces základní rozvržení pracovního prostředí.

zpracovani dat

Surová (nezpracovaná) data jsou tedy striktně oddělena od dat zpracovaných, které se na výše uvedeném obrázku označují jako informace. V pracovním prostředí se s tímto oddělením lze setkat pod pojmem "vrstvy úložiště", případně "databázové vrstvy".

V závislosti na zvolených typech úložných technologií (viz sekce 2A Úložiště) se pak volí odpovídající nástroje pro analýzu (viz sekce 2C Nástroje).

Největší výzvy v oblasti získávání dat

Výzva Co řeší Příklad
Získání obrovského množství dat Metody sběru dat Zvolíme souborový úložný systém nebo použijeme databázi?
Spojování různorodých zdrojů principy datové integrace2 Budeme držet data v oddělené tabulce nebo připojíme k stávajícím záznamům?
Udržení konzistentního prostředí umožněno díky datovému modelování3 pomocí standartizované sady znaků a symbolů Známe strukturu nového zdroje? Jak jej napojíme do systému?
Optimální zpracování dat na informace nasazení datových skladů Jak často agregovat data? Ukládat s časovýma značkama?
Získání odpovědí na naše otázky volba vhodného analytického nástroje

Metody sběru dat

Při získávání dat používáme jeden z následujících postupů:

  • pomocí dotazovacích jazyků4
    • pro strukturovaná data (SQL, MDX a další)
    • pro částečně strukturovaná data (XQuery)
  • pomocí programovacích jazyků (Python, R, ...)
  • pomocí analytických nástrojů (Microsoft Power BI, Metabase, ...)
  • pomocí dalších jazyků sloužící k získání specifických typů dat (GraphQL, Cypher, ...)

Při spojování více datových souborů se dostáváme do situací, kdy je třeba provádět více krokové přípravy, ty jsou uvedeny v následující sekci aktivity nad daty.


Poznámky:

Footnotes

  1. anglicky Intelligence cycle (detaily na wikipedii) nebo v české studii: Zeman, Pavel (2010). Zpravodajský cyklus)

  2. anglicky Data Integration (zkratka DI) více informací na https://en.wikipedia.org/wiki/Data_integration

  3. anglicky Data Modelling (zkratka DM) více informací na https://en.wikipedia.org/wiki/Data_modeling

  4. kompletnější výčet jazyků na dotazování se lze dočíst na https://en.wikipedia.org/wiki/Query_language.