Neste curso, torna-se possível visualizar em detalhes os conceitos da arquitetura Spark e diversos cenários de exemplo. Além disso, podemos observar como explorar e pré-processar conjuntos de dados aplicando uma variedade de transformações e ações do DataFrame Spark. O curso demonstra como realizar a ingestão de dados de vários formatos de arquivo (CSV, Parquet, etc) aplicando essas etapas de pré-processamento e gravando os dados em tabelas Delta. Tem-se um estudo de caso com o objetivo de transmitir dados armazenado em Delta demonstrando os principais conceitos de streaming estruturado. Por fim, poderão ser exploradas a interface do usuário do Spark e como realizar otimização de consultas, particionamento e armazenamento em cache bem como seu impacto no desempenho do cluster.
Este curso faz parte da rota de aprendizagem de Engenharia de Dados utilizando Databricks. De maneira resumida, seus principais objetivos são:
- Identificar os principais recursos do Spark no Databricks
- Descrever e realizar aplicações práticas sobre como os DataFrames são utilizados no Spark
- Processar e analisar dados utilizando DataFrame spark
- Visualizar como o Spark pode ser otimizado durante sua execução em cluster
- Realizar aplicações Delta e Streaming Estruturado para processamento de dados streaming