Skip to content

Commit

Permalink
Copy Files From Source Repo (2024-03-08 17:40)
Browse files Browse the repository at this point in the history
  • Loading branch information
olprod committed Mar 9, 2024
1 parent 31f2098 commit bb366d9
Show file tree
Hide file tree
Showing 8 changed files with 8 additions and 16 deletions.
22 changes: 7 additions & 15 deletions Instructions/Labs/02-analyze-spark.md
Original file line number Diff line number Diff line change
Expand Up @@ -16,7 +16,7 @@ Apache Spark 是用于分布式数据处理的开放源代码引擎,广泛用

在 Fabric 中处理数据之前,创建一个已启用的 Fabric 试用版的工作区。

1.[Microsoft Fabric 主页](https://app.fabric.microsoft.com) (`https://app.fabric.microsoft.com`) 中,选择“Synapse 数据工程”****
1.`https://app.fabric.microsoft.com`[Microsoft Fabric 主页](https://app.fabric.microsoft.com)中,选择“Synapse 数据工程”****
1. 在左侧菜单栏中,选择“工作区”(图标类似于 🗇)。
1. 新建一个工作区并为其指定名称,并在“高级”部分选择包含 Fabric 容量(试用版、高级版或 Fabric)的许可模式 。
1. 打开新工作区时,它应为空。
Expand Down Expand Up @@ -67,7 +67,7 @@ Apache Spark 是用于分布式数据处理的开放源代码引擎,广泛用
> 注意:Spark 支持多种编码语言,包括 Scala、Java 等。 本练习将使用 Python 的 Spark 优化变体 PySpark。 PySpark 是 Spark 中最常用的语言之一,也是 Fabric 笔记本中的默认语言。
1. 在笔记本可见的情况下,展开 Files 列表并选择 orders 文件夹,以便 CSV 文件列在笔记本编辑器旁边,如下所示
1. 当笔记本可见时,在“资源管理器”窗格中,展开“湖屋”,然后展开你的湖屋的“Files”列表,然后选择“orders文件夹,使 CSV 文件列在笔记本编辑器旁边,如下所示:****************
![包含 Files 窗格的笔记本的屏幕截图。](./Images/notebook-files.png)
Expand Down Expand Up @@ -146,14 +146,6 @@ Apache Spark 是用于分布式数据处理的开放源代码引擎,广泛用
现在,数据帧包含正确的列名(除了 Index,这是所有数据帧中基于每一行的序号位置的内置列)。 列的数据类型是使用 Spark SQL 库中定义的一组标准类型指定的,这些类型是在单元格开始时导入的。
1. 通过查看数据帧确认更改是否已应用于数据。
1. 使用当前单元格的输出左侧的“+ 代码”链接(移动鼠标时即会显示)添加新的代码单元格(或者在菜单栏上的“编辑”选项卡中,选择“+ 添加代码单元格”)************。 然后在新代码单元中运行以下代码:
```Python
display(df)
```
1. 数据帧仅包含 2019.csv 文件中的数据。 修改代码,使文件路径使用 \* 通配符从 orders 文件夹的所有文件中读取销售订单数据:
```python
Expand Down Expand Up @@ -185,7 +177,7 @@ Apache Spark 是用于分布式数据处理的开放源代码引擎,广泛用
### 筛选数据帧
1. 使用单元格输出下方的“+ 代码”图标将新的代码单元格添加到笔记本,并在其中输入以下代码
1. 使用当前单元格的输出左侧的“+ 代码”链接(移动鼠标时即会显示)添加新的代码单元格(或者在菜单栏上的“编辑”选项卡中,选择“+ 添加代码单元格”)************。 然后在其中输入以下代码
```Python
customers = df['CustomerName', 'Email']
Expand Down Expand Up @@ -278,7 +270,7 @@ Apache Spark 是用于分布式数据处理的开放源代码引擎,广泛用
> 注意:对于用于进一步分析或引入到分析存储的数据文件,通常首选 Parquet 格式。 Parquet 是一种非常高效的格式,大多数大规模数据分析系统都支持这种格式。 事实上,有时数据转换要求可能只是将数据从其他格式(如 CSV)转换为 Parquet!
2. 运行单元格并等待数据已保存的消息。 然后在左侧的“资源管理器”窗格中,在 Files 节点的“...”菜单中,选择“刷新”;然后选择 transformed_orders 文件夹以验证它是否包含名为 orders 的新文件夹,该文件夹是否又包含一个或多个 Parquet 文件
2. 运行单元格并等待数据已保存的消息。 然后在左侧的“湖屋”窗格中,在Files节点的“...”菜单中,选择“刷新”;然后选择 transformed_orders 文件夹以验证它是否包含名为 orders 的新文件夹,该文件夹是否又包含一个或多个 Parquet 文件************************
![包含 parquet 文件的文件夹的屏幕截图。](./Images/saved-parquet.png)
Expand All @@ -300,7 +292,7 @@ Apache Spark 是用于分布式数据处理的开放源代码引擎,广泛用
print ("Transformed data saved!")
```
2. 运行单元格并等待数据已保存的消息。 然后在左侧的“资源管理器”窗格中,在 Files 节点的“...”菜单中,选择“刷新”;然后展开 partitioned_orders 文件夹以验证它是否包含名为 *Year=xxxx*** 的文件夹层次结构,每个文件夹是否包含名为 *Month=xxxx*** 的文件夹 。 每个月份文件夹均包含一个 parquet 文件,该文件包含该月的订单。
2. 运行单元格并等待数据已保存的消息。 然后在左侧的“湖屋”窗格中,在Files节点的“...”菜单中,选择“刷新”;然后展开 partitioned_orders 文件夹以验证它是否包含名为 *Year=xxxx*** 的文件夹层次结构,每个文件夹是否包含名为 *Month=xxxx*** 的文件夹************************。 每个月份文件夹均包含一个 parquet 文件,该文件包含该月的订单。
![分区数据文件层次结构的屏幕截图。](./Images/partitioned-files.png)
Expand Down Expand Up @@ -337,7 +329,7 @@ Spark 元存储中的表是数据湖中文件的关系抽象。 表可以管理
2. 运行代码单元格并查看输出,该输出描述新表的定义。
3. 在“资源管理器”窗格中 Tables 文件夹的“...”菜单中,选择“刷新” 。 然后展开 Tables 节点并验证是否已创建 salesorders 表 。
3. 在“湖屋”窗格中,在“Tables文件夹的“...”菜单中,选择“刷新”****************。 然后展开 Tables 节点并验证是否已创建 salesorders 表 。
![资源管理器中 salesorder 表的屏幕截图。](./Images/table-view.png)
Expand Down Expand Up @@ -389,7 +381,7 @@ Spark 元存储中的表是数据湖中文件的关系抽象。 表可以管理
2. 运行代码并观察它是否从之前创建的 salesorders 视图返回数据。
3. 在单元格下方的结果部分中,将“视图”选项从“表格”更改为“图表” 。
4. 使用图表右上角的“视图选项”按钮显示图表的选项窗格。 然后按如下方式设置选项并选择“应用”:
4. 使用图表右上角的“自定义图表”按钮显示图表的选项窗格****。 然后按如下方式设置选项并选择“应用”:
- **图表类型**:条形图
- **键**:项
- **值**:数量
Expand Down
2 changes: 1 addition & 1 deletion Instructions/Labs/06a-data-warehouse-load.md
Original file line number Diff line number Diff line change
Expand Up @@ -33,7 +33,7 @@ lab:

1.`https://github.com/MicrosoftLearning/dp-data/raw/main/sales.csv` 下载本练习的文件。

1. 返回到包含湖屋的 Web 浏览器标签页,在“**资源管理器**”窗格的 **Files** 文件夹的“**...**”菜单中,依次选择“**上传**”和“**上传文件夹**”,然后将 **sales.csv** 文件从本地计算机(或实验室 VM,如果适用)上传到湖屋。
1. 返回到包含你的湖屋的 Web 浏览器标签页,在“资源管理器”窗格的Files文件夹的“...”菜单中,依次选择“上传”和“上传文件”,然后将 sales.csv 文件从本地计算机(或实验室 VM,如果适用)上传到湖屋。************************

1. 上传文件后,选择“**Files**”。 验证 CSV 文件是否已上传,如下所示:

Expand Down
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.

0 comments on commit bb366d9

Please sign in to comment.