Task 2

学习内容

爬虫初步学习
- 网页抓包工具的使用
- 网络请求的处理（requests库的使用）
- 数据的提取（xpath(推荐)、bs4、···）
- selenium的使用
数据科学基本工具学习
- Pandas的学习
  - 数据读取与写入
  - 数据清洗
  - 数据筛选与索引
  - 数据的处理与变换
- 数据可视化（matplotlib、plotly、pyecharts、···）

学习要求

本轮学习内容较多也较杂，所以不会有太高的要求（毕竟我们不是搞AI的吗），爬虫只要求掌握最基础的使用requests进行请求和使用xpath等工具进行数据提取以及使用selenium进行爬取（selenium使用简单还不容易被反爬），而对于pandas也只要求有基础了解，并具有在需要时可通过查阅手册（当然AI对于写pandas特别厉害）的方式解决问题，numpy也是数据科学中常用的工具，下一轮才进行考核，大家也可以先行开始学习

作业

爬虫

作业1 爬取福大教务通知

网址：https://jwch.fzu.edu.cn/jxtz.htm

要求

获取教务通知(至少500条，我们要进行数据分析所以越多越好 😏 )
提取通知信息中的“通知人”(如：质量办、计划科)、标题、日期、详情链接。
爬取通知详情的html，可能存在“附件”，提取附件名，附件下载次数，附件链接吗，有能力请尽可能将附件爬取下来。
上述内容一律要去除回车、括号等无用符号
将爬去内容存储到csv文件中

作业2 使用selenium爬取知乎话题

网址：https://www.zhihu.com/topic/19554298/top-answers

要求

考核仅要求对一个话题进行爬取(爬取50条问题，每个问题爬取20条回答即可(只爬问答就可以，其他类型如文章要爬也行))，学有余力的可以从话题广场开始爬
将爬取内容存储到csv文件中，格式为：问题名、问题具体内容、回答信息（只需要留下纯文字），学有余力的可以把评论也保留下来

Pandas

作业3 对作业1爬取的福大教务处信息进行数据分析

要求

使用jupyter notebook的形式完成代码以及分析报告
统计“通知人”都有哪些，各占比例多少？
分析附件下载次数与通知人是否关系，若有，有什么联系？
统计每天的通知数，分析哪段时间通知比较密集？
自行思考一个感兴趣的问题，并进行数据分析
尝试使用数据可视化工具对3、4问题进行可视化呈现

要求

绘制logistic函数，其中L=1, k=1, x0=0
尝试绘制不同的L、k、x0的logistic函数，观察函数的变化

作业要求

不要抄袭
遇到不会可以多使用搜索引擎，实在没有找到解决方法可以来群里提问
不限制使用chatgpt等大语言模型工具，但你需要确保你了解模型生成的内容的每一个细节，最好你可以在使用大语言模型生成的代码部分注释上reference from chatgpt这样的内容
你还需要学习基本的git的使用，所有考核都采用git的方式进行上传
作业内容可能会进行更新，请保持关注

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

task2.md

task2.md

Task 2

学习内容

学习要求

推荐教程

作业

爬虫

作业1 爬取福大教务通知

要求

作业2 使用selenium爬取知乎话题

要求

Pandas

作业3 对作业1爬取的福大教务处信息进行数据分析

要求

要求

作业要求

Files

task2.md

Latest commit

History

task2.md

File metadata and controls

Task 2

学习内容

学习要求

推荐教程

作业

爬虫

作业1 爬取福大教务通知

要求

作业2 使用selenium爬取知乎话题

要求

Pandas

作业3 对作业1爬取的福大教务处信息进行数据分析

要求

要求

作业要求