Skip to content

Latest commit

 

History

History
98 lines (65 loc) · 4.41 KB

task2.md

File metadata and controls

98 lines (65 loc) · 4.41 KB

Task 2

学习内容

  • 爬虫初步学习

    • 网页抓包工具的使用
    • 网络请求的处理(requests库的使用)
    • 数据的提取(xpath(推荐)、bs4、···)
    • selenium的使用
  • 数据科学基本工具学习

    • Pandas的学习
      • 数据读取与写入
      • 数据清洗
      • 数据筛选与索引
      • 数据的处理与变换
    • 数据可视化(matplotlib、plotly、pyecharts、···)

学习要求

本轮学习内容较多也较杂,所以不会有太高的要求(毕竟我们不是搞AI的吗),爬虫只要求掌握最基础的使用requests进行请求和使用xpath等工具进行数据提取以及使用selenium进行爬取(selenium使用简单还不容易被反爬),而对于pandas也只要求有基础了解,并具有在需要时可通过查阅手册(当然AI对于写pandas特别厉害)的方式解决问题,numpy也是数据科学中常用的工具,下一轮才进行考核,大家也可以先行开始学习

推荐教程

爬虫推荐的教程包含内容较多,大家根据考核需求自行选择,对于numpy和pandas个人没有找到太好的教程视频还多希望大家自行探索当然读文档学习也是非常好的方式、互联网上还要更多更好更适合你的学习方式供你探索、此外对于学有余力想要深入学习numpy和pandas的同学可以去学习UC Berkeley Data 8Data 100这两门课

作业

爬虫

作业1 爬取福大教务通知

网址:https://jwch.fzu.edu.cn/jxtz.htm

要求
  1. 获取教务通知(至少500条,我们要进行数据分析所以越多越好 😏 )
  2. 提取通知信息中的“通知人”(如:质量办、计划科)、标题、日期、详情链接。
  3. 爬取通知详情的html,可能存在“附件”,提取附件名,附件下载次数,附件链接吗,有能力请尽可能将附件爬取下来。
  4. 上述内容一律要去除回车、括号等无用符号
  5. 将爬去内容存储到csv文件中

作业2 使用selenium爬取知乎话题

网址:https://www.zhihu.com/topic/19554298/top-answers

要求
  1. 考核仅要求对一个话题进行爬取(爬取50条问题,每个问题爬取20条回答即可(只爬问答就可以,其他类型如文章要爬也行)),学有余力的可以从话题广场开始爬
  2. 将爬取内容存储到csv文件中,格式为:问题名、问题具体内容、回答信息(只需要留下纯文字),学有余力的可以把评论也保留下来

Pandas

作业3 对作业1爬取的福大教务处信息进行数据分析

要求
  1. 使用jupyter notebook的形式完成代码以及分析报告
  2. 统计“通知人”都有哪些,各占比例多少?
  3. 分析附件下载次数与通知人是否关系,若有,有什么联系?
  4. 统计每天的通知数,分析哪段时间通知比较密集?
  5. 自行思考一个感兴趣的问题,并进行数据分析
  6. 尝试使用数据可视化工具对3、4问题进行可视化呈现

要求
  1. 绘制logistic函数,其中L=1, k=1, x0=0
  2. 尝试绘制不同的L、k、x0的logistic函数,观察函数的变化

作业要求

  1. 不要抄袭
  2. 遇到不会可以多使用搜索引擎,实在没有找到解决方法可以来群里提问
  3. 不限制使用chatgpt等大语言模型工具,但你需要确保你了解模型生成的内容的每一个细节,最好你可以在使用大语言模型生成的代码部分注释上reference from chatgpt这样的内容
  4. 你还需要学习基本的git的使用,所有考核都采用git的方式进行上传
  5. 作业内容可能会进行更新,请保持关注