Skip to content

Latest commit

 

History

History
74 lines (53 loc) · 2.63 KB

2-爬虫.md

File metadata and controls

74 lines (53 loc) · 2.63 KB

Golang Lab2

目的

  • 学习并使⽤go module进⾏第三⽅库的安装
  • 了解http协议和web的⼯作原理
  • 静态数据与动态数据的爬取
  • 学习使⽤关系型数据库,如:MySQL(面向大二同学)

任务

爬取福大通知、文件系统

爬取福州大学通知、文件系统(https://info22.fzu.edu.cn/lm_list.jsp?wbtreeid=1460)

  • 包含发布时间,作者,标题以及正文。
  • 可自动翻页(爬虫可以自动对后续页面进行爬取,而不需要我们指定第几页)
  • 范围:2020年1月1号 - 2021年9月1号(不要爬太多了)。

Bonus

  1. 使用并发爬取,同时给出加速比(加速比:相较于普通爬取,快了多少倍)
  2. 搜集每个通知的访问人数
  3. 将爬取的数据存入数据库,原生SQL或ORM映射都可以

爬取Bilibili视频评论

爬取 https://www.bilibili.com/video/BV12341117rG 的全部评论

  • 全部评论,包含子评论

Bonus

  1. 给出Bilibili爬虫检测阈值(请求频率高于这个阈值将会被ban。也可以是你被封时的请求频率)
  2. 给出爬取的流程图,使用mermaid或者excalidraw
  3. 给出接口返回的json中每个参数所代表的意义

参考

提示

  • 本次考核难度较大,请尽早开始学习
  • 已经完成的同学可以先预习⼀下ginRESTful API以及数据库
  • 请多多参考网络资料,爬虫部分网络资料非常多

推荐上手顺序

  1. 了解爬虫原理与网页结构(不需要了解太深)
  2. 根据参考中给的几个库,查找对应的使用方法
  3. 选择合适的库,或者择取其他你认为更优秀的库,来编写爬虫程序