BDFB spider function illustration
1.首先通过分析并模拟人浏览单个北大法宝网页的行为模式,基于基本的爬虫架构,搭建一个解析网页并提取相应关键字的爬虫。
2.对提取到的关键字再次进行筛选重组,转换成json文件,利用redis服务器进行快速存储。
3.针对网站爬取过程中所需要的自动登录,自动下载等行为可能造成反爬制裁,利用代理池,账号池以及cookie池来实现真实ip隐藏,多账号登录反制封号。
4.针对爬取过程中需要自动翻页可能导致出现图片滑动验证码以及账号页数等反爬行为,利用selenium+opencv来模拟识别验证码缺口并计算相应距离以实现反制。
5.通过分析下载链接,提取相应文件id并进行下载链接自动生成,以实现裁判文书的自动下载功能。