爬虫合集

1.JXNU教务在线爬虫

首先申明一下，此代码仅作学习交流。切勿进行非法用途！最后要实现的效果图如下：

我们要爬取的数据有学生的学号，姓名，班级，性别，照片。存放数据的格式约定：照片的命名方式是：学号.jpg。然后把学号，姓名，班级，性别这四个字段的数据存入，学号.txt的文本文档中。目录结构效果如上图。

然后说明一下环境。我在Windows 10下开发的，事实上这个代码在Linux上也可以跑。我已经试过了。所以你在Windows的其他版本或者是Linux环境下编写也是可以的。这是系统的环境，一般问题不大。语言用的是python，版本是2.7,推荐使用pycharm进行python代码的编写。还需要python的一些库，例如requests,re,os。其中re是正则表达式库，os用来文件操作的库。都是系统自带的，requests需要安装，如果你有pip，你可以直接在cmd中pip install requests,如果你在Windows上输入这条命令没有用，那是因为你没把pip.exe所在的目录路径加入到系统变量中，cmd自然就检索不到pip.exe。那你要么把该目录加入到系统变量中，要么就在cmd中输入完整路径\pip install requests。Ok，安装好之后重启下pycharm就可以使用requests库了。好了，环境ok，接下来，我们就可以来写代码了。 Windows 10 安装包可以到 http://msdn.itellyou.cn/ 这个网站下载 python 2.7可以到https://www.python.org/downloads/这个网站下载 pycharm可以到http://www.jetbrains.com/pycharm/这个网站下载 pycharm 使用教程http://blog.csdn.net/u013088062/article/details/50100121 requests安装教程http://www.zhidaow.com/post/python-requests-install-and-brief-introduction 正则表达式：http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html re.findAll()用法：http://blog.csdn.net/cashey1991/article/details/8875213

爬虫呢其实就是从网页源代码中提取我们想要的内容。那么很显然，你要知道URL是什么，还好，URL一般都是有规律的。比如学号为1308092061的学生，它的信息存储在URL=“http://jwc.jxnu.edu.cn/MyControl/All_Display.aspx?UserControl=All_StudentInfor.ascx&UserType=Student&UserNum=1308092061”的页面中。那么我们只要枚举学号就可以构造出URL，从而达到了获取所有学生的目的。这里考虑把学生分成三个部分，第一个部分是年级，第二个部分是班级，第三个部分是班级内编号。这样，第一层循环枚举年级，第二层循环枚举班级号，第三层循环枚举班级内号，这样比直接从0000000001枚举到9999999999要高效得多。然后，并不是构造出来的每一个学号都是有效的，如果学号无效我们就break掉第三层循环。构造好URL，接下来就是要获取URL对应HTML页面的源代码了，那很简单，只要requests.get(URL)就可以获取网页源码了。但是这个URL是登录之后才能访问的，可以用cookies来解决这个问题，你登录成功后有个cookies，你把cookies复制下来就可以模拟浏览器登录了。怎么获取cookies呢？利用chrome获取cookieshttps://www.zhihu.com/collection/75739883 获取到cookies后，比如把cookies存在cook变量中。然后requests.get(URL，cookies=cook)就可获取网页源码了。然后用正则表达式把想要的内容提取出来就可以了。先说这么多，看源代码把。

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
image		image
JxnuSpider.py		JxnuSpider.py
README.md		README.md
未命名绘图.drawio		未命名绘图.drawio

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

爬虫合集

1.JXNU教务在线爬虫

About

Releases

Packages

Languages

ShaMaTeYing/Spider

Folders and files

Latest commit

History

Repository files navigation

爬虫合集

1.JXNU教务在线爬虫

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages