新浪微博爬虫（java版）

自定义搜索关键字

自动获取代理IP爬取

非登录，爬取当天微博信息数据存储于本地html文件

解析微博页面获取微博文本内容信息到txt和xml文件

基于代理IP获取数据，可以长时间连续爬取数据，可以防止某些反爬虫机制

1.软件功能

实时爬取微博信息数据，数据源 http://s.weibo.com/wb/searchword

Learn more...