新浪微博爬虫(java版) Sina Tweet Crawler (java) 新浪微博爬虫 实现自定义输入关键词,指定要爬取的相关页面,根据关键词提取页面中的微博信息数据。 自定义搜索关键字 自动获取代理IP爬取 非登录,爬取当天微博信息数据存储于本地html文件 解析微博页面获取微博文本内容信息到txt和xml文件 基于代理IP获取数据,可以长时间连续爬取数据,可以防止某些反爬虫机制 1.软件功能 实时爬取微博信息数据,数据源 http://s.weibo.com/wb/searchword 2.Learn more Learn more...