Skip to content

Latest commit

 

History

History
27 lines (16 loc) · 682 Bytes

README.md

File metadata and controls

27 lines (16 loc) · 682 Bytes

新浪微博爬虫(java版)


Sina Tweet Crawler (java)

新浪微博爬虫

实现自定义输入关键词,指定要爬取的相关页面,根据关键词提取页面中的微博信息数据。
  • 自定义搜索关键字
  • 自动获取代理IP爬取
  • 非登录,爬取当天微博信息数据存储于本地html文件
  • 解析微博页面获取微博文本内容信息到txt和xml文件
  • 基于代理IP获取数据,可以长时间连续爬取数据,可以防止某些反爬虫机制

1.软件功能

实时爬取微博信息数据,数据源 http://s.weibo.com/wb/searchword


2.Learn more

Learn more...