GitHub - DJMeng/Spider_SinaTweetCrawler_java: Spider_SinaTweetCrawler, to crawl tweet content from sinaTweet. (java)

新浪微博爬虫（java版）

自定义搜索关键字

自动获取代理IP爬取

非登录，爬取当天微博信息数据存储于本地html文件

解析微博页面获取微博文本内容信息到txt和xml文件

基于代理IP获取数据，可以长时间连续爬取数据，可以防止某些反爬虫机制

实时爬取微博信息数据，数据源 http://s.weibo.com/wb/searchword

Learn more...

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
SinaTweetCrawler		SinaTweetCrawler
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md