-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathPython.txt
209 lines (120 loc) · 10.7 KB
/
Python.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
Python金融股票爬虫实战源码大全
原创 2016-09-12 知乎@阿橙 Python中文社区
Stock [1]- 终端实时获取股票价格,实时查询股票价格,默认查询了沪指、深指。需要安装requests库,通过调用新浪股票API,实时查询股票价格,支持查询多支股票,通过threading多线程同时查询结果
tushare [2]- 是实现对股票/期货等金融数据从数据采集、清洗加工 到 数据存储过程的工具,满足金融量化分析师和学习数据分析的人在数据获取方面的需求,它的特点是数据覆盖范围广,接口调用简单,响应快速
chinastock [3]- 中国股票行情数据分析。能够获得股票部分金融数据、日线,周线,60分钟数据线,月线,30分钟数据及历史数据。该项目依赖于httplib2,和beautifulsoup。python开发环境是2.7.5
Stockholm [4]- 一个股票数据(沪深)爬虫和选股策略测试框架,数据基于雅虎YQL和新浪财经。根据选定的日期范围抓取所有沪深两市股票的行情数据。根据指定的选股策略和指定的日期进行选股测试。计算选股测试实际结果。支持使用表达式定义选股策略和多线程处理。
easyquotation [5]- 实时获取新浪 / Leverfun 的免费股票以及 level2 十档行情 / 集思路的分级基金行情。获取新浪的免费实时行情、腾讯财经的免费实时行情、leverfun 的免费 Level 2 十档行情、集思路的分级基金数据。开发环境 : Ubuntu 15.10 / Python 3.5。
get_recommend_stock [6]- 抓取同花顺level2广告页股票推荐数据,并发送邮件给指定邮箱。涉及简单的jsonp解析以及如何使用python发送邮件的操作。
stocks [7]- 每天从网上抓取股票数据并保存到本地以供分析,包括A股、中小板、创业板股票。上班时候可以偷偷看。。。
mystock [8]- linux查看实时查看股票信息(国内股票),再也不用偷偷摸摸上班看手机啦。。
[1]: https://github.com/felixglow/Stock
[2]: https://github.com/waditu/tushare
[3]: https://github.com/nooperpudd/chinastock
[4]: https://github.com/benitoro/stockholm
[5]: https://github.com/shidenggui/easyquotation
[6]: https://github.com/wlei-fx/stocks
[7]: https://github.com/1514louluo/mystock
[8]: https://github.com/zhoudayang/get_recommend_stock
Python网络爬虫实战项目大全,最后一个亮了
原创 2016-09-10 知乎@橙哥 Python中文社区
wcspider [1]- 微信公众号爬虫。使用爬虫搜索所有微信公众号资料及其文章,通过搜狗搜索获取公众号的openid,创建公众号历史消息请求URL,解析出历史消息总量、历史消息总页数、单个历史消息的XML,根据读取到的所有的历史消息XML内容,创建RSS文件。
DouBanSpider [2]- 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet ,采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封。
zhihu_spider [3] - 知乎爬虫。此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo
bilibili-user [4] - Bilibili用户爬虫。总数据数:20119918,抓取字段:用户id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。抓取之后生成B站用户数据报告。
SinaSpider [5]- 新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。
distribute_crawler [6]- 小说下载分布式爬虫。使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现,爬虫状态显示使用graphite实现,主要针对一个小说站点。
CnkiSpider [7]- 中国知网爬虫。设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。
LianJiaSpider [8] - 链家网爬虫。爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。
scrapy_jingdong[9]- 京东爬虫。基于scrapy的京东网站爬虫,保存格式为csv。
QQ-Groups-Spider [10]- QQ 群爬虫。批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。
wooyun_public [11]-乌云爬虫。 乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在mongodb中,大概约2G内容;如果整站爬全部文本和图片作为离线查询,大概需要10G空间、2小时(10M电信带宽);爬取全部知识库,总共约500M空间。漏洞搜索使用了Flask作为web server,bootstrap作为前端。
MyCar_python [12]- Tumblr爬虫。谨慎驾驶,小心翻车。
[1]: https://github.com/hexcola/wcspider
[2]: https://github.com/lanbing510/DouBanSpider
[3]: https://github.com/LiuRoy/zhihu_spider
[4]: https://github.com/airingursb/bilibili-user
[5]: https://github.com/LiuXingMing/SinaSpider
[6]: https://github.com/gnemoug/distribute_crawler
[7]: https://github.com/yanzhou/CnkiSpider
[8]: https://github.com/lanbing510/LianJiaSpider
[9]: https://github.com/taizilongxu/scrapy_jingdong
[10]: https://github.com/caspartse/QQ-Groups-Spider
[11]: https://github.com/hanc00l/wooyun_public
[12]: https://github.com/Thoxvi/MyCar_python
微博爬虫开源项目汇总大全(长期更新、欢迎补充)
原创 2016-09-07 知乎@橙哥 Python中文社区
- [SinaSpider][1] - 基于scrapy和redis的分布式微博爬虫。SinaSpider主要爬取新浪微博的个人信息、微博数据、关注和粉丝。数据库设置Information、Tweets、Follows、Fans四张表。爬虫框架使用Scrapy,使用scrapy_redis和Redis实现分布式。此项目实现将单机的新浪微博爬虫重构成分布式爬虫。
- [sina_reptile][2] -这是一个关于sina微博的爬虫,采用python开发,并修改了其sdk中的bug,采用mongodb存储,实现了多进程爬取任务。获取新浪微博1000w用户的基本信息和每个爬取用户最近发表的50条微博,使用python编写,多进程爬取,将数据存储在了mongodb中。
- [sina_weibo_crawler][3]-基于urlib2及beautifulSoup实现的微博爬虫系统。利用urllib2加beautifulsoup爬取新浪微博,数据库采用mongodb,原始关系以txt文件存储,原始内容以csv形式存储,后期直接插入mongodb数据库。
- [sina-weibo-crawler][4]-方便扩展的新浪微博爬虫。WCrawler.crawl()函数只需要一个url参数,返回的用户粉丝、关注里面都有url,可以向外扩展爬取,并且也可以自定义一些过滤规则。
- [weibo_crawler][5]-基于Python、BeautifulSoup、mysql微博搜索结果爬取工具。本工具使用模拟登录来实现微博搜索结果的爬取。
- [weibo_crawler][6] - 实现了抓取指定uid的微博数据的功能。
- [SinaMicroblog_Creeper-Spider_VerificationCode][7]-新浪微博爬虫,获得每个用户和关注的,粉丝的用户id存入xml文件中,BFS,可以模拟登陆,模拟登陆中的验证码会抓取下来让用户输入。
[1]: https://github.com/LiuXingMing/SinaSpider
[2]: https://github.com/gnemoug/sina_reptile
[3]: https://github.com/yanshengli/sina_weibo_crawler
[4]: https://github.com/intfloat/sina-weibo-crawler
[5]: https://github.com/meibenjin/weibo_crawler
[6]: https://github.com/rabintang/weibo_crawler
[7]: https://github.com/somethingx64/SinaMicroblog_Creeper-Spider_VerificationCode
Python自然语言处理资料库(长期更新,欢迎补充)
原创 2016-09-08 知乎@阿橙 Python中文社区
LTP [1]- 语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广,LTP 已经成为国内外最具影响力的中文处理基础平台。
NLPIR汉语分词系统 [2]- 又名ICTCLAS2013,主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取。
结巴中文分词 [3]- 支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。支持繁体分词;支持自定义词典。
Boson中文语义开放平台 [4]- Boson中文语义开放平台提供使用简单、功能强大、性能可靠的中文自然语言分析云服务。通过自主研发的中文分词、句法分析、语义联想和实体识别技术,结合海量行业语料的不断积累,为企业和广大开发者提供简单、强大、可靠的中文语义分析云端API。
NLPCN [5]- NLPCN是一个非盈利的自然语言处理组织。遵循开放自由的理念,乐于分享,勤于开源,为为数不多的数据处理的开发者提供了一个资源共享,开源项目介绍,开发者展示的平台。
THUCTC [6]- 是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练、评测、分类功能。文本文类通常包括特征选取、特征降维、分类模型学习三个步骤。
-SnowNLP [7]- 一个用来处理中文文本的库。它是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。
TextGrocery [8]- 简单高效的短文本分类工具,基于 LibLinear 和 Jieba。
[1]: http://www.ltp-cloud.com/
[2]: http://ictclas.nlpir.org/
[3]: https://github.com/fxsjy/jieba
[4]: http://bosonnlp.com/
[5]: http://www.nlpcn.org/group
[6]: http://thuctc.thunlp.org/
[7]: https://github.com/isnowfy/snownlp
[8]: https://github.com/2shou/TextGrocery: http://www.ltp-cloud.com/
[2]: http://ictclas.nlpir.org/
[3]: https://github.com/fxsjy/jieba
[4]: http://bosonnlp.com/
[5]: http://www.nlpcn.org/group
[6]: http://thuctc.thunlp.org/
[7]: https://github.com/isnowfy/snownlp
[8]: https://github.com/2shou/TextGrocery
Python支付接口汇总大全(包含微信、支付宝等,长期更新、欢迎补充)
原创 2016-09-09 知乎@阿橙 Python中文社区
微信支付接口
wzhifuSDK [1]- 由微信支付SDK 官方PHP Demo移植而来,v3.37
weixin_pay [2]- 是一个简单的微信支付的接口
weixin_pay [3]- 微信支付接口(V3.3.7)类库。此类库目前只提供了三种接口的操作类:①统一支付接口②订单查询接口③JSAPI 支付
wxpay [4]- 微信支付非官方Python工具库。主要提供函数:get_brand_wc_pay_request:获取传递给getBrandWCPayRequest的参数;notify_verify:验证微信请求。
flask-weixin-pay [5]- 微信支付的flask扩展。
wechat_pay_py [6]- 实现微信支付V2和V3。
weixin-python [7]- 微信SDK - 包括支付,公众号,登陆,消息处理等。
支付宝接口
alipay_python [8]- 是支付宝接口的python版本,提供了担保交易,即时到帐和自动发货的接口。增加了担保交易,确认发货和简单的测试站点(django)。
django-oscar-alipay [9]- 是django-oscar商城系统的支持多种支付方式的支付集成 实现了alipay担保交易,即时到帐和自动发货等接口。详细实现了django-oscar的payment支付部分。
alipay_py [10]- 支付宝移动支付的python实现。可帮助大家快速接入支付宝快捷支付。
alipay_tornado [11]- 是支付宝接口的tornado版本,提供了担保交易,即时到帐和自动发货的接口。
alipay_mobile_for_python [12]- 是支付宝手机网站支付接口 python2 实现包。
其它支付接口
unionpay [13]- 银联移动支付服务器端python SDK。功能:trade: 发送订单推送请求,获得交易流水号;parse_response: 处理银联后台回调;query: 发起交易信息查询,获得交易信息字典。
python-tenpay [14]- 财付通支付接口的python版本
openunipay [15]- 统一支付接口 - 集成了微信、支付宝支付。为微信支付,支付宝支付提供统一接口。做到一次集成即可使用多种支付渠道。
[1]: https://github.com/Skycrab/wzhifuSDK
[2]: https://github.com/kinglio8520/weixin_pay
[3]: https://github.com/ddkangfu/weixin_pay
[4]: https://github.com/deckmon/wxpay
[5]: https://github.com/zakzou/flask-weixin-pay
[6]: https://github.com/richfisher/wechat_pay_py
[7]: https://github.com/zwczou/weixin-python
[8]: https://github.com/fengli/alipay_python
[9]: https://github.com/amyhoo/django-oscar-alipay
[10]: https://github.com/longzhang/alipay_py
[11]: https://github.com/billyellow/alipay_tornado
[12]: https://github.com/liukelin/alipay_mobile_for_python
[13]: https://github.com/raully7/unionpay
[14]: https://github.com/shelmesky/python-tenpay
[15]: https://github.com/panweifeng/openunipay