紫松竞彩 ———— 微信订阅号:紫松竞彩
##爬虫
###NBA
####配置赛程数据爬取
配置爬取哪个赛季的数据
打开crawlers/nba/nba/settings.py
,修改变量LP
,PROC
即可,LP
表示赛季,PROC
表示比赛种类,如常规赛,季后赛等。默认配置是爬取2014/2015赛季的常规赛。
# liansai.500.com domain config
LP = "215" # 2013/2014:177 2014/2015:215
PROC = "1172" # 2013/2014:980 2014/2015:1172
SEASON = 2014 # 2013/2014:2013 2014/2015:2014
配置爬取哪些月的数据
当前,配置爬取哪些月的NBA赛程数据需要直接修改代码文件,打开crawlers/nba/nba/spiders/nba_lottery.py
,对链接注释或取消注释即可。如下配置是指爬取2014年10月和11月的NBA竞彩数据。每个链接对应的数据包括当月已经开赛和未开赛的全部数据。
start_urls = (
"http://liansai.500.com/lq/" + LP + "/proc/" + PROC + "/0_" + str(SEASON) + "_10/",
"http://liansai.500.com/lq/" + LP + "/proc/" + PROC + "/0_" + str(SEASON) + "_11/",
#"http://liansai.500.com/lq/" + LP + "/proc/" + PROC + "/0_" + str(SEASON) + "_12/",
#"http://liansai.500.com/lq/" + LP + "/proc/" + PROC + "/0_" + str(SEASON+1) + "_1/",
#"http://liansai.500.com/lq/" + LP + "/proc/" + PROC + "/0_" + str(SEASON+1) + "_2/",
#"http://liansai.500.com/lq/" + LP + "/proc/" + PROC + "/0_" + str(SEASON+1) + "_3/",
#"http://liansai.500.com/lq/" + LP + "/proc/" + PROC + "/0_" + str(SEASON+1) + "_4/",
)
执行命令
- cd crawlers/nba/
- sh nba.sh
- less nba-data.csv
数据格式
panlu | rangfen | kedui | zhudui_score | result | date | kedui_score | zhudui |
---|---|---|---|---|---|---|---|
赢 | -10.5 | 奥兰多魔术 | 101 | 胜 | 2014-10-29 | 84 | 新奥尔良鹈鹕 |
输 | -4.5 | 达拉斯小牛 | 101 | 胜 | 2014-10-29 | 100 | 圣安东尼奥马刺 |
输 | 8.5 | 休斯顿火箭 | 90 | 负 | 2014-10-29 | 108 | 洛杉矶湖人 |
输 | -8.5 | 密尔沃基雄鹿 | 108 | 胜 | 2014-10-30 | 106 | 夏洛特黄蜂 |
赢 | -6.5 | 费城76人 | 103 | 胜 | 2014-10-30 | 91 | 印第安纳步行者 |
####配置球员伤病数据爬取
无需配置。
执行命令
- cd crawlers/nba/
- sh nba_injury.sh
- less nba-injury.csv
数据格式
player | absence | role | team | date | injury |
---|---|---|---|---|---|
勒布朗-詹姆斯 | 12日缺战雷霆 | 小前锋 | 骑士 | 2014-12-12 | 膝盖 |
麦克-米勒 | 12日缺战雷霆 | 小前锋 | 骑士 | 2014-12-12 | 脑震荡 |
大卫-李 | 14日缺战小牛 | 大前锋 | 勇士 | 2014-12-12 | 腿筋 |
乔金姆-诺阿 | 13日战开拓者成疑 | 中锋 | 公牛 | 2014-12-12 | 膝盖 |
道格-迈克德莫特 | 13日战开拓者成疑 | 小前锋 | 公牛 | 2014-12-12 | 膝盖 |
泰-吉布森 | 13日战开拓者成疑 | 大前锋 | 公牛 | 2014-12-12 | 脚踝 |
托尼-帕克 | 13日战湖人成疑 | 后卫 | 马刺 | 2014-12-12 | 腿筋 |
凯文-加内特 | 13日战76人成疑 | 大前锋 | 篮网 | 2014-12-12 | 脚 |
卡梅隆-安东尼 | 13日战凯尔特人成疑 | 小前锋 | 尼克斯 | 2014-12-11 | 脚踵 |
雷吉-布洛克 | 13日战奇才成疑 | 得分后卫 | 快船 | 2014-12-11 | 脚踝 |
克里斯-道格拉斯-罗伯茨 | 13日战奇才成疑 | 得分后卫 | 快船 | 2014-12-11 | 跟腱 |
乔-约翰逊 | 13日战76人成疑 | 小前锋 | 篮网 | 2014-12-11 | 生病 |
####配置历史赔率数据爬取
每天的历史赔率数据的网页都不一样,所以如果每次爬虫都爬取全部的历史网页会花费很长时间。推荐爬取方法如下,首次执行该爬虫前,打开crawlers/nba/nba/settings.py
,修改变量PERIOD
为需要爬取的历史天数,比如今天20141213,想爬取最近30天的数据,就是设置PERIOD = 30
.然后执行如下命令,会爬取最近30天的赔率数据。以后便将PERIOD
修改为默认的PERIOD = 1
,即增量爬取,只爬取前一天的赔率数据,然后追加到nba-odds.csv
里。
执行命令
- cd crawlers/nba/
- sh nba_odds.sh
- less nba-odds.csv
数据格式
zhu_range | zhu_bet | rangfen | ke_range | kedui | rangfen_result | ke_bet | zhu_odds | rangfen_odds | result | ke_odds | date | zhudui |
---|---|---|---|---|---|---|---|---|---|---|---|---|
东15 | 14% | +10.5 | 西1 | 火箭 | 主负 | 85% | 5.10 | 1.72 | 1.05 | 2014-11-03 | 76人 | |
东2 | 32% | -7.5 | 西13 | 雷霆 | 主胜 | 67% | 1.21 | 1.77 | 3.10 | 2014-11-03 | 篮网 | |
西2 | 67% | -3.5 | 西11 | 鹈鹕 | 主胜 | 32% | 1.42 | 1.72 | 2.25 | 2014-11-03 | 灰熊 | |
西6 | 84% | -9.5 | 东12 | 凯尔特人 | 主负 | 15% | 1.06 | 1.71 | 4.85 | 2014-11-04 | 小牛 | |
西10 | 49% | -6.5 | 西4 | 国王 | 主负 | 50% | 1.27 | 1.72 | 2.76 | 2014-11-04 | 掘金 | |
西5 | 90% | -10.5 | 西14 | 爵士 | 主负 | 9% | 1.08 | 1.80 | 4.47 | 2014-11-04 | 快船 | |
西2 | 65% | -6.5 | 西6 | 马刺 | 主胜 | 34% | 1.23 | 1.76 | 主胜 | 2.98 | 2014-11-06 | 火箭 |