MyNews

Matlab 2018a+Python 3.x

一个基于简单的文本匹配过滤的热搜程序。该程序的GUI基于Matlab GUIDE，而爬虫使用的是Python 3.6。新闻来源基于**今日热榜(tophub.today)**网站的爬虫，通过爬取首页的热搜数据，得到多个网站的热搜信息。随后以自定义的过滤文本过滤不喜欢的信息。

将代码clone到本地。打开today_hot_crawler.m文件作以下修改

def get_contents(self):
        headers1={
            #use a special cookies
			'User-Agent':"xxx"
			#将xxx替换为自己的headers
        }

headers的获取如下：

首先，用firefox或chrome浏览器打开tophub.today网站。右键-检查，然后点击上方的Network。

按Ctrl+R

然后单击tophub.today这一行，在Request Headers里面找到User-agent。将其复制到代码里。

然后用Matlab运行app1.mlapp即可。

来源可以选择前2、4或者全部。前2是微博与知乎的热搜，前4增加了微信和百度。同时选取前可以选取10/25/50条热搜。

点击更新，即可获取最新热搜信息。

这个程序使用最简单的匹配过滤。在new filters后输入想过滤的文本，即可过滤掉含对应文本的热搜。

Provide feedback