一个知乎网站api的爬虫程序,就是爬取某个网站的内容
优采云 发布时间: 2021-04-13 20:01一个知乎网站api的爬虫程序,就是爬取某个网站的内容
网站内容更新机制一直被诟病,不管是爬虫的爬取频率,个人user-agent地址的正则匹配,无论是email、post、proposal等所有的爬虫爬取方式,它们始终都有一个劣势就是频繁的判断/请求,而且除了爬虫需要的正则匹配之外,还要判断它们的user-agent,很多人理解爬虫就是一个一个爬数据,在写爬虫程序的时候很容易把爬虫程序写的很复杂,至于是否如我所想的那样,爬虫程序不是所有,只是我把爬虫程序写的很复杂。
后来我就去看了看,我现在进行模式主要分为两种,一种*敏*感*词*爬虫程序,一种网站api的爬虫程序,而且我的打算是作为专门的一个爬虫来写,后面我们会进行简单的介绍。网站api的爬虫程序的话,就是爬取某个网站的内容,以下我就以一个知乎网站()为例说明这个网站的一些api方法。第一步:打开知乎页面,点击左上角的搜索框,输入爬虫名字“爱小勇”,输入爬虫存储的user-agent。
如图:第二步:得到搜索结果后,取出网页头部信息,我们点击右下角的全部,得到如下图信息:第三步:最后把爬虫程序写进标题、关键字、文件夹、用户、话题和回答的文件夹,爬虫程序写入文件后,记得把文件的相应路径加入index.py的build_url,我把py文件写在哪儿呢?就放在后面提到的setup_url第四步:重新打开搜索框,输入爬虫名字“爱小勇”,在搜索框中依次输入所爬取网站中的内容,比如此次爬取知乎的内容为“爱小勇的一些动态”。
具体可以自己用python代码测试一下第五步:点击“收藏”这时我们发现搜索结果已经对应到网站中了,按下你最开始写的爬虫程序名字。最后就可以愉快的上网找内容了。