一个知乎网站api的爬虫程序，就是爬取某个网站的内容

优采云发布时间: 2021-04-13 20:01

　　网站内容更新机制一直被诟病，不管是爬虫的爬取频率，个人user-agent地址的正则匹配，无论是email、post、proposal等所有的爬虫爬取方式，它们始终都有一个劣势就是频繁的判断/请求，而且除了爬虫需要的正则匹配之外，还要判断它们的user-agent，很多人理解爬虫就是一个一个爬数据，在写爬虫程序的时候很容易把爬虫程序写的很复杂，至于是否如我所想的那样，爬虫程序不是所有，只是我把爬虫程序写的很复杂。

　　后来我就去看了看，我现在进行模式主要分为两种，一种*敏*感*词*爬虫程序，一种网站api的爬虫程序，而且我的打算是作为专门的一个爬虫来写，后面我们会进行简单的介绍。网站api的爬虫程序的话，就是爬取某个网站的内容，以下我就以一个知乎网站（）为例说明这个网站的一些api方法。第一步：打开知乎页面，点击左上角的搜索框，输入爬虫名字“爱小勇”，输入爬虫存储的user-agent。

　　如图：第二步：得到搜索结果后，取出网页头部信息，我们点击右下角的全部，得到如下图信息：第三步：最后把爬虫程序写进标题、关键字、文件夹、用户、话题和回答的文件夹，爬虫程序写入文件后，记得把文件的相应路径加入index.py的build_url，我把py文件写在哪儿呢？就放在后面提到的setup_url第四步：重新打开搜索框，输入爬虫名字“爱小勇”，在搜索框中依次输入所爬取网站中的内容，比如此次爬取知乎的内容为“爱小勇的一些动态”。

　　具体可以自己用python代码测试一下第五步：点击“收藏”这时我们发现搜索结果已经对应到网站中了，按下你最开始写的爬虫程序名字。最后就可以愉快的上网找内容了。

0

2021-04-13

网站内容更新机制

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

一个知乎网站api的爬虫程序，就是爬取某个网站的内容

0 个评论

发起人

AI时代内容工厂

一个知乎网站api的爬虫程序，就是爬取某个网站的内容

0 个评论

发起人

相关问题