关键词文章采集器(如何去制作一款文章采集器(一)_关键词)
优采云 发布时间: 2021-10-13 17:02关键词文章采集器这篇文章简单的介绍一下,如何去制作一款文章采集器。首先去网上找到一些可以去网站爬取网页信息的工具,选择自己想爬取的网站,然后就是新建一个爬虫项目。在我做的采集器当中,已经完成了两个通用的模块。也就是点开后提供的getdetailbase,getdetaillevel2这两个爬虫就足够用了。
那么接下来就是怎么去爬取网页了。这里我先假设你的网站是爬取国内某一个类型的网站(比如新闻类的)。首先当然是要找到对应的js加载方式。像是cookie或者session的方式。一般来说是通过beautifulsoup抓取js获取本页信息,这个需要一定的技术基础。因为之前学习这方面的课程的时候有这个使用会话机制或者ajax来完成网页加载的需求。
不过如果只是需要爬取一个网站,可以借助脚本工具。我用python写的是这个beautifulsoup可视化爬虫。这个脚本有如下几个必要条件:svn是必须的。这个大家可以百度一下svn。同时subversion是必须的。但是vim自带nodejs项目的demo,所以需要这个链接:,然后就是在开始程序时使用pythonmirror对于自己的config.js网页源码复制过来。
然后在采集器上加载document.cookies:{'user-agent':'mozilla/5.0(x11;linuxx86_64)applewebkit/537.36(khtml,likegecko)chrome/24.0.1039.199safari/537.36'},即是trace_js_document.cookie注释掉第三行的user-agent,加上opener。
这里下载下来的网站源码,是封装成api的html文件。然后在使用domloader加载时,只需要添加到方法里面,即可完成。然后再打开爬虫,接下来就简单了。点开获取页面信息就会看到是什么样的页面网页信息,然后点开我们需要爬取的网站内容。如果看到是我们之前做过的网站,那么就在getdetailrequest接口的url中,加上last_report。
获取之后,里面的表格就会显示了。如果之前没有做过的页面,那么如何去爬取它呢?这里有一个新的尝试,比如一个门户网站。可以通过requests加上opener获取网页内容。用这个新方法,如果抓取不到,可以进行第二次抓取。比如抓取某些,但是只有一页,爬取不到的页面。大概方法就是爬取一次,然后根据某个关键字获取之前该页面的内容,然后替换掉这些内容。
这里也有很多方法可以做到。网上应该有很多脚本库。我还用过中国大学mooc在线课程。接下来打开chrome,进入到扩展的页面,开启chrome的代理加载,step1:点开mooc的链接,就可以看到如下图片:这样就可以在第一次抓取网页的时候就获取到相关内容,然后提。