关键词文章采集器(如何去制作一款文章采集器(一)_关键词)

优采云发布时间: 2021-10-13 17:02

　　关键词文章采集器这篇文章简单的介绍一下，如何去制作一款文章采集器。首先去网上找到一些可以去网站爬取网页信息的工具，选择自己想爬取的网站，然后就是新建一个爬虫项目。在我做的采集器当中，已经完成了两个通用的模块。也就是点开后提供的getdetailbase，getdetaillevel2这两个爬虫就足够用了。

　　那么接下来就是怎么去爬取网页了。这里我先假设你的网站是爬取国内某一个类型的网站（比如新闻类的）。首先当然是要找到对应的js加载方式。像是cookie或者session的方式。一般来说是通过beautifulsoup抓取js获取本页信息，这个需要一定的技术基础。因为之前学习这方面的课程的时候有这个使用会话机制或者ajax来完成网页加载的需求。

　　不过如果只是需要爬取一个网站，可以借助脚本工具。我用python写的是这个beautifulsoup可视化爬虫。这个脚本有如下几个必要条件:svn是必须的。这个大家可以百度一下svn。同时subversion是必须的。但是vim自带nodejs项目的demo，所以需要这个链接：，然后就是在开始程序时使用pythonmirror对于自己的config.js网页源码复制过来。

　　然后在采集器上加载document.cookies:{'user-agent':'mozilla/5.0(x11;linuxx86_64)applewebkit/537.36(khtml,likegecko)chrome/24.0.1039.199safari/537.36'}，即是trace_js_document.cookie注释掉第三行的user-agent，加上opener。

　　这里下载下来的网站源码，是封装成api的html文件。然后在使用domloader加载时，只需要添加到方法里面，即可完成。然后再打开爬虫，接下来就简单了。点开获取页面信息就会看到是什么样的页面网页信息，然后点开我们需要爬取的网站内容。如果看到是我们之前做过的网站，那么就在getdetailrequest接口的url中，加上last_report。

　　获取之后，里面的表格就会显示了。如果之前没有做过的页面，那么如何去爬取它呢？这里有一个新的尝试，比如一个门户网站。可以通过requests加上opener获取网页内容。用这个新方法，如果抓取不到，可以进行第二次抓取。比如抓取某些，但是只有一页，爬取不到的页面。大概方法就是爬取一次，然后根据某个关键字获取之前该页面的内容，然后替换掉这些内容。

　　这里也有很多方法可以做到。网上应该有很多脚本库。我还用过中国大学mooc在线课程。接下来打开chrome，进入到扩展的页面，开启chrome的代理加载，step1：点开mooc的链接，就可以看到如下图片：这样就可以在第一次抓取网页的时候就获取到相关内容，然后提。

0

2021-10-13

关键词文章采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

关键词文章采集器(如何去制作一款文章采集器(一)_关键词)

0 个评论

发起人

AI时代内容工厂

关键词文章采集器(如何去制作一款文章采集器(一)_关键词)

0 个评论

发起人

相关问题