内容采集器(SupeSite制作采集器的基本原理和一些细节问题，你知道吗？)

优采云发布时间: 2022-01-26 11:04

　　很多朋友在论坛上发帖询问采集器的*敏*感*词*法和一些细节。为了让更多站长更容易使用SupeSite的采集功能，特制作本教程。

　　首先简单说一下制作采集器的基本原理和思路：

　　1、确定你要查看哪一页新闻采集，将这些页面的地址填入“索引页url地址（图4及5）”；

　　2、确保你想要采集这些页面上的内容区域，因为不是页面的所有内容都应该返回采集，而是采集页面的一部分，所以你必须告诉程序你想要哪个区域采集，也就是“列出区域识别规则”；（图 4 和 5）

　　3、在第2步确定区域后，也告诉程序你想要采集的文章链接，即“文章链接url识别规则”。（图 4 和 5）

　　4、既然已经确定了大的采集框架，接下来就是在一个文章页面上告诉程序，文章的标题，出处和作者文章分别是什么。然后是一个文章内容的范围，也就是说，在一个文章页面内，你真正需要的采集范围是“文章内容标识规则”。最后，设置分页区域和分页的链接地址。（图 6）。

　　5、以上4个步骤已经确定了采集的范围，如果您需要过滤标题和内容，请根据您的要求设置“内容页面组织设置”。

　　以上确定范围的步骤都是通过查看页面源代码来设置的。拦截方法需要一定的经验，练习2-3次就可以理解。

　　接下来介绍采集器的基本原理和步骤：

　　首先：在后台打开采集器，点击“Add New Robot”。（图1）

　　二：填写基本设置：（图2）

　　这里需要指出两点：单个采集编号和采集页面代码。一次设置采集的数量尽可能少，以避免超时。采集页面编码是您的采集网页的编码，而不是您网站的编码。记住这里！！

　　如何查看采集的页面代码：点击网页头部的“查看”，然后点击“源文件”，然后找到类似“”的东西，即“采集页面代码" 需要在字符集出现后填写。. （图3）

　　第三：列表页采集设置：（图4）和（图5）

　　这里设置的是采集页面的url地址，采集内容的区域范围，采集文章标题的url地址。

　　采集页面的url地址有两种设置方式：手动输入（图片4）和自动增长（图片5））。手动输入需要你设置想要的采集地址，逐行输入，自动增长只需要填写采集页面的地址和页码，详见图5。使用

0

2022-01-26

内容采集器

0 个评论

要回复文章请先登录或注册