内容采集器(SupeSite制作采集器的基本原理和一些细节问题,你知道吗?)
优采云 发布时间: 2022-01-26 11:04内容采集器(SupeSite制作采集器的基本原理和一些细节问题,你知道吗?)
很多朋友在论坛上发帖询问采集器的*敏*感*词*法和一些细节。为了让更多站长更容易使用SupeSite的采集功能,特制作本教程。
首先简单说一下制作采集器的基本原理和思路:
1、确定你要查看哪一页新闻采集,将这些页面的地址填入“索引页url地址(图4及5)”;
2、确保你想要采集这些页面上的内容区域,因为不是页面的所有内容都应该返回采集,而是采集页面的一部分,所以你必须告诉程序你想要哪个区域采集,也就是“列出区域识别规则”;(图 4 和 5)
3、在第2步确定区域后,也告诉程序你想要采集的文章链接,即“文章链接url识别规则”。(图 4 和 5)
4、 既然已经确定了大的采集 框架,接下来就是在一个文章 页面上告诉程序,文章 的标题,出处和作者文章 分别是什么。然后是一个文章内容的范围,也就是说,在一个文章页面内,你真正需要的采集范围是“文章内容标识规则”。最后,设置分页区域和分页的链接地址。(图 6)。
5、以上4个步骤已经确定了采集的范围,如果您需要过滤标题和内容,请根据您的要求设置“内容页面组织设置”。
以上确定范围的步骤都是通过查看页面源代码来设置的。拦截方法需要一定的经验,练习2-3次就可以理解。
接下来介绍采集器的基本原理和步骤:
首先:在后台打开采集器,点击“Add New Robot”。(图1)
二:填写基本设置:(图2)
这里需要指出两点:单个采集 编号和采集 页面代码。一次设置 采集 的数量尽可能少,以避免超时。采集 页面编码是您的 采集 网页的编码,而不是您网站的编码。记住这里!!
如何查看采集的页面代码:点击网页头部的“查看”,然后点击“源文件”,然后找到类似“”的东西,即“采集页面代码" 需要在字符集出现后填写。. (图3)
第三:列表页采集设置:(图4)和(图5)
这里设置的是采集页面的url地址,采集内容的区域范围,采集文章标题的url地址。
采集页面的url地址有两种设置方式:手动输入(图片4)和自动增长(图片5))。手动输入需要你设置想要的采集地址,逐行输入,自动增长只需要填写采集页面的地址和页码,详见图5。使用