内容采集器(SupeSite制作采集器的基本原理和一些细节问题,你知道吗?)

优采云 发布时间: 2022-01-26 11:04

  内容采集器(SupeSite制作采集器的基本原理和一些细节问题,你知道吗?)

  很多朋友在论坛上发帖询问采集器的*敏*感*词*法和一些细节。为了让更多站长更容易使用SupeSite的采集功能,特制作本教程。

  首先简单说一下制作采集器的基本原理和思路:

  1、确定你要查看哪一页新闻采集,将这些页面的地址填入“索引页url地址(图4及5)”;

  2、确保你想要采集这些页面上的内容区域,因为不是页面的所有内容都应该返回采集,而是采集页面的一部分,所以你必须告诉程序你想要哪个区域采集,也就是“列出区域识别规则”;(图 4 和 5)

  3、在第2步确定区域后,也告诉程序你想要采集的文章链接,即“文章链接url识别规则”。(图 4 和 5)

  4、 既然已经确定了大的采集 框架,接下来就是在一个文章 页面上告诉程序,文章 的标题,出处和作者文章 分别是什么。然后是一个文章内容的范围,也就是说,在一个文章页面内,你真正需要的采集范围是“文章内容标识规则”。最后,设置分页区域和分页的链接地址。(图 6)。

  5、以上4个步骤已经确定了采集的范围,如果您需要过滤标题和内容,请根据您的要求设置“内容页面组织设置”。

  以上确定范围的步骤都是通过查看页面源代码来设置的。拦截方法需要一定的经验,练习2-3次就可以理解。

  

  接下来介绍采集器的基本原理和步骤:

  首先:在后台打开采集器,点击“Add New Robot”。(图1)

  二:填写基本设置:(图2)

  这里需要指出两点:单个采集 编号和采集 页面代码。一次设置 采集 的数量尽可能少,以避免超时。采集 页面编码是您的 采集 网页的编码,而不是您网站的编码。记住这里!!

  如何查看采集的页面代码:点击网页头部的“查看”,然后点击“源文件”,然后找到类似“”的东西,即“采集页面代码" 需要在字符集出现后填写。. (图3)

  第三:列表页采集设置:(图4)和(图5)

  这里设置的是采集页面的url地址,采集内容的区域范围,采集文章标题的url地址。

  采集页面的url地址有两种设置方式:手动输入(图片4)和自动增长(图片5))。手动输入需要你设置想要的采集地址,逐行输入,自动增长只需要填写采集页面的地址和页码,详见图5。使用

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线