网页文章采集器(SupeSite制作采集器的基本原理和一些细节问题,你知道吗?)

优采云 发布时间: 2021-11-19 06:29

  网页文章采集器(SupeSite制作采集器的基本原理和一些细节问题,你知道吗?)

  很多朋友在论坛发帖询问采集器的*敏*感*词*法以及一些详细的问题。为了让更多站长更方便的使用SupeSite的采集功能,特制作本教程。

  首先简单说一下制作采集器的基本原理和思路:

  1、确定要采集的哪个页面的新闻,在“索引页url地址(图4和5)”中填写这些页面的地址

  <IMG src="http://www.knowsky.com/img2005/200701239-4.JPG" alt="supesite四步教会您制作采集器_discuz!论坛" >

  <IMG src="http://www.knowsky.com/img2005/200701239-5.JPG" alt="supesite四步教会您制作采集器_discuz!论坛" >

  2、 确保你想要采集的内容区域在这些页面上,因为不是一个网页的所有内容都需要采集返回,而是采集部分一个网页的内容,所以你必须告诉程序你想要采集的区域,这就是“列表区域识别规则”;(图4和5)

  <IMG src="http://www.knowsky.com/img2005/200701239-4.JPG" alt="supesite四步教会您制作采集器_discuz!论坛" >

  <IMG src="http://www.knowsky.com/img2005/200701239-5.JPG" alt="supesite四步教会您制作采集器_discuz!论坛" >

  3、Step 2 确定区域后,告诉程序你想要采集的文章链接,即“文章Link URL Identification Rules”。(图4和5)

  <IMG src="http://www.knowsky.com/img2005/200701239-4.JPG" alt="supesite四步教会您制作采集器_discuz!论坛" >

  <IMG src="http://www.knowsky.com/img2005/200701239-5.JPG" alt="supesite四步教会您制作采集器_discuz!论坛" >

  4、既然已经确定了大采集框架,下一步就是告诉程序在一个文章页面上,文章的标题,来源文章 和作者分别是什么。然后就是一个文章内容的范围,也就是说,在一个文章页面中,你真正需要采集的范围是“文章内容识别规则” . 最后,设置分页区域和分页的链接地址。(图片6)

  <IMG height=437 src="http://www.knowsky.com/img2005/200701239-6.JPG" width=482 alt="supesite四步教会您制作采集器_discuz!论坛" >

  .

  5、 以上4步就确定了采集的作用域。如果您需要过滤标题和内容,请根据您的要求设置“内容页面组织设置”。

  以上确定范围的步骤都是通过查看页面的源代码来设置的。拦截方法需要一定的经验,练习2-3次即可理解。

  接下来介绍采集器的基本原理和步骤:

  首先:在后台打开采集器,点击“添加新机器人”。(图片1)

  <IMG src="http://www.knowsky.com/img2005/200701239-1.JPG" alt="supesite四步教会您制作采集器_discuz!论坛" >

  二:填写基本设置:(图2)

  <IMG src="http://www.knowsky.com/img2005/200701239-2.JPG" alt="supesite四步教会您制作采集器_discuz!论坛" >

  这里有两个地方需要指出:单个采集的数量和采集的页面代码。将单个采集的数量设置得尽可能小,以避免超时。采集页面编码是你采集的网页的编码,不是你网站的编码。记住这里!!

  如何查看采集页面的编码:点击页面头部的“查看”,然后点击“源文件”,然后找到类似“”的东西。charset 后面需要填写的“采集 页面编码”。(图片3)

  <IMG src="http://www.knowsky.com/img2005/200701239-3.JPG" alt="supesite四步教会您制作采集器_discuz!论坛" >

  第三:列表页采集设置:(图4)

  <IMG src="http://www.knowsky.com/img2005/200701239-4.JPG" alt="supesite四步教会您制作采集器_discuz!论坛" >

  还有(图片5)

  <IMG src="http://www.knowsky.com/img2005/200701239-5.JPG" alt="supesite四步教会您制作采集器_discuz!论坛" >

  这里设置的是采集页面的url地址,采集内容的区域范围,以及采集文章标题的url地址。

  采集 设置页面的URL地址有两种方式:手动输入(图4)

  <IMG src="http://www.knowsky.com/img2005/200701239-4.JPG" alt="supesite四步教会您制作采集器_discuz!论坛" >

  并自动增长(图片5)

  <IMG src="http://www.knowsky.com/img2005/200701239-5.JPG" alt="supesite四步教会您制作采集器_discuz!论坛" >

  . 手动输入需要你逐行输入需要的采集地址。自动增长只需填写采集页面的地址和页码即可。有关详细信息,请参见图 5。使用 [page] 而不是分页变量。

  采集内容的范围替换为[list],采集文章的标题替换为[url]。

  第四:内容页面采集设置:(图6)

  <IMG height=437 src="http://www.knowsky.com/img2005/200701239-6.JPG" width=482 alt="supesite四步教会您制作采集器_discuz!论坛" >

  这里需要设置的采集规则有:文章标题、文章来源(可选)、文章作者(可选)、文章内容、分页设置(可选)。

  文章标题替换为[subject],文章的出处替换为[from],文章的作者替换为[author],文章的内容@>被[message]代替,分页区用[pagearea]代替,[page]代替分页链接。

  后续的过滤设置可以根据自己的需要和采集页面的具体情况填写。

  设置好后点击提交,然后点击“开始采集”(图7)

  <IMG src="http://www.knowsky.com/img2005/200701239-7.JPG" alt="supesite四步教会您制作采集器_discuz!论坛" >

  , 图 8

  <IMG src="http://www.knowsky.com/img2005/200701239-8.JPG" alt="supesite四步教会您制作采集器_discuz!论坛" >

  这是采集的过程。采集完成后,点击“查看结果”(图9)

  <IMG src="http://www.knowsky.com/img2005/200701239-9.JPG" alt="supesite四步教会您制作采集器_discuz!论坛" >

  ,如果你的采集规则正确,可以得到图10

  <IMG src="http://www.knowsky.com/img2005/200701239-10.JPG" alt="supesite四步教会您制作采集器_discuz!论坛" >

  最后将采集的内容导入信息中。这里有一点:采集的内容只能导入新闻频道。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线