教程:CX文章采集器规则写法写Discuz论坛采集规则.doc

优采云 发布时间: 2020-10-08 09:00

  CX文章采集器在Discuz论坛中编写的规则采集Rules.doc

  文档简介:

  教您如何编写CX文章采集器规则,教您如何编写采集规则。我相信有很多用户使用Discuz作为网站,因此有很多用户使用CX 采集插件。我也曾经使用过CX 采集插件,个人认为它非常好,它在Discuz插件中是非常好的采集插件,非常适合Dicuz,可以说是相似的到织梦,新的云和其他程序在后台出现那种采集插件,但是许多人仍然对该插件的采集规则有麻烦。尽管他们的水平不高,但是他们几乎不能编写一些规则,因此我将编写一个简单的教程。新手可以看看,退伍军人,别喷我!在cx 采集插件中,机械手为采集器。首先,我将告诉您采集器生产的基本原理和思想!膅1,首先请确保采集指向文章列表页面的链接(此处的链接必须是指向列表的链接)2.确认您要采集列表页面的内容区域,这是机器人中的“列表区域识别规则”。 3.确认采集此列表页面中文章的链接,即“ 文章链接URL识别规则”,然后,我们需要确认文章的文章内容范围,即“ 文章内容识别规则”薅5,根据前面的4个步骤,我们基本确定了采集的范围,要过滤掉某些文章主题或内容,您可以设置“过滤器规则”根据实际情况而定。该文档来自网络搜索。下面我们的教程正式开始。我将以SouShou.com的文章列表为例向您解释;下面我们将具体参考采集的列表页面;该文档来自第一个Web搜索分支步骤:后台–插件– CX 采集器 –添加机械手卷曲基本设置:1。

  机器人名称(即机器人的名称); 2.匹配方式(一般选择正则表达式); 3.一次采集的总数(即一次采集的总数,根据您的选择进行设置); 4批量采集的数量(默认为5,不要太大,否则采集会超时)5.释放时间(您可以自定义释放时间,如果未设置,则为当前时间)是主要的)文档来自Internet搜索。第二:设置采集的列表页面。 采集页面的网址设置有两种类型,一种是手动输入,另一种是自动增长。我们以手动输入为例;添加链接后,单击以测试是否可以链接到该链接;该文档来自网络搜索2。对于采集页面的编码设置,我们可以单击程序以帮助进行识别,这是采集页面的编码,其他3个项目,根据个人需要,从Internet搜索set3设置文档。将列表区域识别规则设置为我们想要的页面采集,右键单击,查看源文件,然后找到文章链接url区域,规则中的url区域使用[list]表示文档来自网络搜索。现在,我们要在开始区域和结束区域中找到div或其他标签,文章链接URL必须在此区域中,并且它是最新的,该标签必须是唯一的,例如:文档来自网络搜索[列表]文档来自网络搜索聿然后,我们需要单击以下测试以查看是否可以识别文章链接网址区域蒄第4部分,文章链接网址识别规则羀规则要求如图所示的连接肀螇我们将在·中用引号将链接替换为[url],即填写规则,然后从Taodou.com转载内容,请注明出处

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线