螂CX文章采集器规则写法教程,教你如何写采集规则
优采云 发布时间: 2021-05-28 19:42螂CX文章采集器规则写法教程,教你如何写采集规则
文档介绍:CX 文章 采集器规则编写教程,教您如何编写采集规则,我相信有很多将Discuz用作网站的用户,因此请使用CX 采集插件用户也很多。我已经使用了CX 采集插件。我个人认为这是非常好的。它是Discuz插件中非常好的采集插件。非常适合Dicuz。可以说与织梦,Xinyun和其他程序背景相似。随附的采集插件,但是许多人仍然对该插件的采集规则有疑问。尽管我的水平不高,但是我几乎不能写一些规则,所以我写了一个简单的教程,新手可以看看,退伍军人,不要喷我!在cx 采集插件中,机械手为采集器。首先,我将告诉您采集器生产的基本原理和思想! 采集到列表页面的文章链接(此处的链接必须是到列表的链接)蒂2,请确保采集列表页面的内容区域,即“列表区域”机器人3中的“识别规则”,要在采集列表页面中确认文章的连接即“ 文章链接URL识别规则”,则需要确认文章内容范围采集的内容,也是“ 文章内容识别规则” 5,依靠前面的4个步骤,我们基本上确定了采集的范围,以过滤掉某些文章主题或内容,您可以根据实际情况进行设置。““过滤规则”文档来自网络搜索。以下我们的教程正式开始。我将以的文章列表为例来说明您;下面;我们将专门参考采集列表页面;该文档来自网络搜索第一步:后台–插件– CX 采集器 –添加自动卷发基本设置:1。
机器人名称(即机器人的名称); 2.匹配方式(一般选择正则表达式); 3.一次采集的总数(即一次采集的总数,根据您的选择进行设置); 4批量采集的数量(默认为5,不要太大,否则采集会超时)5,发布时间(您可以自定义发布时间,如果未设置,则为当前时间)是主要的)文档来自Internet搜索。第二:设置采集的列表页面。 采集页面的网址设置有两种类型,一种是手动输入,另一种是自动增长。让我们以手动输入为例。添加链接后,单击以测试它是否可以链接到;该文档来自网络搜索2.对于采集页面的编码设置,我们可以单击该程序以帮助进行识别。这里要填写的代码是采集页面的代码,其他3个项目,根据个人需要,从Internet搜索set3设置文档。将列表区域识别规则设置为我们想要的页面采集,右键单击,查看源文件,然后找到文章链接URL区域。在规则的url区域中,使用[列表]指示文档来自网络搜索。现在,我们要在开始区域和结束区域中找到div或其他标签,文章链接URL必须在此区域中,并且它是最新的,标签必须是唯一的,例如:文档来自网络搜索[列表]文档来自网络搜索之后,我们需要单击以下测试以查看是否可以识别文章链接网址区域蒄第4部分,文章链接网址识别规则羀规则要求连接,如图所示肀螇我们将在引号中用[url]替换连接,即填写规则,然后从网络搜索ant 文章中单击测试文档。链接url补充前缀,因为连接中有一个域名,所以不需要填写,否则,您需要填写域名的第三个文章内容页面采集设置颅1,文章标题识别规则,单击文章,右键单击文章页面,查看源文件,然后找到本文文章标题左侧和右侧最近的标签, 文章的标题使用[主题]而不是网络搜索中的文档。以列表中的文章为例;该文档来自网络搜索。标题规则是:[主题]填写规则,单击测试标题,每个人都可以看到,标题被识别后,以下不是我们想要的标题,因此我们必须过滤掉不需要的标题,现在我们复制一些不需要的标题(-信息中心-减肥通道-减肥方法-饮食减肥-减肥食谱)该文档来自Internet搜索,并将其填写在以下文章标题过滤器中规则。现在让我们对其进行测试,以查看是否获得所需的标题为螆莆2,文章内容识别规则在源文件中此文章区域的开头和结尾处找到最近的标签,并表示内容通过[message],即内容识别规则为[message]
在Internet上单击测试文档以搜索Axolotl,以便编写规则,单击底部提交,根据采集的网站和个人需要设置其他规则。然后,单击以启动采集顿采集。完成后,单击以查看采集的结果,然后选择需要导入论坛的哪个部分。这样,整个采集过程结束了,本教程的编写非常简单,但是毕竟它是个人的原创,请指出它是从施碧峰的博客转载并在Internet上搜索的。罗L Forpersonaluseonlyinsinddyandresearch; mercialuse