CX文章采集器规则写法教程,教你如何写采集规则

优采云 发布时间: 2021-05-03 20:01

  CX文章采集器规则写法教程,教你如何写采集规则

  CX 文章 采集器规则编写教程,教您如何编写采集规则。我相信有很多用户使用Discuz作为网站,因此也有很多用户使用CX 采集插件。我已经使用了CX 采集插件。我个人认为这是非常好的。它是Discuz插件中非常好的采集插件。非常适合Dicuz。可以说它与织梦类似,它与织梦和Xinyun等程序的背景一起出现。 采集插件,但是许多人仍然对采集插件规则感到麻烦。尽管他们的水平不高,但是他们几乎不能编写一些规则,因此我将编写一个更简单的教程。新手可以看看。看,老兵,也不要喷我!在cx 采集插件中,机械手为采集器。首先,让我告诉您采集器生产的基本原理和思想! 1.首先确定指向采集的文章列表页面的链接(此处的链接必须是指向列表的链接)2.确保采集列表页面的内容区域,即“机器人中的列表区域识别”规则“ 3,我们需要在采集的列表页面中确认文章的连接,即“ 文章链接URL识别规则” 4,然后必须确认采集中文章的内容范围,即“ 文章内容识别规则”5。基于前面的4个步骤,我们基本确定了采集的范围。要过滤一些文章主题您可以根据实际情况进行设置,我们的“过滤规则”下的教程已正式开始,我以的文章列表为例向您解释;下面,我们将采集 / jfff / ysjf / sssp /添加到此列表页面;第一步:背景-插件-CX 采集器-添加机器人基本设置:1。

  机器人名称(即机器人的名称); 2.匹配方式(一般选择正则表达式); 3.一次采集的总数(即一次采集的总数,根据您的选择进行设置); 4批量采集的数量(默认为5,不能太大,否则采集会超时)5,发布时间(您可以自定义发布时间,如果未设置,则为当前时间)是主要的)第二:设置采集的列表页面1。 采集该页面有两种url设置,一种是手动输入,另一种是自动增长。让我们以手动输入为例。添加链接后,单击以测试它是否可以链接到; 2.对于采集页面的编码设置,我们可以单击该程序以辅助识别。在这里,我们需要填写采集页面的编码。其他3个项目是根据个人需要设置的。设置列表区域识别规则??转到我们想要的页面采集,右键单击,查看源文件,然后找到文章链接URL区域。规则中的url区域由[list]表示?现在,我们需要找到开始区域以及结束区域中的div或其他标签,文章链接URL必须在该区域中,并且最新的标签必须是唯一的,例如:[list]然后,我们需要单击以下测试,以查看是否可以识别出文章链接URL区域4,文章链接URL识别规则?规则要求的连接如图所示。我们用[url]替换引号中·的连接,即·填写规则,然后单击test 文章添加链接URL的前缀,因为连接中有域名,因此您不需要填写。如果不需要,则需要填写域名的第三个文章内容页面采集设置1,文章标题识别规则,单击。对于右侧的文章文章在文章页面上单击鼠标,查看源文件,并在本文文章标题的左侧和右侧找到最接近的标记。以[主题]为标题文章,而不使用列表文章中的本文为例。 / 2011/5/4/28084。

  shtml标题规则是:[主题]填写规则,单击以测试,每个人都可以看到公认的标题,后者不是我们想要的标题,因此我们需要过滤掉不需要的标题,现在我们复制一些您不想要的标题,即(-信息中心-减肥频道-减肥方法-饮食减肥-减肥食谱),并在以下文章标题过滤规则中填写它们。现在,进行测试,看看是否能得到我们想要的东西。想要标题吗? 2. 文章内容识别规则在源文件的文章区域的开头和结尾处找到最近的标签。内容用[message]表示,即内容识别规则是[message]

  ?单击测试以编写规则,然后单击底部的提交,然后可以根据采集的网站和个人需要设置其他规则。然后,单击开始采集 采集完成后,单击以查看采集的结果,然后选择需要导入论坛的哪个部分。然后整个采集过程结束。该教程非常简单,但是毕竟是个人的原创,请指出转载来自史碧峰的博客

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线