文章采集规则(CX文章采集器规则写法教程,教你如何写采集规则)
优采云 发布时间: 2022-01-09 23:11文章采集规则(CX文章采集器规则写法教程,教你如何写采集规则)
CX文章采集器规则编写教程,教你如何编写采集规则也有很多。我也用过 CX采集 插件。我个人认为非常好。是Discuz插件中非常不错的采集插件。它非常适合Dicuz。可以说和新云等程序后端自带的那种采集插件类似织梦,但是很多人在写采集规则还是有问题的插件。虽然他们的水平不高,但是还是可以写一些规则的,所以我就写一个简单的教程。新手可以看看,老手别骂我!在 cx采集 插件中,机器人是 采集器。首先告诉大家采集器的制作基本原理和思路!1. 首先,确定采集的文章列表页的链接(这里的链接必须是列表的连接) 2.确保采集列表页的内容区,即机器人在“列表区域识别规则” 3、确认连接到这个列表页面中的文章,即“文章链接URL识别规则” 4,那么,我们将文章的内容范围确认为采集,即“文章内容识别规则” 5、依靠前面4步,我们基本确定了范围采集中,过滤掉一些你不想要的文章主题或内容,可以根据实际情况设置“过滤规则”。让我们开始我们的教程。我将以搜手网的文章列表为例。请解释; 下面我们将具体采集 HYPERLINK "/jfff/ysjf/sssp/" /jfff/ysjf/sssp/这个列表页;第 1 步:后台 - 插件 - CX采集器
机器人名称(即机器人的名称);2、匹配模式(一般选择正则表达式);3、一次采集的总数(即一次采集的总数,根据自己的选择设置);批量采集的个数(默认5个,不要太大,否则采集会超时) 5、发布时间(可以自定义发布时间,如果不设置,当前时间为主要时间)第二:设置采集的列表页面1。采集页面的url设置有两种,一种是手动输入,一种是自动增长,我们以手动输入为例;添加链接后,点击下一个测试,看看是否可以链接;2、对于采集页面的编码设置,我们可以点击程序辅助识别。这里要填写的代码是采集页面的页面代码,其他3项根据个人需要设置。设置列表区域识别规则??进入我们要采集的页面,右键,查看源文件,然后找到文章链接url的区域。规则中的url区域用[list]表示?现在我们要查找开始和结束区域的div或者其他标签,文章链接的URL必须在这个区域,并且必须是最近的,并且标签必须是唯一的,例如:[list ] 那么,我们需要点击下面的Test,看看是否能识别出文章链接url区 4、文章链接url识别规则?规则所需的连接如下图所示。我们将引号中的连接替换为[url],即填写规则,然后点击测试文章链接url添加前缀,因为连接中有域名,所以不需要填写,如果没有,需要填写域名第三, 文章内容页面采集设置1、文章标题识别规则,点击打开一个文章,在文章页面右击,查看源文件,并找到这个文章标题为左右最近的标签,文章的标题为[subject],而不是以列表中的这个文章为例;超链接“ @文章,在文章页面右击,查看源文件,找到这个文章标题为左右最近的标签,文章的标题为[主题],而不是以列表中的这个文章为例;超链接“ @文章,在文章页面右击,查看源文件,找到这个文章标题为左右最近的标签,文章的标题为[主题],而不是以列表中的这个文章为例;超链接“
shtml" /2011/5/4/28084.shtml标题规则为:【主题】填写规则,点击测试大家可以看到识别后的标题不是我们想要的标题,所以需要过滤去掉不需要的,现在我们复制一些不需要的标题(-信息中心-减肥频道-减肥方法-饮食减肥-瘦身食谱)填入下面的文章标题过滤规则,现在我们测试一下看看能不能得到我们想要的标题? 2、文章内容识别规则在源文件中找到文章区域开始和结束最近的标签,内容用[表示message] ,即内容识别规则为 [message]
? 点击Test编写规则,点击底部提交,其他规则根据你想要的采集和个人需求设置。然后,点击开始采集采集完成后,点击查看采集结果,然后选择你需要导入论坛的哪个版块,这样整个采集流程就完成了完了,教程写的很简单,但毕竟是个人原创,转载请注明来自石碧峰的博客HYPERLINK“”