文章采集规则(CX文章采集器规则写法教程，教你如何写采集规则)

优采云发布时间: 2022-01-09 23:11

　　CX文章采集器规则编写教程，教你如何编写采集规则也有很多。我也用过 CX采集插件。我个人认为非常好。是Discuz插件中非常不错的采集插件。它非常适合Dicuz。可以说和新云等程序后端自带的那种采集插件类似织梦，但是很多人在写采集规则还是有问题的插件。虽然他们的水平不高，但是还是可以写一些规则的，所以我就写一个简单的教程。新手可以看看，老手别骂我！在 cx采集插件中，机器人是采集器。首先告诉大家采集器的制作基本原理和思路！1. 首先，确定采集的文章列表页的链接（这里的链接必须是列表的连接） 2.确保采集列表页的内容区，即机器人在“列表区域识别规则” 3、确认连接到这个列表页面中的文章，即“文章链接URL识别规则” 4，那么，我们将文章的内容范围确认为采集，即“文章内容识别规则” 5、依靠前面4步，我们基本确定了范围采集中，过滤掉一些你不想要的文章主题或内容，可以根据实际情况设置“过滤规则”。让我们开始我们的教程。我将以搜手网的文章列表为例。请解释; 下面我们将具体采集 HYPERLINK "/jfff/ysjf/sssp/" /jfff/ysjf/sssp/这个列表页；第 1 步：后台 - 插件 - CX采集器

　　机器人名称（即机器人的名称）；2、匹配模式（一般选择正则表达式）；3、一次采集的总数（即一次采集的总数，根据自己的选择设置）；批量采集的个数（默认5个，不要太大，否则采集会超时） 5、发布时间（可以自定义发布时间，如果不设置，当前时间为主要时间）第二：设置采集的列表页面1。采集页面的url设置有两种，一种是手动输入，一种是自动增长，我们以手动输入为例；添加链接后，点击下一个测试，看看是否可以链接；2、对于采集页面的编码设置，我们可以点击程序辅助识别。这里要填写的代码是采集页面的页面代码，其他3项根据个人需要设置。设置列表区域识别规则？？进入我们要采集的页面，右键，查看源文件，然后找到文章链接url的区域。规则中的url区域用[list]表示？现在我们要查找开始和结束区域的div或者其他标签，文章链接的URL必须在这个区域，并且必须是最近的，并且标签必须是唯一的，例如：[list ] 那么，我们需要点击下面的Test，看看是否能识别出文章链接url区 4、文章链接url识别规则？规则所需的连接如下图所示。我们将引号中的连接替换为[url]，即填写规则，然后点击测试文章链接url添加前缀，因为连接中有域名，所以不需要填写，如果没有，需要填写域名第三，文章内容页面采集设置1、文章标题识别规则，点击打开一个文章，在文章页面右击，查看源文件，并找到这个文章标题为左右最近的标签，文章的标题为[subject]，而不是以列表中的这个文章为例；超链接“ @文章，在文章页面右击，查看源文件，找到这个文章标题为左右最近的标签，文章的标题为[主题]，而不是以列表中的这个文章为例；超链接“ @文章，在文章页面右击，查看源文件，找到这个文章标题为左右最近的标签，文章的标题为[主题]，而不是以列表中的这个文章为例；超链接“

　　shtml" /2011/5/4/28084.shtml标题规则为：【主题】填写规则，点击测试大家可以看到识别后的标题不是我们想要的标题，所以需要过滤去掉不需要的，现在我们复制一些不需要的标题（-信息中心-减肥频道-减肥方法-饮食减肥-瘦身食谱）填入下面的文章标题过滤规则，现在我们测试一下看看能不能得到我们想要的标题？ 2、文章内容识别规则在源文件中找到文章区域开始和结束最近的标签，内容用[表示message] ，即内容识别规则为 [message]

　　? 点击Test编写规则，点击底部提交，其他规则根据你想要的采集和个人需求设置。然后，点击开始采集采集完成后，点击查看采集结果，然后选择你需要导入论坛的哪个版块，这样整个采集流程就完成了完了，教程写的很简单，但毕竟是个人原创，转载请注明来自石碧峰的博客HYPERLINK“”

0

2022-01-09

文章采集规则

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集规则(CX文章采集器规则写法教程，教你如何写采集规则)

0 个评论

发起人

AI时代内容工厂

文章采集规则(CX文章采集器规则写法教程，教你如何写采集规则)

0 个评论

发起人

相关问题