分享文章:CX文章采集器规则写法,如何写Discuz论坛采集规则
优采云 发布时间: 2022-10-22 03:48分享文章:CX文章采集器规则写法,如何写Discuz论坛采集规则
CX文章采集器Discuz论坛如何写规则采集规则CX文章采集器规则写教程教你如何写采集规则I相信会有用 有很多用户使用 CX采集 插件作为 Discuz 的网站。许多用户也使用过 CX采集 插件。我个人认为非常好。是一款非常不错的Discuz插件。采集这个插件非常适合Dicuz。可以说它类似于织梦New Cloud等后台程序自带的采集插件。但是,很多人还是想不通插件的采集规则怎么写。虽然我的水平不高,但也勉强能写一些规则,所以写个简单的教程吧。新手可以看看老手,不过不要批评我~在cx采集插件中,机器人是采集器 首先给大家说一下采集器的制作基本原理和思路~ 1.首先,确保您想要采集 的文章 列表页的链接。这里的链接必须是列表的连接。2.确保你想要采集这个listing页面的内容区也是
即机器人中的ldquo列表区域识别规则rdquo3需要确认此列表页面中文章的连接,即ldquo文章链接URL识别规则rdquo4然后我们需要确认那文章@采集的文章的内容范围也是ldquo文章的内容识别规则rdquo5 依靠前面4个步骤,我们基本确定了采集过滤一些不想要的文章标题或内容,可以根据实际情况设置ldquo过滤规则rdquo。现在我们的教程正式开始。我将以搜手网的文章列表为例来给大家讲解。接下来,我们将具体采集这个列表页面的第一步后台mdash插件mdashCX采集器
数字默认为5,不能太大,否则采集会超时5。发布时间可以自定义。如果未设置发布时间,则将当前时间作为第二个设置。采集采集页面的List page 1 url设置有两种:一种是手动输入,一种是自动增长。我们以手动输入为例,添加一个链接,点击测试,看能否链接到2采集页面的编码设置。我们可以点击程序来帮助识别这里的代码设置。填写采集页面的代码,其他3项根据个人需要设置。3 将列表区域识别规则设置为我们要采集的页面,右键查看源文件,然后在区域规则中找到文章链接url,url 区域由 [list] 表示。现在我们需要找到开始区域和结束区域的div或其他标签。文章 链接 URL 必须在该区域,并且最近的标签必须是唯一的。例如,lttableclassquotnewslistquotcellspacing
quot5quotcellpaddingquot3quotwidthquot100quotborderquot0quotgt[list]lttablewidthquot100quotborderquot0quotcellspacingquot0quotcellpaddingquot0quotstylequottable-layoutfixedword-wrapbreak-wordword-breakbreak-allquotgt 然后我们需要点击下面的测试看看能否识别出文章link url area 4文章link所需的连接url识别规则 如图,我们将ltahrefquotgt中引号内的连接替换为,即ltahrefquot[u
rl]quotgt 填写规则点击测试文章链接url补充前缀因为连接中有域名,所以不需要填写域名。如果没有,则需要填写域名。第三个文章内容页面采集设置1文章标题识别规则点击打开文章文章右键文章页面查看源文件到在这个文章文章的标题周围找到最近的标签>标题被替换为[主题]。以列表中的这个文章为例。标题规则为 lttitlegt[subject]lttitlegt 填写规则点击测试。每个人都会看到公认的标题。后者不是我们想要的。标题 所以我们需要过滤掉那些我们不需要的。现在我们复制一些我们不想要的标题,即 - 资讯中心 - 减肥频道 - 减肥方法 - 饮食减肥 - 减肥食谱 把他下面的文章 标题过滤规则填入下面,我们来测试一下,看看能不能得到我们想要的标题。2文章内容识别规则查找源文件
在这个文章区,开头和结尾最近的标签内容用[message]表示,即内容识别规则为lttableborderquot0quotcellpaddingquot0quotcellspacingquot1quotidquotsoosou_news_content_showquotgt[message]ltdividquotsoosou_news_content_editorquotgt点击测试规则,这样规则就写好了并点击底部任意提交其他规则采集的网站和个人需求自行设置然后点击开始采集采集完成后点击进入查看采集结果,然后选择要导入论坛的哪个版块。整个采集过程就结束了。教程很简单,但毕竟是个人的。原创转载请注明来自石碧峰的博客。
推荐文章:如何查找标题相似度在50%以上的内容
Java实现标题相似度计算,文本内容相似度匹配,Java通过SimHash计算标题文本内容相似度
内容1、前言2、关于SimHash的补充知识1)、什么是汉明距离2)、汉明距离的应用... 3)、文本相似度计算... 4、Java通过SimHash代码示例计算文本内容相似度... 6),得到标题内容的相似度 7),测试 8)..
文本内容相似度计算方法:simhash
如果传统哈希算法生成的两个签名相等,则说明原创内容在一定概率下相等;如果它们不相等,则除了原创内容不相等之外不提供任何信息,因为即使原创内容仅相差一个词节,生成的签名也可能有很大差异。所以哈希...
相似度测试软件Plagiarism Checker X(文章相似度测试软件) V6.08 正式版
Plagiarism Checker X 是一个可以帮助用户检查文章相似度的工具。很多用户都很苦恼如何查看文章的重复率,所以现在只需要使用这个软件即可。帮助您检查和放置文本文档和网页中的类似内容,它还可以帮助您...
海量数据相似度计算的simhash短文本搜索
在上一篇文章《海量数据相似度计算的simhash和汉明距离》中介绍了simhash的原理,大家应该都能感受到算法的魅力。但是随着业务的增长,simhash的数据也会急剧增加。如果是一天100w的话,10天就1000w了。如果我们插入一条数据,我们需要...
口吃分词[url=https://www.ucaiyun.com/caiji/public_dict/]关键词similarity_distinguish title party--提取关键词并比较相似度
最近几天没更新博客,因为网络设置坏了,然后一直很担心,最后不得不重新... 第一步:通过爬虫获取学校新闻,这部分已经写在前面的文章是的,就不重复了,有点不一样,因为从文本中提取内容栏会报错,有几个文本...