discuz峰会cx采集器采集教程.doc 23页

优采云 发布时间: 2020-08-27 07:06

  discuz峰会cx采集器采集教程.doc 23页

  太多了这儿摘选一部分。下面继续文章链接URL辨识规则"非常的简单吧。对于不标准的或带简介的,自己多测试几下就可以。文章链接URL剔除规则功能:凡符合规则的链接不进行采集,区分大小写.用 * 来替代任意字符、换行、回车多个规则之间用 | 隔开。这里是直接填写[url=https://www.ucaiyun.com/caiji/public_dict/]关键词文章链接URL过滤规则功能:过滤掉链接中的字符串,可以拿来整理链接,区分大小写.用 * 来替代任意字符、换行、回车多个规则之间用 | 隔开。这里是直接填写关键词文章链接URL补充前缀 手动辨识 ("文章链接URL补充前缀"为空时,程序手动补充前缀) ,根据测试情况自行设置,一般都不需要设置。文章链接URL补充后缀依照测试情况自行设置,一般都不需要设置。完成列表部份,下面步入内容部份。内容页面采集设置文章标题辨识规则,程序是以第一次出现的位置为标准。很好,没有其它位置出现,这里就得到标题的表达式。[subject]文章标题过滤规则用 * 来替代任意字符、换行、回车多个规则之间用 | 隔开。这里是直接填写关键词。文章标题文字替换 直接填写互换的熟语。多于一条就点添加,只有一条就不需要点添加。文章标题收录关键字设置该选项后,则只采集标题收录关键字的文章多个关键字之间用 | 隔开文章标题关键字剔除过滤设置该选项后,不会采集标题收录关键字的文章多个关键字之间用 | 隔开容许文章标题重复(如果启用手动入库再启用此项文章标题不容许重复将加重数据库的负载)(后续会进一步建立SS7.5的这个不足。)完成标题部份,继续文章内容部份。内容页面采集设置

  2010年10月18日15:06环球网

  字号:T|T

  我们保留这个发布的时间,直接以为开始标志。下面找结束的。爱国热情转化为做好本职工作的实际行动,维护好变革、发展、稳定大局。

  更多精彩内容 请登陆环球网()

  只出现过一次就用它了。规则就是[message]

  ,测试一下,很明显多了些我们不要的内容,下面就过滤掉。文章内容过滤规则

  字号:T|T

  一些HTML的标签在下边的低格中会去除,这里就先不管。我们瞧瞧要过滤的内容规则如何写。

  *

  ,测试一下,没达到疗效。再试

  **

  OK了。这里你们多测试就行了。当然做好内容的辨识规则,这里也省事。文章内容文字替换 这里跟前面的标题一样。文章内容收录关键字设置该选项后,则只采集文章内容收录关键字的文章多个关键字之间用 | 隔开文章内容关键字剔除过滤设置该选项后,不会采集文章内容收录关键字的文章多个关键字之间用 | 隔开文章内容低格此操作将消除网页多余代码,并将文章内容按原有段落分段.格式化的过程为程序手动剖析,会存在一些偏差.文章内容分页模式当选择上下页导航时,"分页区域辨识规则"请将下一页配置成辨识区域. 页码导航 上下页导航 这儿不存在分页。我们再换个地址说明。文章内容分页区域辨识规则这儿换一个事例来说明。如图,是页脚导航。这个是文章内的页脚导航。

  第1页

  很容易我们就得到要用的规则。

  [pagearea]

  文章内容分页链接辨识规则这个也太直观,可以直接写下来。链接规则请写确切,不然会出现“您当前的访问恳求当中富含非法字符,已经被系统拒绝

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线