解读:帝国cms采集排除重复链接重复标题、内容为空的文章

优采云 发布时间: 2022-11-02 03:17

  解读:帝国cms采集排除重复链接重复标题、内容为空的文章

  概述1、背景-栏目-采集管理 2、添加采集节点,选择要进入的栏目(或管理采集节点,修改后点击),进入页面-每一项都有一张蓝色标题卡

  1. 背景--

  专栏--采集管理

  2.添加采集节点,选择要进入的列(或管理采集节点,修改后点击),进入页面——每一项都有一张蓝色标题卡

  3. (1) 有一个“附加选项”选项

  

  重复采集同一链接:□重复采集(不要选择“不要选择不重复采集

  )。

  注意:如果您没有采集重复的链接,请点击□中的勾号

  (2)在“附加选项”下还有一个“过滤器选项”选项

  内容为空且不采集 □(新闻文本字段)。

  过滤相似性:不要采集标题与( )字相似的信息[与入站信息比较](如不限,请填写“0”)。

  具有相同标头的信息不会采集(与入站信息相比)□

  

  注意:如果内容为空,请单击采集勾选□

  不要采集标题类似于( )多个单词的信息,请在括号中填写数字

  如果您没有采集重复的标题,请点击□中的勾号

  总结

  以上就是内存溢出为你采集整理的所有帝国内容cms采集不包括重复链接和重复标题、空内容,文章 文章可以帮助您解决文章帝国cms采集消除重复链接和重复标题和空内容遇到的程序开发问题。

  如果您认为内存溢出网站

  内容还不错,欢迎向程序员朋友推荐内存溢出网站。

  技术文章:什么是网站日志

  刚学过SEO的孩子可能不明白什么是网站日志以及如何查看网站日志。网站日志是收录有关用户和搜索引擎访问信息的服务器文档。网站日志,也称为服务器日志,记录了用户(搜索引擎蜘蛛)访问的非常详细的痕迹,是非常有价值的参考对象。文章目录:

  网站查看日志的位置

  首先,通过FTP查看网站日志,

  如果您使用的是虚拟主机,则可以通过 FTP 查看网站日志。不同的虚拟主机,日志存储目录略有不同,如果不了解,可以咨询空间提供商,通常网站日志都存储在收录字母“logs”的文件夹中。

  

  2. 通过虚拟主机后台查看网站日志,我使用的是阿里云虚拟主机,登录后可以在“文件管理”下的“网站日志”列查看。

  如何分析网站日志

  网站日志收录用户 IP 地址(搜索引擎蜘蛛)、用户访问时间以及用户访问的链接等信息。

  136.243.228.198 - - [25/Oct/2022:23:59:59 +0800] “GET /7534.html HTTP/1.1” 200 10720 “-” “Mozilla/5.0(兼容;DataForSeoBot/1.0;+)“ ”“ ”text/html“ ”/usr/home/wh-ahgb9bku38kxtr9499d/htdocs/index.php“ 1117167

  

  136.243.228.198,指用户的 IP 地址。

  [25/Oct/2022:23:59:59 +0800],指用户的访问时间,表示用户在 2022 年 10 月 25 日晚上 23:59:59 访问。

  +0800,指时区。GET

  是指服务器的处理动作,只有两种类型:GET和POST。

  /7534.html,用户访问的 URL 地址。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线