【每日一题】目录站群包含采集规则设计

优采云 发布时间: 2021-05-11 18:17

  【每日一题】目录站群包含采集规则设计

  开发此软件的目的是要收录目录站群(独立目录站群)等。现在,百度对内容文章的要求越来越高!好的文章可以立即排名收录!因此,我们必须主要基于文章

  来开发目录站群

  

  软件简介:

  该软件的采集原理基于“ 织梦 采集规则设计”。如果您了解织梦 采集规则,则添加采集规则很容易。

  1.自定义采集目标电台!填写相关的采集标签

  2.将采集条规则保存到软件中

  与伪原创和其他操作相关的3.设置以及每次采集的数量

  4.填写将目录文章保存到的位置[关键是如果在目录站群中使用了该目录,请确保文章保存该目录以选择caiji文件夹下的booy文件站群的目录

  5. 采集完成对自定义网站的访问[此访问的关键,请填写sheng.php链接,该链接是我们用来例如吸引流量的链接]

  如果您听不懂,请多看视频教程并仔细学习

  请记住在您自己的计算机上编写规则,然后将规则传输到服务器软件。您可以直接使用该软件在服务器采集上挂断

  规则文件用于保存和存储采集条规则

  --------------------------------------------------- ---------------------------------

  ([一)列表规则

  模式:

  1、文本导入只需将列表页面的URL文本导入为采集,每个URL一行。 Txt记事本每行一行采集列表链接

  2、手动复制,仅适用于少量列表页面地址,只需将地址直接复制到编辑框中,一次即可一行。

  3、自定义规则。设置匹配规则和页面范围,它将自动生成。

  规则示例:{pages} .html。

  数据范围设置:

  此设置主要提高了获取文章链接的分辨率。通常,列表页面上的所有文章链接都将以ul形式传播。在此ul前后设置了密钥代码数据之后,软件将直接获取有效的文章链接数据,以提高后续处理速度。

  ([二) 文章链接规则

  文章 URL规则:URL组合规则:对于某些不收录http或https的链接,您可以使用此规则进行处理。例如:https:{文章 link}。该处理的结果是检索到的文章链接前面的+ https。根据需要使用它。

  URL不得收录/不得收录:判断采集的URL,可有效且快速地过滤无效数据。

  多页链接规则:某些网站 文章是多页链接,需要配置此项。一般示例:{文章链接}?page = {页码}。

  页码匹配规则:与多页链接规则配合使用。找到文章的页码,并用标签{页码}代替。一般示例:{页码}。请注意,此处提取的页面数是最大的。

  ([三) 文章内容规则

  编码方法:右键单击该网页,然后查看源代码以进行查看。

  标题规则:{Title}

  内容规则:

  {内容}

  过滤器规则:您可以添加内置过滤器。您还可以自己过滤掉一些不需要的文本。

  替换规则:自定义替换为文章中的指定内容。示例:星座-占星术

  ([四) 采集配置

  同义词替换:内置的同义词文本,在tyc \ tyc.txt目录中,您可以自己添加,改进和修改。

  从简体转换为传统,插入ascii,然后根据需要打勾。

  循环间隔:单位为分钟,如果未设置,将仅执行一次。

  数量限制:采集停止运行,直到指定数量。在完成所有链接采集之前,请勿进行设置。

  保存目录:设置采集 文章的保存路径。

  完全访问:采集完全访问指定的连接。每行一个条目就足够了。

  PS:配置后的所有规则,名称和保存位置,存储位置:rule \ rule name.ini。如果您以后需要使用它,只需直接阅读现有规则。如果需要修改,请在读入之后进行修改并保存。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线