文章cms采集(建站教程:采集使用中的第一节“增加采集节点”)

优采云 发布时间: 2021-12-26 00:11

  文章cms采集(建站教程:采集使用中的第一节“增加采集节点”)

  朋友您好,今天的建站教程是:第一节采集

和使用“添加采集

节点”,采集

功能使用更广泛,可以在短时间内快速采集

大量文章,减少工作时间,并提高工作效率。

  添加采集节点:也可以说是新增了一个采集任务。

  注意:每个系统模型都有自己的集合,无论是内置的还是用户定义的系统模型。新闻系统有新闻系统采集

,下载系统有下载系统采集

等。

  添加采集节点

  

  1、登录后台->点击大菜单“栏目管理”>“添加采集

节点”:

  图一:菜单导航

  图2:进入选择存储列的页面

  

  2、 选择入口栏后,进入“添加采集节点”页面,如下图:

  

  基本信息

  节点名称 该节点的名称

  父节点可以选择上级节点,主要是方便管理。例如,您可以将所有新闻集合归为一个父节点。

  采集

页地址 要采集

的页面列表,如果有多个列表,使用回车框打开。

  第二种采集

页面地址的方法是由系统自己生成一个列表,但它必须有一个数字模式。例如:“[page]”([page]为页码范围)

  内容页面地址前缀 信息页面链接的地址前缀。如果地址前没有域名,系统会加上这个前缀。如:http://+/news/2006/1.html

  当新闻内容的图片/FLASH地址为相对地址时,使用图片/FLASH地址前缀。(对于newstext字段,远程保存时有效)

  入库列采集的数据为入库。如果该节点不是采集节点,请取消勾选。(只列出属于这个系统模型的列)

  数据库中采集

的数据就是要存储在数据库中的主题。

  节点有效时间“开始时间”和“结束时间”当前可以任意设置。这主要是为了将来版本的扩展。

  备注或说明

  选项

  默认相关关键字截取标题的前几个字符作为相关链接的“关键字”,建议设置为0,这样存储效率更高。

  采集

记录数可以设置为只采集

前几条记录。(“0”为无限制,系统会从页面的开头到结尾选取)

  将图片远程保存到本地,选中并存入图库。系统会将图片远程保存到本地,您还可以设置是否添加水印。(对于新闻文本字段)

  选择远程将FLASH保存到本地后,系统会在将FLASH存入库时远程保存到本地。(对于新闻文本字段)

  可以设置标题图片设置,选择远程保存哪张图片作为标题图片并生成缩略图设置。

  每组列表的采集

数 采集

列表页面上每组的记录数,单个采集

列表页面填写1。

  每组采集

的信息数信息页面上每组数据采集

的记录数

  如果要远程保存图片/FLASH,请为每组存储设置一个较小的数字,例如1。(为了防止存储超时,系统建议将php的超时设置为360以上)

  对一些限制页面刷新间隔的网站,设置了每组的采集时间间隔。

  其他选项

  页面编码转换 页面编码转换设置。

  是否重复采集同一个链接可以设置是否重复采集同一个链接。

  是否隐藏导入的信息,建议选择隐藏。否则,入库后的记录仍会显示在入库清单中。

  采集后自动入库可设置为采集后自动入库,无需人工入库。但是,存储超时可能会被中断。

  入库后自动删除导入的信息:入库后备份校验记录将同时删除。

  整体页面过滤的常规格式:“广告开始[!--pad--]广告结束”。多个“,”网格可用。过滤整个页面代码。

  要替换整个页面上的多个原创

字符,请使用“,”网格。如果有多个新字符,可以使用“,”格,系统会一一替换。

  过滤选项

  仅采集

关键字标题中收录

关键字的信息。如果没有限制,请留空。请使用“,”打开多个

  要替换多个原创

字符,请使用“,”网格。如果有多个新字符,可以使用“,”格,系统会一一替换。(标题和内容)

  过滤广告的常规格式:“广告开始[!--ad--]广告结束”,请用“,”打开多个。(对于新闻文本字段)

  如果内容为空,则新闻文本内容为空时不采集

设置项。

  相似度过滤器可以设置为不采集

标题相似度超过多少字符的信息。如果没有限制,请填写“0”。可以设置不采集

完全相同标题的信息

  截取内容简介 如果简介(smalltext)没有值,系统会相应设置截取新闻文本的字数为简介。

  列表页常规

  通常不需要设置信息链接区域规则。一般设置为只采集

页面特定区域的链接或缩小采集

范围;在要采集的链接区的代码中添加“[!--smallurl--]”

  信息页链接规律集合“内容页链接”规律(在列表页中);在信息页链接处添加“[!--newsurl--]”

  标题图片的常规采集

为“标题图片地址”的常规采集

,可以设置远程保存和地址前缀(在列表页,如果图片在内容页,请留空);标题图片地址加“[!--titlepic-”-]”

  内容页分页集合设置:(如果没有分页,请留空,为newstext字段)

  注意:如果都是表格,只需要看第一页的正则页即可。

  分页有两种形式:“上下导航”和“全部列出”

  “上下翻页导航”类型规则设置分页区域规则([!--smallpagezz--]);分页链接常规 ([!--pagezz--])

  "list all" 常规设置分页区域regular ([!--smallpageallzz--]); 分页链接常规 ([!--pageallzz--])

  采集

相关注意事项

  1、 按照通常的设置,同一个链接不会被重复采集

  2、 没有标题的信息将不会被采集

  3、 不是固定参数,“*”可以表示任意字符。

  4、特殊字符请在前面加上“\\”。当然,把特殊字符直接改成“*”是最合适的。特殊字符如下:

  “ )“,“(“,“{“,“}“,“[“,“]“,“\“,“?“等等。

  5、通常,我们需要找出唯一代码。有时空间会成为识别的基础。

  6、 添加节点后最好先预览节点,预览无误后才开始采集。(管理采集

节点的预览)

  

  7、"Time Regular":如果为空,则为存储时间

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线