文章cms采集(建站教程:采集使用中的第一节“增加采集节点”)
优采云 发布时间: 2021-12-26 00:11文章cms采集(建站教程:采集使用中的第一节“增加采集节点”)
朋友您好,今天的建站教程是:第一节采集
和使用“添加采集
节点”,采集
功能使用更广泛,可以在短时间内快速采集
大量文章,减少工作时间,并提高工作效率。
添加采集节点:也可以说是新增了一个采集任务。
注意:每个系统模型都有自己的集合,无论是内置的还是用户定义的系统模型。新闻系统有新闻系统采集
,下载系统有下载系统采集
等。
添加采集节点
1、登录后台->点击大菜单“栏目管理”>“添加采集
节点”:
图一:菜单导航
图2:进入选择存储列的页面
2、 选择入口栏后,进入“添加采集节点”页面,如下图:
基本信息
节点名称 该节点的名称
父节点可以选择上级节点,主要是方便管理。例如,您可以将所有新闻集合归为一个父节点。
采集
页地址 要采集
的页面列表,如果有多个列表,使用回车框打开。
第二种采集
页面地址的方法是由系统自己生成一个列表,但它必须有一个数字模式。例如:“[page]”([page]为页码范围)
内容页面地址前缀 信息页面链接的地址前缀。如果地址前没有域名,系统会加上这个前缀。如:http://+/news/2006/1.html
当新闻内容的图片/FLASH地址为相对地址时,使用图片/FLASH地址前缀。(对于newstext字段,远程保存时有效)
入库列采集的数据为入库。如果该节点不是采集节点,请取消勾选。(只列出属于这个系统模型的列)
数据库中采集
的数据就是要存储在数据库中的主题。
节点有效时间“开始时间”和“结束时间”当前可以任意设置。这主要是为了将来版本的扩展。
备注或说明
选项
默认相关关键字截取标题的前几个字符作为相关链接的“关键字”,建议设置为0,这样存储效率更高。
采集
记录数可以设置为只采集
前几条记录。(“0”为无限制,系统会从页面的开头到结尾选取)
将图片远程保存到本地,选中并存入图库。系统会将图片远程保存到本地,您还可以设置是否添加水印。(对于新闻文本字段)
选择远程将FLASH保存到本地后,系统会在将FLASH存入库时远程保存到本地。(对于新闻文本字段)
可以设置标题图片设置,选择远程保存哪张图片作为标题图片并生成缩略图设置。
每组列表的采集
数 采集
列表页面上每组的记录数,单个采集
列表页面填写1。
每组采集
的信息数信息页面上每组数据采集
的记录数
如果要远程保存图片/FLASH,请为每组存储设置一个较小的数字,例如1。(为了防止存储超时,系统建议将php的超时设置为360以上)
对一些限制页面刷新间隔的网站,设置了每组的采集时间间隔。
其他选项
页面编码转换 页面编码转换设置。
是否重复采集同一个链接可以设置是否重复采集同一个链接。
是否隐藏导入的信息,建议选择隐藏。否则,入库后的记录仍会显示在入库清单中。
采集后自动入库可设置为采集后自动入库,无需人工入库。但是,存储超时可能会被中断。
入库后自动删除导入的信息:入库后备份校验记录将同时删除。
整体页面过滤的常规格式:“广告开始[!--pad--]广告结束”。多个“,”网格可用。过滤整个页面代码。
要替换整个页面上的多个原创
字符,请使用“,”网格。如果有多个新字符,可以使用“,”格,系统会一一替换。
过滤选项
仅采集
关键字标题中收录
关键字的信息。如果没有限制,请留空。请使用“,”打开多个
要替换多个原创
字符,请使用“,”网格。如果有多个新字符,可以使用“,”格,系统会一一替换。(标题和内容)
过滤广告的常规格式:“广告开始[!--ad--]广告结束”,请用“,”打开多个。(对于新闻文本字段)
如果内容为空,则新闻文本内容为空时不采集
设置项。
相似度过滤器可以设置为不采集
标题相似度超过多少字符的信息。如果没有限制,请填写“0”。可以设置不采集
完全相同标题的信息
截取内容简介 如果简介(smalltext)没有值,系统会相应设置截取新闻文本的字数为简介。
列表页常规
通常不需要设置信息链接区域规则。一般设置为只采集
页面特定区域的链接或缩小采集
范围;在要采集的链接区的代码中添加“[!--smallurl--]”
信息页链接规律集合“内容页链接”规律(在列表页中);在信息页链接处添加“[!--newsurl--]”
标题图片的常规采集
为“标题图片地址”的常规采集
,可以设置远程保存和地址前缀(在列表页,如果图片在内容页,请留空);标题图片地址加“[!--titlepic-”-]”
内容页分页集合设置:(如果没有分页,请留空,为newstext字段)
注意:如果都是表格,只需要看第一页的正则页即可。
分页有两种形式:“上下导航”和“全部列出”
“上下翻页导航”类型规则设置分页区域规则([!--smallpagezz--]);分页链接常规 ([!--pagezz--])
"list all" 常规设置分页区域regular ([!--smallpageallzz--]); 分页链接常规 ([!--pageallzz--])
采集
相关注意事项
1、 按照通常的设置,同一个链接不会被重复采集
。
2、 没有标题的信息将不会被采集
。
3、 不是固定参数,“*”可以表示任意字符。
4、特殊字符请在前面加上“\\”。当然,把特殊字符直接改成“*”是最合适的。特殊字符如下:
“ )“,“(“,“{“,“}“,“[“,“]“,“\“,“?“等等。
5、通常,我们需要找出唯一代码。有时空间会成为识别的基础。
6、 添加节点后最好先预览节点,预览无误后才开始采集。(管理采集
节点的预览)
7、"Time Regular":如果为空,则为存储时间