建站教程:采集使用中的第一节“增加采集节点”
优采云 发布时间: 2021-08-03 01:48建站教程:采集使用中的第一节“增加采集节点”
大家好,今天的建站教程是:采集使用中,第一节“添加采集node”,采集功能使用广泛,可以快速采集large短时间文章,减少工作时间,提高工作效率。
添加采集节点:也可以说添加了一个新的采集任务。
注:每个系统模型都有自己的采集,无论是内置还是自定义系统模型,新闻系统有新闻系统采集,下载系统有下载系统采集等等。
添加采集node
1、登录后台->点击大菜单“栏目管理”>“添加采集Node”:
图一:菜单导航
图二:进入选择收纳物品页面
2、选择存储列后,进入“添加采集Node”页面,如下图:
基本信息
节点名称该节点的名称
Parent node 可以选择上级节点,主要是方便管理。例如,您可以将所有新闻采集 归为一个父节点。
采集page address 你想要采集的页面列表,如果有多个列表,使用回车打开。
采集page 地址方法二 列表是系统自己生成的,但是必须有数字模式。例如:“[page]”([page]为页码范围)
内容页面地址前缀信息页面链接的地址前缀。如果地址前没有域名,系统会加上这个前缀。如:http://+/news/2006/1.html
当新闻内容的图片/FLASH地址为相对地址时,使用Picture/FLASH地址前缀。 (对于newstext字段,远程保存时有效)
存储列采集的数据需要存储的列。如果此节点不是采集 节点,请不要选择它。 (只列出属于这个系统模型的列)
传入主题采集要存储在数据库中的主题。
节点有效时间“开始时间”和“结束时间”目前可以自由设置。这主要是为了以后版本的扩展。
备注备注或说明
选项
默认相关关键词 截取标题前几个字符作为相关链接的“关键词”。建议设置为0,这样存储效率更高。
采集记录数可以设置采集之前的记录数。 (“0”为无限制,系统会从头到尾选取)
选择图片时远程保存到本地,图片入库时系统会远程保存到本地,还可以设置是否添加水印。 (对于新闻文本字段)
选择远程保存FLASH本地,系统会在进库时远程保存FLASH本地。 (对于新闻文本字段)
标题图片设置您可以选择远程保存哪张图片作为标题图片并生成缩略图设置。
每组记录数采集个采集list页面 每组记录数,单个采集list页面请填写1。
每组信息记录数采集个采集每组信息页数据记录数
如果你想远程保存图片/FLASH,请设置一个小的数字,比如1。(为了防止存储超时,系统建议将PHP超时设置为360或更大)
每组采集时间间隔是为一些限制页面刷新间隔的网站设置
其他选项
页面编码转换页面编码转换设置。
是否重复采集同一个链接可以设置是否重复采集同一个链接。
是否隐藏导入的信息,建议选择隐藏。否则入库后的记录仍会显示在入库清单中。
采集采集后自动入库可以设置为采集后自动入库,无需手动去入库。但是,存储超时可能会被中断。
入库后自动删除导入的信息:入库后备份验证记录会同时删除。
整体页面过滤的常规格式:“广告开始[!--pad--] 广告结束”。多个“,”网格可用。过滤整个页面代码。
要替换整个页面的字符,请使用“,”网格打开多个原创字符。如果有多个新字符,可以用“,”格打开,系统会一一替换。
过滤选项
采集Keywords 如果标题收录关键字,则只会使用采集。如果没有限制,请留空。请使用“,”打开多个。
替换多个原创字符,请使用“,”格,如果有多个新字符,可以使用“,”格,系统会一一替换。 (标题和内容)
过滤广告的常规格式:“广告开始[!--ad--]广告结束”,请用“,”打开多个。 (对于新闻文本字段)
如果内容为空,不要采集如果新闻内容为空,不要设置采集。
过滤相似度可以设置与采集titles不相似的字符数。如果没有限制,请填写“0”。可以设置与采集title 不完全相同的信息
截取内容简介 如果smalltext没有值,系统会设置截取多少个字符作为简介。
列表页面常规
常规信息链接区通常不需要设置。一般设置只在采集页面的某个区域设置链接或者缩小采集的范围;在需要采集链接区域的代码中添加“[!--smallurl--]”
信息页链接规律采集“内容页链接”规律(在列表页中);在信息页链接处添加“[!--newsurl--]”
标题图片正则采集"标题图片地址"正则,可以设置远程保存和地址前缀(在列表页,如果图片在内容页,请留空);添加“[ !--titlepic--]”
内容页分页采集设置:(如果没有分页,请留空,为newstext字段)
注意:如果是全列表类型,只需要查看第一页的常规页面即可。
分页有两种形式:“上下导航”和“列出全部”
“上下页面导航”样式规则设置分页区域规则([!--smallpagezz--]);分页链接常规 ([!--pagezz--])
"List all"样式规则设置分页区域规则([!--smallpageallzz--]);分页链接常规 ([!--pageallzz--])
采集相关注意事项
1、照常设置,同一个链接不重复采集。
2、 没有标题的消息不是采集。
3、不是固定参数,“*”可以代表任意字符。
4、 特殊字符请在前面加上“\\”。当然,把特殊字符直接改成“*”是最合适的。特殊字符如下:
")"、"("、"{"、"}"、"["、"]"、"\"、"?"等
5、正则要找出唯一代码。有时空间会成为识别的基础。
6、添加节点后,最好先预览节点,预览无误后再启动采集。 (管理可以预览的采集node)
7、"Time Regular":如果为空则为存储时间