内容采集系统( 名称父节点可选择上级节点怎么做?超时系统推荐)
优采云 发布时间: 2022-01-01 00:08内容采集系统(
名称父节点可选择上级节点怎么做?超时系统推荐)
基本信息
节点名称
这个节点的名字
父节点
可以选择上级节点,主要是方便管理。例如,您可以将所有新闻 采集 归为一个父节点。
采集页面地址
采集的页面列表为必填项。如果有多个列表,使用回车框打开。
采集页面地址方法二
列表由系统自己生成,但必须有数字模式。
如:“[page]”([page]为页码范围)
内容页地址前缀
信息页面链接的地址前缀。如果地址前没有域名,系统会加上这个前缀。
如:+/news/2006/1.html
图片/FLASH地址前缀
当新闻内容的图片/FLASH地址为相对地址时使用。 (对于新闻文本字段,远程保存时有效)
传入列
采集的数据在数据库中存放的列。如果此节点不是 采集 节点,请不要选择它。 (只列出属于这个系统模型的列)
入站主题
采集 的数据要存储在数据库中的主题。
节点有效时间
“开始时间”和“结束时间”目前可以自由设置。这主要是为了以后版本的扩展。
备注
备注或说明
选项
默认相关关键字
截取标题的前几个字符作为相关链接的“关键字”。建议设置为0,这样存储效率更高。
采集记录数
采集之前可以设置记录数。 (“0”为无限制,系统会从页面的开头到结尾选取)
远程保存图片到本地
选中后,图片入库后系统会远程保存到本地,还可以设置是否添加水印。 (对于新闻文本字段)
远程保存FLASH到本地
选择后进入库系统会远程将FLASH保存到本地。 (对于新闻文本字段)
标题图片设置
您可以选择远程保存哪张图片作为标题图片并生成缩略图设置。
各组列表采集编号
采集 列表页上每组的记录数。单个采集列表页请填写1。
每组信息采集编号
采集每组信息页数据的记录数
每组的存储数量
如果你想远程保存图片/FLASH,请设置一个小的值,比如1。(为了防止存储超时,系统建议将php超时设置为360以上)
每组采集时间间隔
对于一些限制页面刷新间隔的网站项
其他选项
页面编码转换
页面编码转换设置。
你在重复采集相同的链接
可以设置同一个链接是否重复采集。
是否隐藏导入的信息
建议隐藏。否则入库后的记录仍会显示在入库清单中。
采集事后自动存储
可以设置采集自动进仓,无需手动进仓。但是,存储超时可能会被中断。
入库后自动删除导入的信息:入库后同时删除备份验证记录。
整体页面过滤规则
格式:“广告开始[!--pad--]广告结束”。多个“,”网格可用。
过滤整个页面代码。
替换整个页面上的字符
如果有多个原创字符,请使用“,”格。如果有多个新字符,可以使用“,”格,系统会一一替换。
过滤选项
采集关键词
只有标题中有关键字的信息采集。如果没有限制,请留空。请使用“,”打开多个。
替换
如果有多个原创字符,请使用“,”格。如果有多个新字符,可以使用“,”格,系统会一一替换。
(标题和内容)
常规广告过滤
格式:"广告开始[!--ad--]广告结束",请用","打开多个。 (对于新闻文本字段)
内容为空,不是采集
如果newstext的内容为空,不要采集设置该项。
过滤相似度
可以设置与标题不相似的采集字符数。如果没有限制,请填写“0”。
可以设置与采集标题不同的信息
截取内容简介
如果smalltext没有值,系统会设置截取多少个字符作为摘要。
列表页面规律
常规信息链接区
通常不需要设置。一般只设置为采集页面某个区域的链接或者缩小采集的范围。
在要采集链接区号的地方添加“[!--smallurl--]”
信息页链接规律
采集“内容页链接”的正则(在列表页中)
信息页链接添加“[!--newsurl--]”
标题图片常规
采集“标题图片地址”的正则,可以设置远程保存和地址前缀(在列表页,如果图片在内容页,请留空)
标题图片地址添加“[!--titlepic--]”
内容页分页采集设置:(如果没有分页,请留空,为newstext字段)
注意:如果是全列表类型,只需要查看第一页的常规页面即可。
分页样式
有两种形式:“上下导航”和“列出全部”