插入关键字 文章采集器(Web页面信息采集从FreeCMS2.1开始支持通过简单配置即可)
优采云 发布时间: 2021-11-11 06:09插入关键字 文章采集器(Web页面信息采集从FreeCMS2.1开始支持通过简单配置即可)
网页信息采集
来自 Freecms 2.1 的支持
通过简单的配置,可以抓取目标页面信息,支持增量采集,关键字替换,定时采集,同一个采集规则可以采集多个页面(静态和动态) ),可以是采集多种信息属性,可以自动查看和静态信息页面。
采集规则管理
在左侧管理菜单中,点击采集规则进入。
添加采集规则
单击采集 规则列表下方的“添加”按钮。
填写相关属性后,点击“保存”按钮。
采集规则属性说明
采集 规则属性分为基本、设置、采集地址、采集属性、关键词替换。
一般情况下,只需在基本选项卡中填写相关属性即可完成。如果您需要更高级的设置,您可以使用接下来的几个选项卡。
主要属性解释如下。
名称:采集 规则的名称。
采集To column:采集的信息需要添加到该列。
页面编码:目标网页的页面编码,默认为UTF-8。
采集Address:目标网页的地址。在基本选项卡中只能设置一个。如果要设置多个,可以在采集地址选项卡中设置。
采集调度:设置执行采集操作的时间。这个设置非常重要。只有采集调度系统设置为执行采集操作。
内容列表起始和结束html:因为系统通过拦截目标网页的内容来提取信息属性,所以设置目标属性的起始和结束html很重要,并且必须设置为相对唯一的开始和结束html , 使系统可以正确拦截目标属性。该属性主要用于拦截目标页面信息列表的html。
内容地址起始和结束html:根据上述属性获取内容列表html后,利用该属性截取各个内容地址。
内容标题以html开头和结尾:根据上述属性获取内容地址后,系统会抓取该内容地址的网页内容,然后根据该属性截取内容标题。内容相关属性的设置和这个属性类似,下面不再赘述。
状态:启用状态下的采集规则将由系统执行。
采集图片:将消息内容中的图片下载到本地。
自动批准:将采集的信息直接设置为批准状态。
使用采集信息点击量:默认采集为信息点击量为0,设置该属性和内容点击量开始和结束html后系统会拦截目标信息点击量,设置为采集帖子信息的点击次数。
采集 内容的最大数量:默认没有限制。如果设置了该属性,系统会从采集记录开始统计采集规则已经有多少条信息采集,如果超过采集的最大数量内容,系统将不再采集。
将第一张图片设置为标题图片:如果信息内容中有图片,则提取第一张图片作为标题图片,并将该信息设置为图片信息。
清除内容中的html标签:清除信息内容中的html标签,保留纯文本。
内容为空时是否采集:内容为空时可设置不采集此信息。
使用采集信息添加时间:默认采集为信息添加时间为当前时间,设置该属性和内容添加时间开始和结束html后系统会拦截目标信息添加时间,设置为< @采集 添加帖子信息的时间。
采集 信息添加时间格式:默认格式为yyyy-MM-dd。如果目标页面的添加时间格式不同,这里需要设置正确的日期格式。
采集开始时间:默认为当前时间。如果小于采集的开始时间,系统将不会采集。
采集 结束时间:默认永不结束。如果超过采集结束时间,系统将不会采集。
内容地址补全url:由于部分网页使用相对或绝对路径,可以设置内容地址的前缀。
图片地址补全url:由于部分网页使用相对或绝对路径,可以设置图片链接地址的前缀。
内容中的A标签链接地址补全url:由于有些网页使用相对或绝对路径,可以在内容中设置A标签链接地址的前缀。
采集地址分为静态地址和动态地址。静态地址是固定地址。动态地址一般是指可以分页的地址。{page} 用于表示分页变量。您可以将页面从采集设置为对于该页面,例如{page}.html,设置起始页码为1,结束页码为10。系统会自动提取所有页面的数据。
一般情况下,我们只需要采集信息的标题和内容即可。系统还提供了采集内容描述、点击次数、作者、来源、时间属性等功能。
通过关键词替换功能,您可以将采集收到的消息中的关键词替换为您想要的关键词。
编辑 采集 规则
选择需要编辑的采集规则,然后点击“编辑”按钮。
注意:同时只能编辑一个 采集 规则。
填写相关属性后,点击“保存”按钮。
采集
选择需要 采集 的 采集 规则,然后单击“采集”按钮。
注意:只有一个采集规则可以同时被采集操作。
删除采集规则
选择要删除的采集规则,然后点击“删除”按钮。
提示:您可以同时删除多个采集 规则。
为防止误操作,系统会提示用户是否删除,点击“确定”完成删除操作。
查看采集记录
点击采集记录从左侧管理菜单进入。
在这里您可以查看所有网页采集 记录。您可以删除指定的采集记录,但不会删除采集的信息数据。选择需要删除的采集记录,然后点击“删除”按钮。
提示:您可以同时删除多个 采集 记录。
为防止误操作,系统会提示用户是否删除,点击“确定”完成删除操作。