Web页面信息采集从FreeCMS2.1开始支持通过简单配置即可
优采云 发布时间: 2021-08-24 01:14Web页面信息采集从FreeCMS2.1开始支持通过简单配置即可
网页信息采集
开始支持Freecms2.1
可以通过简单的配置抓取目标网页信息,支持增量采集、关键字替换、定时采集,同一个采集规则可以采集多个页面(静态和动态)、采集多种信息属性可自动查看和静态信息页面。
采集规则管理
在左侧的管理菜单中,点击采集Rules 进入。
添加采集rule
点击采集规则列表下方的“添加”按钮。
填写相关属性并点击“保存”按钮。
采集Rule 属性说明
采集规则属性分为basic、setting、采集地址、采集属性、关键词replacement。
一般情况下,只需在基本选项卡中填写相关属性即可完成。如果您需要更高级的设置,您可以使用接下来的几个标签。
主要属性解释如下。
名称:采集规则名称。
采集 到列:采集 的信息应该添加到该列中。
页面编码:目标网页的页面编码,默认为UTF-8。
采集Address:目标网页的地址。在基本选项卡中只能设置一个。如果要设置多个,可以在采集address选项卡中设置。
采集Scheduling:设置执行采集操作的时间。这个设置非常重要。只有设置了采集调度系统才能执行采集操作。
Content list start and end html:因为系统通过关键词拦截目标网页的内容来提取信息属性,所以设置目标属性的开始和结束html很重要,必须设置为比较独特的开始和结束。 html,以便系统正确拦截目标属性。该属性主要用于拦截目标页面信息列表的html。
内容地址开始和结束html:根据上述属性获取到内容列表html后,使用该属性截取每个内容地址。
内容标题开始和结束html:根据上述属性获取内容地址后,系统会抓取该内容地址的网页内容,然后根据该属性截取内容标题。内容相关属性的设置和这个属性类似,下面不再赘述。
状态:处于活动状态的采集规则将由系统执行。
采集Picture:将消息内容中的图片下载到本地。
自动批准:将采集的信息直接设置为批准状态。
使用采集信息点击量:默认情况下采集接收到的信息点击量为0,设置该属性和内容点击量后,系统会拦截目标信息的点击量并设置到采集后信息的点击次数。
采集contents 的最大数量:默认不限制。如果设置了该属性,系统会从采集记录中统计采集规则已经采集的信息条数,如果超过最大采集content条数,系统将不再采集。
设置第一张图片为标题图片:如果信息内容中有图片,则提取第一张图片作为标题图片,并将信息设置为图片信息。
清除内容中的html标签:清除信息内容中的html标签,保留纯文本。
内容为空时是否采集:内容为空时可以不采集设置此信息。
使用采集信息添加时间:默认情况下采集收到的信息添加时间为当前时间。设置该属性和内容添加时间开始和结束html后,系统会拦截目标信息的添加时间并设置为采集Post信息添加时间。
采集Information 添加时间格式:默认格式为yyyy-MM-dd。如果目标页面的添加时间格式不同,这里需要设置正确的日期格式。
采集Start Time:默认为当前时间。如果小于采集start 时间,系统不会采集。
采集End time:默认永不结束。如果超过采集结束时间,系统不会采集。
内容地址补全url:由于部分网页使用相对或绝对路径,可以设置内容地址的前缀。
图片地址补全url:由于有些网页使用相对或绝对路径,可以设置图片链接地址的前缀。
完成内容中A标签链接地址的URL:由于部分网页使用相对或绝对路径,可以在内容中设置A标签链接地址的前缀。
采集地址分为静态地址和动态地址。静态地址是固定地址。动态地址一般是指可以分页的地址。 {page} 代表分页变量,可以将页面从采集 设置为该页面,例如{page}.html,设置起始页码为1,结束页码为10。系统将自动提取所有页面的数据。
一般情况下,我们只需要采集信息的标题和内容即可。系统还提供采集内容描述、点击、作者、来源、时间属性功能。
使用关键词替换功能,您可以将采集发送的消息中的关键词替换为您想要的关键词。
编辑采集rules
选择需要编辑的采集规则,然后点击“编辑”按钮。
注意:只能同时编辑一条采集规则。
填写相关属性并点击“保存”按钮。
采集
选择需要采集的采集规则,然后点击“采集”按钮。
注意:采集只能同时操作一个采集规则。
删除采集rule
选择需要删除的采集规则,然后点击“删除”按钮。
提示:您可以同时删除多个采集规则。
为防止误操作,系统会提示用户是否删除,点击“确定”完成删除操作。
查看采集records
在左侧管理菜单中,点击采集records进入。
这里可以查看所有网页采集记录。您可以删除指定的采集记录,但不会删除采集的信息数据。选择需要删除的采集记录,然后点击“删除”按钮。
提醒:您可以同时删除多条采集记录。
为防止误操作,系统会提示用户是否删除,点击“确定”完成删除操作。