Web页面信息采集从FreeCMS2.1开始支持通过简单配置即可

优采云 发布时间: 2021-08-24 01:14

  Web页面信息采集从FreeCMS2.1开始支持通过简单配置即可

  网页信息采集

  开始支持Freecms2.1

  可以通过简单的配置抓取目标网页信息,支持增量采集、关键字替换、定时采集,同一个采集规则可以采集多个页面(静态和动态)、采集多种信息属性可自动查看和静态信息页面。

  采集规则管理

  在左侧的管理菜单中,点击采集Rules 进入。

  

  添加采集rule

  点击采集规则列表下方的“添加”按钮。

  

  

  

  

  

  

  

  填写相关属性并点击“保存”按钮。

  采集Rule 属性说明

  采集规则属性分为basic、setting、采集地址、采集属性、关键词replacement。

  一般情况下,只需在基本选项卡中填写相关属性即可完成。如果您需要更高级的设置,您可以使用接下来的几个标签。

  主要属性解释如下。

  名称:采集规则名称。

  采集 到列:采集 的信息应该添加到该列中。

  页面编码:目标网页的页面编码,默认为UTF-8。

  采集Address:目标网页的地址。在基本选项卡中只能设置一个。如果要设置多个,可以在采集address选项卡中设置。

  采集Scheduling:设置执行采集操作的时间。这个设置非常重要。只有设置了采集调度系统才能执行采集操作。

  Content list start and end html:因为系统通过关键词拦截目标网页的内容来提取信息属性,所以设置目标属性的开始和结束html很重要,必须设置为比较独特的开始和结束。 html,以便系统正确拦截目标属性。该属性主要用于拦截目标页面信息列表的html。

  内容地址开始和结束html:根据上述属性获取到内容列表html后,使用该属性截取每个内容地址。

  内容标题开始和结束html:根据上述属性获取内容地址后,系统会抓取该内容地址的网页内容,然后根据该属性截取内容标题。内容相关属性的设置和这个属性类似,下面不再赘述。

  状态:处于活动状态的采集规则将由系统执行。

  采集Picture:将消息内容中的图片下载到本地。

  自动批准:将采集的信息直接设置为批准状态。

  使用采集信息点击量:默认情况下采集接收到的信息点击量为0,设置该属性和内容点击量后,系统会拦截目标信息的点击量并设置到采集后信息的点击次数。

  采集contents 的最大数量:默认不限制。如果设置了该属性,系统会从采集记录中统计采集规则已经采集的信息条数,如果超过最大采集content条数,系统将不再采集。

  设置第一张图片为标题图片:如果信息内容中有图片,则提取第一张图片作为标题图片,并将信息设置为图片信息。

  清除内容中的html标签:清除信息内容中的html标签,保留纯文本。

  内容为空时是否采集:内容为空时可以不采集设置此信息。

  使用采集信息添加时间:默认情况下采集收到的信息添加时间为当前时间。设置该属性和内容添加时间开始和结束html后,系统会拦截目标信息的添加时间并设置为采集Post信息添加时间。

  采集Information 添加时间格式:默认格式为yyyy-MM-dd。如果目标页面的添加时间格式不同,这里需要设置正确的日期格式。

  采集Start Time:默认为当前时间。如果小于采集start 时间,系统不会采集。

  采集End time:默认永不结束。如果超过采集结束时间,系统不会采集。

  内容地址补全url:由于部分网页使用相对或绝对路径,可以设置内容地址的前缀。

  图片地址补全url:由于有些网页使用相对或绝对路径,可以设置图片链接地址的前缀。

  完成内容中A标签链接地址的URL:由于部分网页使用相对或绝对路径,可以在内容中设置A标签链接地址的前缀。

  采集地址分为静态地址和动态地址。静态地址是固定地址。动态地址一般是指可以分页的地址。 {page} 代表分页变量,可以将页面从采集 设置为该页面,例如{page}.html,设置起始页码为1,结束页码为10。系统将自动提取所有页面的数据。

  一般情况下,我们只需要采集信息的标题和内容即可。系统还提供采集内容描述、点击、作者、来源、时间属性功能。

  使用关键词替换功能,您可以将采集发送的消息中的关键词替换为您想要的关键词。

  编辑采集rules

  选择需要编辑的采集规则,然后点击“编辑”按钮。

  注意:只能同时编辑一条采集规则。

  

  填写相关属性并点击“保存”按钮。

  采集

  选择需要采集的采集规则,然后点击“采集”按钮。

  注意:采集只能同时操作一个采集规则。

  

  

  删除采集rule

  选择需要删除的采集规则,然后点击“删除”按钮。

  提示:您可以同时删除多个采集规则。

  

  

  为防止误操作,系统会提示用户是否删除,点击“确定”完成删除操作。

  查看采集records

  在左侧管理菜单中,点击采集records进入。

  

  这里可以查看所有网页采集记录。您可以删除指定的采集记录,但不会删除采集的信息数据。选择需要删除的采集记录,然后点击“删除”按钮。

  提醒:您可以同时删除多条采集记录。

  

  

  为防止误操作,系统会提示用户是否删除,点击“确定”完成删除操作。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线