插入关键字 文章采集器(Web页面信息采集从FreeCMS2.1开始支持通过简单配置即可)

优采云 发布时间: 2021-11-11 06:09

  插入关键字 文章采集器(Web页面信息采集从FreeCMS2.1开始支持通过简单配置即可)

  网页信息采集

  来自 Freecms 2.1 的支持

  通过简单的配置,可以抓取目标页面信息,支持增量采集,关键字替换,定时采集,同一个采集规则可以采集多个页面(静态和动态) ),可以是采集多种信息属性,可以自动查看和静态信息页面。

  采集规则管理

  在左侧管理菜单中,点击采集规则进入。

  

  添加采集规则

  单击采集 规则列表下方的“添加”按钮。

  

  

  

  

  

  

  

  填写相关属性后,点击“保存”按钮。

  采集规则属性说明

  采集 规则属性分为基本、设置、采集地址、采集属性、关键词替换。

  一般情况下,只需在基本选项卡中填写相关属性即可完成。如果您需要更高级的设置,您可以使用接下来的几个选项卡。

  主要属性解释如下。

  名称:采集 规则的名称。

  采集To column:采集的信息需要添加到该列。

  页面编码:目标网页的页面编码,默认为UTF-8。

  采集Address:目标网页的地址。在基本选项卡中只能设置一个。如果要设置多个,可以在采集地址选项卡中设置。

  采集调度:设置执行采集操作的时间。这个设置非常重要。只有采集调度系统设置为执行采集操作。

  内容列表起始和结束html:因为系统通过拦截目标网页的内容来提取信息属性,所以设置目标属性的起始和结束html很重要,并且必须设置为相对唯一的开始和结束html , 使系统可以正确拦截目标属性。该属性主要用于拦截目标页面信息列表的html。

  内容地址起始和结束html:根据上述属性获取内容列表html后,利用该属性截取各个内容地址。

  内容标题以html开头和结尾:根据上述属性获取内容地址后,系统会抓取该内容地址的网页内容,然后根据该属性截取内容标题。内容相关属性的设置和这个属性类似,下面不再赘述。

  状态:启用状态下的采集规则将由系统执行。

  采集图片:将消息内容中的图片下载到本地。

  自动批准:将采集的信息直接设置为批准状态。

  使用采集信息点击量:默认采集为信息点击量为0,设置该属性和内容点击量开始和结束html后系统会拦截目标信息点击量,设置为采集帖子信息的点击次数。

  采集 内容的最大数量:默认没有限制。如果设置了该属性,系统会从采集记录开始统计采集规则已经有多少条信息采集,如果超过采集的最大数量内容,系统将不再采集。

  将第一张图片设置为标题图片:如果信息内容中有图片,则提取第一张图片作为标题图片,并将该信息设置为图片信息。

  清除内容中的html标签:清除信息内容中的html标签,保留纯文本。

  内容为空时是否采集:内容为空时可设置不采集此信息。

  使用采集信息添加时间:默认采集为信息添加时间为当前时间,设置该属性和内容添加时间开始和结束html后系统会拦截目标信息添加时间,设置为< @采集 添加帖子信息的时间。

  采集 信息添加时间格式:默认格式为yyyy-MM-dd。如果目标页面的添加时间格式不同,这里需要设置正确的日期格式。

  采集开始时间:默认为当前时间。如果小于采集的开始时间,系统将不会采集。

  采集 结束时间:默认永不结束。如果超过采集结束时间,系统将不会采集。

  内容地址补全url:由于部分网页使用相对或绝对路径,可以设置内容地址的前缀。

  图片地址补全url:由于部分网页使用相对或绝对路径,可以设置图片链接地址的前缀。

  内容中的A标签链接地址补全url:由于有些网页使用相对或绝对路径,可以在内容中设置A标签链接地址的前缀。

  采集地址分为静态地址和动态地址。静态地址是固定地址。动态地址一般是指可以分页的地址。{page} 用于表示分页变量。您可以将页面从采集设置为对于该页面,例如{page}.html,设置起始页码为1,结束页码为10。系统会自动提取所有页面的数据。

  一般情况下,我们只需要采集信息的标题和内容即可。系统还提供了采集内容描述、点击次数、作者、来源、时间属性等功能。

  通过关键词替换功能,您可以将采集收到的消息中的关键词替换为您想要的关键词。

  编辑 采集 规则

  选择需要编辑的采集规则,然后点击“编辑”按钮。

  注意:同时只能编辑一个 采集 规则。

  

  填写相关属性后,点击“保存”按钮。

  采集

  选择需要 采集 的 采集 规则,然后单击“采集”按钮。

  注意:只有一个采集规则可以同时被采集操作。

  

  

  删除采集规则

  选择要删除的采集规则,然后点击“删除”按钮。

  提示:您可以同时删除多个采集 规则。

  

  

  为防止误操作,系统会提示用户是否删除,点击“确定”完成删除操作。

  查看采集记录

  点击采集记录从左侧管理菜单进入。

  

  在这里您可以查看所有网页采集 记录。您可以删除指定的采集记录,但不会删除采集的信息数据。选择需要删除的采集记录,然后点击“删除”按钮。

  提示:您可以同时删除多个 采集 记录。

  

  

  为防止误操作,系统会提示用户是否删除,点击“确定”完成删除操作。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线