文章采集内容(一个抓取网络数据,系统一个设置采集计划(组图))

优采云 发布时间: 2021-10-25 11:17

  文章采集内容(一个抓取网络数据,系统一个设置采集计划(组图))

  汇总信息采集是抓取网络数据,实现信息共享的功能模块。提供手动抓取、定时抓取、定时循环抓取三种模式。它可以抓取单个新闻列表下的信息,也可以同时抓取多个列表下的新闻信息。步骤和细节 现在您需要将网页采集的数据(新闻)传输到webplus系统中的指定列。步骤如下: 对指定的列进行规划。在栏目管理中选择栏目,点击设置采集计划。(例如:图一)设置采集的基本属性。包括执行方式、信息是否自动发布、采集的列类型以及页面的编码格式。 (例如:图二)对于采集计划的执行方式,提前约定好,手动,定时单次或定时循环执行。如果只是针对采集网页的当前数据,我们可以使用手动和定时单方法采集一次;如果采集网页的数据会更新,一定要保证信息同步,即使用定时循环采集的方法。从采集判断信息是否需要发布?如果来自采集的信息不需要修改,可以直接对外公开,​​可以自动发布。如果来自采集的信息需要修改、审核等,选择不自动发布,采集完成后,信息管理人员将执行其他操作。如果采集设置的栏目类型只是采集网页中的简单新闻列表,即采集页面到指定栏目,则选择单个栏目。如果采集的页面有多个新闻列表,并且每个都提供了一个单独的链接进入自己的新闻列表页面,而我们需要采集所有新闻信息,那么选择多个栏目。

  另外,如果采集的页面是RSS信息聚合页面,则设置为对应的RSS单栏或RSS多栏。设置页面的编码为采集,因为webplus系统使用的是UTF-8编码格式,而采集可能是其他编码格式,那么为了避免采集出现乱码,需要设置为采集页面的编码格式。本文来自计算机基础知识:计划的采集规则单列采集计划设置(如:图三)设置“列表页起始网址”为采集页面访问路径。(必填)设置“文章页面URL获取规则”,如果新闻列表通过采集以iframe的形式嵌入到网页中,那么就需要设置规则来获取列表iframe的链接地址,才能访问新闻列表。否则,无需制定规则。(具体规则请参考下面的“采集正则表达式公式”)。根据新闻列表的分页方式(链接和表单提交),需要设置分页规则,需要设置分页的起始页码、间隔页码和采集页码。如果新闻列表中没有分页,则无需制定此规则。如果采集的页面有多个新闻列表,并且多个新闻列表的url规则相似,我们只需要采集指定的一个列表,即我们需要设置限制文章获取规则列表,这是为了避免采集冗余数据。除此以外,您不需要设置此规则。设置文章url获取规则,以便能够从采集页面访问特定的新闻页面,从而进行新闻采集。

  (必填)设置“文章内容获取规则”的具体新闻页面。如果文章的内容以iframe的形式嵌入到新闻页面中,那么就需要设置规则来获取文章iframe来访问新闻内容。否则,无需制定此规则。如果新闻内容有分页,则根据文章内容分页方法(链接和表单提交)制定分页规则,需要设置起始页码、间隔页码和采集@ > 页码。如果文章的内容中没有分页,则无需制定此规则。如果新闻页面中除了新闻内容之外还有其他附加信息,那么为了在采集过程中更容易找到新闻内容,这里需要设置规则来限制新闻内容的获取。一是避免垃圾邮件,二是降低新闻特定信息获取规则的复杂性。如果新闻页面比较简单,一般不需要设置这个规则。设置新闻属性的规则是可选的,除了标题和内容。另外,如果未设置新闻发布时间,则以当前时间作为发布时间。多列采集计划设置(如:图五)多列采集计划,另外需要设置列表页面的URL规则和“文章下“List page start URL”设置“Page URL Acquisition Rules”下获取列名的规则,其他与单列采集计划设置一致。

  匹配、匹配替换和公式。其中,匹配和匹配替换需要使用java正表达式,这就需要采集计划设置人员对表达式有一定的了解。字符串:直接输入字符串常量匹配:从指定文本(URL、IframeURL、页面内容)通过正则表达式获取文本中的部分内容。匹配替换:以指定文本(URL、IframeURL、页面内容)开头

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线