文章采集内容(一个抓取网络数据,系统一个设置采集计划(组图))

优采云发布时间: 2021-10-25 11:17

　　汇总信息采集是抓取网络数据，实现信息共享的功能模块。提供手动抓取、定时抓取、定时循环抓取三种模式。它可以抓取单个新闻列表下的信息，也可以同时抓取多个列表下的新闻信息。步骤和细节现在您需要将网页采集的数据（新闻）传输到webplus系统中的指定列。步骤如下：对指定的列进行规划。在栏目管理中选择栏目，点击设置采集计划。（例如：图一)设置采集的基本属性。包括执行方式、信息是否自动发布、采集的列类型以及页面的编码格式。（例如：图二)对于采集计划的执行方式，提前约定好，手动，定时单次或定时循环执行。如果只是针对采集网页的当前数据，我们可以使用手动和定时单方法采集一次；如果采集网页的数据会更新，一定要保证信息同步，即使用定时循环采集的方法。从采集判断信息是否需要发布？如果来自采集的信息不需要修改，可以直接对外公开，可以自动发布。如果来自采集的信息需要修改、审核等，选择不自动发布，采集完成后，信息管理人员将执行其他操作。如果采集设置的栏目类型只是采集网页中的简单新闻列表，即采集页面到指定栏目，则选择单个栏目。如果采集的页面有多个新闻列表，并且每个都提供了一个单独的链接进入自己的新闻列表页面，而我们需要采集所有新闻信息，那么选择多个栏目。

　　另外，如果采集的页面是RSS信息聚合页面，则设置为对应的RSS单栏或RSS多栏。设置页面的编码为采集，因为webplus系统使用的是UTF-8编码格式，而采集可能是其他编码格式，那么为了避免采集出现乱码，需要设置为采集页面的编码格式。本文来自计算机基础知识：计划的采集规则单列采集计划设置（如：图三)设置“列表页起始网址”为采集页面访问路径。（必填）设置“文章页面URL获取规则”，如果新闻列表通过采集以iframe的形式嵌入到网页中，那么就需要设置规则来获取列表iframe的链接地址，才能访问新闻列表。否则，无需制定规则。（具体规则请参考下面的“采集正则表达式公式”）。根据新闻列表的分页方式（链接和表单提交），需要设置分页规则，需要设置分页的起始页码、间隔页码和采集页码。如果新闻列表中没有分页，则无需制定此规则。如果采集的页面有多个新闻列表，并且多个新闻列表的url规则相似，我们只需要采集指定的一个列表，即我们需要设置限制文章获取规则列表，这是为了避免采集冗余数据。除此以外，您不需要设置此规则。设置文章url获取规则，以便能够从采集页面访问特定的新闻页面，从而进行新闻采集。

　　（必填）设置“文章内容获取规则”的具体新闻页面。如果文章的内容以iframe的形式嵌入到新闻页面中，那么就需要设置规则来获取文章iframe来访问新闻内容。否则，无需制定此规则。如果新闻内容有分页，则根据文章内容分页方法（链接和表单提交）制定分页规则，需要设置起始页码、间隔页码和采集@ > 页码。如果文章的内容中没有分页，则无需制定此规则。如果新闻页面中除了新闻内容之外还有其他附加信息，那么为了在采集过程中更容易找到新闻内容，这里需要设置规则来限制新闻内容的获取。一是避免垃圾邮件，二是降低新闻特定信息获取规则的复杂性。如果新闻页面比较简单，一般不需要设置这个规则。设置新闻属性的规则是可选的，除了标题和内容。另外，如果未设置新闻发布时间，则以当前时间作为发布时间。多列采集计划设置（如：图五)多列采集计划，另外需要设置列表页面的URL规则和“文章下“List page start URL”设置“Page URL Acquisition Rules”下获取列名的规则，其他与单列采集计划设置一致。

　　匹配、匹配替换和公式。其中，匹配和匹配替换需要使用java正表达式，这就需要采集计划设置人员对表达式有一定的了解。字符串：直接输入字符串常量匹配：从指定文本（URL、IframeURL、页面内容）通过正则表达式获取文本中的部分内容。匹配替换：以指定文本（URL、IframeURL、页面内容）开头

0

2021-10-25

文章采集内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集内容(一个抓取网络数据,系统一个设置采集计划(组图))

0 个评论

发起人

AI时代内容工厂

文章采集内容(一个抓取网络数据,系统一个设置采集计划(组图))

0 个评论

发起人

相关问题