文章定时自动采集(信息采集使用手册摘要()抓取网络数据,摘要)
优采云 发布时间: 2022-01-01 15:00文章定时自动采集(信息采集使用手册摘要()抓取网络数据,摘要)
信息采集用户手册
总结
Information采集是抓取网络数据,实现信息共享的功能模块。提供手动抓取、定时抓取、定时循环抓取三种模式。可以抓取单个新闻列表下的信息,也可以同时抓取多个列表下的新闻信息。
步骤和细节
现在需要将网页采集的数据(新闻)上传到webplus系统的指定栏目。步骤如下:
为指定的列制定采集计划。
在栏目管理中选择栏目,点击设置采集计划。 (例如图片一)
设置采集的基本属性。
包括执行方式、信息是否自动发布、列类型采集以及页面的编码格式。 (例如图片二)
事先约定采集计划的执行方式,手动,定时单次或定时循环执行。
如果只是针对采集网页的当前数据,我们可以使用手动和定时的一次性方式采集一次;如果采集网页的数据会更新,我们还要保证信息的同步,即采用定时循环采集的方法。
判断采集过来的信息是否需要发布
如果你过来的信息不需要修改,可以直接发布到网上,选择自动发布。如果来自采集的信息需要修改、审核等,选择不自动发布。 采集完成后,信息管理人员将进行其他操作。
设置列类型采集
如果采集的网页只是一个简单的新闻列表,即采集页面的新闻放在指定栏目下,则选择单栏目。如果采集的页面有多个新闻列表,并且每个都提供了一个单独的链接来进入自己的新闻列表页面,
而且我们需要采集所有的新闻信息,然后选择多个栏目。另外,如果采集的页面是RSS信息聚合页面,则设置为对应的RSS单栏或RSS多栏。
设置采集页面的编码
因为webplus系统使用的是UTF-8编码格式,而采集可能是其他编码格式,那么为了避免采集传来的乱码,这里需要设置为采集页面的编码格式。
设置采集计划的采集规则
单列采集计划设置(例如图片三)
设置“列表页面起始地址”
是采集页面的访问路径。 (必填)
设置“文章页面URL获取规则”
如果新闻列表是通过采集以iframe的形式嵌入到网页中的,那么需要设置规则获取列表iframe的链接地址来访问新闻列表。否则,无需制定此规则。 (具体规则请参考下面的“采集正则表达式公式”)
如果采集网页的新闻列表是分页的,那么要根据新闻列表的分页方式(链接和表单提交),以及分页的起始页码来制定分页规则,间隔页码和采集页数。如果新闻列表中没有分页,则无需制定此规则。
如果采集的页面有多个新闻列表,并且多个新闻列表的url规则相似,我们只需要采集指定的一个列表,即需要设置限制文章列出访问规则,这是为了避免采集冗余数据。否则,无需设置此规则。
设置文章 url获取规则,以便能够从采集页面访问特定的新闻页面,从而进行新闻采集。 (必填)
设置“文章内容获取规则”
对于特定的新闻页面,如果文章的内容以iframe的形式嵌入到新闻页面中,则需要设置规则获取文章 iframe的链接地址访问新闻内容。否则,无需制定此规则。
如果新闻内容有分页情况,则根据文章内容分页方式(链接和表单提交)制定分页规则,需要设置分页起始页码,间隔页码和采集页数。如果文章的内容没有分页,则无需制定此规则。
如果新闻页面上除了新闻内容之外还有其他附加信息,那么为了在采集过程中更容易找到新闻内容,需要设置规则来限制获取新闻内容在这里。一是避免垃圾邮件,二是降低新闻特定信息获取规则的复杂性。如果新闻页面比较简单,一般不需要设置此规则。
设置新闻属性的规则,除标题和内容外,均为可选条件。另外,如果未设置新闻发布时间,则以当前时间作为发布时间。
多列采集计划设置(例如图片五)
Multi-column采集 除了需要在“List page start URL”下设置list page URL rules和“文章Page URL获取规则”下的列名获取规则,其他项目与列表相关。 采集 列具有相同的计划设置。
RSS单栏采集计划设置(如:图片四)
RSS单列的采集方案不需要设置“文章页面URL获取规则”,其余与单列采集方案一致。
RSS多栏采集计划设置(例如图片六)
<p>RSS多栏采集方案需要在“列表页面起始网址”下设置列表页网址获取规则,其余与RSS单栏采集方案一致。