文章定时自动采集(信息采集使用手册摘要()抓取网络数据,摘要)

优采云发布时间: 2022-01-01 15:00

　　信息采集用户手册

　　总结

　　Information采集是抓取网络数据，实现信息共享的功能模块。提供手动抓取、定时抓取、定时循环抓取三种模式。可以抓取单个新闻列表下的信息，也可以同时抓取多个列表下的新闻信息。

　　步骤和细节

　　现在需要将网页采集的数据（新闻）上传到webplus系统的指定栏目。步骤如下：

　　为指定的列制定采集计划。

　　在栏目管理中选择栏目，点击设置采集计划。（例如图片一)

　　设置采集的基本属性。

　　包括执行方式、信息是否自动发布、列类型采集以及页面的编码格式。（例如图片二)

　　事先约定采集计划的执行方式，手动，定时单次或定时循环执行。

　　如果只是针对采集网页的当前数据，我们可以使用手动和定时的一次性方式采集一次；如果采集网页的数据会更新，我们还要保证信息的同步，即采用定时循环采集的方法。

　　判断采集过来的信息是否需要发布

　　如果你过来的信息不需要修改，可以直接发布到网上，选择自动发布。如果来自采集的信息需要修改、审核等，选择不自动发布。采集完成后，信息管理人员将进行其他操作。

　　设置列类型采集

　　如果采集的网页只是一个简单的新闻列表，即采集页面的新闻放在指定栏目下，则选择单栏目。如果采集的页面有多个新闻列表，并且每个都提供了一个单独的链接来进入自己的新闻列表页面，

　　而且我们需要采集所有的新闻信息，然后选择多个栏目。另外，如果采集的页面是RSS信息聚合页面，则设置为对应的RSS单栏或RSS多栏。

　　设置采集页面的编码

　　因为webplus系统使用的是UTF-8编码格式，而采集可能是其他编码格式，那么为了避免采集传来的乱码，这里需要设置为采集页面的编码格式。

　　设置采集计划的采集规则

　　单列采集计划设置（例如图片三)

　　设置“列表页面起始地址”

　　是采集页面的访问路径。（必填）

　　设置“文章页面URL获取规则”

　　如果新闻列表是通过采集以iframe的形式嵌入到网页中的，那么需要设置规则获取列表iframe的链接地址来访问新闻列表。否则，无需制定此规则。（具体规则请参考下面的“采集正则表达式公式”）

　　如果采集网页的新闻列表是分页的，那么要根据新闻列表的分页方式（链接和表单提交），以及分页的起始页码来制定分页规则，间隔页码和采集页数。如果新闻列表中没有分页，则无需制定此规则。

　　如果采集的页面有多个新闻列表，并且多个新闻列表的url规则相似，我们只需要采集指定的一个列表，即需要设置限制文章列出访问规则，这是为了避免采集冗余数据。否则，无需设置此规则。

　　设置文章 url获取规则，以便能够从采集页面访问特定的新闻页面，从而进行新闻采集。（必填）

　　设置“文章内容获取规则”

　　对于特定的新闻页面，如果文章的内容以iframe的形式嵌入到新闻页面中，则需要设置规则获取文章 iframe的链接地址访问新闻内容。否则，无需制定此规则。

　　如果新闻内容有分页情况，则根据文章内容分页方式（链接和表单提交）制定分页规则，需要设置分页起始页码，间隔页码和采集页数。如果文章的内容没有分页，则无需制定此规则。

　　如果新闻页面上除了新闻内容之外还有其他附加信息，那么为了在采集过程中更容易找到新闻内容，需要设置规则来限制获取新闻内容在这里。一是避免垃圾邮件，二是降低新闻特定信息获取规则的复杂性。如果新闻页面比较简单，一般不需要设置此规则。

　　设置新闻属性的规则，除标题和内容外，均为可选条件。另外，如果未设置新闻发布时间，则以当前时间作为发布时间。

　　多列采集计划设置（例如图片五)

　　Multi-column采集除了需要在“List page start URL”下设置list page URL rules和“文章Page URL获取规则”下的列名获取规则，其他项目与列表相关。采集列具有相同的计划设置。

　　RSS单栏采集计划设置（如：图片四)

　　RSS单列的采集方案不需要设置“文章页面URL获取规则”，其余与单列采集方案一致。

　　RSS多栏采集计划设置（例如图片六)

<p>RSS多栏采集方案需要在“列表页面起始网址”下设置列表页网址获取规则，其余与RSS单栏采集方案一致。

0

2022-01-01

文章定时自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章定时自动采集(信息采集使用手册摘要()抓取网络数据,摘要)

0 个评论

发起人

AI时代内容工厂

文章定时自动采集(信息采集使用手册摘要()抓取网络数据,摘要)

0 个评论

发起人

相关问题