文档介绍:栏目管理中选择栏目,点击设置采集计划
优采云 发布时间: 2021-05-22 20:28文档介绍:栏目管理中选择栏目,点击设置采集计划
文档简介:摘要
信息采集是捕获网络数据并实现信息共享的功能模块。它提供三种模式:手动抓取,计划抓取和定时循环抓取。它既可以获取单个新闻列表中的信息,也可以同时获取多个列表中的新闻信息。
步骤和详细信息
现在,必须将网页的数据(新闻)采集传输到webplus系统中的指定列。步骤如下:
为指定的列制定采集计划。
在列管理中选择列,然后单击“设置采集计划”。 (例如,图一)
设置采集的基本属性。
包括执行方法,是否自动释放信息,列的类型为采集和页面的编码格式。 (例如图片二)
采集计划的执行方法,无论是手动执行,定时执行还是定时执行,都事先达成一致。
如果仅针对采集网页的当前数据,我们可以一次使用手动和定时一次性方法采集;如果要更新采集网页的数据,并且必须确保信息的同步,即采用定时循环采集的方法。
确定是否需要发布采集中的信息
如果不需要修改采集中的信息,则可以直接将其公开到Internet,您可以选择自动发布。如果采集中的信息需要修改,检查等,请选择不自动发布。 采集完成后,信息管理人员将执行其他操作。
将列的类型设置为采集
如果采集网页只是一个简单的新闻列表,即该页面的新闻采集被放置在指定的列下,则选择一个列。如果采集的页*敏*感*词*有多个新闻列表,并且每个页面都提供一个单独的链接以进入其自己的新闻列表页面,并且我们需要采集的所有新闻信息,然后选择多个列。另外,如果采集的页面是RSS信息聚合页面,则将其设置为相应的RSS单列或RSS多列。
设置采集页面的编码
由于webplus系统使用UTF-8编码格式,并且采集可能是其他编码格式,因此为了避免采集中的乱码信息,需要将其设置为采集。格式。
本文来自计算机的基本知识:
设置采集计划的采集条规则
单列采集计划设置(例如:图三)
设置“列表页面开始URL”
是采集页面的访问路径。 (必需)
设置“ 文章页面网址获取规则”
如果新闻列表以iframe的形式嵌入采集网页中,则需要设置规则以获取列表iframe的链接地址以访问新闻列表。否则,无需制定此规则。 (有关特定规则,请参阅下面的“ 采集正则表达式公式”)
如果采集网页的新闻列表为分页,则应根据新闻列表的分页方法以及新闻列表的起始页号来制定新闻列表的分页规则(链接和表单提交)。分页,间隔页号和采集页数需要设置。如果新闻列表中没有分页,则无需制定此规则。
如果采集的页*敏*感*词*有多个新闻列表,并且多个新闻列表的url规则相似,并且我们只需要采集指定的一个列表,即我们需要对获取规则进行限制文章列表中的,这是为了避免采集冗余数据。否则,无需设置此规则。
设置文章网址获取规则,以便能够从采集页面访问特定新闻页面,以便执行新闻采集。 (必需)
设置“ 文章内容获取规则”
对于特定新闻页面,如果文章的内容以iframe的形式嵌入到新闻页面中,则需要设置规则以获得文章 iframe的链接地址以访问新闻内容。否则,无需制定此规则。
如果新闻内容中存在分页情况,则根据文章内容分页方法(链接和表单提交)制定分页规则,并需要设置起始页码,间隔页码和采集页码。如果文章的内容中没有分页,则无需制定此规则。
如果新闻页面中除了新闻内容之外还有其他附加信息,则为了在采集流程中更轻松地查找新闻内容,有必要设置规则以限制新闻内容的获取。一种是避免垃圾邮件,另一种是减少新闻特定信息获取规则的复杂性。如果新闻页面相对简单,通常不需要设置此规则。
新闻属性的设置规则(标题和内容除外)是可选条件。另外,如果未设置新闻发布时间,则将当前时间用作发布时间。
采集多列计划设置(例如:图五)
多列采集计划需要在“列表页面起始URL”下设置列表页面URL规则,并在“ 文章页面URL获取规则”下设置列名称获取规则,其他和单列采集计划设置一致。
RSS单列采集计划设置(例如:图四)
RSS单列的采集计划不需要设置“ 文章页面URL获取规则”,其他与单列采集计划一致。
RSS多列采集计划设置(例如:图六)
RSS多列采集计划需要在“列表页面起始URL”下设置列表页面URL获取规则,其他项目与RSS单列采集计划一致。
采集正则表达式公式
表情设置和调整,并测试表情列表
在采集页面上的某个位置单击“获取规则设置”,以进入规则表达式列表页面(例如:图七)。除了可以按顺序添加,修改,删除和调整表达式外,另外,在设置表达式后,您可以输入url,iframeurl和页面内容来测试表达式规则列表。
设置各种类型的表达式的类型
表达式类型分为四种类型:字符串,匹配,匹配替换和公式。其中,匹配和匹配替换需要使用Java正表达式,这需要采集计划设置人员对表达式有一定的了解。
字符串:直