文章采集规则( 如下图:图393基本设置期首页网址规则(组图))

优采云 发布时间: 2022-01-03 07:02

  文章采集规则(

如下图:图393基本设置期首页网址规则(组图))

  添加规则

  点击【添加】按钮打开,如下图:

  

  图 393 基本设置

  报纸名称:将是采集的报纸名称,可自定义。

  页面编码:与报纸内容页面的编码格式一致为采集。

  抓取方式:如果选择自动,系统会自动执行定时任务抓取数字报纸的内容。如果选择手动,则需要手动抓取数字报纸的内容。

  状态:打开或关闭数字报告。

  输入表单内容后,点击【下一步】按钮打开,如下图:

  基本设置

  填写要抓取的数字报纸基本信息,包括本期首页规则、发行周期、最新一期发行日期等。如下图:

  

  图 394 基本设置

  本期首页网址规定:数字报纸每期首页网址规定。每期数字报纸首页的URL规则使用(Y)(y)(M)(m)(D)(d)自动生成时间和日期信息。如果年份是 4 位数字,例如 2012,则使用 Y,如果年份是 2 位数字,例如 12,则使用 y。

  出版期:填写报纸出版期,以天或月为单位。比如周报是7,日报是1,默认单位是1,如果日期填写错误,系统会自动过滤无效日期。

  最近一期通讯的日期:填写任意一份报纸的出版时间,以便系统计算开始时间点。

  论坛列表

  设置电子报布局列表的范围和布局文章列表URL规则。

  

  图 395 布局列表

  Scope:获取布局列表所在的区域。布局列表类似于下图所示:

  

  图 396 布局列表

  Layout文章List URL 规则:系统会抓取标准区域中该地址的链接作为布局地址,支持通配符。

  布局文章列表

  设置布局对应的文章列表范围和文章内容页URL规则。

  

  图 397 布局文章列表

  Scope:获取布局文章列表所在的区域,布局文章列表类似于下图:

  

  图398布局文章列表

  文章内容页URL规则:系统会将抓取区域中该地址的链接作为文章页地址,支持通配符。

  内容设置

  设置文章在数字报纸中的内容范围。

  

  图 399 内容设置

  Scope:缩小内容页采集的范围,以下标题、正文、作者等信息必须在该区域内。从整个页面将其留空到 采集。

  标题:获取文章标题。

  Body:获取文章的body。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线