文章采集规则( 如下图:图393基本设置期首页网址规则(组图))
优采云 发布时间: 2022-01-03 07:02文章采集规则(
如下图:图393基本设置期首页网址规则(组图))
添加规则
点击【添加】按钮打开,如下图:
图 393 基本设置
报纸名称:将是采集的报纸名称,可自定义。
页面编码:与报纸内容页面的编码格式一致为采集。
抓取方式:如果选择自动,系统会自动执行定时任务抓取数字报纸的内容。如果选择手动,则需要手动抓取数字报纸的内容。
状态:打开或关闭数字报告。
输入表单内容后,点击【下一步】按钮打开,如下图:
基本设置
填写要抓取的数字报纸基本信息,包括本期首页规则、发行周期、最新一期发行日期等。如下图:
图 394 基本设置
本期首页网址规定:数字报纸每期首页网址规定。每期数字报纸首页的URL规则使用(Y)(y)(M)(m)(D)(d)自动生成时间和日期信息。如果年份是 4 位数字,例如 2012,则使用 Y,如果年份是 2 位数字,例如 12,则使用 y。
出版期:填写报纸出版期,以天或月为单位。比如周报是7,日报是1,默认单位是1,如果日期填写错误,系统会自动过滤无效日期。
最近一期通讯的日期:填写任意一份报纸的出版时间,以便系统计算开始时间点。
论坛列表
设置电子报布局列表的范围和布局文章列表URL规则。
图 395 布局列表
Scope:获取布局列表所在的区域。布局列表类似于下图所示:
图 396 布局列表
Layout文章List URL 规则:系统会抓取标准区域中该地址的链接作为布局地址,支持通配符。
布局文章列表
设置布局对应的文章列表范围和文章内容页URL规则。
图 397 布局文章列表
Scope:获取布局文章列表所在的区域,布局文章列表类似于下图:
图398布局文章列表
文章内容页URL规则:系统会将抓取区域中该地址的链接作为文章页地址,支持通配符。
内容设置
设置文章在数字报纸中的内容范围。
图 399 内容设置
Scope:缩小内容页采集的范围,以下标题、正文、作者等信息必须在该区域内。从整个页面将其留空到 采集。
标题:获取文章标题。
Body:获取文章的body。