帝国cms采集图文教程(中)

优采云 发布时间: 2020-07-21 08:03

  帝国 cms 采集图文教程(中) 上一讲我们介绍了帝国 cms 采集基本流程帝国cms采集分页教程, 那么我们这一讲介绍帝国 cms 如何采集内容分页。 不少的朋友在采集过程中, 列表页和内容页都能可以挺好地设定正则, 但常常失败在内容分页正则上, 主要是对内容分页正则不了解。 帝国的内容分页方式有两种:(1) 全部列出式(2) 上下页导航式, 但是这两种内容分页方式有哪些区别, 采集内容分页时该用哪种,官方说得比较模糊, 对此有些朋友倍感太头大, 好的, 我们先看下事例: 一、 全部列出式 全部列表式只需看第一页的页面 HTML 代码, 这一页的所有分页链接都列下来了。 1、我们以“中华网内容分页()”为例: 可以看见这条新闻总共有 3 条分页。 2、 查看源代码: 这一页里不仅早已采集到的第 1 条分页外, 还包括了 第 2 条和第 3 条分页, 所有的分页都列下来了。 3、 取得 分页区域正则([!--smallpageallzz--]): 4、 取得 分页链接正则([!--pageallzz--]):二、 上下页导航式 上下页导航式是分页采集的难点, 他须要所有页面都符合分页正则才行, 在不熟悉的情况下,我们可以用第 1 页和第 2 页的代码来进行对比剖析之后确定分页正则。

   1、 我们以“爱丽网内容分页()”为例: 可以看见这条新闻总共有 20 条分页。 2、 查看源代码: 这一页里不仅早已采集到的第 1 条分页外, 还包括了 第 2, 第 3, 第 4, 第 5, 第 6, 第 7,第 8, 第 20 条分页, 但是第 9 到第 19 条分页并没有列下来, 这时候我们拿用第 1 页和第 2页的代码来进行对比剖析, 来确定分页正则: (1) 第 1 页代码:(2) 第 2 页代码: 从这两幅图片可以见到她们有着相同的“分页区域开始代码”, “分页链接”格式, “分页区域结束代码”,那么就可以确定“分页区域正则”, “分页链接正则”。 3、 取得 分页区域正则([!--smallpageallzz--]): 4、 取得 分页链接正则([!--pageallzz--]):5、 为了便捷教程显示, newstext 我采集了标题而不是采集内容, 预览结果: 注意事项: 第一、 在第一页的页面 HTML 代码里, 内容分页链接全部列下来的情况下我们使用“全部列出式”。 在第一页的页面 HTML 代码里, 内容分页链接没有全部列下来的情况下我们使用“上下页导航式”。

   第二、 用全部列举式时,采集规则正确并且莫名其妙的出现重复的分页帝国cms采集分页教程, 这时可以借助替换法把它过滤掉(下一讲我们再说)。 第三、 用上下页导航式时, 老是采到第 1 页, 其他页连个影子都没有见过, 这是因为分页区域正则([!--smallpagezz--])截取错误。 第四、 用上下页导航式时, 可以采集到前几页了 , 但是接下来这前几页全部重复循环究竟,这也是由于分页区域正则([!--smallpagezz--])截取错误, 截取范围过大, 导致重复截取前几个分页链接。 好的, 这一讲就到这儿, 下一讲我们主要介绍帝国 cms 采集过滤和替换。 本文由 国外网站大全 原创, 转载请标明出处, 谢谢!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线