内容采集系统(上下页导航式是采集的难点吗?怎么破?)

优采云 发布时间: 2021-09-08 11:24

  内容采集系统(上下页导航式是采集的难点吗?怎么破?)

  上下页导航是采集分页的难点。它需要所有页面都符合分页规则。如果你不熟悉,我们可以使用第1页和第2页的代码进行对比分析,然后确定分页规律。

  1、我们以“艾力网内容分页()”为例:

  

  可以看到这条新闻一共有20页。

  2、查看源码:

  

  本页除了采集已经到达的第一页,还包括第二、三、四、五、六、七、八、二十页,但是没有列出第9到19页这时候我们用第1页和第2页的代码对比分析确定分页规则:

  (1)第1页代码:

  

  (2)第2页代码:

  

  从这两张图可以看出,它们的“页面区域起始码”、“页面链接”格式、“页面区域结束码”是相同的,那么就可以确定“页面区域规则”和“页面链接”常规”。

  3、获取分页区正则([!--smallpageallzz--]):

  

  4、获取分页链接常规([!--pageallzz--]):

  

  5、为了方便教程的展示,我在newstext中用采集代替采集内容,预览结果:

  

  注意事项:

  #一、在第一页的HTML代码中,当内容分页链接全部列出时,我们使用“list all”。在第一页的HTML代码中,当内容分页链接没有全部列出时,我们使用“上下导航”。

  二、使用全列表公式时,采集规则是正确的,但是莫名有重复的页面,那么可以用替换的方法过滤掉(下节讲)。

  三、使用下一页导航样式时,我总是选第一页,其他页面连影子都没看到。这是因为分页区正则([!--smallpagezz--])截取错误。

  四、使用上下页导航样式时,可以采集跳转到前几页,但是前几页会重复循环到最后。这也是因为分页区正则([!--smallpagezz--])拦截错误,拦截范围过大,导致重复拦截前几页链接。

  好的,本次讲座到此结束。下一页主要介绍帝国cms采集过滤和替换。

  在前两堂课中,我们介绍了 Empirecms采集basic process 和 Empirecmshow采集content 分页。上一课主要介绍了Empirecms采集filtering和replaceing,以及一些技巧。

  一、filter

  1、帝国cms采集过滤有两种:

  (1)"整体页面过滤规则":

  

  (2)"过滤广告常规":

  

  我们有点困惑。这两种过滤有什么区别? “整体页面过滤规则”是过滤整个网页的html代码。 “广告过滤规则”是过滤文章内容,只对文章内容有效([!--newstext--])。

  2、Filter 示例:

  过滤示例(1):

  

  在采集之后我们发现在消息内容底部多出了一行代码:“

  ”,按照格式“Ad start[!--ad--]Ad end”得到“过滤广告常规

  ":

  

  过滤示例(2):

  

  如果要过滤链接代码怎么办,注意“过滤广告常规”右侧的那堆代码:

  

  先点击A,系统会自动生成过滤链接代码“,,,”,这样就可以过滤掉采集之后的内容链接。同理,如果要过滤其他html代码,点击对应的标签代码。

  注意:当内容页收录在内容([!--newstext--])中时,应过滤掉内容页,否则内容页会重复出现。

  二、replace

  1、帝国cms采集替换也分为两种:

  (1)"整体页面替换":

  

  (2)"替换":

  

  两者的区别:“整体页面替换”是替换整个网页的html代码。 “替换”是替换文章标题和内容,只对标题([!--title--])和([!--newstext--])有效。

  2、替换示例:

  

  我们将内容中的“新华网”替换为“”:

  

  预览中:

  

  没问题,已更换。

  三、图片采集

  (1)我们采集会遇到信息内容可以正常采集,但是里面的图片不显示,例如:

  

  信息内容可以正常采集,即不显示图片。这是因为内容图片的路径不对,图片的路径是相对地址。

  (2)查看源码:

  

  图片为相对地址。你必须用绝对地址替换它才能采集成功。

  (3) 替换为绝对地址:

  首先在目标站的图片上右击查看属性:

  

  目标站的图片地址为“”,我们采集到达的图片地址为“/news/PNews/a/e77366_6346550.jpg”,解析得到前缀“”,而我们把前缀放在“图片/FLASH地址前缀(内容)”中,如下图:

  

  (4)前台预览图:

  图片显示:

  

  查看源代码:

  

  图片地址正确,是本地地址。

  注意:当我们预览采集并将信息临时存储在本地存储时,发现添加了图片地址前缀,但图片仍然显示不出来。如果出现这种情况,你也不管,把它放在仓库里,放在仓库里。系统会自动添加图片地址前缀。

  至此,采集例子已经解释完毕。这三场讲座是关于 Empirecms采集 的基本流程。基本总结了要点和难点。还有一些基本功能没有解释清楚。你可以去帝国。官方网站看基础教程。

  本文来自国外网站大全原创,转载请注明出处,谢谢!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线