内容采集系统(上下页导航式是采集的难点吗？怎么破？)

优采云发布时间: 2021-09-08 11:24

　　上下页导航是采集分页的难点。它需要所有页面都符合分页规则。如果你不熟悉，我们可以使用第1页和第2页的代码进行对比分析，然后确定分页规律。

　　1、我们以“艾力网内容分页()”为例：

　　可以看到这条新闻一共有20页。

　　2、查看源码：

　　本页除了采集已经到达的第一页，还包括第二、三、四、五、六、七、八、二十页，但是没有列出第9到19页这时候我们用第1页和第2页的代码对比分析确定分页规则：

　　(1)第1页代码：

　　(2)第2页代码：

　　从这两张图可以看出，它们的“页面区域起始码”、“页面链接”格式、“页面区域结束码”是相同的，那么就可以确定“页面区域规则”和“页面链接”常规”。

　　3、获取分页区正则([!--smallpageallzz--])：

　　4、获取分页链接常规（[!--pageallzz--]）：

　　5、为了方便教程的展示，我在newstext中用采集代替采集内容，预览结果：

　　注意事项：

　　#一、在第一页的HTML代码中，当内容分页链接全部列出时，我们使用“list all”。在第一页的HTML代码中，当内容分页链接没有全部列出时，我们使用“上下导航”。

　　二、使用全列表公式时，采集规则是正确的，但是莫名有重复的页面，那么可以用替换的方法过滤掉（下节讲）。

　　三、使用下一页导航样式时，我总是选第一页，其他页面连影子都没看到。这是因为分页区正则([!--smallpagezz--])截取错误。

　　四、使用上下页导航样式时，可以采集跳转到前几页，但是前几页会重复循环到最后。这也是因为分页区正则([!--smallpagezz--])拦截错误，拦截范围过大，导致重复拦截前几页链接。

　　好的，本次讲座到此结束。下一页主要介绍帝国cms采集过滤和替换。

　　在前两堂课中，我们介绍了 Empirecms采集basic process 和 Empirecmshow采集content 分页。上一课主要介绍了Empirecms采集filtering和replaceing，以及一些技巧。

　　一、filter

　　1、帝国cms采集过滤有两种：

　　(1)"整体页面过滤规则":

　　(2)"过滤广告常规"：

　　我们有点困惑。这两种过滤有什么区别？ “整体页面过滤规则”是过滤整个网页的html代码。 “广告过滤规则”是过滤文章内容，只对文章内容有效([!--newstext--])。

　　2、Filter 示例：

　　过滤示例（1)：

　　在采集之后我们发现在消息内容底部多出了一行代码：“

　　”，按照格式“Ad start[!--ad--]Ad end”得到“过滤广告常规

　　":

　　过滤示例（2)：

　　如果要过滤链接代码怎么办，注意“过滤广告常规”右侧的那堆代码：

　　先点击A，系统会自动生成过滤链接代码“,,,”，这样就可以过滤掉采集之后的内容链接。同理，如果要过滤其他html代码，点击对应的标签代码。

　　注意：当内容页收录在内容([!--newstext--])中时，应过滤掉内容页，否则内容页会重复出现。

　　二、replace

　　1、帝国cms采集替换也分为两种：

　　(1)"整体页面替换"：

　　(2)"替换":

　　两者的区别：“整体页面替换”是替换整个网页的html代码。 “替换”是替换文章标题和内容，只对标题([!--title--])和([!--newstext--])有效。

　　2、替换示例：

　　我们将内容中的“新华网”替换为“”：

　　预览中：

　　没问题，已更换。

　　三、图片采集

　　（1)我们采集会遇到信息内容可以正常采集，但是里面的图片不显示，例如：

　　信息内容可以正常采集，即不显示图片。这是因为内容图片的路径不对，图片的路径是相对地址。

　　(2)查看源码：

　　图片为相对地址。你必须用绝对地址替换它才能采集成功。

　　（3) 替换为绝对地址：

　　首先在目标站的图片上右击查看属性：

　　目标站的图片地址为“”，我们采集到达的图片地址为“/news/PNews/a/e77366_6346550.jpg”，解析得到前缀“”，而我们把前缀放在“图片/FLASH地址前缀（内容）”中，如下图：

　　（4)前台预览图：

　　图片显示：

　　查看源代码：

　　图片地址正确，是本地地址。

　　注意：当我们预览采集并将信息临时存储在本地存储时，发现添加了图片地址前缀，但图片仍然显示不出来。如果出现这种情况，你也不管，把它放在仓库里，放在仓库里。系统会自动添加图片地址前缀。

　　至此，采集例子已经解释完毕。这三场讲座是关于 Empirecms采集的基本流程。基本总结了要点和难点。还有一些基本功能没有解释清楚。你可以去帝国。官方网站看基础教程。

　　本文来自国外网站大全原创，转载请注明出处，谢谢！

0

2021-09-08

内容采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

内容采集系统(上下页导航式是采集的难点吗？怎么破？)

0 个评论

发起人

AI时代内容工厂

内容采集系统(上下页导航式是采集的难点吗？怎么破？)

0 个评论

发起人

相关问题