内容采集系统(上下页导航式是采集的难点吗?怎么破?)
优采云 发布时间: 2021-09-08 11:24内容采集系统(上下页导航式是采集的难点吗?怎么破?)
上下页导航是采集分页的难点。它需要所有页面都符合分页规则。如果你不熟悉,我们可以使用第1页和第2页的代码进行对比分析,然后确定分页规律。
1、我们以“艾力网内容分页()”为例:
可以看到这条新闻一共有20页。
2、查看源码:
本页除了采集已经到达的第一页,还包括第二、三、四、五、六、七、八、二十页,但是没有列出第9到19页这时候我们用第1页和第2页的代码对比分析确定分页规则:
(1)第1页代码:
(2)第2页代码:
从这两张图可以看出,它们的“页面区域起始码”、“页面链接”格式、“页面区域结束码”是相同的,那么就可以确定“页面区域规则”和“页面链接”常规”。
3、获取分页区正则([!--smallpageallzz--]):
4、获取分页链接常规([!--pageallzz--]):
5、为了方便教程的展示,我在newstext中用采集代替采集内容,预览结果:
注意事项:
#一、在第一页的HTML代码中,当内容分页链接全部列出时,我们使用“list all”。在第一页的HTML代码中,当内容分页链接没有全部列出时,我们使用“上下导航”。
二、使用全列表公式时,采集规则是正确的,但是莫名有重复的页面,那么可以用替换的方法过滤掉(下节讲)。
三、使用下一页导航样式时,我总是选第一页,其他页面连影子都没看到。这是因为分页区正则([!--smallpagezz--])截取错误。
四、使用上下页导航样式时,可以采集跳转到前几页,但是前几页会重复循环到最后。这也是因为分页区正则([!--smallpagezz--])拦截错误,拦截范围过大,导致重复拦截前几页链接。
好的,本次讲座到此结束。下一页主要介绍帝国cms采集过滤和替换。
在前两堂课中,我们介绍了 Empirecms采集basic process 和 Empirecmshow采集content 分页。上一课主要介绍了Empirecms采集filtering和replaceing,以及一些技巧。
一、filter
1、帝国cms采集过滤有两种:
(1)"整体页面过滤规则":
(2)"过滤广告常规":
我们有点困惑。这两种过滤有什么区别? “整体页面过滤规则”是过滤整个网页的html代码。 “广告过滤规则”是过滤文章内容,只对文章内容有效([!--newstext--])。
2、Filter 示例:
过滤示例(1):
在采集之后我们发现在消息内容底部多出了一行代码:“
”,按照格式“Ad start[!--ad--]Ad end”得到“过滤广告常规
":
过滤示例(2):
如果要过滤链接代码怎么办,注意“过滤广告常规”右侧的那堆代码:
先点击A,系统会自动生成过滤链接代码“,,,”,这样就可以过滤掉采集之后的内容链接。同理,如果要过滤其他html代码,点击对应的标签代码。
注意:当内容页收录在内容([!--newstext--])中时,应过滤掉内容页,否则内容页会重复出现。
二、replace
1、帝国cms采集替换也分为两种:
(1)"整体页面替换":
(2)"替换":
两者的区别:“整体页面替换”是替换整个网页的html代码。 “替换”是替换文章标题和内容,只对标题([!--title--])和([!--newstext--])有效。
2、替换示例:
我们将内容中的“新华网”替换为“”:
预览中:
没问题,已更换。
三、图片采集
(1)我们采集会遇到信息内容可以正常采集,但是里面的图片不显示,例如:
信息内容可以正常采集,即不显示图片。这是因为内容图片的路径不对,图片的路径是相对地址。
(2)查看源码:
图片为相对地址。你必须用绝对地址替换它才能采集成功。
(3) 替换为绝对地址:
首先在目标站的图片上右击查看属性:
目标站的图片地址为“”,我们采集到达的图片地址为“/news/PNews/a/e77366_6346550.jpg”,解析得到前缀“”,而我们把前缀放在“图片/FLASH地址前缀(内容)”中,如下图:
(4)前台预览图:
图片显示:
查看源代码:
图片地址正确,是本地地址。
注意:当我们预览采集并将信息临时存储在本地存储时,发现添加了图片地址前缀,但图片仍然显示不出来。如果出现这种情况,你也不管,把它放在仓库里,放在仓库里。系统会自动添加图片地址前缀。
至此,采集例子已经解释完毕。这三场讲座是关于 Empirecms采集 的基本流程。基本总结了要点和难点。还有一些基本功能没有解释清楚。你可以去帝国。官方网站看基础教程。
本文来自国外网站大全原创,转载请注明出处,谢谢!