[花瓣网]花瓣网-采集瀑布流数据的思想的详细说明
优采云 发布时间: 2020-08-08 14:34瀑布流,也称为瀑布流布局. 这是一种流行的网站页面布局.
视觉外观是锯齿状的多列布局. 当页面滚动条向下滚动时,此布局将继续加载数据块并将其附加到当前尾部.
用户快速浏览的快速阅读模式可以在短时间内获得更多信息,而瀑布流中的延迟加载模式避免了用户单击鼠标的翻页操作.
拼凑而成的,固定宽度而不是固定高度的设计使页面与传统的矩阵图片布局模式不同,巧妙地使用了视觉层次结构,任意视线缓解了视觉疲劳,并给人以折衷主义的感觉.
关注年轻一代的个体心理. 因此,此页面布局在今天非常流行.
那么如何采集瀑布数据?
今天我们以花瓣网为例向您解释:
1. 获取网页后,分析网页形式,发现网页呈瀑布流形式,需要FIDDLER捕获后才能获取真实地址
将LIMIT参数修改为200,以便采集器可以获得200个列表页面.
2. 编写URL采集规则
3. 获取列表页面后,设置内容采集规则
商业版本的功能用于图像采集,内容带有前缀和后缀.
注意: 此网页使用瀑布流格式,您需要捕获数据包以获得真实地址
FIDDLER数据包捕获教程
数据包捕获工具的合作伙伴可以从百度自行下载并安装它,操作非常简单.
联系我们
客户服务QQ: 800019423
客户服务电话:
购买软件: