免规则采集器列表算法(优采云爬取详情页的数据注意事项有哪些? )
优采云 发布时间: 2021-09-02 08:11免规则采集器列表算法(优采云爬取详情页的数据注意事项有哪些?
)
1. 一般来说,如果要爬取详情页的数据,会先爬取列表数据(有详情页的链接),然后再专门爬取详情页的数据。
2.详细列表数据爬取步骤:
1.打开网页
2.循环翻页(注:优采云免费版一次只能抓取1w条数据,所以需要设置循环执行次数,避免超过1w条数据)
3.cyclic采集list 数据,即一个页面有多少数据
4.Extract data(重点):如果你对xpath不熟悉,可以下载火狐的两个插件,可以很方便的获取指定数据的xpath。
下载火狐插件需要下载5.5之前的版本。下载完成后,去掉自动更新,然后导入debug和xpath插件,重启火狐浏览器。
然后添加必填字段并写入指定数据的xpath。相对路径和绝对路径都要写
然后点击获取方法,即文本,即可获取指定数据
注意:有时会从指定页面采集开始,如果url有规则,那很自然,如果没有规则,则需要在优采云中进行配置
打开网页,数据文本(指定多少页),点击元素(跳转到多少页),然后循环点击下一页采集data。循环翻页时,计算不超过1w条数据
3.抓取详情页的数据:
列表爬取后,会得到详情页的url,此时需要将url输入到循环url列表中,优采云会循环这个和url列表中的url来获取数据。