免规则采集器列表算法(优采云爬取详情页的数据注意事项有哪些？ )

优采云发布时间: 2021-09-02 08:11

　　免规则采集器列表算法(优采云爬取详情页的数据注意事项有哪些？

)

　　1. 一般来说，如果要爬取详情页的数据，会先爬取列表数据（有详情页的链接），然后再专门爬取详情页的数据。

　　2.详细列表数据爬取步骤：

　　1.打开网页

　　2.循环翻页（注：优采云免费版一次只能抓取1w条数据，所以需要设置循环执行次数，避免超过1w条数据）

　　3.cyclic采集list 数据，即一个页面有多少数据

　　4.Extract data（重点）：如果你对xpath不熟悉，可以下载火狐的两个插件，可以很方便的获取指定数据的xpath。

　　下载火狐插件需要下载5.5之前的版本。下载完成后，去掉自动更新，然后导入debug和xpath插件，重启火狐浏览器。

　　然后添加必填字段并写入指定数据的xpath。相对路径和绝对路径都要写

　　然后点击获取方法，即文本，即可获取指定数据

　　注意：有时会从指定页面采集开始，如果url有规则，那很自然，如果没有规则，则需要在优采云中进行配置

　　打开网页，数据文本（指定多少页），点击元素（跳转到多少页），然后循环点击下一页采集data。循环翻页时，计算不超过1w条数据

　　3.抓取详情页的数据：

　　列表爬取后，会得到详情页的url，此时需要将url输入到循环url列表中，优采云会循环这个和url列表中的url来获取数据。

0

2021-09-02

免规则采集器列表算法

0 个评论

要回复文章请先登录或注册