汇总：Python学习笔记(3)采集列表数据

优采云发布时间: 2020-08-29 19:05

　　Python学习笔记(3)采集列表数据

　　一、操作步骤

　　采集列表时，可以看见多条结构相同的信息，我们把一条信息称为一个样例，例如，表格中的每一行就是一个样例，又如，京东搜索列表中的每位商品也是一个样例。具有两个样例以上的列表网页，做样例复制才能把整个列表都采集下来。下面易迅列表页为案例，操作步骤下：

　　二、案例规则+操作步骤

　　第一步：打开网页

　　1.1，打开GS爬虫浏览器，输入上述样本网址并Enter，加载出网页后再点击网址输入栏前面的“定义规则”按钮，可以看见一个浮窗显示下来，称为工作台，在前面定义规则；

　　1.2，在工作台北输入主题名，可以点击“查重”看看名子是否被占用。

　　第二步：标注信息

　　2.1，在浏览器窗口双击要采集的内容，在弹出小窗中输入标签名，打勾确认或Enter，即完成了一个标明操作。首次标明还要输入整理箱名称。这也是标签与网页信息构建映射关系的过程。

　　2.2，重复上一步骤，对其他信息进行标明。

　　第三步：样例复制

　　3.1，点击第一个样例里的任一内容，可以见到，在下边的DOM窗口，光标手动定位到了一个节点，右击这个节点，选择样例复制映射→第一个。

　　3.2，然后，点击第二个样例里的任一内容，同样，在下边的DOM窗口，光标手动定位到了一个节点，右击这个节点，选择样例复制映射→第二个。

　　这样就完成了样例复制映射。

　　注意：有时样例复制的操作没有错误，但是测试后，只采集到一条数据。问题多半出在整理箱的定位方法上。整理箱默认的定位方法是“偏ID”，可是易迅列表网页的整理箱定位方法通常要选”绝对定位“。

　　第四步：存规则，抓数据

　　4.1，规则测试成功后，点击“存规则”；

　　4.2，点击“爬数据”，弹出DS打数机，开始抓取数据。

　　4.3，采集成功的数据会以xml文件的方式保存在DataScraperWorks文件夹中，可修改储存路径，详情见文章《查看数据结果》。

0

2020-08-29

无规则采集器列表算法

0 个评论

要回复文章请先登录或注册