汇总:Python学习笔记(3)采集列表数据

优采云 发布时间: 2020-08-29 19:05

  Python学习笔记(3)采集列表数据

  一、操作步骤

  采集列表时,可以看见多条结构相同的信息,我们把一条信息称为一个样例,例如,表格中的每一行就是一个样例,又如,京东搜索列表中的每位商品也是一个样例。具有两个样例以上的列表网页,做样例复制才能把整个列表都采集下来。下面易迅列表页为案例,操作步骤下:

  

  

  二、案例规则+操作步骤

  第一步:打开网页

  1.1,打开GS爬虫浏览器,输入上述样本网址并Enter,加载出网页后再点击网址输入栏前面的“定义规则”按钮,可以看见一个浮窗显示下来,称为工作台,在前面定义规则;

  1.2,在工作台北输入主题名,可以点击“查重”看看名子是否被占用。

  

  第二步:标注信息

  2.1,在浏览器窗口双击要采集的内容,在弹出小窗中输入标签名,打勾确认或Enter,即完成了一个标明操作。首次标明还要输入整理箱名称。这也是标签与网页信息构建映射关系的过程。

  2.2,重复上一步骤,对其他信息进行标明。

  

  第三步:样例复制

  3.1,点击第一个样例里的任一内容,可以见到,在下边的DOM窗口,光标手动定位到了一个节点,右击这个节点,选择 样例复制映射→第一个。

  

  3.2,然后,点击第二个样例里的任一内容,同样,在下边的DOM窗口,光标手动定位到了一个节点,右击这个节点,选择 样例复制映射→第二个。

  

  这样就完成了样例复制映射。

  注意:有时样例复制的操作没有错误,但是测试后,只采集到一条数据。问题多半出在整理箱的定位方法上。整理箱默认的定位方法是“偏ID”,可是易迅列表网页的整理箱定位方法通常要选”绝对定位“。

  

  第四步:存规则,抓数据

  4.1,规则测试成功后,点击“存规则”;

  4.2,点击“爬数据”,弹出DS打数机,开始抓取数据。

  4.3,采集成功的数据会以xml文件的方式保存在DataScraperWorks文件夹中,可修改储存路径,详情见文章《查看数据结果》。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线