文章采集调用(DS打数机才能自动翻页采集数据(图)案例大全)

优采云 发布时间: 2022-02-14 04:04

  文章采集调用(DS打数机才能自动翻页采集数据(图)案例大全)

  一、操作步骤

  采集如果有多个页面列表页,需要设置翻页,以便DS打印机自动翻页采集数据。选择一个以翻页为规则的示例URL,您可以使用该规则批量处理采集相似的URL(适用于一页和多页)。以下是大众点评网的一个例子。

  二、案例步骤

  先复制上面的例子,来到采集列出数据。本教程在上一篇文章文章中已经提到过,不再重复操作。“GooSeeker Copy Batch 采集 列出带有样本的数据”

  三、设置翻页

  1.1、新建marker thread:选择“Crawler Route”,点击“New”,选择“Marker Clue”,勾选“Continuous Grab”,“Target Subject Name”会自动填写。这意味着该规则被循环调用。

  

  1.2、一旦设置了标记线索,就做了两个映射,第一个是映射翻页块的范围,第二个是映射翻页标记。

  第一次是选择翻页区的页面节点进行映射:点击翻页标志,定位到收录它的翻页区所在的页面节点。这些翻页按钮的翻页区域,然后右键节点选择“Lead Mapping”->“Location”->“Clue*”,爬虫路由中的“Location Number”就会映射节点的编号。

  

  第二次是映射翻页标记值所在的页面节点:双击翻页区域节点逐层展开,找到翻页标记所在的节点,这里指的是翻页按钮的文本节点或属性值节点,右击节点选择“线索映射”->“标记映射”,爬虫路由中的“标记值”和“标记位置编号”会映射值和节点的编号。

  

  1.3、定位选项的默认项是数字id。由于不同页码的翻页区的id值可能会发生变化,所以class值通常保持不变,所以最好改成preference class。

  

  四、保存规则并捕获数据

  点击保存规则,爬取数据,在DS计数器中查看翻页是否成功。如果翻页采集成功,会在本地DataScraperWorks文件夹中生成多个XML文件。详见文章如何将采集中的xml文件转换为Excel文件?”。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线