文章采集调用(DS打数机才能自动翻页采集数据(图)案例大全)
优采云 发布时间: 2022-02-14 04:04文章采集调用(DS打数机才能自动翻页采集数据(图)案例大全)
一、操作步骤
采集如果有多个页面列表页,需要设置翻页,以便DS打印机自动翻页采集数据。选择一个以翻页为规则的示例URL,您可以使用该规则批量处理采集相似的URL(适用于一页和多页)。以下是大众点评网的一个例子。
二、案例步骤
先复制上面的例子,来到采集列出数据。本教程在上一篇文章文章中已经提到过,不再重复操作。“GooSeeker Copy Batch 采集 列出带有样本的数据”
三、设置翻页
1.1、新建marker thread:选择“Crawler Route”,点击“New”,选择“Marker Clue”,勾选“Continuous Grab”,“Target Subject Name”会自动填写。这意味着该规则被循环调用。
1.2、一旦设置了标记线索,就做了两个映射,第一个是映射翻页块的范围,第二个是映射翻页标记。
第一次是选择翻页区的页面节点进行映射:点击翻页标志,定位到收录它的翻页区所在的页面节点。这些翻页按钮的翻页区域,然后右键节点选择“Lead Mapping”->“Location”->“Clue*”,爬虫路由中的“Location Number”就会映射节点的编号。
第二次是映射翻页标记值所在的页面节点:双击翻页区域节点逐层展开,找到翻页标记所在的节点,这里指的是翻页按钮的文本节点或属性值节点,右击节点选择“线索映射”->“标记映射”,爬虫路由中的“标记值”和“标记位置编号”会映射值和节点的编号。
1.3、定位选项的默认项是数字id。由于不同页码的翻页区的id值可能会发生变化,所以class值通常保持不变,所以最好改成preference class。
四、保存规则并捕获数据
点击保存规则,爬取数据,在DS计数器中查看翻页是否成功。如果翻页采集成功,会在本地DataScraperWorks文件夹中生成多个XML文件。详见文章如何将采集中的xml文件转换为Excel文件?”。