爬取网址为一级采集-以京东商品爬虫为例
优采云 发布时间: 2021-07-29 06:00爬取网址为一级采集-以京东商品爬虫为例
第二层采集content:每个产品的标题、优惠券信息
第一步:定义一级任务
定义任务的基本操作,例如内容标注。样例拷贝请参考教程“采集List Data”。翻页操作请参考“翻页采集List”。这里只讲解采集关卡的关键步骤。
加载之前教程中采集京东List的任务(京东商品列表采集new)。如果你的工作台没有退出这个任务,直接做就可以了,不需要额外加载。
第 2 步:设置下级线索
2.1,找到下层(URL)链接
网页上商品的链接通常存储在DOM中A节点下的@href属性节点中。
在网页上点击产品的产品名称,观察下面的DOM窗口。光标位于节点上。如果不是A节点,则按照DOM节点向上或向下查找A节点。
点击A节点,观察DOM窗口左侧的view元素小窗口,找到@href,注意查看其值是否为对应的商品链接。
右键单击@href 并选择“内容映射”->“新建”。这样@href(产品链接)的值就映射到了一个新的爬取内容。
弹出一个新窗口,要求为所爬取的内容提供一个字段名称,在本例中为名称“产品详细信息链接”。
2.2,给下级任务命名
在上面的窗口继续操作,因为我们观察到@href中的商品链接缺少前面的“http”部分,这是一个相对网址,可以勾选“Complete URL”,爬虫采集会在过程中自动完成。
最重要的一步是检查“从属网址”。勾选后,下方会出现一个提示框,要求输入目标任务的名称。分层抓图时,这里必须输入二级任务的名称。
输入二级任务名称:京东商品详情采集new
2.3,现在可以看到左边的workbench中增加了一条爬取内容:商品详情链接,测试一下是否被抓到。如果没有问题,保存任务。
第三步:定义二级任务
3.1,退出一级任务
如下图所示,点击右上角的“三点”操作按钮,出现下拉菜单。选择“退出”后,浏览器进入正常浏览模式。这时,您可以点击页面上的产品。进入商品详情页面。
3.2,定义二级任务
现在您在产品详情页面,点击左栏中的“+”号进入任务定义状态,开始定义二级任务。
任务名称输入框需要填写二级任务名称。本例中,一级任务中已经指定二级任务名称:京东商品详情采集new,那么这里必须填写 必须一致,否则网络爬虫连两级任务。
接下来,在产品详细信息页面上标记所需的信息。注解的操作类似,可以参考“采集网站数据”教程,这里不再赘述。
提醒:这一步最重要的是我们新创建的二级任务的名称必须和一级任务指定的目标任务名称一致,这样一级任务才能通过捕获的指向一级任务的 URL 链接。次要任务。
3.3,保存二级任务
定义二级任务后,点击“保存”按钮,会看到如下提示。早期版本会根据第一张图片弹出提示框,后期版本会根据第二张图片弹出提示框。它会提示用户。一级规则的任务名称已经存在,属于正常提示,因为在定义一级任务的时候已经指定了二级任务名称。
第 4 步:捕获数据
4.1,层级任务分别独立运行。先运行一级任务,它会自动将捕获的下级URL导入二级任务中。操作方法参考下图,在任务管理界面选择对应任务的“开始采集”菜单即可。
4.2,然后运行二级任务,可以先统计线索数,然后输入统计的URL个数进行批量采集。
二级任务也可以同时运行,实际上可以没有特定的顺序。如果两个关卡同时运行,如下图所示,在任务管理界面,点击每个任务的“Start采集”。
4.3、采集完成后直接点击“导出Excel”按钮,即可进入数据管理下载Excel格式的数据。
tips:在二级任务中,采集优惠券信息是用嵌套示例复制的。可以参考下面的教程。
第 1 部分 文章:“加载、修改和保存爬虫任务”第 2 部分 文章:“内容映射”