抓取网页音频(配套软件版本:V9及更低集搜客网络爬虫软件新版本对应教程 )

优采云 发布时间: 2021-10-18 19:01

  抓取网页音频(配套软件版本:V9及更低集搜客网络爬虫软件新版本对应教程

)

  配套软件版本:V9及以下 极助网络爬虫软件

  新版对应教程:V10及更高版本数据管家-增强版网络爬虫对应教程为《使用网络爬虫软件自动下载网络文件》

  请注意:从V9.0.0开始,文件下载功能有了很大的提升。虽然本教程中解释的方法仍然有效,但这种方法很难理解。你应该使用V9.0.0版本的新方法,下载文件不需要定义第二条规则,只需在第一条规则中勾选“下载内容”,选择下载文件类型即可。Firefox 的插件版本不再需要解决特定的场景问题。详情请参考教程《使用网络爬虫软件自动下载网页文件》 1、下载功能说明

  1) 使用Gooseeker获取网页内容时,如果获取的内容是文件链接,通常的方式是获取链接地址。

  2)Gooseeker 可以自动下载链接对应的文件吗?答案是肯定的。

  2.配置文件的存放路径及处理方法

  如果你不配置它,下载文件后,你总是会被问到要做什么。这种查询会阻止爬虫继续运行。为了关闭查询,需要做相应的配置。

  2.1、纪助浏览器

  极手客浏览器有自己的配置,如下图

  

  点击图中所示的配置按钮,进入如下窗口

  

  在 Mime 选项卡下,有多种文件类型的设置按钮。点击它们可以设置不提示文件处理方式。

  2.2、火狐插件版爬虫

  1)配置火狐的下载功能。火狐浏览器:工具菜单=>选项=>常规=>下载,选择“保存文件到指定文件夹”

  

  2)配置 Firefox 浏览器处理特定文件类型的方式。Firefox:Option => Application,将要下载的文件类型的“Action”更改为“Save File”。比如要下载pdf文件,修改pdf文件类型的动作。

  

  3.定义爬虫规则并运行

  本案例假设需要两层规则(参考“采集URL to make levels采集”采集 层级):

  第一层:采集文档列表和下载链接,假设主题名称为pdfpage999

  级别2:使用下载链接下载pdf文件,假设主题名称为pdf_download999

  下面对二级规则的定义方法进行说明。

  3.1、采集文档列表和下载链接

  在极手客浏览器加载文档列表页面,进入定义规则模式,定义捕获文件链接的规则。规则名称是“pdfpage999”。基本定义规则方法不再赘述,请参考“采集网页数据”,下面重点介绍下载文件相关的设置

  1)勾选链接字段捕获文件到“下级线索”

  

  2)在“爬虫路由”的目标主题中填写之前定义的自动下载规则名称“pdf_download999”

  

  从上面的步骤可以看出,它和普通的分层爬取没有什么区别。不同之处在于二级规则的定义。

  3.2、定义执行下载操作的规则

  创建专门用于自动下载的新规则。规则的名称是“pdf_download999”。规则的内容可以是在任何简单的网页上抓取一个字段并保存规则。

  这一步可能很难理解。这是规则的第二层。在这个级别,只下载一个 pdf 文件,没有特殊的网页内容。因此,我找不到合适的示例页面作为规则使用,因此您必须找到一个页面,但始终定义一个抓取内容。为了不影响规则的运行,使用一个每个页面都有的内容作为爬取的内容。这样,在运行规则时,就不会出现规则不适用的提示。

  例如,您可以选择抓取 html 头节点甚至 html 节点。此类规则通用性极高,目的只是为了保证爬取成功,不会遇到规则不适用的问题。只要适应了规则,就会自动触发下载。

  3.3、操作规则

  就像普通级别采集

  1.运行规则pdfpage999,生成pdf_download999的线索

  2、运行规则pdf_download999,吉首客的网络爬虫会自动下载线程URL对应的文件,在设置的存储文件夹中可以看到下载的文件。

  如有疑问,您可以或

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线