抓取网页音频(配套软件版本:V9及更低集搜客网络爬虫软件新版本对应教程 )
优采云 发布时间: 2021-10-18 19:01抓取网页音频(配套软件版本:V9及更低集搜客网络爬虫软件新版本对应教程
)
配套软件版本:V9及以下 极助网络爬虫软件
新版对应教程:V10及更高版本数据管家-增强版网络爬虫对应教程为《使用网络爬虫软件自动下载网络文件》
请注意:从V9.0.0开始,文件下载功能有了很大的提升。虽然本教程中解释的方法仍然有效,但这种方法很难理解。你应该使用V9.0.0版本的新方法,下载文件不需要定义第二条规则,只需在第一条规则中勾选“下载内容”,选择下载文件类型即可。Firefox 的插件版本不再需要解决特定的场景问题。详情请参考教程《使用网络爬虫软件自动下载网页文件》 1、下载功能说明
1) 使用Gooseeker获取网页内容时,如果获取的内容是文件链接,通常的方式是获取链接地址。
2)Gooseeker 可以自动下载链接对应的文件吗?答案是肯定的。
2.配置文件的存放路径及处理方法
如果你不配置它,下载文件后,你总是会被问到要做什么。这种查询会阻止爬虫继续运行。为了关闭查询,需要做相应的配置。
2.1、纪助浏览器
极手客浏览器有自己的配置,如下图
点击图中所示的配置按钮,进入如下窗口
在 Mime 选项卡下,有多种文件类型的设置按钮。点击它们可以设置不提示文件处理方式。
2.2、火狐插件版爬虫
1)配置火狐的下载功能。火狐浏览器:工具菜单=>选项=>常规=>下载,选择“保存文件到指定文件夹”
2)配置 Firefox 浏览器处理特定文件类型的方式。Firefox:Option => Application,将要下载的文件类型的“Action”更改为“Save File”。比如要下载pdf文件,修改pdf文件类型的动作。
3.定义爬虫规则并运行
本案例假设需要两层规则(参考“采集URL to make levels采集”采集 层级):
第一层:采集文档列表和下载链接,假设主题名称为pdfpage999
级别2:使用下载链接下载pdf文件,假设主题名称为pdf_download999
下面对二级规则的定义方法进行说明。
3.1、采集文档列表和下载链接
在极手客浏览器加载文档列表页面,进入定义规则模式,定义捕获文件链接的规则。规则名称是“pdfpage999”。基本定义规则方法不再赘述,请参考“采集网页数据”,下面重点介绍下载文件相关的设置
1)勾选链接字段捕获文件到“下级线索”
2)在“爬虫路由”的目标主题中填写之前定义的自动下载规则名称“pdf_download999”
从上面的步骤可以看出,它和普通的分层爬取没有什么区别。不同之处在于二级规则的定义。
3.2、定义执行下载操作的规则
创建专门用于自动下载的新规则。规则的名称是“pdf_download999”。规则的内容可以是在任何简单的网页上抓取一个字段并保存规则。
这一步可能很难理解。这是规则的第二层。在这个级别,只下载一个 pdf 文件,没有特殊的网页内容。因此,我找不到合适的示例页面作为规则使用,因此您必须找到一个页面,但始终定义一个抓取内容。为了不影响规则的运行,使用一个每个页面都有的内容作为爬取的内容。这样,在运行规则时,就不会出现规则不适用的提示。
例如,您可以选择抓取 html 头节点甚至 html 节点。此类规则通用性极高,目的只是为了保证爬取成功,不会遇到规则不适用的问题。只要适应了规则,就会自动触发下载。
3.3、操作规则
就像普通级别采集
1.运行规则pdfpage999,生成pdf_download999的线索
2、运行规则pdf_download999,吉首客的网络爬虫会自动下载线程URL对应的文件,在设置的存储文件夹中可以看到下载的文件。
如有疑问,您可以或