抓取网页音频(配套软件版本：V9及更低集搜客网络爬虫软件新版本对应教程 )

优采云发布时间: 2021-10-18 19:01

　　抓取网页音频(配套软件版本：V9及更低集搜客网络爬虫软件新版本对应教程

)

　　配套软件版本：V9及以下极助网络爬虫软件

　　新版对应教程：V10及更高版本数据管家-增强版网络爬虫对应教程为《使用网络爬虫软件自动下载网络文件》

　　请注意：从V9.0.0开始，文件下载功能有了很大的提升。虽然本教程中解释的方法仍然有效，但这种方法很难理解。你应该使用V9.0.0版本的新方法，下载文件不需要定义第二条规则，只需在第一条规则中勾选“下载内容”，选择下载文件类型即可。Firefox 的插件版本不再需要解决特定的场景问题。详情请参考教程《使用网络爬虫软件自动下载网页文件》 1、下载功能说明

　　1）使用Gooseeker获取网页内容时，如果获取的内容是文件链接，通常的方式是获取链接地址。

　　2）Gooseeker 可以自动下载链接对应的文件吗？答案是肯定的。

　　2.配置文件的存放路径及处理方法

　　如果你不配置它，下载文件后，你总是会被问到要做什么。这种查询会阻止爬虫继续运行。为了关闭查询，需要做相应的配置。

　　2.1、纪助浏览器

　　极手客浏览器有自己的配置，如下图

　　点击图中所示的配置按钮，进入如下窗口

　　在 Mime 选项卡下，有多种文件类型的设置按钮。点击它们可以设置不提示文件处理方式。

　　2.2、火狐插件版爬虫

　　1）配置火狐的下载功能。火狐浏览器：工具菜单=>选项=>常规=>下载，选择“保存文件到指定文件夹”

　　2）配置 Firefox 浏览器处理特定文件类型的方式。Firefox：Option => Application，将要下载的文件类型的“Action”更改为“Save File”。比如要下载pdf文件，修改pdf文件类型的动作。

　　3.定义爬虫规则并运行

　　本案例假设需要两层规则（参考“采集URL to make levels采集”采集层级）：

　　第一层：采集文档列表和下载链接，假设主题名称为pdfpage999

　　级别2：使用下载链接下载pdf文件，假设主题名称为pdf_download999

　　下面对二级规则的定义方法进行说明。

　　3.1、采集文档列表和下载链接

　　在极手客浏览器加载文档列表页面，进入定义规则模式，定义捕获文件链接的规则。规则名称是“pdfpage999”。基本定义规则方法不再赘述，请参考“采集网页数据”，下面重点介绍下载文件相关的设置

　　1）勾选链接字段捕获文件到“下级线索”

　　2）在“爬虫路由”的目标主题中填写之前定义的自动下载规则名称“pdf_download999”

　　从上面的步骤可以看出，它和普通的分层爬取没有什么区别。不同之处在于二级规则的定义。

　　3.2、定义执行下载操作的规则

　　创建专门用于自动下载的新规则。规则的名称是“pdf_download999”。规则的内容可以是在任何简单的网页上抓取一个字段并保存规则。

　　这一步可能很难理解。这是规则的第二层。在这个级别，只下载一个 pdf 文件，没有特殊的网页内容。因此，我找不到合适的示例页面作为规则使用，因此您必须找到一个页面，但始终定义一个抓取内容。为了不影响规则的运行，使用一个每个页面都有的内容作为爬取的内容。这样，在运行规则时，就不会出现规则不适用的提示。

　　例如，您可以选择抓取 html 头节点甚至 html 节点。此类规则通用性极高，目的只是为了保证爬取成功，不会遇到规则不适用的问题。只要适应了规则，就会自动触发下载。

　　3.3、操作规则

　　就像普通级别采集

　　1.运行规则pdfpage999，生成pdf_download999的线索

　　2、运行规则pdf_download999，吉首客的网络爬虫会自动下载线程URL对应的文件，在设置的存储文件夹中可以看到下载的文件。

　　如有疑问，您可以或

0

2021-10-18

抓取网页音频

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页音频(配套软件版本：V9及更低集搜客网络爬虫软件新版本对应教程 )

0 个评论

发起人

AI时代内容工厂

抓取网页音频(配套软件版本：V9及更低集搜客网络爬虫软件新版本对应教程 )

0 个评论

发起人

相关问题