网页flash抓取工具(InternetDownload站点抓取功能的内容(图)学习方法)
优采云 发布时间: 2022-02-22 09:12网页flash抓取工具(InternetDownload站点抓取功能的内容(图)学习方法)
Internet Download Manager,简称IDM,是一款轻量实用的下载软件。使用 IDM 不仅可以下载多种不同类型的内容,还可以大大加快下载速度。在下载磁力链接部分,下载器提供了抓取功能,方便您快速抓取需要的链接。
在这篇文章中,小编就带大家了解一下IDM网站爬取功能。
一、设置文件过滤器
打开IDM下载器,可以看到软件的主界面,点击菜单上的“Site Grab”,如图1所示。
图 1:站点抓取按钮
此时,您可以看到爬取网站的向导。设置完成后,回到上一个界面,如图2所示。
图 2:保存文件菜单
这些设置完成后,可以点击“前进”进入下一个设置界面,如图3所示。
图 3:设置过滤器
在此步骤中,您应该指定要搜索所需文件的网页。请注意,条件仅针对此时查看的页面设置。您可以在下一步中为下载的文件设置文件类型、位置和其他过滤器。
探索全站就是爬取和下载全站的所有文件和链接。
探索指定的链接深度意味着爬虫将爬取设置的链接级别的所有文件。例如,如果站点设置为两个级别,则只有该级别将被访问。
为其他站点设置深度时要小心,因为这可能会减慢 IDM 显示无用文件的速度,并可能导致处理许多不必要的页面。
如果勾选了“Ignore Popups”复选框,爬虫将不会浏览页面加载过程中在浏览器中弹出的网页。
如果选中“浏览主域中的所有站点”框,则爬虫将浏览并下载与起始页具有共同部分的所有其他页面。
如果单击“高级 >>”按钮,对话框将展开并允许您为浏览页面所需的域/路径指定收录和排除过滤器。可以使用星号通配符匹配字符创建过滤器模式,如图 4 所示。
图 4:高级菜单
设置好后点击转发。
二、设置站点浏览器过滤器
此时可以看到第四个设置界面,如图5所示。
图 5:设置文件过滤器
在此步骤中,应为下载的文件设置文件类型、位置和其他过滤器。可以为所有文件类型设置收录和排除过滤器。
如果您对预定义的过滤器不满意,您可以使用“添加过滤器”按钮添加/更改它们。点击“添加过滤器”后,会出现如下“编辑过滤器”对话框,如图6所示。
图 6:包括过滤器类型
此时点击添加或编辑,会出现如下界面,如图7所示。
图 7:编辑过滤器
对于收录多种文件类型的过滤器,请使用不带空格的逗号分隔文件类型。星号通配符 (*) 表示任意数量的任意字符。
设置完成后点击确定,返回上一级菜单,如图8所示。
图 8:返回设置文件过滤器菜单
如果选择“隐藏不同路径的重复文件”,爬虫抓取到的下载内容只会在下载列表中显示一次,其余相同内容将直接下载但不显示。
如果选中“同时开始下载所有匹配的文件”,则将立即下载找到的所有文件。
以上是IDM中与爬取功能相关的后半部分内容。前半部分内容请参考:IDM网站爬取功能详解(上)。要了解更多有关使用 IDM 的信息,请访问 IDM 中文 网站。