最新版本:优采云采集器-对在固定网页上进行更新的文件的下载方法
优采云 发布时间: 2020-09-02 02:25优采云 采集器-如何下载在固定网页上更新的文件
遇到的情况是这样的. 上有多个pdf下载链接. 新的PDF会不时添加(下载链接已更改). 现在,我们需要监视网页更改并下载新添加的文件.
直接使用优采云 采集器并不完美(至少我没有尝试过)来完成任务.
1,使用默认设置,起始URL为,使用“自动获取地址链接”,即可获取pdf文件的链接地址. 在第2步“内容采集”中,该pdf文件将作为常规的html网页读取,但是该文件无法下载.
2,使用起始URL作为内容页面URL,即多级列表为空. 在这种情况下,可以下载文件,但是会带来问题. 下载一次后,由于起始URL是固定的,以后运行此任务将被视为重复URL. 如果在第4步“ 4.其他设置”的“发布相关”中打开“清除任务URL库”,则可以多次运行此任务,但这还会带来更麻烦的问题. 更新的文件也已被重复下载. 优采云 采集器不会记录下载文件链接地址作为重复数据删除的基础. 如果下载文件的命名规则使用[原创文件名],则重复下载将被覆盖. 不管流量和时间如何,第二种方法都几乎不能接受. 但是,下载的文件将具有相同的名称(/1/abc.pdf和/2/abc.pdf),因此在这种情况下不适用.
我现在想到的解决方案如下,使用手动设置规则获取链接地址,并使用http请求和响应修改插件对其进行处理.
主要步骤如下:
1. 在“ 1,URL 采集规则”中,“获取内容URL”采用普通模式,并且获取方法更改为“手动设置要获取的规则”. 提取规则:
[参数]</a>
马赛克地址:
http://www.xxx.com/index.html?xsplit=[参数1]
此处理的功能是将下载链接转换为不同的唯一“内容URL”,该URL将在下载后由系统记录,并且不会重复采集次下载.
2. 使用该插件生成内容页面的内容,并在其中收录下载链接,以便在处理之后可以按照“ 2,content 采集 rule”(内容,采集规则)进行下载.
将插件内容保存到软件安装目录中的插件中,例如p1.php.
在“ 4.其他设置”-“插件”-“ http请求,响应修改插件”中选择保存的php程序,例如p1.php.
插件代码如下: